Вы находитесь на странице: 1из 17

EDUC 6390: Estadstica aplicada en la educacin Prof. Julio E. Rodrguez Torres Conferencia 3 Organizacin de datos Bosquejo I.

Organizacin de datos categricos (una sola variable).................................................2 A. Forma individual......................................................................................................2 B. Frecuencia..............................................................................................................2 C. Frecuencia absoluta y relativa................................................................................2 D. Datos nominales u ordinales...................................................................................3 II. Organizacin de datos numricos (una sola variable)..................................................3 A. Datos crudos (raw data)..........................................................................................3 B. Datos ordenados.....................................................................................................4 C. Diagrama de tallo y hoja (stem and leaf display).....................................................4 1. Diagrama de tallo y hoja revisado.......................................................................4 2. Diagrama de tallo y hoja modificado...................................................................5 i. Tallos ampliados..................................................................................................5 ii. Tallos agrupados.................................................................................................5 iii. Hojas comparadas..............................................................................................6 D. Distribucin simple de frecuencia absoluta (para variables discretas)....................6 E. Distribucin agrupada de frecuencia absoluta.........................................................8 1. Variables discretas..............................................................................................8 i. Nmero de intervalos...........................................................................................8 ii. Ancho de los intervalos.......................................................................................8 iii. Lmites de los intervalos.....................................................................................9 2. Variables continuas..........................................................................................10 i. Nmero de intervalos.........................................................................................10 ii. Ancho de los intervalos.....................................................................................10 iii. Lmites de los intervalos...................................................................................10 iv. El punto medio del intervalo.............................................................................11 F. Distribucin de frecuencia relativa (proporcin y porcentaje)................................12 G. Distribucin de frecuencia acumulada..................................................................14 III. Organizacin de datos (dos o ms variables)...........................................................14 A. Organizacin de datos categricos (dos variables)...............................................15 Tablas de contingencia.........................................................................................15 1. Frecuencia relativa del total..............................................................................15 2. Frecuencia relativa de fila.................................................................................16 3. Frecuencia relativa de columna........................................................................16 I. Organizacin de datos categricos (una sola variable) A. Forma individual Cuando los datos recogidos corresponden a una variable categrica, estos se pueden presentar de forma individual, en la columna asignada a la variable se indica la categora a la que pertenece el sujeto

Ejemplo: Sujeto Juana Pedro Mara B. Frecuencia Sin embargo, muy a menudo el investigador est interesado en sealar cun a menudo ocurre cada valor de la variable. A esta indicacin de cun a menudo ocurre un valor se le llama la frecuencia y su smbolo es una "f "minscula. Para indicar la frecuencia se utilizan tablas que sumarizan la informacin (summary tables) generalmente en trminos de frecuencia absoluta y de frecuencia relativa (porciento o proporcin) de casos que corresponden a cada categora. C. Frecuencia absoluta y relativa En la tabla slo es necesario presentar las categoras y la frecuencia absoluta (cantidad de sujetos) o relativa (proporcin o porcentaje) de esas categoras. Ejemplo: Partido poltico PPD PNP PIP Total D. Datos nominales u ordinales Nota: Los datos pueden ser nominales u ordinales. La nica diferencia radica en que cuando los datos son ordinales se deben colocar las categoras de mayor a menor o de menor a mayor. Nivel socioeconmico Bajo Medio bajo frecuencia 10 4 proporcin 0.40 0.16 frecuencia 4 3 2 9 porcentaje 44.4 33.3 22.2 99.9 Partido poltico PPD PIP PNP Religin catlica catlica protestante

Medio alto Alto Total

9 2 25

0.36 0.08 1

II. Organizacin de datos numricos (una sola variable) Una distribucin es el nombre que se da a cualquier conjunto organizado de datos. Esta organizacin se puede hacer por medio de una tabla o de una grfica. Cuando en estadsticas se habla de cmo los datos estn distribuidos en una muestra o en una poblacin nos referimos al conjunto de datos organizados en una tabla o en una grfica. La idea que se persigue en la estadstica descriptiva es dar una estructura a los datos que permita al lector identificar sus aspectos ms importantes. A continuacin se observar un proceso de organizacin creciente que permite distinguir mejor las caractersticas ms sobresalientes de los datos numricos. A. Datos crudos (raw data) Generalmente cuando se recogen los datos crudos (raw data) de un estudio no tienen una estructura de presentacin definida. En esta representacin no hay mucho que se pueda decir de los datos. Puntuaciones en un examen de estadsticas de una clase de 50 estudiantes 76 35 87 72 97 80 83 57 47 32 65 66 85 74 52 94 84 47 53 33 89 55 83 85 24 90 74 65 52 16 86 99 84 68 76 64 76 94 64 47 45 95 68 76 77 61 68 97 42 69

(Transparencia T3.1) B. Datos ordenados Despus se puede crear una tabla de datos ordenados donde se colocan los datos en orden (de menor a mayor o viceversa). Este primer orden permite identificar los valores extremos, pero no ofrece mucha ms informacin. 16 42 52 61 66 72 76 83 24 45 52 64 68 74 76 84 32 47 53 64 68 74 77 84 33 47 55 65 69 76 80 85 35 47 57 65 70 76 83 85

86 94

87 95

89 97

90 97

94 99

(Transparencia T3.1) C. Diagrama de tallo y hoja (stem and leaf display) Los datos tambin se pueden organizar en un diagrama de tallo y hoja (stem and leaf display). Para ello los datos se separan en dgitos principales que conforman los tallos y se utiliza el dgito final para las hojas. 1 2 3 4 5 6 7 8 9 6 4 532 77275 27352 149556848 064762664 9334554076 4405977

(Transparencia T3.2) En el caso de este ejemplo las decenas forman el tallo y las unidades las hojas. Se ha trazado una raza una raya entre tallos y hojas. Se ha establecido un orden (menor a mayor) para los tallos. Las hojas, sin embargo, se pueden incluir en el orden en que se recogieron los datos. Toda tabla debe incluir una explicacin del significado del tallo y la hoja. Ejemplo: 2/ 4 = 24 En un diagrama de tallo y hoja adems de determinar fcilmente los valores mximos y mnimos se hace mucho ms fcil notar donde existe una mayor concentracin de datos. 1. Diagrama de tallo y hoja revisado 1 2 3 4 5 6 7 8 9 6 4 235 25777 22357 144556889 024466667 0334455679 0445779

(Transparencia T3.2) En este diagrama se han ordenado las hojas de forma ascendente. 2. Diagrama de tallo y hoja modificado El diagrama de tallo y hoja se puede modificar de mltiples maneras dependiendo de las necesidades de la presentacin.

i. Tallos ampliados Se pueden ampliar los tallos si se desea ver los datos menos agrupados. 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9

6 4 23 5 2 5777 223 57 144 556889 0244 66667 03344 55679 044 5779

(Transparencia T3.3) El diagrama de tallo y hoja anterior tiene los tallos separados en dos partes correspondientes a las hojas menores y mayores. En la primera parte del tallo se incluyen las hojas bajas (de 0 a 4) y en la segunda parte del tallo se incluyen las hojas altas (de 5 a 9). ii. Tallos agrupados Dos tallos tambin se pueden agrupar de forma que la separacin entre los dos se haga notar por la presencia de una coma. Las hojas correspondientes a cada tallo se indican por medio del uso de negritas para las hojas correspondientes a uno de los tallos. 1, 2 3, 4 5, 6 7, 8 9, 10 64 23525777 22357144556889 0244666670334455679 0445779

(Transparencia T3.3a) iii. Hojas comparadas Las hojas tambin se pueden colocar a la derecha y a la izquierda del tallo. Esto se hace sobre todo cuando se quieren comparar dos grupos de datos

Puntuaciones de estudiantes en dos secciones de un curso Seccin A 0 55431 999875542 31 Seccin B 245 5 22566 0677 122233

5 6 7 8 9

(Transparencia T3.3b) En este caso se puede llevar a cabo una comparacin de los dos grupos (Actividad de Tallo y Hoja) D. Distribucin simple de frecuencia absoluta (para variables discretas) Una distribucin simple de frecuencia absoluta es una tabla que indica el nmero de veces que ha ocurrido cada valor en un conjunto de datos. La representacin en una tabla se puede hacer con dos columnas donde una indica el valor de la variable y la otra columna la frecuencia de cada valor. Por lo general estas tablas en su ltima fila incluyen el total de las frecuencias que se representa con una N mayscula. Ejemplo: (T. Table 3.1) Puntuacin 24 25 26 27 28 29 30 31 32 33 34 35 36 f 1 1 0 0 0 1 1 0 2 3 1 2 4

37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

5 4 3 4 5 5 4 4 7 9 7 8 11 7 3 6 7 7 12 14 6 2 3 2 1 3 5

64 65 66 67 68 69 Total

4 2 0 1 2 1 N = 180

E. Distribucin agrupada de frecuencia absoluta Sin embargo, a veces, cuando hay muchos valores posibles para la variable es necesario condensar estos valores en clases o intervalos. Esta agrupacin se llama una distribucin agrupada de frecuencia absoluta porque en ella se indica cuan frecuentemente aparecen datos en cada grupo. La informacin inicial de la frecuencia de cada valor individual se pierde, pero es ms fcil determinar rpidamente las caractersticas principales del conjunto de datos. Aspectos importantes que se tienen que tener en cuenta cuando se crea una distribucin agrupada de frecuencias 1. Variables discretas i. Nmero de intervalos El nmero de intervalos depende del nmero total de observaciones. No debe haber ms de 15 ni menos de 5. Si hay muy pocos se pierde mucha informacin. Si hay muchos no se ven las caractersticas ms importantes. ii. Ancho de los intervalos Todos los intervalos en una tabla de distribucin de frecuencia deben tener el mismo ancho. Pero hay excepciones, especialmente en el ltimo intervalo. En los informes estadsticos del College Board todos los intervalos van hasta 299, 399, etc, excepto por el ltimo que va hasta 800. El programa de Excel se ajusta a esta posibilidad cuando construye las tablas de distribucin de frecuencia y los histogramas. En estos casos indica que no se incluya el nmero final del ltimo intervalo, pues Excel incluye todo lo que resta de la distribucin en ese intervalo. El ancho del intervalo se define de formas diferentes dependiendo del autor. Weiss (p.52) lo define como la diferencia entre el lmite inferior de un intervalo y el lmite inferior del prximo intervalo. Sirkin (p.50) lo define como la diferencia entre el lmite superior y el lmite inferior del mismo intervalo.

Si el investigador construye una tabla de distribucin de frecuencia debe seguir los siguientes pasos: 1. Escoger el nmero de intervalos que desea tener en la tabla. 2. Determinar el ancho de los intervalos. Para determinar el ancho de cada intervalo, se divide el alcance o amplitud de los datos (diferencia entre el dato mayor y el menor) por el nmero de intervalos que se desean. Finalmente se redondea el nmero obtenido Ejemplo: Se utilizar el ejemplo anterior de 180 datos El alcance va de 69 a 24 y vamos a considerar que 9 10 intervalos es un nmero adecuado. Por lo tanto (69-24)/9 = 45/9 = 5 . El ancho ser de 5 valores. iii. Lmites de los intervalos El conjunto de intervalos debe tener las siguientes propiedades: 1. Los intervalos deben incluir todas las observaciones 2. No debe haber solapamiento (overlapping) de intervalos Para cumplir con estas dos propiedades la mejor forma de proceder es describir el intervalo por medio de su valor mnimo y mximo. Estos deben ser valores fciles de organizar y recordar. En el ejemplo en vez de hacer el primer intervalo de 24 a 28 se hace de 20 a 24 pues el lmite inferior se identifica y recuerda mejor si es un mltiplo de 5. El lmite superior corresponde al valor mayor que se puede incluir en dicho intervalo. Si suponemos que en cada intervalo se incluyen 5 valores, estos son: 20, 21, 22, 23 y 24.

Ejemplo: (T. Table 3.1a) puntuacin 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 Total Nota: Segn Weiss el ancho de estos intervalos es de 25 - 20 = 5 Hinkle (p.29) habla de los lmites exactos que se utilizarn posteriormente para construir el histograma. Estos lmites exactos se encuentran a mitad de camino entre el lmite superior de un intervalo y el lmite inferior del prximo intervalo. (19.5 y 24.5 para el primer intervalo; 24.5 y 29.5 para el segundo, etc.) 2. Variables continuas Se puede hacer lo mismo con algunas modificaciones cuando la variable es continua. La diferencia radica en que en cada intervalo se incluye el valor extremo mnimo y se excluye el valor mnimo del prximo intervalo. Aspectos importantes que se deben tener en cuenta cuando se crea una distribucin agrupada de frecuencias i. Nmero de intervalos Depende del nmero total de observaciones. No ms de 15 ni menos de 5. Si hay muy pocos se pierde mucha informacin. Si hay muchos no se ven las caractersticas ms importantes. ii. Ancho de los intervalos Todos deben tener el mismo ancho. Se divide el alcance por el nmero de intervalos que se desean y se redondea f 1 2 7 18 22 42 30 37 15 6 N = 180

10

Ejemplo: Vamos a considerar 60 datos continuos que se obtuvieron en una investigacin sobre el peso en kilogramos de unos perros realengos. El perro ms flaco pes 2.4 kg y el ms gordo 12.0 kg. El alcance va de 2.4 a 12.0 y consideraremos que 6 intervalos es un nmero adecuado. Por lo tanto (12 - 2.4)/6 = 9.6/6 = 1.6 y redondeamos a 2. iii. Lmites de los intervalos Deben incluirse todas las observaciones. No debe haber solapamiento (overlapping). Cada dato debe pertenecer exclusivamente a un intervalo o clase. Esto se logra describiendo el intervalo por medio de su valor mnimo y mximo. Estos valores se llaman el lmite superior y el lmite inferior del intervalo o clase. (Weiss p.52) Transparencia T3.4 Peso de los perros realengos 2.0 x < 4.0 4.0 x < 6.0 6.0 x < 8.0 8.0 x < 10.0 10.0 x < 12.0 12.0 x < 14.0 Total f 13 24 9 8 5 1 60

Nota: Segn Weiss el ancho de estos intervalos es de 4.0 - 2.0 = 2 **Sin embargo Hinkle y otros autores prefieren este mismo sistema para las variables discretas y continuas. Ejemplo con la variable discreta puntuacin. puntuacin 20 x < 25 25 x < 30 30 x < 35 35 x < 40 40 x < 45 f 1 2 7 18 22

11

45 x < 50 50 x < 55 55 x < 60 60 x < 65 65 x < 70 Total

42 30 37 15 6 N = 180

Nota: Hinkle prefiere ir de mayor a menor y distingue entre lmites exactos y lmites de las puntuaciones. Pero para continuar con lo establecido en el diagrama de tallo y hoja es preferible ir de menor a mayor. Para no complicarse la vida cuando la variable es continua se usa el mtodo de inclusin del valor mnimo y exclusin del valor mximo.

iv. El punto medio del intervalo (a veces se le llama la marca del intervalo o clase (class mark) Cuando la variable es discreta el punto medio corresponde al valor que se sita en el mismo medio de los otros valores. Si la variable es discreta, a la hora de crear los intervalos se hace el esfuerzo por tener un nmero impar de valores en cada intervalo para que el valor del medio sirva de punto medio. Cuando la variable es continua, o cuando el intervalo se expresa con smbolos de menor que (20 x < 25), el punto medio es el punto que est a mitad de camino entre los lmites de un intervalo. Se halla sumando los lmites y dividiendo entre 2. (Weiss, p.57). En este ejemplo el punto medio de 20 x < 25 es 22.5 F. Distribucin de frecuencia relativa (proporcin y porcentaje) La frecuencia relativa se obtiene dividiendo las frecuencias de cada clase por el nmero total de observaciones. Este resultado se puede expresar como una proporcin o como un porcentaje. Peso de los perros realengos 2.0 x < 4.0 4.0 x < 6.0 6.0 x < 8.0 8.0 x < 10.0 10.0 x < 12.0 12.0 x < 14.0 f 0.22 0.40 0.15 0.13 0.08 0.02

12

Total Transparencia T3.4

1.00

Por lo general se utiliza ms la distribucin de frecuencia relativa expresada en porcentajes que expresada en proporciones. A menudo la frecuencia absoluta y la relativa aparecen en la misma tabla Peso de los perros realengos 2.0 x < 4.0 4.0 x < 6.0 6.0 x < 8.0 8.0 x < 10.0 10.0 x < 12.0 12.0 x < 14.0 Total Transparencia T3.5 La distribucin de frecuencia relativa es esencial si se quieren comparar datos de dos distribuciones diferentes. Ejemplo: Comparar las frecuencias del estudio de los perros con las frecuencias de otro estudio sobre 45 perros que tienen dueo. Debido al nmero de perros la comparacin no es clara, pues en un ejemplo hay 60 perros y en el otro hay 45 perros. Peso de los perros 2.0 x < 4.0 4.0 x < 6.0 6.0 x < 8.0 8.0 x < 10.0 10.0 x < 12.0 f realengos 13 24 9 8 5 f con dueo 1 10 15 10 7 f 13 24 9 8 5 1 60 f 0.22 0.40 0.15 0.13 0.08 0.02 1.00

13

12.0 x < 14.0 Total

1 60

2 45

Sin embargo, si se comparan los porcentajes se puede concluir que : Peso de los perros 2.0 x < 4.0 4.0 x < 6.0 6.0 x < 8.0 8.0 x < 10.0 10.0 x < 12.0 12.0 x < 14.0 Total Porcentaje de realengos 22 40 15 13 8 2 100 Porcentaje con dueo 2 22 33 22 16 5 100

Comparacin Los perros con dueo pesan ms que los perros realengos puesto que: Los porcentajes son menores en los valores bajos para los perros con dueo. Los porcentajes son mayores en los valores altos para los perros con dueo. La concentracin de perros con dueo est en el intervalo 6.0 x < 8.0 y la concentracin de perros realengos en el intervalo 4.0 x < 6.0 G. Distribucin de frecuencia acumulada En la distribucin de frecuencia acumulada se indica la frecuencia, la proporcin o el porcentaje de los casos acumulados hasta cierto intervalo o clase (inclusive). Construccin: La columna correspondiente a la frecuencia acumulada se construye cuando se aade a la frecuencia en cada intervalo la frecuencia de todos los intervalos inferiores. Peso de los perros realengos 2.0 x < 4.0 4.0 x < 6.0 punto medio 3 5 f absoluta 13 24 f absoluta acumulada 13 37 f relativa 22 40 f relativa acumulada 22 62

14

6.0 x < 8.0 8.0 x < 10.0 10.0 x < 12.0 12.0 x < 14.0 Total

7 9 11 13

9 8 5 1 60

46 54 59 60

15 13 8 2 100

77 90 98 100

Transparencia T3.9a III. Organizacin de datos (dos o ms variables) Cuando los datos que se obtienen corresponden a dos o ms caractersticas de los mismos sujetos se pueden crear tablas como las ya estudiadas para cada caracterstica, pero tambin se puede crear una tabla donde se representa el valor de cada variable para cada sujeto. El siguiente ejemplo con 5 estudiantes corresponde a un estudio sobre el acceso a las computadoras en la escuela secundaria sujeto 1 2 3 4 5 lugar de acceso escuela casa escuela casa casa de amigo gnero hombre mujer hombre mujer mujer

El problema con esta tabla es que se hace sumamente difcil poder apreciar cual es la relacin entre las variables. A. Organizacin de datos categricos (dos variables) Tablas de contingencia Las tablas en las que se presentan dos variables categricas se llaman tablas de contingencia (contingency tables) y se utilizan para analizar y comparar las frecuencias de dos variables categricas. Utilizaremos el ejemplo anterior pero ahora con estudiantes: Lugar de acceso casa casa de amigo 36 2 53 20 89 22

gnero mujer hombre total Transparencia T5.6

escuela 45 32 77

total 93 95 188

15

Como las comparaciones se deben hacer siempre en trminos de porcentajes o proporciones, las frecuencias absolutas deben convertirse en frecuencias relativas (preferiblemente porcentajes, pues la gente los entiende ms). El problema radica en que hay tres tipos de porcentajes: fila, columna y total. Es bsico determinar de antemano cul es el que se necesita en cada caso y esto depende de qu es lo que se quiere comparar. 1. Frecuencia relativa del total Para obtener el porcentaje de cada celda con respecto al total se divide el nmero en cada celda entre 188 (nmero total) Lugar de acceso casa casa de amigo 19 1 28 11 47 12

gnero mujer hombre total

escuela 24 17 41

total 49 51 100

Gracias a esta tabla podemos concluir que el lugar de acceso preferido es la casa (47%) y que hubo ms o menos la misma proporcin de hombres y mujeres que contestaron el cuestionario (49% vs 51%). 2. Frecuencia relativa de fila Sin embargo hay otra informacin importante que se descubre cuando se obtienen los porcentajes de fila dividiendo cada celda de una fila entre el total de esa misma fila (la primera fila entre 49 y la segunda entre 51) Lugar de acceso casa casa de amigo 39 2 56 21

gnero mujer hombre

escuela 48 34

total 100 100

Esta tabla permite llegar a conclusiones mucho ms importantes que la anterior pues en ella se observa claramente que las mujeres tienen como lugar de acceso preferido la escuela (48 % vs 39 % 2%), mientras que los hombres prefieren la casa (56% vs 34% 21%). 3. Frecuencia relativa de columna Actividad interesante: Halla los porcentajes de columna e indica a qu conclusiones te permiten llegar esos porcentajes. Actividades y/o asignaciones: 1. Actividad de Tallo y Hoja 2. Hinkle ej. 3 p.50 3. *Worksheet 5. Frequency distributions for grouped data. Success at statistics (p.21-22) 4. *Worksheet 6. Cumulative frequencies, cumulative percentages, and percentile ranks. Success at statistics. (p.25-26) 6. Actividad con tabla de contingencia *Tomadas de Pyrczak, F. (1992). Success at statistics. A worktext with humor. Los Angeles, CA: Pyrczak

16

Lecturas recomendadas: Hinkle, unidad 2, p.25-31 Rodrguez-Esquerdo, unidad 2, pp.47-142. Frankfort-Nachmias & Leon-Guerrero, captulo 2, pp.29-70 Sirkin, captulo 2, pp.33-61.

17