Вы находитесь на странице: 1из 12

Captulo 2 Estadstica Descriptiva Bidimensional

Hasta ahora hemos estudiado sobre cada individuo de una poblacin el comportamiento de una variable X . En ocasiones se est interesado en el estudio simultneo de dos (o ms) variables, X e Y, con el n de observar una posible relacin entre ellas.

2.1 Distribucin de frecuencias bidimensional. Tabla de doble entrada.


Consideremos una poblacin de N individuos sobre los que medimos conjuntamente dos variables, X e Y. Cada individuo vendr dado entonces por un par de valores (xi , yi ), i = 1, ..., N. Al igual que en el caso unidimensional, debemos buscar una forma organizada de presentar las observaciones. Esto se consigue con las tablas de doble entrada. Supongamos que la variable X presenta k valores distintos, x1 , ..., xk , y la variable Y presenta p valores distintos, y1 , ..., yp . La tabla de doble entrada se construye de la siguiente forma: Tabla 2.1: Tabla de doble entrada X \Y x1 . . . xi . . . xk y1 n11 ni1 nk1 n,1 yj n1j nij nkj n.j yp n1p nip nkp n.p n1. ni. , nk. N

donde nij es la frecuencia absoluta del par (xi , yj ), es decir, el nmero de individuos que presentan el valor xi en X e yj en Y. La frecuencia relativa corre1

spondiente, fij , se calcula sin ms que dividir la frecuencia absoluta por el total de observaciones, N, nij fij = N Claramente,
p k X X i=1 j =1

nij

= N,

p k X X i=1 j =1

fij

= 1.

Ejemplo 2.1: 20 alumnos de la asignatura de Estadstica Aplicada a las C.C.S.S. se asignan los siguientes grados -de 1 a 10- de atractivo personal (GAPER) e inteligencia (GINTE): Individuo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 GINTE 6 7 8 7 8 6 8 6 7 4 6 6 5 7 5 5 5 8 6 5 GAPER 6 8 8 8 9 7 10 6 8 5 5 4 3 7 8 5 2 9 5 5

La tabla de doble entrada queda de la siguiente forma:

Tabla 2.2 GINTE\GAPER 4 5 6 7 8 2 0 1 0 0 0 1 3 0 1 0 0 0 1 4 0 0 1 1 0 2 5 1 2 2 0 0 5 6 0 0 2 3 0 5 7 0 0 1 0 0 1 8 0 1 0 0 1 2 9 0 0 0 0 2 2 10 0 0 0 0 1 1 1 5 6 4 4 N =20

En la tabla se observa ya una cierta relacin lineal entre ambas variables. Ejemplo 2.2. Pesos y alturas de los alumnos. ALTURA\PESO (1.55-1.65] (1.65-1.75] (1.75-1.85] (1.85-1.95] n.j (45-55] 3 (15 %) 1 1 0 5 (55-65] 1 4 (20 %) 0 0 5 (65-75] 0 3 1 1 5 (75-85] 0 1 4 0 5 ni. 4 9 (40 %) 6 1 N =20

2.2 Distribuciones marginales y condicionadas


2.2.1 Distribuciones marginales
Surgen al estudiar el comportamiento de cada una de las variables por separado. Distribucin marginal de la variable X : anotamos los distintos valores de la variable X junto con sus frecuencias. Denotamos por ni. el nmero de individuos que presentan el valor xi en X (independientemente del valor que presenten en Y ), ni. =
p X j =1

nij = ni1 + ... + nip,

por fi. la proporcin de individuos que presentan el valor xi , fi. = ni. N

Distribucin marginal de la variable Y : Anlogamente denotamos por n.j el nmero de individuos que presentan el valor yi en Y (independientemente del valor que presenten en X ), n.j =
k X i=1

nij = n1j + ... + nkj

por f.j la proporcin de individuos que presentan el valor yj , f.j = Lgicamente debe suceder que:
k X i=1

n.j N

ni.

k X i=1

p X j =1 p X j =1

n.j = N,

fi.

f.j = 1

2.2.2 Distribuciones condicionadas


Expresan cmo se distribuye una de las variables sobre un conjunto de individuos que verican una determinada condicin en la otra variable. Distribucin de X condicionada al valor yj de Y ( X/Y = yj ) : estudia el comportamiento de la variable X sobre aquellos individuos que presentan el valor yj en Y. La tabla de frecuencias presenta la siguiente forma: X/Y = yj x1 . . . xk nij n1j . . . nkj n.j fi/j = f1/j . . . fk/j 1 nij n.j ,

donde fi/j es la proporcin de individuos que presentan el valor xi en X de entre los que presentan el valor yj en Y. Distribucin de Y condicionada al valor xi de X ( Y /X = xi ) : estudia el comportamiento de la variable Y sobre aquellos individuos que presentan el valor xi en X. La tabla de frecuencias presenta la siguiente forma: Y/X = xi y1 . . . yp nij ni1 . . . nip ni. fj/i = f1/i . . . fp/i 1 nij ni. ,

donde fj/i es la proporcin de individuos que presentan el valor yj en Y de entre los que presentan el valor xi en X.

Ejemplo 2.3: Distribucin marginal de la variable GINTE (datos del ejemplo 2.1) GINTE frec. abs. frec. rel. 4 1 0.05 5 5 0.25 6 6 0.3 7 4 0.2 8 4 0.2 N = 20 1 Ejemplo 2.4: Estudiamos el grado de atractivo personal (GAPER) sobre aquellos individuos que se asignan un grado de inteligencia inferior o igual a 5. Los resultados son: GAPER/GINTE 5 2 3 4 5 6 7 8 frec. abs. 1 1 0 3 0 0 1 6 frec. rel. 0.16 0.16 0 0.5 0 0 0.16 1

Observamos que el 82 % de los individuos con GINTE 5 presentan un GAPER 4. Ya advertamos una clara asociacin entre valores bajos y altos de ambas variables.

2.3 Medidas de asociacin


Segn comentbamos, uno de los motivos por los que se estudian conjuntamente dos variables es para ver si existe relacin entre ellas, pudiendo "predecir"en caso de haberla valores de una a partir de la otra. Una forma de detectar la posible relacin entre las variables es grcamente, y el grco utilizado es conocido como diagrama de dispersin o nube de puntos. Otra forma es a travs de medidas numricas tales como la covarianza o el coeciente de correlacin de Pearson. Centramos fundamentalmente nuestro inters en la asociacin de tipo lineal.

2.3.1 Diagrama de dispersin


Se construye representando los pares de valores observados en un eje cartesiano. Proporciona una buena descripcin de la relacin existente entre las variables. Ejemplos de casos que pueden darse:

102 99 96 93 90 87 0 0,01 0,02 0,03 0,04

102 99 96 93 90 87 0,87 1,07 1,27 1,47 1,67

a)
10 8 6 4 2 0 0 2 4 6 8 10 12

b)
(X 1000) 1 0,8 0,6 0,4 0,2 0 0 2 4 6 8 10

c)

d)

En a) hay ausencia de relacin (independencia). En b) existe asociacin lineal positiva (varan en general en el mismo sentido). En c) existe asociacin lineal negativa (varan en sentido contrario). En d) existe fuerte asociacin, pero no lineal. Ejemplo 2.5: Diagrama de dispersin de (GAPER, GINTE), datos de ejemplo 2.1

10 8

GAPER

6 4 2 0 4 5 6 7 8

GINTE

Figura 1:

2.3.2 La covarianza
Es una medida de la asociacin lineal existente entre dos variables. Resume la informacin contenida en el diagrama de dispersin. Presenta la siguiente expresin: 6

- Datos sin tabular : x,y = - Datos tabulados: Pk Pp x,y =


i=1

PN

i=1 (xi

x)(yi y ) = N

PN Pk

i=1 xi yi

N Pp

xy

j =1 nij (xi

x)(yj y )

i=1

j =1 nij xi yj

xy

Si la covarianza est muy prxima a cero, no existe relacin entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociacin lineal positiva, y si es negativa, hay asociacin lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuanticar el grado de asociacin lineal ni comparar la asociacin existente entre distintos pares de variables. Para dar solucin a este problema se obtiene el coeciente de correlacin.

2.3.3 El coeciente de correlacin


Es una medida adimensional del grado de asociacin lineal existente entre dos variables. Se dene como: x,y x,y = x y Algunas observaciones y propiedades: Su signo viene determinado por el de la covarianza. Indicar por tanto si la asociacin es positiva o negativa, y vale 0 cuando la covarianza vale 0 (ausencia de asociacin lineal). 1 x,y 1. Valores prximos a -1 indican fuerte asociacin lineal negativa, valores prximos a 1 indican fuerte asociacin lineal positiva, y valores prximos a 0 indican ausencia de asociacin lineal (pero puede existir otro tipo de asociacin, por ejemplo exponencial, cuadrtica, etc.) No se debe interpretar el coeciente sin haber visto previamente el diagrama de dispersin (podra por ejemplo haber algn dato atpico). Un coeciente de correlacin alto (en valor absoluto) indica que las variables toman valores relacionados entre s entre los elementos observados, pero no permite concluir la existencia de ninguna relacin de causalidad entre las variables. Por ejemplo, suponed que se estudian conjuntamente las variables X =No de matrimonios mensuales (en una ciudad) y Y ="Temperatura del mes", obtenindose un coeciente de correlacin de 0.7. Eso signica que, en efecto, suele haber ms matrimonios a medida que mejoran las temperaturas, pero esto no implica que un aumento de matrimonios aumente la temperatura del mes, ni que una ola de calor cause una avalancha de matrimonios. 7

Ejemplo 2.6: Clculo de la covarianza y coeciente de correlacin de (GAPER, GINTE), datos de ejemplo 2.1 GAPER GINTE GAP ER,GINT E = Media 6.4 6.25 Desv. tpica 2.083 1.178

GAP ER,GINT E

6 6 + 7 8 + 8 8 + ... + 6 5 + 5 5 6,25 6,4 = 1,9 20 (datos sin tabular), 4 1 5 + 5 1 2 + ... + 8 2 9 + 8 1 10 6,25 6,4 = 20 = 1,9 (datos tabulados, tabla 2.2) 1,9 = 0,774 2,083 1,178

GAP ER,GINT E =

La asociacin lineal entre las variables es positiva y relativamente fuerte.

2.4 Regresin lineal. Ajuste por mnimos cuadrados.


En la seccin anterior hemos visto cmo medir la asociacin lineal entre dos variables X e Y . En caso de haber una buena asociacin lineal entre ellas, nuestro objetivo ser encontrar la mejor recta que permita predecir valores en una de las variables a partir de la otra. Hablamos de la mejor recta en el sentido de que los errores que podamos cometer al predecir sean mnimos. Este es un problema de regresin lineal. Supongamos que queremos encontrar la recta que mejor exprese el comportamiento de Y en funcin de X con el n de predecir con el mnimo error posible valores en Y para valores dados en X. La recta ser de la forma Y = aX + b, y debemos encontrar los valores de a y b. Nuestras observaciones son (xi , yj ) con frecuencias nij o fij , de forma que para un valor observado xi tenemos un valor observado yj en Y, frente a un valor y j = axi + b que predecira la recta. El error cometido en la prediccin en este caso vendra dado por eij = yj yj = yj axi b, con una frecuencia de nij o fij . P El promedio de todos los errores de prediccin vendra dado por fij eij . Sin embargo, esta medida no nos sirve para cuanticar el error global de prediccin, ya que errores grandes positivos y negativos podran ser compensados. Por ello P fij e2 se consideran los errores al cuadrado, ij . 8

P Debemos encontrar a, b tal que la cantidad fij e2 ij sea mnima. De ah el nombre de ajuste por mnimos cuadrados. X X fij e2 fij (yj axi b)2 Min ij = M in
a,b a,b

Derivando y operando se obtiene que: a = b =

x,y , 2 x

y ax,

de forma que Y =

x,y x,y x + ( y 2 x) 2 x x

es la recta de regresin de Y sobre X . Anlogamente se obtendra la recta de regresin de X sobre Y, X= x,y x,y y + (x 2 y ) 2 y y

Una forma de medir la bondad del ajuste y por lo tanto la abilidad de las estimaciones es mediante el coeciente de determinacin, R2 = 2 , o simplemente con el coeciente de correlacin. El coeciente de determinacin R2 toma valores entre 0 y 1; cuanto ms se aproxime a 1, mayor ser la asociacin lineal entre las variables, mejor ser por lo tanto el ajuste de la recta a la nube de puntos, y mayor abilidad tendrn las predicciones. Ejemplo 2.7: Recta de regresin de GAPER sobre GINTE (datos ejemplo 2.1) GAP ER = aGIN T E + b, donde a = 1,9 = 1,369 1,1782 b = 6,4 1,369 6,25 = 2,156 GAP ER = 1,369GIN T E 2,156 Para un individuo con GINTE=9 se predice un GAPER de aproximadamente 10.

La estimacin es able en un R2 100 % = 60 %.

GAP ER(9) = 1,369 9 2,156 ' 10

Ejercicios
1. En un estudio sociolgico se postula que la actitud racista viene determinada fundamentalmente por el nivel de paro que en dicha sociedad existe. Para valorar esta armacin, el estudio proporciona los datos relativos a una muestra de 10 localidades, cuyos niveles de paro (en %) y racismo (medidos a partir de un ndice) son los siguientes: Paro Racismo 7.5 22 13 29 5 15 23.2 37.1 33 50 21 35 18 32 30 40 15 30.3 27 38

a. Calcula medidas de posicin central (media, mediana, moda) que resuman ambas variables. b. Qu variable presenta menor dispersin?. c. Estudiar el grado de asociacin lineal entre las variables. Muestran los datos que por trmino medio cuanto mayor sea la tasa de paro en la localidad, mayor ser su ndice de racismo?. Razona la respuesta. d. Qu valor de ndice de racismo se predice para una localidad con una tasa de paro del 20 % ?. Consideras able esta prediccin?. 2. Los siguientes datos corresponden a 10 familias de una determinada poblacin a las que se les han medido dos variables: Ingresos familiares (en miles de euros) y el No de miembros en la familia. Ingresos familiares 1,100 1,900 0,900 1,320 0,850 1,200 1,800 1,650 0,900 1,800 No miembros 1 4 2 3 2 2 3 3 2 4

a) Presentar una tabla de frecuencias para cada variable. En caso de haber alguna variable continua, agrupar sus datos en tres intervalos de igual amplitud. b) Calcular las medidas de tendencia (media, mediana, moda) que describan ambas variables. Utilizar los datos sin agrupar para calcular la media y mediana. c) Analizar la dispersin de ambas variables, decidiendo cual de ellas presenta valores ms homogneos entorno a su media.

10

d) Determinar la franja en la que se encuentra el 50 % central de los Ingresos de familias. Comentar los resultados. e) Predecir linealmente los Ingresos que tendra una familia de 5 miembros. Te parece able esta prediccin?. Razonar la respuesta en base al clculo de alguna medida o al diagrama de dispersin dado abajo.
Diagrama de dispersin
2 1,8

Ingresos

1,6 1,4 1,2 1 0,8 1 1,5 2 2,5 3 3,5 4

N miembros

3. Para el par de variables (PESO, ALTURA) de la tabla de datos de los alumnos: a) Obtn una tabla de doble entrada, agrupando las variables en intervalos. b) Obtn las distribuciones de frecuencias marginales. Calcula para cada variable la media, mediana, moda, desviacin tpica y coeciente de variacin. c) Qu variable es ms homognea entorno a la media?. d) Determina entre qu valores se encuentra el 50 % central de la variable peso. Cunto pesan como mucho el 25 % de los que menos pesan?. e) Estudia el grado de asociacin lineal entre ambas variables, y en caso de tener sentido dar la recta de regresin que explica el PESO en funcin de la ALTURA. f) Predice el peso que tendra un alumno con una alltura de 1.84 cm. En qu medida es able esta prediccin?. 4. Para las variables (EPMM=Edad de la mujer en su primer matrimonio, EMPN=Edad de la mujer en el nacimiento de su primer hijo) de la tabla de indicadores sociales de Andaluca: a) Representa el diagrama de dispersin. b) Estudia si existe relacin lineal entre ambas variables. En caso de haberla, cmo es por trmino medio, positiva o negativa?. c) Determina la recta de regresin que explica la edad de las madres en el nacimiento de su primer hijo (EMPN) en funcin de la de la edad de las mujeres en su primer matrimonio (EPMM). Estima la edad de las 11

madres en el nacimiento de su primer hijo en una localidad en las que la edad de las mujeres en su primer matrimonio es aproximadamente de 30 aos. Consideras able esta prediccin?. 5. El trabajador social de una residencia de ancianos se plantea la relacin posible entre el nivel cultural de los residentes y la prctica de la religin. Para resolver esta cuestin encuesta a los 200 internos, obtenindose los siguientes resultados: Nivel cultural alto Nivel cultural medio Nivel cultural bajo Practicante 20 40 60 No practicante 30 30 20

a) Estudia el nivel cultural de los ancianos que practican la religin. Para ello obtn la distribucin de frecuencias relativas correspondiente. b) Estudia el nivel cultural de los ancianos que no practican la religin. c) Estudia cmo se comporta la prctica de la religin en cada nivel cultural. d) Qu conclusiones pueden extraerse?

12

Вам также может понравиться