Академический Документы
Профессиональный Документы
Культура Документы
Medidas de asociacin
4.1. Introduccin
En el tema anterior hemos visto la manera de realizar un contraste Chi-cuadrado, para ver si dos variables
estn o no asociadas. Este contraste slo nos informa de la presencia de asociacin, pero no nos dice si es
alta o baja.
En el caso de rechazar la hiptesis de independencia, el siguiente paso sera calcular algn valor que mida la
intensidad de la asociacin, es decir, indique cmo de dependientes son las variables la una de la otra. A
continuacin vamos a mostrar distintos coeficientes que sirven para medir esta intensidad. Diferenciamos el
caso de las tablas 2x2 y los generales de tablas rxc.
1
4.2.1. Coeficiente Phi de Pearson
Este coeficiente est basado en el valor chi-cuadrado, que vimos como se calculaba en el tema anterior.
( f ij eij ) 2
Recordamos que exp
2
. Para las tablas 2x2 podemos utilizar la forma alternativa para el
i j eij
clculo de Chi-cuadrado:
( f11 f 22 f12 f 21 ) 2 n
exp
2
f1 . f 2 . f .1 f .2
Se define el coeficiente Phi, de la forma siguiente:
2
( f ij eij ) 2 (100 69,474) 2 (20 50,526) 2 (10 40,53) 2 (60 29,47) 2
2
exp
i j eij
69,474
50,526
40,53
29,47
=13,413
Observamos que el valor es positivo (dependencia directa) y, en efecto, aparecen muchos ms datos en la
diagonal principal f11 y f22 que en la otra diagonal. Vemos que el valor es moderado-alto (cerca de 0,7).
Si tuviramos un valor del observador A, sabiendo el tipo de resultado, podramos tratar de predecir su
resultado por el observador B. La mayora de los que tienen un resultado A por el observador A, tambin
obtienen un resultado A por el observador B (e igual con los resultados de B). Cuantos ms casos en la
diagonal principal, mayor valor de Phi y ms fcil la prediccin.
El RRcolumnas > 1, nos dice que existe asociacin positiva. Nos dice que es 5,8333 veces ms fcil tener un
valor A por el observador A cuando se tiene un valor A por el observador B que si se tiene un valor B por el
observador B.
3
El riesgo relativo por filas se calcula mediante la siguiente formula:
P(ObB _ A / ObA _ A) 100 / 110 100 x80 8000
RR filas = 3,6364
P(ObB _ A / ObA _ B ) 20 / 80 20 x110 2200
El RRfilas > 1, nos dice que existe asociacin positiva. Nos dice que es 3,6364 veces ms fcil tener un valor
A por el observador B cuando se tiene un valor A por el observador A que si se tiene un valor B por el
observador A.
C1 es la razn de casos en que se presenta A y los que no se presenta A cuando est presente B.
C2 es la razn de casos A y no A cuando no est presente el factor B.
Conviene observar que la Razn de productos cruzados es una medida no simtrica. Es decir, A es la variable
dependiente y B la independiente. Podemos interpretarlo en la forma siguiente:
El RC = 1, implica que hay la misma razn de casos que aparece A y A , cuando est B, que cuando no
est presente B,
El RC < 1, implica que la razn entre los casos que aparecen A y A es menor cuando est presente B.
El RC > 1, implica que la razn entre los casos que aparecen A y A es mayor cuando est presente B.
C 2 /( 2 n)
Vemos como se sigue basndose en el estadstico Chi-cuadrado. Este coeficiente cuando vale 0 indica
independencia absoluta, pero el mximo, cuando la tabla tiene c columnas y r filas es:
Min{r 1, c 1}
Max {C}=
1 Min{r 1, c 1}
4
Ejemplo 4.2. Aborto
Para analizar si el estado civil no era una variable relevante a la hora de explicar las actitudes abortistas, se
ha encuestado a 500 sujetos obteniendo los resultados que aparecen en la tabla siguiente.
Calculamos las frecuencias esperadas y vemos que hay ms solteros con actitud abortista de lo esperado (y
menos contrarios al aborto); hay menos casados con esta actitud que lo esperado y algunos divorciados ms.
Por tanto hay relacin entre las variables.
Tabla 4.3. Frecuencias esperadas
Actitud Actitud
Abortista antiabortista
Solteros (150x200)/500=60 (150x300)/500=90
Casados (250x200)/500=100 (250x300)/500=150
Divorciados (200x100)/500=40 (300x100)/500=60
Al calcular el valor Chi-cuadrado, se obtiene un valor estadsticamente significativo (se puede comprobar
mirando la tabla para 2 grados de libertad:
( f ij eij ) 2
2
exp 60 + 40 + 25 + 16,67 + 2,5 + 1,667 = 145,83
i j eij
Y el coeficiente C se calcula mediante la siguiente formula:
4.3.2. V de Cramer
Este coeficiente se calcula mediante la siguiente formula:
V 2 / n( p 1)
Siendo p = Min {nmero de filas, nmero de columnas}.
Este coeficiente vara entre 0 y 1, siendo 0 en caso de independencia y 1 en caso de dependencia perfecta.
5
V 2 / n( p 1) = 145,83 / 500 x ( 2 1) 0,29166 = 0,54
Es decir, f mj f max
n f max
Siendo: fmax es la mayor frecuencia marginal en filas y fmj es la frecuencia mxima en la columna j-sima.
Supongamos que queremos predecir el estado civil de una persona al azar en esta muestra, sin saber
nada sobre su actitud respecto al aborto. Como la mxima frecuencia marginal en filas es la
correspondiente a casados (250), diramos que es casado. La probabilidad de error en este caso sera
n f max 500 250
P( 1 ) =1/2; pues nos equivocaramos con los solteros y divorciados.
n 500
6
Si nos dicen cul es la actitud de la persona, predeciramos que es soltero (si tiene actitud abortista) o
casado (si no la tiene). La probabilidad de error ahora sera
P ( 2 )
n f mj 500 (120 200) 180
0,36 . Hemos reducido el error de prediccin,
n 500 500
ahora slo nos equivocamos en el 36% de los casos, en vez de la mitad
1 2 0,5 0,36 0,14
El cociente =0,28
1 0,5 0,5
En resumen, el coeficiente Lambda de Goodman y Kruskal se calcula mediante la siguiente formula:
f mj f max
=
(120 200) 250
= 0,28
n f max 500 250
Siendo: fm+ es la mayor frecuencia marginal en filas y fmj es la mayor frecuencia en la columna j-sima.
Hemos reducido un 28% con respecto al error que tenamos.
( f ij eij ) 2
El valor chi-cuadrado es:
2
exp 23,80. Los grados de libertad son 3. Para 3
i eij
j
grados de libertad, la tabla me indica que el valor 12,84 tiene una probabilidad menor que 0,005. Por tanto
el contraste es estadsticamente significativo y hay asociacin entre profesor y aprobados/suspensos.
Pacientes curados
Mtodo A Mtodo B Mtodo C Total
Sin hermanos dislxicos 0 6 14 20
Con hermanos 10 16 4 30
dislxicos
Total 10 22 18 50
( f ij eij ) 2
El valor chi-cuadrado es: exp 18.86
2
i j eij
Min{r 1, c 1}
El mximo es: Max {C}= = 0,7071
1 Min{r 1, c 1}
(f mj ) f m
La lambda de Goodman y Kruskal: x = 0,5
N f m
Se puede concluir que todos los coeficientes estn por encima de la mitad del rango que pueden tomar, sin
llegar a ser el mximo. Podra decirse que resulta una asociacin moderada-alta.