Вы находитесь на странице: 1из 8

Tema 4.

Medidas de asociacin

Objetivos del tema 4


En este tema aprenders a: Lambda de Goodman y Kruskal
Interpretar la intensidad de la dependencia entre dos
variables en una tabla de contingencia
Calcular e interpretar medidas de asociacin en tablas 2x2:
Coeficiente Phi de Pearson, Riesgo relativo y Razn de
productos cruzados.
Calcular e interpretar medidas de asociacin en tablas rxc:
Coeficiente de contingencia de Pearson y V de Cramer.
Calcular e interpretar medidas de asociacin que informan
de la reduccin del error de prediccin de una variable,
cuando se conoce el valor de la otra: Lambda de Goodman y 1.- Leo A. Goodman
Kruskal
2.- William Henry Kruskal

4.1. Introduccin
En el tema anterior hemos visto la manera de realizar un contraste Chi-cuadrado, para ver si dos variables
estn o no asociadas. Este contraste slo nos informa de la presencia de asociacin, pero no nos dice si es
alta o baja.
En el caso de rechazar la hiptesis de independencia, el siguiente paso sera calcular algn valor que mida la
intensidad de la asociacin, es decir, indique cmo de dependientes son las variables la una de la otra. A
continuacin vamos a mostrar distintos coeficientes que sirven para medir esta intensidad. Diferenciamos el
caso de las tablas 2x2 y los generales de tablas rxc.

4.2. Medidas para tablas 2x2


Las tablas 2x2 son especiales, porque, adems de la intensidad de la asociacin podemos ver el signo.
Recordamos la forma de estas tablas, que muestran la presencia o ausencia de dos factores A y B.
Tabla 4.1. Tabla de contingencia 2x2
B No Total
B
A f11 f12 f1.
No A f2 f22 f2.
1

Total f.1 f.2 N


Para estas tablas podemos calcular algunos coeficientes con signo, de modo que se tiene:
Si el coeficiente es positivo la asociacin es directa, es decir, A y B suelen suceder juntos. Por tanto,
si se da A suele darse B; por tanto habr muchos casos en la celda f11. Por otro lado, si no se da A, lo
ms frecuente es que tampoco se de B, por tanto habr muchos casos en la celda f22. Por ejemplo ser
rubio y ojos claros tendra asociacin directa, pues habr muchos casos de rubios con ojos claros
y tambin de morenos con ojos no claros.
Si el coeficiente es negativo la asociacin es inversa, es decir, si se da A no suele ocurrir B y si se da
B no suele ocurrir A. Habra mayor frecuencia en las celdas f21 y f12.
Si el coeficiente es nulo no existe asociacin, es decir, son independientes . No se encuentra un patrn
en las diferentes celdas.
A continuacin vamos a estudiar algunos coeficientes que pueden calcularse en una tabla 2x2, para saber no
slo el signo, sino la intensidad (si la asociacin es fuerte o dbil).

1
4.2.1. Coeficiente Phi de Pearson
Este coeficiente est basado en el valor chi-cuadrado, que vimos como se calculaba en el tema anterior.
( f ij eij ) 2
Recordamos que exp
2
. Para las tablas 2x2 podemos utilizar la forma alternativa para el
i j eij
clculo de Chi-cuadrado:
( f11 f 22 f12 f 21 ) 2 n
exp
2

f1 . f 2 . f .1 f .2
Se define el coeficiente Phi, de la forma siguiente:

(( f11 f 22 f12 f 21 ) 2 n) /( f1. f 2 . f .1 f .2 ) ( f11 f 22 f12 f 21 ) 2


F 2 / n =
n f1. f 2 . f .1 f .2
Este coeficiente toma valores entre -1 y 1:
El valor mximo (1) se obtiene cuando la dependencia es directa y perfecta, todos los casos estn en las
celdas f11 y f22. Si el coeficiente es positivo, la dependencia es directa y ms alta cuanto ms se acerque a
1.
El valor mnimo (-1) se obtiene cuando la dependencia es inversa y perfecta, todos los casos estn en las
celdas f12 y f21. Si el coeficiente es negativo, la dependencia es inversa y ms alta cuanto ms se acerque a
-1.
El valor 0 se obtiene cuando hay independencia.
Puede demostrarse que es equivalente al coeficiente de correlacin cuando se codifican los valores A y B
por 0 y no A y no B por 1
No depende de las frecuencias marginales
No vara si se multiplica o divide todas las frecuentas por el mismo nmero
Ejemplo 4.1. Observacin de conducta
Para realizar un estudio de observacin de conductas de interaccin en nios en situacin de juego se ha
entrenado a dos observadores en la utilizacin de un sistema de registro de conductas. Los dos observadores
codifican con el mismo sistema de categoras, requirindose que lo utilicen con un mismo criterio. Para
evaluar el nivel de acuerdo entre los observadores y constatar si el entrenamiento recibido ha sido adecuado,
se pide a ambos observadores que clasifiquen las conductas observadas en un vdeo de prueba. Los
resultados fueron los siguientes:
Observador A Observador B Total
A B
A 100 10 110
B 20 60 80
Total 120 70 190
Calcula e interpreta el coeficiente Phi de Pearson como valor de la intensidad.

Calculamos primero las frecuencias esperadas:

Tabla 4.2. Frecuencias esperadas


A B
A (110x120)/190=69,474 (110x70)/190=40,53
B (80x120)/190=50,526 (80x70)/190=29,47

A partir de ellas obtenemos el valor Chi-cuadrado:

2
( f ij eij ) 2 (100 69,474) 2 (20 50,526) 2 (10 40,53) 2 (60 29,47) 2
2
exp
i j eij

69,474

50,526

40,53

29,47
=13,413

+ 18,443 + 22,99 + 31,62=86,47


Calculamos el coeficiente Phi de Pearson:

F 2 /n = 86,47 / 190 = 0,675

Observamos que el valor es positivo (dependencia directa) y, en efecto, aparecen muchos ms datos en la
diagonal principal f11 y f22 que en la otra diagonal. Vemos que el valor es moderado-alto (cerca de 0,7).
Si tuviramos un valor del observador A, sabiendo el tipo de resultado, podramos tratar de predecir su
resultado por el observador B. La mayora de los que tienen un resultado A por el observador A, tambin
obtienen un resultado A por el observador B (e igual con los resultados de B). Cuantos ms casos en la
diagonal principal, mayor valor de Phi y ms fcil la prediccin.

4.2.2. Riesgo relativo


Se puede calcular por filas y por columnas. El riesgo relativo
El riesgo relativo por columnas indica cuanto ms probable es la presencia de A con B que entre aquellos
que no poseen B. Se calcula mediante la siguiente formula (columnas):
P( A / B) f11 / f .1 f f
RRcolumnas 11 .2
P( A / B ) f12 / f .2 f .1 f12
El riesgo relativo por filas indica cuanto ms probable es la presencia de B con A que entre aquellos que
no poseen A. Este coeficiente se calcula mediante la siguiente formula para filas:
P( B / A) f11 / f1. f f
RR filas 11 2.
P( B / A ) f 21 / f 2. f 21 f1.
Estos dos valores puede que coincidan, pero esto no pasa siempre.
El valor del Riesgo relativo cambia segn el tipo de asociacin que tengan las variables:
El RR = 1, informa que no hay asociacin entre las variables.
El RR > 1, nos dice que existe asociacin positiva.
El RR < 1, indica que existe una asociacin negativa.

Ejemplo 4.1. Observacin de conducta (continuacin)


Calculemos estos dos riesgos en el ejemplo sobre observacin de conducta

Observador A Observador B Total


A B
A 100 10 110
B 20 60 80
Total 120 70 190

El riesgo relativo por columnas se calcula mediante la siguiente formula:


P(ObA _ A / ObB _ A) 100 / 120 100 x70 7000
RRcolumnas = 5,8333
P(ObA _ A / ObB _ B) 10 / 70 10 x120 1200

El RRcolumnas > 1, nos dice que existe asociacin positiva. Nos dice que es 5,8333 veces ms fcil tener un
valor A por el observador A cuando se tiene un valor A por el observador B que si se tiene un valor B por el
observador B.

3
El riesgo relativo por filas se calcula mediante la siguiente formula:
P(ObB _ A / ObA _ A) 100 / 110 100 x80 8000
RR filas = 3,6364
P(ObB _ A / ObA _ B ) 20 / 80 20 x110 2200
El RRfilas > 1, nos dice que existe asociacin positiva. Nos dice que es 3,6364 veces ms fcil tener un valor
A por el observador B cuando se tiene un valor A por el observador A que si se tiene un valor B por el
observador A.

4.2.3. Razn de productos cruzados


Este coeficiente es una razn de dos cocientes:
f11 f 22 f /f C
RC 11 21 1
f12 f 21 f12 / f 22 C2

C1 es la razn de casos en que se presenta A y los que no se presenta A cuando est presente B.
C2 es la razn de casos A y no A cuando no est presente el factor B.
Conviene observar que la Razn de productos cruzados es una medida no simtrica. Es decir, A es la variable
dependiente y B la independiente. Podemos interpretarlo en la forma siguiente:
El RC = 1, implica que hay la misma razn de casos que aparece A y A , cuando est B, que cuando no
est presente B,
El RC < 1, implica que la razn entre los casos que aparecen A y A es menor cuando est presente B.
El RC > 1, implica que la razn entre los casos que aparecen A y A es mayor cuando est presente B.

Ejemplo 4.1. Observacin de conducta (continuacin)


Calculamos la razn de productos cruzado para este ejemplo que hemos estado utilizando anteriormente,
f11 f 22 100 x60 6000
obteniendo: RC 30
f12 f 21 10 x 20 200
Al obtener un valor mayor que 1, implica que la razn entre los resultados A y B del observador A es
superior cuando el sujeto tiene un valor A por el observador B que cuando tiene un valor B.
De hecho, entre los sujetos con resultados A del observador B hay 100 valorados con A por el observador A
por cada 20 valorados con B por el observador B (la razn es 5/1). Entre los sujetos con resultados B del
observador B hay 10 valorados con A por el observador A por cada 60 valorados con B por el observador B.

4.3. Medidas de asociacin para tablas rxc


Ahora vamos a mostrar algunos coeficientes los cuales se pueden aplicar a tablas con mayor nmero de
columnas y filas.

4.3.1. Coeficiente de contingencia de Pearson


Este coeficiente se calcula mediante la siguiente formula:

C 2 /( 2 n)
Vemos como se sigue basndose en el estadstico Chi-cuadrado. Este coeficiente cuando vale 0 indica
independencia absoluta, pero el mximo, cuando la tabla tiene c columnas y r filas es:

Min{r 1, c 1}
Max {C}=
1 Min{r 1, c 1}

4
Ejemplo 4.2. Aborto
Para analizar si el estado civil no era una variable relevante a la hora de explicar las actitudes abortistas, se
ha encuestado a 500 sujetos obteniendo los resultados que aparecen en la tabla siguiente.

Actitud Actitud Total


Abortista Antiabortista
Solteros 120 30 150
Casados 50 200 250
Divorciados 30 70 100
Total 200 300 500

Calcula e interpreta el coeficiente de contingencia de Pearson y su mximo.

Calculamos las frecuencias esperadas y vemos que hay ms solteros con actitud abortista de lo esperado (y
menos contrarios al aborto); hay menos casados con esta actitud que lo esperado y algunos divorciados ms.
Por tanto hay relacin entre las variables.
Tabla 4.3. Frecuencias esperadas
Actitud Actitud
Abortista antiabortista
Solteros (150x200)/500=60 (150x300)/500=90
Casados (250x200)/500=100 (250x300)/500=150
Divorciados (200x100)/500=40 (300x100)/500=60

Al calcular el valor Chi-cuadrado, se obtiene un valor estadsticamente significativo (se puede comprobar
mirando la tabla para 2 grados de libertad:
( f ij eij ) 2
2
exp 60 + 40 + 25 + 16,67 + 2,5 + 1,667 = 145,83
i j eij
Y el coeficiente C se calcula mediante la siguiente formula:

C 2 /( 2 n) = 145,83 /(145,83 500) 0,475

El mximo posible para esta tabla sera


Min{r 1, c 1}
Max {C}= = 0,7071
1 Min{r 1, c 1}
Por ello, podemos decir que la asociacin es moderada-alta.

4.3.2. V de Cramer
Este coeficiente se calcula mediante la siguiente formula:

V 2 / n( p 1)
Siendo p = Min {nmero de filas, nmero de columnas}.
Este coeficiente vara entre 0 y 1, siendo 0 en caso de independencia y 1 en caso de dependencia perfecta.

Ejemplo 4.5. Aborto (continuacin)


Para el ejemplo dado El valor chi-cuadrado era 145,83. El coeficiente se calcula mediante la siguiente
formula, siendo p = Min {nmero de filas, nmero de columnas}:

5
V 2 / n( p 1) = 145,83 / 500 x ( 2 1) 0,29166 = 0,54

4.3.3. Medidas basadas en la reduccin proporcional del error


Puesto que los coeficientes anteriores a veces no tienen una interpretacin sencilla, algunos autores
consideran medidas de asociacin basadas en la cuantificacin de la reduccin del error que se comete al
predecir el valor de una variable, cuando se conoce el valor de la otra. Supongamos que quiero predecir el
valor de la caracterstica X (variable en filas) en un individuo tomado al azar en la poblacin.
Si no tuviera ninguna informacin sobre el mismo, la probabilidad de cometer un error en la
n f max
clasificacin sera: P ( 1 ) , siendo fmax la mayor frecuencia marginal en filas. Ya que si
n
no se nada, lo asignara a la fila de mayor frecuencia.
Si supiera cul es la columna (valor de la variable Y), lo asignara a la fila (valor de X) que tenga

frecuencia mxima en esa columna. La probabilidad de error sera P( 2 )


n
f mj
donde f mj
n
es la frecuencia mxima en la columna j.
1 2
El coeficiente indica cual es el porcentaje de error que se ve reducido al predecir el
1
valor de la variable dependiente X, conocido el valor de la variable independiente Y, en vez de
asignar al azar el valor de X.

Lambda de Goodman y Kruskal


Una medida basada en la reduccin proporcional del error es la lambda de Goodman y Kruskal, este
coeficiente se calcula mediante la siguiente formula, para variables fila dependiente:

n f max n
f mj


n



n
=
f =f
n f max n mj mj f max
n f max n f max
n f max
n

Es decir, f mj f max
n f max
Siendo: fmax es la mayor frecuencia marginal en filas y fmj es la frecuencia mxima en la columna j-sima.

Ejemplo 4.6. Aborto (continuacin)


Recordamos los datos de la tabla.
Actitud Actitud Total
abortista antiabortista
Solteros 120 30 150
Casados 50 200 250
Divorciados 30 70 100
Total 200 300 500

Supongamos que queremos predecir el estado civil de una persona al azar en esta muestra, sin saber
nada sobre su actitud respecto al aborto. Como la mxima frecuencia marginal en filas es la
correspondiente a casados (250), diramos que es casado. La probabilidad de error en este caso sera
n f max 500 250
P( 1 ) =1/2; pues nos equivocaramos con los solteros y divorciados.
n 500

6
Si nos dicen cul es la actitud de la persona, predeciramos que es soltero (si tiene actitud abortista) o
casado (si no la tiene). La probabilidad de error ahora sera

P ( 2 )
n f mj 500 (120 200) 180
0,36 . Hemos reducido el error de prediccin,
n 500 500
ahora slo nos equivocamos en el 36% de los casos, en vez de la mitad
1 2 0,5 0,36 0,14
El cociente =0,28
1 0,5 0,5
En resumen, el coeficiente Lambda de Goodman y Kruskal se calcula mediante la siguiente formula:


f mj f max
=
(120 200) 250
= 0,28
n f max 500 250
Siendo: fm+ es la mayor frecuencia marginal en filas y fmj es la mayor frecuencia en la columna j-sima.
Hemos reducido un 28% con respecto al error que tenamos.

Ejercicios resueltos del tema 4


Ejercicio 4.1. Calificaciones de estadstica.
Al final del curso los cuatro profesores de un mismo curso de estadstica calificaron a los alumnos de la
siguiente forma:
Profesores NOTAS Total
Aprobados Suspensos
A 68 57 125
B 90 60 150
C 70 30 100
D 120 30 150
Total 348 177 525

a. Calcula los coeficientes de contingencia de Pearson V de Cramer y Llambda de Goodman y


Kruskal (con filas dependientes)
b. Qu se puede concluir de lo obtenido?

Calculamos primero las frecuencias esperadas:


Profesores NOTAS
Aprobados Suspensos
A (125x348)/525=82,86 (125x177)/525=42,14
B (150x348)/525=99,43 (150x177)/525=50,57
C (100x348)/525=66,29 (100x177)/525=33,71
D (150x348)/525=99,43 (150x177)/525=50,57

( f ij eij ) 2
El valor chi-cuadrado es:
2
exp 23,80. Los grados de libertad son 3. Para 3
i eij
j

grados de libertad, la tabla me indica que el valor 12,84 tiene una probabilidad menor que 0,005. Por tanto
el contraste es estadsticamente significativo y hay asociacin entre profesor y aprobados/suspensos.

El coeficiente de contingencia de Pearson sera C 2 /( 2 n) = 0,208. El valor mximo en este


Min{r 1, c 1}
caso es: Max {C}= = 0,7071. Por tanto la intensidad de la asociacin es
1 Min{r 1, c 1}
pequea pues slo llegamos a la tercera parte del mximo.
El coeficiente V de Cramer es: V 2 / n( p 1) = 0,213. Como sabemos este coeficiente puede
llegar a 1, por lo que confirma que la asociacin es pequea
7
(f mj ) f m
La lambda de Goodman y Kruskal: x = 0,08, de lo que observamos que no mejora
N fm
mucho la prediccin al saber si el alumno ha aprobado para predecir su profesor.
Se puede concluir que todos los coeficientes estn por debajo de la mitad del rango que pueden tomar, sin
llegar a ser nula. Podra decirse que resulta una asociacin baja.

Ejercicio 4.2. Nios dislxicos


Un psiclogo escolar est probando la eficacia de tres mtodos de lectura de nios dislxicos. Estudiando
los antecedentes de estos nios vio que la experiencia en la familia de hermanos dislxicos podra ser una
causa de la ineficacia de los mtodos. Con el fin de obtener alguna evidencia, midi a sus alumnos en las
dos variables y obtuvo la tabla siguiente de curacin.

Pacientes curados
Mtodo A Mtodo B Mtodo C Total
Sin hermanos dislxicos 0 6 14 20
Con hermanos 10 16 4 30
dislxicos
Total 10 22 18 50

a. Calcula el coeficiente de contingencia de Pearson.


b. Calcula el coeficiente V de Cramer.
c. Calcula la lambda de Goodman y Kruskal.
d. Qu se puede concluir de lo obtenido?
Frecuencias esperadas:
Mtodo A Mtodo B Mtodo C
Sin hermanos dislxicos (20x10)/50=4 (20x22)/50=8,8 (20x18)/50=7,2
Con hermanos (30x10)/50=6 (30x22)/50=13,2 (30x18)/50=10.8
dislxicos

( f ij eij ) 2
El valor chi-cuadrado es: exp 18.86
2

i j eij

El coeficiente de contingencia de Pearson: C 2 /( 2 n) = 0,523

Min{r 1, c 1}
El mximo es: Max {C}= = 0,7071
1 Min{r 1, c 1}

El coeficiente V de Cramer es: V 2 / n( p 1) = 0,614

(f mj ) f m
La lambda de Goodman y Kruskal: x = 0,5
N f m
Se puede concluir que todos los coeficientes estn por encima de la mitad del rango que pueden tomar, sin
llegar a ser el mximo. Podra decirse que resulta una asociacin moderada-alta.

Вам также может понравиться