Академический Документы
Профессиональный Документы
Культура Документы
7
Asociacin. Indicadores basados en la reduccin de error de prediccin
A diferencia de los anteriores basados en Ji-cuadrado. Estos tratan de
ver la relacin entre variables intentando predecir como se clasifica un
sujeto en la variable Y a partir de conocer su clasificacin en la X
Coeficiente Lambda de Goodman y Kruskal
Llamado tambin Coeficiente de predictibilidad de Guttman se basa
en la reduccin proporcional del error en la prediccin de la moda, es
decir numero de aciertos que proporciona el conocer la distribucin
dividido por el nmero de errores sin conocerla.
Siendo:
( N M y ) ( N my ) m y M y My = la frecuencia modal global
yx = =
N My N My my = la suma de frecuencias modales
N = Total de casos
El numerador sera pues el nmero de aciertos cometidos bajo la prediccin II
(conociendo la distribucin de segunda variable) my menos los aciertos de la
prediccin I (sin conocer la distribucin) My. Al dividir por los errores de la
prediccin I me debe dar una cifra entre 0 ninguna reduccin (independencia
total ya que una variable no predice la otra o 1 si la puede predecir de forma
total.
Sabiendo que es hombre la posibilidad de que fallara mi pronstico sera m1= 138
Por el contrario si se que es mujer, la posibilidad de errar es m2=163. El error al
conocer la distribucin de la segunda variable es menor que si no la conozco.
Error univariado bajo la prediccin de la frecuencia modal global = 485
Error bivariado si es hombre =138
Error bivariado total =138+163=301
Error bivariado si es mujer =163
E1= N-My =1285 800 = 485
E2= N-my =1285 (637 + 347) = 1.285- 984 = 301
my M y 984 800 184
yx = = = = 0,37
N My 1285 800 485
Tambin Lambda = E1-E2/E1=(485-301)/485=184/485=0,379
8
Imaginemos la siguiente distribucin de familias segn tipo de familia
y situacin del cabeza de familia
Cabeza familia varn Cabeza familia mujer
Con hijos Sin hijos Con hijos Sin hijos
menores menores menores menores Total
Casado 6.444 4.804 78 50 11.376
Separado 20 126 250 106 502
Divorciado 19 237 284 276 816
Viudo 47 300 236 1.614 2197
Total 6.530 5.467 848 2.046 14.891
Sabiendo que el cabeza de familia es varn con hijos menores el valor modal sera
casado, acertaramos 6444 veces de 6530 es decir fallaramos en 86 ocasiones.
Sabiendo que tiene sera 5467-4804=663 errores. En el caso de ser mujer con hijos
la situacin modal seria de divorciada esto es 848-284=564 errores y si no tiene
hijos sera viuda con 2046-1614=432. Total de errores = 86+663+564+432=1745
my = 6.444+4.804+284+1.614 = 13.146 aciertos conociendo la distribucin
Aplicando la formula de Lambda obtendramos una reduccin del error de:
Modales parciales my M y 13.146 11.376 1.170
yx = = = = 0,333
Modal global N My 14.891 11.376 3.515
9
Coeficiente Tau-y de Goodman y Kruskal
Al igual que el Lambda es un coeficiente asimtrico pero a diferencia
de ste parte de los errores cometidos al asignar aleatoriamente los
casos a las categoras de la variable dependiente.
En definitiva supone que en cada categora se clasificarn errneamente por
puro azar un cierto nmero de casos, que es igual en cada categora al nmero
de casos que no pertenecen a la misma. As en la categora de casados de los
11.376 casos de un total de 14.891 sujetos, se cometeran 14.891-11.376 =
3.515 errores por lo que si intentsemos designar al azar los 11.376 casos de
casados cometeramos un promedio de errores de:
14.891 11.376 3.515
11.376 = 11.376 = 2.687,7
14.891 14.891
Simblicamente la formula para las predicciones del tipo I (categoras de la
variable dependiente) sin conocer la distribucin de la independiente sera:
k
N fi Siendo N el nmero total de casos, k el nmero de
E1 = fi categoras de la variable e fi la frecuencia de la
i =1 N
categora i
14.891 11.376
Errores para la categora de casados 11.376 = 2.685,29
14.891
Errores para la categora de separados 14.891 502
502 = 485,08
14.891
Errores para la categora de divorciados 14.891 816
816 = 771,28
14.891
Errores para la categora de viudos 14.891 2197
2197 = 1872,86
14.891
Total errores del tipo I E1= 2.685,29 + 485 ,08 + 771,28 + 1.872,86 = 5.814,51
10
Para calcular los errores bajo la prediccin II (conociendo la
distribucin de la variable independiente) se utiliza la formula:
c k
N n Siendo ni la frecuencia de la celdilla en la
E2 = i i ni categora i de la variable dependiente dentro de
i =1 Ni cada una de las c categoras de la variable
Cabeza familia varn independiente y Ni el total parcial de las
Con hijos Sin hijos categoras de la variable independiente
menores menores
Casado 6.444 4.804
Separado 20 126
Divorciado 19 237
Para la categora de cabeza de familia
Viudo 47 300 varn con hijos sera:
Total 6.530 5.467
6.530 6.444
Errores para la categora de casados 6.444 = 84,86
6.530
Errores para la categora de separados 6530 20
20 = 19,93
6.530
Errores para la categora de divorciados 6.530 19
19 = 18,84
6.530
Errores para la categora de viudos 6530 47
47 = 46,66
6.530
Errores en sta categora E21=84,86 + 19,93 + 18,84 + 46,66 =170,39
5.467 4.804
Errores en la categora de casados 4.804 = 582,60
5.467
Errores en la categora de separados 5.467 126
126 = 123,10
5.467
Errores en la categora de divorciados 5.467 237
237 = 226,73
5.467
Errores en la categora de viudos 5.467 300
300 = 283,54
5.467
Errores en sta categora de padres varones sin hijos menores:
E22= 582,60 + 123,10 + 226,73 + 283,54 =1215,96
11
Cabeza familia mujer
848 78
Errores en la categora de casados 78 = 70,83
848
Errores en la categora de separados 848 250
250 = 176,30
848
Errores en la categora de divorciados 848 284
284 = 188,89
848
Errores en la categora de viudos 848 236
236 = 170,32
848
Errores en sta categora de padres varones sin hijos menores:
E23= 70,83 + 176,30 + 188,89 + 170,32 =606,33
2.046 50
Errores en la categora de casadas 50 = 48,78
2.046
Errores en la categora de separadas 2.046 106
106 = 100,51
2.046
Errores en la categora de divorciadas 2.046 276
276 = 238,77
2.046
Errores en la categora de viudas 2.046 1.614
1.614 = 340,79
2.046
Errores en sta categora de padres varones sin hijos menores:
E24= 48,78 + 100,51 + 238,77 + 340,79 =728,84
Los errores del tipo E2 ser igual a la suma de todos los E2i
E2 = 170,39 +1215,96 + 606.33 +728,84 = 2.722
12
Conocidos los errores E1 y E2 bajo la prediccin del tipo I (sin
conocer la distribucin de la variable independiente) y tipo II
(conocindola) el coeficiente Tau-y se calcula mediante la frmula
E1 E2
Tau y =
E1
5.814,51 2.722
Tau y = = 0,53
5.814,51
13
Parejas de casillas concordantes denominaremos Variable X
as a parejas como la formada por las casillas A y D 1 2
(AD) pues puntan igual o coincide el signo de su
Variable Y
1 A=20 B=5
orden en ambas variables
2 C=15 D=20
El orden de A es 1 (variable Y) y 1 (variable X)
El orden de D es 2 (variable Y) y 2 (variable X) 3 E=10 F=15
1 A=20 B=5
2 C=15 D=20
Parejas concordantes Parejas discordantes
3 E=10 F=15
AD 20 x 10 = 200 BC 5 x 15 = 75
AF 20 x 15 = 300 BE 5 x 10 = 50
CF 15 x 15 = 225 CF 10 x 10 = 100
725 225
14
Coeficiente D de Sommers se calcula bajo la frmula:
P Q P Q Donde Tx y Ty son las parejas
D yx = o bien Dxy =
P + Q + Ty P + Q + Tx empatadas en X e Y respectivamente.
Parejas empatadas en X En nuestro ejemplo:
AC 20 x 15 = 300 Parejas empatadas en Y Variable X
AE 20 x 10 = 200 AB 20 x 5 = 100 1 2
Variable Y
CE 15 x 10 = 150 CD 15 x 20 = 300 1 A=20 B=5
BD 5 x 20 = 100 EF 10 x 15 = 150 2 C=15 D=20
BF 5 x 15 = 75 550 3 E=10 F=15
DF 20 x 15 = 300
1125
725 225 500 Considerando la variable X como
D yx = = = 0,33
725 + 255 + 550 1500 dependiente
15
Coeficiente Tau C se calcula bajo la frmula:
2 m (P Q ) Donde m es el mnimo del nmero
TauC =
n 2 (m 1) de filas o columnas y n el tamao de
la muestra. En nuestro ejemplo:
Variable Y
1 A=20 B=5 25
2 C=15 D=20 35
3 E=10 F=15 25
45 40 85
16
Una vez que aparezca el men emergente de tablas pulsar sobre Estadsticos
17