Академический Документы
Профессиональный Документы
Культура Документы
pe 1
DISTRIBUCIN CHICUADRADO Y ANLISIS DE
FRECUENCIAS
PROPIEDADES DE LA DISTRIBUCIN _
2
(v)
Muestra aleatoria: Conjunto de variables aleatorias i.i.d.
Si de una poblacin N(, o
2
) se extrae al azar una muestra, se
genera una m.a. con Xi ~ N(, o
2
).
(0,1)
i
i
X
Z N
=
Si una variable tiene distribucin normal estndar o aproximada-
mente normal estndar, entonces el cuadrado de esta variable se
distribuye como una chicuadrado con un grado de libertad.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 2
La suma de variables aleatorias independientes cada una con distri-
bucin chicuadrado produce otra variable tambin con distribucin
chicuadrado pero con los grados de libertad igual a la suma de los
grados de libertad de las variables que se suman.
( )
2
2 2
( )
2
1 1
n n
i
i n
i i
X
Z
_
o
= =
=
( )
2
2
2 2
( 1) ( 1)
2 2
1
( 1)
n
i
n n
i
X x
n s
_ _
o o
=
= =
Con lo cual:
Lo que corresponde a Pvalor de 0.20875, con lo que no hay sufi-
ciente evidencia estadstica para afirmar que las proporciones en la
variedad B son diferentes.
Prueba de Bondad de ajuste a una Distribucin de Probabilidades
Usando la funcin de probabilidad o densidad supuesta se obtienen las
frecuencias esperadas, en lo dems la prueba se realiza de la misma ma-
nera.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 8
Hay 1000 bolsas de naranjas, cada una de las cuales contiene 10 na-
ranjas. Algunas de las naranjas estn podridas. Es la distribucin de
probabilidades del nmero de naranjas podridas por bolsa una Bino-
mial(10, t). Los resultados al analizar las 1000 bolsas son los siguien-
tes:
# naranjas
podridas
0 1 2 3 4 5 6
# de bolsas 334 369 191 63 22 12 9
H
0
: El # de naranjas podridas por bolsa sigue una distribucin B(10, t)
H
1
: El # de naranjas podridas por bolsa no sigue una distrib. B(10, t)
Dado que no se conoce la proporcin de naranjas podridas t de la fp,
este valor ser estimado mediante la proporcin muestral:
# 1142
0.1142
# 10000
de naranjas podridas
p
de naranjas
t = = = =
Usando la distribucin binomial se calculan las probabilidades y las e
i
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 9
# naranjas
podridas (x)
0 1 2 3 4 5 6 o +
Frecuencias
observadas
334 369 191 63 22 12 9
Probabilidad
p(x)
0.2974 0.3834 0.222
4
0.076
5
0.0173 0.0027 0.0003
Frecuencias
esperadas
297.4 383.4 222.4 76.5 17.3 2.7 0.3
Note que las dos ltimas frecuencias esperadas son menores que 5, por
lo que es necesario agrupar las tres ltimas categoras:
# naranjas
podridas (x)
0 1 2 3 4
Frecuencias
observadas
334 369 191 63 43
Probabilidad
p(x)
0.2974 0.3834 0.222
4
0.076
5
0.0203
Frecuencias
esperadas
297.4 383.4 222.4 76.5 20.3
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 10
Con estos el estadstico de prueba es:
2
5
1
( )
37.24
i i
i
i
o e
Q
e
=
= =
= =
( )
a
a b
RR
c
c d
+
=
+
Puede construirse un intervalo de con-
fianza para el RR
( )
2
(1 / 2)
1 /
( )
Z
IC RR RR
o
_
=
Siendo
2
2
( )
( )( )( )( )
n ad bc
a c b d a b c d
_
=
+ + + +
Interpretacin del RR: Es un valor no negativo, un valor de cero
Indica que no existe asociacin entre el estado del factor de riesgo y
el estado de la variable dependiente. Un valor de RR=1, significa que
el riesgo de adquirir la enfermedad es la misma tanto para los indivi-
duos con y sin el factor de riesgo.Un RR>1 indica que el riesgo de ad-
quirir la enfermedad es mayor entre los individuos con el factor de
riesgo
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 22
2. Los grados de probabilidad de ser un caso con respecto a la proba-
bilidad de ser un control entre los individuos sin el factor de
riesgo es [c/(c+d)]/[d/(c+d)]=c/d
La razn de los grados de probabilidad a partir de los datos retros-
pectivos OR. La estimacin de OR (Odss Ratio) es:
/
/
a b ad
OR
c d bc
= =
( )
2
(1 / 2)
1 /
( )
Z
IC OR OR
o
_
=
Razn de grados de probabilidad (razn de chances)
Aplicable cuando se trata de estudios retrospectivos que comprende
dos muestras de individuos los casos y los controles, se definen:
1. Los grados de probabilidad de ser un caso con respecto a la proba-
bilidad de ser un control entre los individuos con el factor de
riesgo es [a/(a+b)]/[b/(a+b)]=a/b
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 23
Interpretacin de la OR: Ofrece una estimacin indirecta del riesgo
Relativo. Tambin toma valores no negativos. Un valor de cero indica
una no asociacin entre factor de riesgo y el estado de la enfermedad.
Un valor menor que 1 indica grados de probabilidad reducidos en con-
tra de la enfermedad entre los individuos con el factor de riesgo. Un va-
lor mayor que 1 indica que aumentan los grados de probabilidad en
contra de tener la enfermedad en los individuos en los que el factor de
riesgo est presente.
Nmero de
fumigaciones
Ataque de gusano
Total
Presente Ausente
Menos de 2 41 58 99
2 o ms 10 49 59
Total 51
107
158
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 24
41
99
10
59
2.44 RR = =
Se obtiene:
2
10.122 _ =
Indica que las plantacin con poca fumiga-
cin tiene un riesgo del 144% mayor que la
plantacin con una fumigacin alta.
Nivel de confianza 95%, Z=1.96
IC(RR) = (1.41, 4.24)
41 49
3.47
58 10
x
OR
x
= =
IC(OR)=(1.61, 7.45)
La probabilidad de tener ataque de gusano en
comparacin con la probabilidad de no tener ataque
de gusano es 3.47 veces mayor en el grupo con poca
fumigacin respecto al grupo con alta fumigacin
Como el intervalo no incluye el 1, se concluye que
hay ms probabilidad que la plantacin con ataque de gusano haya
recibido poca fumigacin.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 25
ESTADSTICA DE MANTEL - HAENSZEL
til cuando existe otra variable que puede asociarse con el factor de
riesgo o la variable en estudio (enfermedad) o con ambas , entonces
se pueden establecer estratos o grupos y permite verificar la hiptesis
nula que no existe asociacin entre el factor de riesgo y la variable en
estudio. El procedimiento es el siguiente:
1. Formar los k estratos. La tabla muestra los datos para el estrato i.
Variable Resultado
(enfermedad)
Total
Factor de
riesgo
Presente
(casos)
Ausente
(controles)
Presente
a
i
b
i
a
i
+b
i
Ausente
c
i
d
i
c
i
+d
i
Total
a
i
+c
i
b
i
+d
i
n
i
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 26
2. Para cada estrato se calcula la frecuencia esperada e
i
de la celda
superior izquierda de la tabla e
i
=(a
i
+b
i
)(a
i
+c
i
)/n
i
3. Para cada estrato se calcula:
2
( )( )( )( )
( 1)
i i i i i i i i
i
i i
a b c d a c b d
v
n n
+ + + +
=
4. Estadstico de prueba:
2
1 1 2 2
(1)
1
k k
i i
i i
HM
k
i
i
a e
v
_ _
= =
=
| |
|
\ .
=
( / )
k
i i i
i
k
i i i
i
a d n
OR
b c n
=
=
=
\ .
MUESTRA GRANDE Suponga una situacin con una
muestra grande (n = 40) donde se observaron 11 signos - y
29 signos +.
Se desea contrastar las hiptesis
H
0
: P(+) = P() = 1/2
H
1
: P(+) > P()
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 41
La estadstica de prueba es el nmero de signos y un
nmero suficientemente pequeo de signos causar el
rechazo de H
0
. La distribucin binomial de la estadstica de
prueba S se aproxima por la distribucin normal de la forma
siguiente:
( )
11 0.5 40*0.5
( 11) 2.69 0.003573
40*0.5*(1 0.5)
P S P Z P Z o
| |
+
s = s = s = <
|
|
\ .
Luego, se rechaza H
0
PRUEBA DEL SIGNO PARA MUESTRAS PAREADAS
Un dato pareado o de una muestra pareada es un dato bivariado (x,y)
que corresponde a:
Dos variables obtenidas para un mismo elemento de la poblacin.
Una variable obtenida en un mismo elemento de la poblacin, en dos
momentos distintos o por dos observadores.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 42
La prueba se usa cuando:
No son satisfechas las suposiciones de la prueba t .
Los datos disponibles estn en escala ordinal, por lo menos
La prueba se basa en las medianas de X e Y.
Supone que se muestrean dos poblaciones simtricas que son
dependientes, relacionadas.
La prueba compara los valores del par observado y se basa en la
direccin de esta diferencia. Se toma la pareja de datos de la
observacin i y se obtiene la diferencia x
i
- y
i
, la cual puede ser
mayor que 0 menor que 0, es decir, tener signo + -. Si la
diferencia entre las medianas es 0, se esperara que un par x
i
, y
i
cualquiera tenga igual probabilidad de dar un signo + -.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 43
PROCEDIMIENTO
La hiptesis
H
0
: Mex
= Mey
, (Mex
- Mey
= 0) equivalentemente
H
0
: P (x
i
> y
i
) = P (x
i
< y
i
) = 1/2
Tambin se puede plantear,
H
0
: P(+) = P() = 0.5
En una muestra aleatoria se esperara que el nmero de signos + y
sea casi igual. Si existen ms signos + que los que pueden
atribuirse nicamente al azar, cuando H
0
es verdadera, se dudar de
la veracidad de H
0
. Mediante la prueba de signos, es posible
determinar cuntos signos de uno u otro tipo son ms de los que
pueden atribuirse nicamente al azar.
El procedimiento contina como en el problema de una muestra
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 44
PRUEBA DE WILCOXON (O DEL RANGO CON SIGNO)
Se usa cuando se desea probar una hiptesis con respecto a la media
de una poblacin, pero por alguna razn, ni Z ni t resultan
adecuadas como estadstica de prueba.
La prueba supone respecto a los datos:
La muestra es aleatoria
La variable es continua
La poblacin es simtrica
La escala de medicin es al menos de intervalo
La prueba del signo no sea aconseja porque podra desperdiciarse
demasiada informacin contenida en los datos.
La prueba utiliza en lugar de los signos, las magnitudes de las
diferencias entre las observaciones y el parmetro de inters
ordenadas por rangos.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 45
Las hiptesis que pueden probarse para alguna media de
poblacin no conocida:
H
0
: = 0 H
0
: 0 H
0
: 0
H
1
: 0 H
1
: < 0 H
1
: > 0
PROCEDIMIENTO
1. Obtener las diferencias d
i
= x
i
-
0
. Si cualquier d
i
= 0,
eliminarla de los clculos, reduciendo por lo tanto n .
2. Ordenar las di de menor a mayor sin considerar el signo.
Si dos ms |d
i
| son iguales asignar a cada valor la
media de la posicin que ocupa en la lista. Por ejemplo,
si las tres |d
i
| ms pequeas, sus posiciones son 1, 2 y
3, dentro del rango, luego a cada una se le asigna el
rango (1+2+3)/3=2
3. A cada categora se le asigna el signo de la diferencia
correspondiente.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 46
4. Encontrar las estadsticas: T
+
, la suma de las categoras con
signo + y T
-
, la suma de las categoras con signo -.
Si H0
es verdadera, la probabilidad de una diferencia positiva de
una magnitud dada, es igual a la probabilidad de una diferencia
negativa de la misma magnitud, es decir, P(d
i
+
) = P(d
i
-
). Luego, el
valor esperado de T
+
es igual al valor esperado de T
-
. A partir de una
muestra no se espera una gran diferencia entre sus valores
La estadstica de prueba es T
+
T
-
, dependiendo de la hiptesis
alternativa.
S H
1
: 0
, un valor suficientemente pequeo de T
+
T
-
causa
rechazo de H
0
.
S H
1
: < 0, se espera un valor grande de T
+
, la estadstica de
prueba es T
+
y un valor suficientemente pequeo de T
+
causa
rechazo.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 47
S H
1
: >
0
, se espera un valor grande de T
-
, la estadstica de
prueba es T
-
y un valor suficientemente pequeo de T
-
causa rechazo.
El valor calculado se compara con los valores crticos de la
estadstica de prueba de Wilcoxon que se encuentran en la tabla
correspondiente. Los valores se presentan para todas las muestras de
tamao 5 hasta n = 30.
Las reglas de decisin para las tres hiptesis alternativas:
H
1
:
0
. Se rechaza H
0
a un nivel de significacin , si el
valor calculado de T es menor o igual al valor T de la tabla para
n y para /2 preseleccionado.
H
1
: <
0
. Se rechaza H
0
a un nivel de significacin , s T
+
es
menor o igual al valor T de la tabla para n y para
preseleccionado.
H
1
: >
0
. Se rechaza H
0
a un nivel de significacin , s T
-
es
menor o igual al valor T de la tabla para n y para
preseleccionado.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 48
OBSERVACIONES
Si n>30, se define la estadstica de prueba:
2
i
i
R
T
R
=
U = mn ( U
1
, U
2
) = 25
El valor de la Tabla de valores crticos de U Mann-Whitney es Uo=44
Luego, se rechaza H
0
. La prueba result significativa. Es posible
concluir que la inhalacin prolongada de xido de cadmio disminuye el
nivel de hemoglobina (p<0.05)
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 63
OBSERVACIONES
Para muestras grandes, n>20, se usa la aproximacin de la distribucin
normal:
La prueba se puede basar en U1 U2 (pruebas equivalentes)
Bajo H
0
, las dos muestras provienen de poblaciones idnticas, se
puede probar que:
1 2 1 2 1 2
( 1)
2 12
U U
n n n n n n
o
+ +
= =
Luego:
U
U
U
Z
o
=
DECISIN
Rechazar H0: Mex = Mey , a favor de:
H1: Mex Mey si Z < - Z
1-/2
Z > Z
1-/2
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 64
H
1
: Mex < Mey s Z > Z
1-
(valores grandes de U corresponden a menores
valores de Rx)
H
1
: Mex > Mey s Z < - Z
1-
Mann-Whitney Confidence Interval and Test
Expuesto N = 15 Median = 15.300
No expue N = 10 Median = 16.550
Point estimate for ETA1-ETA2 is -1.300
95.1 Percent CI for ETA1-ETA2 is (-2.300,-0.600)
W = 145.0
Test of ETA1 = ETA2 vs ETA1 < ETA2 is significant at 0.0030
The test is significant at 0.0030 (adjusted for ties)
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 65
La prueba de Kruskal-Wallis
La prueba de Kruskal-Wallis basada en los rangos de las observaciones es
una extensin de la prueba de Mann Whitney, donde en lugar de dos medias,
se realiza la comparacin de las medias de k grupos o tratamientos
independientes.
Esta prueba contrasta la hiptesis nula de que las k muestras
independientes proceden de la misma poblacin y, en particular, todas ellas
tienen la misma esperanza.
Se procede como sigue.
1. Se ordenan todas las observaciones en sentido creciente y se reemplazan por su
rango R
ij
, i = 1,...,k, j = 1,...,n
i
, en la muestra conjunta ordenada.
2. En caso de empates se asigna a cada una de las observaciones empatadas el
rango promedio de todas ellas.
3. Estadstico de prueba:
2 2
2
( 1)
1
4
1
i
i
k
R N N
n
S
i
T
+
=
(
=
(
1
( )
i
n
i ij
i
R R X
=
=
para i de 1 a k
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 66
Cuando los tamaos muestrales n
i
son razonablemente grandes (n
i
> 5),
T tiene una distribucin aproximadamente chicuadrado con k - 1 grados
de libertad bajo la hiptesis nula.
2
( ) 2 2
1
1 4
,
: ( )
N N
ij N
i j
donde S R X
+
| |
=
|
\ .
Si no hay empates S
2
se reduce a:
( 1) 2
12
N N
S
+
=
Y el estadstico de prueba queda como:
2
12
(( 1)
1
3( 1)
i
i
k
R
N N n
i
T N
+
=
= +
Supuestos
1. Los b bloques son mutuamente independientes (Los resultados dentro
de un bloque no influyen en los resultados de los otros bloques).
2. La escala de medida es al menos ordinal, de modo que se puede
rankear dentro de cada bloque
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 70
Procedimiento de la prueba
Hiptesis
H
0
: No hay diferencias significativas entre las respuestas medias de
los tratamientos o grupos.
H
1
: Al menos de los tratamientos o grupos tiene una respuesta media
diferente.
Estadstico de prueba
Calcule :
2 2
1 1 1
1
k b k
ij i
i j i
A R B R
b
= = =
= =
Si no hay empates A se simplifica a:
( 1)(2 1)
6
bk k k
A
+ +
=
2 2
2
( 1)
( 1)
4
( 1)
4
b k k
k bB
T
bk k
A
( +
(
=
+
2
( 1) 0
/
k
T H es verdadera _
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 71
Comparaciones mltiples
Si la H
0
es rechazada, los grupos (tratamientos) i y j difieren significa-
tivamente si se satisface:
1/ 2
2 ( )
(1 / 2,( 1)( 1)) ( 1)( 1)
b A B
i j b k b k
R R t
o
(
>
Tres diferentes soluciones estn siendo estudiadas para evaluar su
efectividad en el retardo del crecimiento de bacterias en contenedores
de leche de 5 galones. Los anlisis son hechos en el laboratorio y slo
tres ensayos pueden efectuarse un da dado. Debido a que los das
son una fuente de variabilidad que relaciona las respuestas , se ha
considerado un anlisis de dos vas. (Datos en UFC)
solucin
Das
1 2 3 4
1 13 22 18 39
2 16 24 17 44
3 5 4 1 22
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 72
S = 6.50 DF = 2 P = 0.039
Sum
Est of
trat N Median Ranks
1 4 19.75 9.0
2 4 21.75 11.0
3 4 3.25 4.0
Grand median = 14.92
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 73
DCIMA DE KOLMOGOROV-SMIRNOV.
Premisas
La nica premisa que se necesita es que las mediciones se encuentren
al menos en una escala de intervalo. Se necesita que la medicin con-
siderada sea bsicamente continua. Adems dicha prueba es aplicable
cualquiera sea el tamao de la muestra
Potencia-Eficiencia
La prueba de una muestra de K-S puede en todos los casos en que
se aplique ser ms poderosa que su prueba alternativa, la prueba chi-
cuadrado
Caractersticas de la dcima
La prueba de K-S de una muestra es una dcima de bondad de
ajuste. Esto es, se interesa en el grado de acuerdo entre la distribucin
de un conjunto de valores de la muestra y alguna distribucin
terica especfica. Determina si razonablemente puede pensarse que
las mediciones muestrales provengan de una poblacin que tenga esa
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 74
distribucin terica. En la prueba se compara la distribucin de
frecuencia acumulativa de la distribucin terica con la distribucin
de frecuencia acumulativa observada. Se determina el punto en el que
estas dos distribuciones muestran la mayor divergencia.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = F
t
(x) para todo x.
H
1
: La distribucin observada no se ajusta a la distribucin terica.
Tambin:
F(x) F
t
(x) para algn x
F(x): es funcin desconocida
F
t
(x): es la funcin terica. Esta puede ser por ejemplo la funcin
normal con cierta media y varianzas conocidas
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 75
Estadgrafo y distribucin muestral
{ }
max ( ) ( )
i i
D F x S x =
S
n
(x): es la funcin de distribucin emprica
Correlacin Categrica de Spearman o correlacin de grado
Llamado rho de Spearman, se usa para describir la relacin entre dos
caractersticas ordinal (o una ordinal y una numrica. Es tambin una
medida estadstica adecuada para usarse con variables numricas,
cuando sus distribuciones son sesgadas. Su clculo se realiza con los
rangos de cada una de las variables
2 2
[ ( ) ( )][ ( ) ( )]
[ ( ) ( )] [ ( ) ( )]
i i i i
s
i i i i
R X R X R Y R Y
r
R X R X R Y R Y
=
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 76
INTRODUCCIN AL ANLISIS DE DATOS CATEGRICOS
Para tablas de contingencia 2x2, un solo nmero tal como el odss ratio
puede resumir la asociacin, con un solo nmero se pierde informacin.
Medidas de Asociacin Ordinal
La pregunta bsica cuando se analiza datos ordinales es Y crece
cuando X crece ? Para variables de escalas de intervalo se tiene el
coeficiente de correlacin de Pearson, una mediada del grado de aso-
ciacin lineal entre dos variables. Para el caso de variables ordinales,
La nocin de linealidad puede ser cuestionada, sin embargo se tiene el
concepto de monotonicidad del cual surgen las ideas de Concordancia
y discordancia.
Cuando se observa el ordenamiento de dos sujetos, sobre cada una de
dos variables, se puede clasificar el par de sujetos como Concordante
o Discordante
MEDIDAS DE ASOCIACIN
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 77
Ejemplo: La siguiente tabla muestra el nmero de rboles clasificados
de acuerdo a antiguedad y grado de dureza de su madera
Antigedad
Grado de dureza de la madera
Nada
duro
Algo
Duro
Duro
Muy
duro
< 5 aos 20 24 80 82
5 - 8 aos 22 38 104 125
9 12 aos 13 28 81 113
> 12 aos 7 18 54 92
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 78
Considere el par de rboles uno clasificado en (<5, ND) y el otro en
la celda (5-8, AD), este par es concordante : cada uno de los rboles
en la celda (<5, ND) forman pares concordantes con cada uno de los
38 rboles clasificados en (5-8, AD), es decir hay 20x38=760 pares
concordantes provenientes de esas dos celdas.
El nmero total de pares concordantes denotado por C ser entonces:
C=20(38+104+125+28+81+113+54+92)+24(104+125+81+113+
54+92)+80(125+113+92)+22(28+81+113+54+92)+38(81+113+
54+92)+104(113+92)+13(18+54+92)+28(54+92)+81(92)=109,520
De manera anloga el nmero de pares discordantes es:
D=24(22+13+7)+80(22+38+13+28+7+18)+....+113(7+118+54)=
84,915.
En este ejemplo, C>D, sugiere que bajos grados de dureza ocurren con
bajos niveles de antiguedad y altos grados de dureza con altos niveles
de antiguedad.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 79
COEFICIENTE GAMMA DE GOODMAN Y KRUSKAL
Medida de asociacin para datos ordinales definida por:
C D
C D
=
+
Esta medida puede tomar valores entre 1 y 1; su interpretacin es
la misma que en el caso del coeficiente de correlacin, obviando la
linealidad. Para el ejemplo resulta igual a 0.127, lo que indica que
existe ligera tendencia que a mayor nivel de ingreso mayor nivel de
satisfaccin en el trabajo.
MEDIDA DE ASOCIACIN NOMINAL
Cuando las variables en una tabla de doble entrada son nominales los
conceptos de asociacin positiva, negativa o monotonicidad ni tienen
sentido. En este caso se puede usar como medida de asociacin el
coeficiente de contingencia de Cramer, que est definido a partir
de la estadstica _
2
y del tamao de muestra n por:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 80
2
2
n
CC
_
_ +
=
Para facilitar su interpretacin, se modifica este coeficiente, en funcin
el k, el menor valor entre el nmero de filas y columnas.
2
2
*
( 1)( )
k
CC
k n
_
_
=
+
El valor de CC* siempre estar en el intervalo de 0 a 1. Ser cero
cuando existe completa independencia y ser 1 cuando existe
asociacin perfecta: Valores de CC* prximos de 1 describen una
asociacin fuerte, mientras que valore de CC* prximos de 0 indican
una asociacin dbil: Este coeficiente es til tambin para tablas de
dimensione fxc.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 81
LA ESTADSTICA KAPPA
Variacin entre las observaciones
Las causas de la variabilidad de observaciones, es decir la variacin
de mediciones del mismo sujeto, pueden clasificarse en tres
categoras:
1.Imputable a la persona u objeto que se est midiendo.
2.Causada por el examinador.
3.Debido al instrumento o mtodo usado.
Kappa es una estadstica para la medicin de la concordancia entre
dos observadores, ante una variable dicotmica.
En los estudios de confiabilidad, donde es usada se tienen los
objetivos siguientes:
Cuantificar la repetibilidad de una variable evaluada muchas
varias o muchas veces.
Valorar el grado de concordancia.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 82
Determinar si un procedimiento es adecuado para evaluar o
diagnosticar alguna enfermedad o anormalidad.
Ejemplos:
Medida de concordancia de diagnsticos.
Medida de repetibilidad de las encuestas.
Clculo de Kappa
Considere los siguientes datos correspondiente al diagnstico de 2
entomolgos
Entomlogo 1
Entomlogo 2
Total
Anormal Normal
Anormal 136 92 228
Normal 69 240 309
Total 205 332 537
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 83
Los diagnsticos son concordantes en 136+240=376, es decir, en
el 70.02% de los pacientes.
La concordancia observada p
o
se compara con la concordancia que
se esperara p
e
si los dos entomlogos actan independientemente.
Tasa de concordancia observada o probabilidad de concordancia
p
o
=376/537=0.7002.
Tasa de concordancia esperada, bajo independencia:
228/537*205/537+309/537*332/537=0.5178.
La diferencia p
o
-p
e
es una medida, luego la mxima diferencia se
dara cuan p
o
=1, y Kappa se define como:
1
o e
e
p p
k
p
Para el ejemplo:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 85
Inferencia sobre Kappa
Estimacin del error estndar: A partir de:
Observador 1
Observador 2
0 1
0 n
0
1 n
1
m
0
m
1
n
( )
( )
0 0 1 1
0 0 1 1
2
2
2 3
1
1 1
(1 )
e
k e e i i i i
e
n m n m
p n m n m
n n n n n
s p p n m n m
n p n
= + = +
(
= + +
(
( 1) p P Y = =
En el estudio de la Regresin Lineal el modelo es de la forma
c | o + x + = Y
La variable respuesta Y es continua, el inters es
identificar un conjunto de variables explicativas
que ayuden en la prediccin de un valor medio
de y.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 88
variable respuesta Y no es continua sino dicotmica, es decir los valo-
res que puede asumir son dos: 1 que representa un "xito" y 0 que re-
presenta un "fracaso". La media de la variable dicotmica, designada
como p, es la proporcin de veces que la variable asume el valor 1, es
decir: p=P(Y=1)=P(xito).
En este caso, el inters es estimar la probabilidad p y determinar los
factores o variables explicativas que influencian este valor
LA FUNCIN LOGSTICA
Una alternativa de solucin podra ser la formulacin de un modelo de
la forma:
c | o + x + = p
Sin embargo este modelo no resulta til. Desde que p es una proba-
bilidad, asume valores entre 0 y 1, mientras que el trmino podra
proporcionar un valor fuera de este intervalo. Se intenta resolver el
problema formulando el modelo
e = p
x | + o
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 89
La expresin a la derecha es llamada funcin logstica, no puede
resultar un valor negativo ni mayor que 1; en consecuencia est
restringida al intervalo de 0 a 1, como una probabilidad.
Para cumplir con esta ltima restriccin, creamos un modelo de la
forma:
e 1
e
= p
x
x
| + o
| + o
+
La expresin a la derecha es llamada funcin logstica, no puede resul-
tar un valor negativo ni mayor que 1; en consecuencia est restringida
al intervalo de 0 a 1, como una probabilidad.
e
)) e 1 /( e ( 1
) e 1 /( e
=
p 1
p
x
x x
x x
| + o
| + o | + o
_ + o | + o
=
+
+
ln 12.5579 0.111094
1
p
x
p
(
= +
(
Indica que para cada unidad adicional de nutrientel, el logaritmo de la
chance de producirse el florecimiento incrementa en promedio en
0.111094.
PRUEBA DE HIPTESIS
Como en la regresin lineal simple, para probar la hiptesis nula, de
que no existe relacin entre p y x, contra la alternativa
0 : H
0
= |
0 : H
1
= |
|
|
=
z
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 93
UTILIZANDO EL MODELO AJUSTADO
El inters puede ser calcular la probabilidad de que una planta con
un nivel de nutriente en particular sufra florezca. Vamos a utilizar la
ecuacin estimada, sustituyendo el valor adecuado de x. Por ejemplo,
para un nivel de nutriente de 140
ln 12.05579 0.111094(140)
1
3.49737
p
p
(
= +
(
=
Al calcular el antilogaritmo a cada miembro de la ecuacin, se obtiene:
3.49737
33.02847
p
e
1- p
=
=
Resolviendo la ecuacin:
0.97061 p =
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 94
Interpretando: la probabilidad estimada de que una planta con un
nivel de nutriente de 140, florezca es 0.97061
REGRESIN LOGISTICA CON UNA VARIABLE BINARIA
El modelo de regresin logstica puede incluir una variable nominal,
dicotmica como variable explicativa.
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -0.916291 0.836660 -1.10 0.273
RIEGOTEO 1.72722 1.03010 1.68 0.094 5.62 0.75 42.36
ln 0.916291 1.72722
1
p
x
p
(
= +
(
Para un ejemplo con variable explicativa que indica el uso o no
del riego por goteo y el florecimiento como variable y se obtuvo:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 95
En la ecuacin, el valor positivo del coeficiente de la presencia de
riego por goteo indica que el logaritmo de la chance, la chance misma
y tambin la probabilidad de hacer floreces es mayor entre quienes hacen
uso del riego por goteo que entre los que no lo hacen.
Cuando la variable explicativa es binaria, el coeficiente de regresin
estimado tiene una interpretacin especial. En la ecuacin, desde que
x slo toma valores 1 0, si x=1
ln 0.810929
1
p
p
(
=
(
Tomando antilogaritmo la chance de
florecer es 2.2500
Mientras que para x=0
ln 0.916291
1
p
p
(
=
(
Luego la chance de florecer es 0.400
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 96
Luego la razn de chances OR estimado es 2.25/0.4=5.625, luego la
probabilidad de florecer es 5.625 veces mayor cuando se aplica el rie-
go por goteo que cuando no se aplica este tipo de riego.
Este es el resultado del antilogaritmo del coeficiente
|
1.72722
5.625 OR e e
|
= = =
Es decir:
Los datos usados para estos clculos fueron
FLORECE 1 0 1 0 0 0 1 0 1 1
RIEGO
GOTEO
1 1 1 1 1 1 1 0 1 1
FLORECE 1 0 1 1 0 0 1 1 0 1
RIEGO GOTEO 1 0 1 1 0 0 1 0 0 0
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 97
Riego por goteo
Total
Florece Si No
Si
9 2 11
No
4 5 9
Total
13 7 20
Con los datos se puede obtener:
Y como se recordar
9 5
4 2
5.625
x
x
OR = =
LA ESTADSTICA DE WALD
2
|
|
s
WALD=
Se evala mediante la distribucin Chi-
cuadrado, con un grado de libertad si la va-
riable es numrica y con el nmero de cate-
goras menos 1 si la variable es categrica