Академический Документы
Профессиональный Документы
Культура Документы
~ ,
¡ •.
t ;; !¡¡~
...
\\
Estadística no paramétrica
Métodos basados en rangos
Jirnrny A. Corzo S.
Estadística no paramétrica
Métodos basados en rangos
DEPARTAMENTO DE ESTADíSTICA
BOGOTÁ
© Universidad Nacional de Colombia
Facultad de Ciencias
Departamento de Estadística
1S B N 958-701-546-0
88 p.
ISBN: 958-701-546-0
1. Introducción 7
1.1. Un poco de historia . . . . . . . . . . . . . . . 10
1.2. Problemas típicos en estadística no paramétrica 11
1.2.1. Una muestra . 11
1.2.2. Dos muestras .. 11
1.2.3. Independencia 12
1.2.4. Modelos lineales 12
1.3. Escalas de medida . . . 16
1.3.1. Nominal . . . . . 16
1.3.2. Ordinal o de rango 16
1.3.3. Intervalo. 17
1.3.4. Razón . . . . . . . 18
2.5.1. Rangos . . . . . . . . . . . . . . . . . . . 36
2.5.2. La prueba del rango signado de Wilcoxon 37
2.5.3. Distribución asintótica de T
y aproximación de la región crítica 40
2.6. Estimación (método de Hodges-Lehmann) 44
2.6.1. Introducción . . . . . . . . . . . 44
2.6.2. Estimaciones basadas en la
estadística de la prueba del signo 46
2.6.3. Estimadores de Hodges-Lehmann (H-L) 48
2.6.4. Estimación de H-L basada en la
estadística del rango signado de Wilcoxon 50
5. Asociación y correlación 78
5.1. Coeficiente de correlación por rangos de Spearman 78
5.1.1. Prueba basada en el coeficiente
de correlación de Spearman . . . . . . . . . 80
5.1.2. Distribución exacta de la estadística de prueba 80
5.1.3. Distribución asintótica de rs. . . 81
5.2. Coeficiente de correlación T de Kendall . 82
Bibliografía 84
Capítulo 1
Introd ucción
7
8 CAPÍTULO 1. INTRODUCCIÓN
1.2.3. Independencia
La información disponible consta de una muestra aleatoria bivariada
(Xl, YI ),'" , (X n , Yn ) de una distribución F(x, y) y el interés está en la
hipótesis sobre la independencia entre ellas. Por ejemplo, si se denota por p
algún parámetro de asociación entre X y Y, entonces puede ser de interés
el contraste de la hipótesis Ho : p = O frente a la alternativa KI : Pi- o.
X ij = ej + eij
donde los eij son variables aleatorias independientes con distribución con-
tinua de media cero y varianza constante 1J2 para todo i, j.
Se quiere probar la hipótesis sobre la igualdad de las medianas de las
K muestras:
Ho: el = ... = eK
contra alguna de las alternativas siguientes:
• Alternativa de localización
X ij = ai + e j + eij
donde los eij son variables aleatoria.', independientes con distribución con-
tinua de media cero y varianza constante 1J2 para todo i, j.
1.2. PROBLEMAS TÍPICOS EN ESTADÍSTICA NO PARAMÉTRICA
- - - - - .~~---_
15
... _ - - -
Ha : (h = ... = (JK
• Alternativa de localización
• Alternativa de tendencia
1.3.3. Intervalo
En esta escala las distancias entre medidas tienen significado, cosa que
no ocurría con la escala ordinal. Se presenta exclusivamente en números
reales y es cuantitativa, en contraste con las anteriores escalas consideradas.
Por ejemplo, para determinar la velocidad de desplazamiento de un objeto,
se necesita la distancia entre el punto de partida y el de llegada. Esta escala
es invariante ante transformaciones de la forma:
y = ax + b a>O
1.3.4. Razón
Peso, longitud, área, volumen, corriente, temperatura en grados Kelvin
(el cero corresponde a - 273,16 grados centígrados, temperatura en la que
hay ausencia de movimiento de partículas). Se diferencia de la escala de
intervalo en que ésta sí posee un cero fijo que se mantiene estable para
transformaciones de la forma Y = Ax. Para esta transformación, el cociente
entre dos medidas también se mantiene estable:
YI Xl
Y2 x2
2.1. Introducción
19
20 CAPÍTULO 2. PROBLEMAS DE UNA MUESTRA
X(k) ::;
x?: X(n)
X < X(k+l) para k = 1,2,· .. ,n
donde X(l) < X(2) < ... < X(n) son las estadísticas de orden de la muestra.
Las estadísticas utilizadas para las pruebas varían según las alternativas,
como se muestra en la tabla siguiente:
lím
n-+oo
P(D;; ~ V
~)
n
= Q2(.\) = 1 - e~2,\2 ,\>0
En este caso se rechaza Ho cuando D:}: ~ ~a, donde .\l~a es tal que
Q2(.\1~a) = 1 - a.
Por ejemplo, para a = 0,01, Q2(.\) = 0,99, implica.\ = 1,5741; entonces
para n = 20, se rechaza la hipótesis nula a favor de la alternativa de una
cola (1), cuando D:}: = 1,5741jV25 = 0,35.
Clases k
Número de observaciones nk
k
donde L nj = n.
j=l
Se quiere probar la hipótesis, llamada de bondad de ajuste de F a Fo;
frente a la alternativa:
y por lo tanto,
Niveles de tratamiento
Rango observado
donde
Uij = {1
O
i < j
a aquellos pares en los que hay tendencia y que se encuentran más lejanos
(o sea que Ri < Rj).
Una expresión más sencilla de D' para los cálculos es (consultar la
demostración en Lehmann, 1976, pp. 296, 297):
N
1 N (2
DI = 6 N -1 ) - 2"1 "6 ( Ri - Z.)2
i=l
N N 1 N
D=2 ¿ i2 - 2 ¿ iRi = 3N(N - 1)(2N + 1) - 2 ¿ iRi
i=l i=l i=l
0000000000011111111110000011111000011000111010,
donde los unos representan la ocurrencia de un evento A y los ceros repre-
sentan la no ocurrencia de A. Escrito de otra forma:
ocurre el evento A
j = 1,'" ,n
no ocurre el evento A
sión 771 , ... 77n es aleatoria sión Tl1, ... Tln existe ten-
dencia a que los ele-
mentos estén sistemática-
mente mezclados
AqUÍ, r a/2 es tal que P(R ::::: r a/2) :S a/2 y P(R ~ r~/2) :S a/2, y el
nivel de significancia de la prueba de dos colas es a. r c; y r~ se definen de
28 r,A PTTTTLO 2. PRORLRMAS DE UNA MUESTRA
E(R) = 1 + 2mn
m+n
Var(R) = 2mn(2mn - m - n)
(m+n)2(m+n-1)
Los valores críticos de la prueba de rachas para aleatoriedad se encuen-
tran en la tabla D en Gibbons & Chakraborti (1992).
lím E ( R)
N-+oo N
= 2A(1 - A) Y lím Var
N-+oo
(~)
VN
= 4A 2(1 _ A)2
y la variable aleatoria:
z= _R_--=2=-N_A-'-.(l_-_A--,-)
2VNA(1 - A)
2.4. PRUEBAS DE LOCALIZACIÓN PARA DISTRIBUCIONES CONTINUAS 29
j = 2, ... , r
en otro caso
El proceso implica la pérdida de una observación.
•
• --
O
) :::::<L--.r-IP-(X-~-O:-0E-(a-,b-n~-1---'/21
a b
1--0---1
Figura 1.
Ejemplo 2.4.1. Considérese la distribución
F(x) ~ o x<l
x = 1, 2, 3, 4, 5, 6
. 2 1
x>6
Entonces, para f) < 3, se tIene que P(X ::; f)) ::; F(2) = 6" < 2; por lo
tanto, se descartan los valores de f) menores que 3.
Además, para f) 2: 4, P(X ::; f)) = F(f), f) 2: 4) 2: ~ > ~; pero P(X 2:
1 1 .,
f)) = 1- F( f)) ::; :3 < 2' luego tamblen se descartan los valores de f) mayores
que 4.
Finalmente, como F(f)) = 1/2 para 3 ::; f) < 4, se concluye que la
mediana de la distribución es un número entre 3 y 4, sin incluir el 4.
Se denotará por 0 0 , el conjunto de las funciones de distribución abso-
lutamente continuas con mediana cero:
Modelo de muestreo
La información disponible para este problema es una muestra aleatoria
F(x - f)), donde F E Oo. Se busca
Xl, ... , X N , con función de distribución
probar la hipótesis:
Nota:
S = # {Xi> O} = LS(Xi)
i=l
donde
S
( X)
l
= {1O si Xi >
si X 1. <
OO
_
Distribución y momentos de S
N
PHo(S 2: k~) = L (~) (~)N : :; C\'
J
J=k' 2
"
• en favor de K 2 : (J < O cuando S :::; ka:, donde ka: es tal que
a~ 1-~e;%h2)
y, por lo tanto,
k -N/2
JN/4 ~ Za
es decir,
k ~ N/2 + Za'¡¡:¡ /2
donde Za es tal que a = 1 - <I>(Za) y se llama a-percentil superior de la
distribución normal.
En muchos casos suele ser útil hacer una corrección por continuidad para
aproximar la región crítica. Esto se hace suponiendo que el valor observado
de la estadística, digamos t, es t - 1/2 para hipótesis de colas laterales a la
derecha y t + 1/2 para hipótesis de colas laterales a la izquierda. De esta
manera, la región crítica aproximada para la prueba del signo es:
N 1 VN
k~-+-+Z -
2 2 a 2
7r
() ~ p(
P
SN - N p NP)k-
JNp(1 _ p) 2': JNp(1 _ p) ~ 1 - If>
(k - Np )
JNp(1 _ p)
ns = {F : F E no y F (x) = 1 - F( - x) }
Modelo de muestreo
Muestra aleatoria: Xl,'" , X N , cada v.a. con función de distribución
F(x - e), donde F E ns. Entonces e es la única mediana (y la media,
cuando existe) y se encuentra en el centro de la distribución. Nuevamente
el problema de inferencia es la prueba de la hipótesis:
2.5.1. Rangos
Se define el rango Ri de la cantidad Xi, en la sucesión Xl,'" , XN
como el puesto que ocupa Xi en la sucesión ordenada X(1), ... , X(N); esto
significa que Xi = X(R i )' Por ejemplo, en la sucesión
Xl X 2 X3 X4 X 5
23,5 12,6 21,4 32,8 10,4
X(4) X(2) X(3) X(5) X(l)
RI R2 R3 R4 R5
4 2 3 5 1
Y los anti-rangos:
DI D2 D3 D4 D5
5 2 3 1 4
Distribución y momentos de T
Los W i son variables aleatorias independientes y distribuidas B(1,p);
además, bajo H o, E(Wi ) = P(X Dj > O) = p = 1/2 Y Var(Wd = p(1- p) =
1/4. Por lo tanto, también
N
E(T) ¿ iE(Wd = N(N + 1)/4 (Ejercicio)
i=l
Var(T) N(N + 1)(2N + 1)/24 (Ejercicio)
38 CAPÍTULO 2. PROBLEMAS DE UNA MUESTRA
Rangos
1 + + + + + + + +
2 + + + + + + + +
3 + + + + + + + +
4 + + + + + + + +
Valor de T 10 9 8 7 7 6 6 5 5 4 4 3 3 2 1 O
k O 1 2 3 4 5 6 7 8 9 10
1 2 3 5 7 9 11 13 14 15
P(T:S: k) 1
16 16 16 16 16 16 16 16 16 16
Obsérvese que la distribución de T es simétrica alrededor de 5; en general,
puede demostrarse que la distribución de T es simétrica alrededor de su
valor esperado N(N + 1)/4. Los valores críticos de T se encuentran, por
ejemplo, en Lehmann (1975, tabla H).
Ejemplo 2.5.1. Rosenzweig et al. (1972) reportan experimentos realizados
para determinar la influencia del medio ambiente en la anatomía del cere-
br0 2 . La hipótesis de tal efecto se atribuye a Gaetano Malacarne, anatomista
italiano, alrededor de 1780. En experimentos recientes se han asignado
aleatoriamente tres ratones de cada una de doce camadas para permanecer
en jaulas estándar de laboratorio: una enriquecida con varios juguetes y
otra empobrecida, donde los ratones permanecen aislados. Se hacen obser-
vaciones de medidas, como el peso del cerebro, la actividad enzimática y
el peso de la corteza cerebral. Para este caso se utilizará la medida de la
ganancia en peso de la corteza durante un período específico. Si se comparan
los ratones de un entorno empobrecido con los de un entorno enriquecido
se tiene un experimento pareado, donde los pares se arman de manera na-
tural con ratones que pertenecen a la misma camada y tienen la misma
configuración genética.
Sean X y Y las medidas del peso de la corteza cerebral en el entorno
empobrecido y en el entorno enriquecido, respectivamente. Entonces la va-
riable aleatoria de interés es la diferencia D = Y-X. Bajo la hipótesis
de no diferencia de los efectos de los dos entornos, D tiene distribución
2Tomado de Hettmansperger (1984).
2.5. PRUEBAS DE LOCALIZACIÓN PARA DISTRIBUCIONES SIMÉTRICAS 39
11 687 612 75
12 679 678 1
40 CAPÍTULO 2. PROBLEMAS DE UNA MUESTRA
k - N(N + 1)/4 )
= 1- <1> ( JN(N + 1)(2N + 1)/24 = a
2.5. PRUEBAS DE LOCALIZACIÓN PARA DISTRIBUCIONES SIMÉTRICAS 41
k - N(N+ 1)/4
y, por lo tanto, para Zl-o = se obtiene:
JN(N + 1)(2N + 1)/24
Manejo de empates
Por el supuesto de continuidad de la distribución muestreada, en el caso
de las pruebas del signo y del rango signado de Wilcoxon, la probabilidad
de obtener observaciones iguales es cero. Sin embargo, en la práctica es
posible que esto ocurra, debido a la inexactitud en los aparatos de medición
o a errores en el supuesto de continuidad. Para tratar este problema existen
varias alternativas, entre las cuales se mencionan aquí las tres más comunes.
Rangos promedio
1 2,5 2,5 4 5
Resultados posibles T
x x x y y 9
x x y x y 7,5
x y x x y 7,5
y x x x y 6
x x y y x 6,5
x y x y x 6,5
y x x y x 5
x y y x x 5
y x y x x 3,5
y y x x x 3,5
Nótese que P(T ::::: 7,5) = 0,3. Para valores grandes de N puede usarse
la aproximación por la distribución normal con:
T - E(T)
JVar(T)
2.6.1. Introducción3
tce)
tce) = -Vn-
X -
Vn
-e
s s
eL \\
e
\
\
\
\
\
\
\
\
\ I
\
- - - - - - - - - - -\- - - --
\
\
IEl estimador de e es X I
Figura 2.
se concluye que
46 CAPÍTULO 2. PROBLEMAS DE UNA MUESTRA
Principio de estimación
so
N ,t.=..=..t-~o
N - 1 t..=..=..:j - -~
I
N - K -lt----t-~--r-----,o
I
I
N;(2 ,.-------,,0
L-------l1
K+l r---- 0
I
I
2 I
....---11 I
1 II -- o
()
X(1) x(2) X(K+I) X(N/2) X(N/2+1l X(N_IC) xi'" 1) X(N)
Figura 3.
2.6. ESTIMACIÓN (MÉTODO DE HODGES-LEHMANN) 47
fj = X(N/2) + X(N/2+l)
2
bajo H: e = O; por lo tanto, Pe (S(e) ::::: k) = po(S(O) ::::: k). De manera que
al escoger k tal que P(S ::; k) = 0./2 en la distribución binomial, tenemos
que
[X(k+l) , X(N-k»)
es un intervalo del (1 - 0.)100 % de confianza para e, independiente de la
distribución muestreada F E Oo.
Ejemplo 2.6.1. (Continuación ejemplo de las palomas mensajeras, 2.4.2).
Como los datos presentados para ese ejemplo se encuentran ordenados,
basta tomar las observaciones 14 y 15 Y promediarlas, con lo cual se obtiene
que la mediana estimada para el ángulo de error es = 45°. e
Para la construcción de un intervalo de confianza para e
se procede
como sigue: buscar en la tabla de la distribución binomial un valor k tal
que P(S ::::: k) sea lo más cercano posible por debajo a 0,05. De la tabla de la
distribución binomial se encuentra que P(S ::::: k) = 0,045 para k = 9; por lo
tanto, el intervalo del 91 % de confianza para e es: [X(1O)X(19») = [35, 53).
A continuación se presenta una definición formal de un estimador basa-
do en una estadística de prueba propuesto por Hodges & Lehmann (1963).
-2 -
2.6. ESTIMACIÓN (MÉTODO DE HODGES-LEHMANN) 49
V(B)
I r--- 0
I --o
I --o
I ¡.Lo o
I o
I --o
L-
B
B* B**
Figura 4.
y los valores C l y e 2 son tales que P(V 2:: el) = P(V :::::; C2 ) = 0:/2. En la
figura 5 se muestran los valores de OL y Ou, así como los de el ye2 .
50 CAPÍTULO 2. PROBLEMAS DE UNA MUESTRA
- - - . -----.-.-
v(e)
o
, ---- I
/-lo V(B) < C l o
C2 ~----+----~---------------------o
----o
B
Bi Bu
{e: v(e) > C 2 }
Figura 5.
Definición 2.6.2. (Promedios de Walsh). Para una muestra Xl, ... ,XN , se
definen los N(N + 1)/2 promedios de Walsh por:
Xi+X j
i -S j
2
Xit +Xj ~ O
2
2.6. ESTIMACIÓN (MÉTODO DE HODGES-LEHMANN) 51
------
o
Figura 6.
Entonces, el rango de cualquier observación positiva es:
T ~ # { Xi ; X j > O} i <; j
donde
fj = m<ed(Wij ) = (W(39)
Z_J
+ W(4o))/2 = 36,5
Para calclllar los límites del intervalo de confianza, se encuentra en la tabla
de valores críticos de la estadística de Wilcoxon (tabla H en Gibbons) que
P(T ::; 14) = 0,026 = P(T ::::: 64) y, por lo tanto, el intervalo de confianza
es [W(15), W(64)) = [11,0; 59,5).
Capítulo 3
Modelo de muestreo
El problema general de dos muestras puede formularse de la manera
siguiente: se consideran dos muestras aleatorias independientes entre sí:
53
54 CAPÍTULO 3. PROBLEMAS DE DOS MUESTRAS
~~~~_ ......_ - - - _ . - - - - - _. .
--.....-- --.....--
111···1 000··· O
m-veces n-veces
000··· O 111···1
--.....-- --.....--'
n-veces m-veces
del tiempo, mientras que el grupo control lloró el 60 % del tiempo. Además, el 70 %
del grupo expuesto ganó peso, lo cual contrasta con el 33 % que ganó peso en el
grupo control. El grupo expuesto mostró una ganancia mediana de 40 gramos,
mientras que el grupo control mostró una pérdida mediana de 20 gramos.
Una prueba muy común para probar la hipótesis formulada en el problema
anterior es la prueba de Wilcoxon. Antes de presentar la estadística utilizada en la
prueba de Wilcoxon, es necesario introducir los rangos para el caso de dos muestras
y alguna notación y propiedades adicionales de estos.
Xi = X(Q;)
! 2~
11 3
2 1 3
P( Q2 = 3) = 1/3; pues, de las seis permutaciones, hay dos en que esto ocurre.
1
Propo,idón 3.3.2. l'(Q, ~ s. Qj ~ t) ~ {:(N _1)
s-=f.t
1 <5.i-=f.j<5.N
s = t
3.3. UNA PRUEBA DE LOCALIZACIÓN 59
Demostración. Como arriba, al fijar dos valores Qi y Qj, sólo permutan los restantes
N - 2. Entonces
(N - 2)! 1
P(Qi=S,Qj=t)= N! = N(N-1)
Proposición 3.3.3.
E(Qi) = N: 1, i = 1,"',N
Demostración.
N 1 N N+1
E(Qi) = ¿SP(Qi = s) = N ¿ s = - 2 -
8=1 8=1
Proposición 3.3.4.
N 2 -1
Var(Qi)= 12 ' i = 1,"',N
Demostración.
(N + 1)(2N + 1) (N + 1)2
6 4
Proposición 3.3.5.
y que
N N N N N
2
(¿s)(¿t) = ¿t + ¿¿st
8=1 t=1 t=1 8=1 t=1
Rangos
1 2 3 4 5 U W
y y x x x 3 O
y x y x x 4 1
y x x y x 5 2
x y y x x 5 2
Arreglos
y x x x y 6 3
x y x y x 6 3
x y x x y 7 4
x x y y x 7 4
x x y x y 8 5
x x x y y 9 6
U 3 4 5 6 7 8 9
1 1 1 1 1 1 1
P(U = u) 10
10 5 5 5 10 10
1 2 4 6 8 9
P(U :s: u) 10 10 10 10 10 10
Otra expresión de U es la propuesta por Mann & Whitney (1947), que además
será útil en la construcción de un intervalo de confianza para .6.:
n(n + 1)
U=W+--- - (3.1 )
2
donde
W = L. L. <jJ(Y; -
m m
Xi) = #(Y; - Xi > O), con <jJ(x) =
{1
O
x>O
x::;O
,=1 )=1
m n
donde
1 x:::: O
<,b(x)= { O x<O
J=l )=1
n
¿¿<,b(Y(i) - lj) = f>
j=l
= n(n+ 1)
2
(3.4)
~ = med(Yi - Xj )
',]
donde k se escoge de manera que P(W :s; k) = 0'/2 bajo la hipótesis nula.
Mediante la corrección por continuidad puede aproximarse k por la distribución
normal así:
mn Z Jmn(m+n+1)
k = 2" - 0,5 - 0./2 12
Manejo de empates
Aquí, como en el caso de una muestra, los empates se tratan con cualquiera de
los métodos descritos en la sección 2.6; en especial, para el método de asignación
de rangos promedio, se construye la distribución de la estadística de Wilcoxon
condicionada al número y el tamaño de los empates.
Por ejemplo, para m = 3 y n = 2, considérese la muestra: Xl = 2,1, X 2 =
1,2, X 3 = 0,5, Y1 = 1,2, Y2 = 2,2, en la cual hay dos observaciones empatadas.
La muestra combinada y ordenada es: 0,5,1,2,1,2,2,1,2,2.
Entonces se procede a calcular las probabilidades asociadas a todos los valores
posibles de los rangos promedio. Para esto en la siguiente tabla se muestran los
rangos sin empates (que son los rangos que hubieran correspondido a las obser-
vaciones al no haber empates), los datos ordenados, los rangos promedio de las
observacioues y el valor de la estadística de Wilcoxon en presencia de empates:
A
Resultados posibles t P(T = t)
1
Y Y x x x 3,5 10
1
Y y X X x 3,5 10
1 B
x x y x 5
Y 10
1
t P(T = t) s:
P(T t)
X Y Y x x 5 10 5 0,2 0,4
x X 6 1 6,5 0,2 0,7
Y X Y 10
1
7,5 0,2 0,9
x x y y x 6,5 0,1 1
10 9
1
x Y x Y x 6,5 10
1
x X Y X Y 7,5 10
1
X Y x x y 7,5 10
1
X X x Y y 9 10
mn i~ (bf - bi )
mn(N + 1)
Var(U)
12 12N(N - 1)
donde bi es la longitud del 'i-ésimo empate (número de observaciones empatadas
b
en el i-ésimo grupo). Esta aproximación sólo se usa en caso de que. máx ~ sea
,=l,"',r N
acotado lejos de 1, cuando N ---+ oo. Es decir, cuando la longitud del mayor de los
empates no esté muy cerca de N.
Además, si se supone que Xl, ... ,Xm viene de una distribución F y Y l , ... ,Yn
viene de otra distribución G, entonces para ~ <;1 > O, las hipótesis pueden
(i - N: Ir
Estos desvíos son indicadores de que cuanto más lejos se encuentre el rango de una
observación de su rango medio, más dispersa puede considerarse. La estadística de
prueha es:
{~
N
MN = ¿ (i _ N + 1) 2 Zi
Zi =
si
si
X(i)
X(i)
proviene de la muestra 1
proviene de la muestra 2
,=1 2
Las regiones de rechazo para las hipótesis de interés son las siguientes:
2 2
E(M ) = m(N - 1) V (M ) _ mn(N + 1)(N - 4)
N 12 Y ar N - ---'------18--'--0~-2
z= MN - m(N 2 - 1)/12
-ylr=m=n=7(N=====+=I=)=:=:(N=:=:2::==_==4)=7/=18=0
+ 1)(N 2 m(N 2 - 1)
~ = 1
MN
o
<Z
-
Q
2 J mn(N
180
- 4)
- -----'----'-
12
mn(N + 1)(N 2 m(N 2
MN >Z"
- J
"2 180
- 4)
+-----'-
12
- 1)
Problemas de K muestras:
,
una y dos Vlas
Modelo de muestreo
Se dispone de K muestras
68
4.2. ARREGLOS DE UNA VÍA Y PRUEBA DE KRUSKAL-WALLIS
._--- . - - - _ . _..._ - - - ---- ---- - -----_. __._--- ._-----
69
La hipótesis nula especifica únicamente que las medianas son todas iguales pero
no dice cuál es la mediana común. Otra forma de expresar la hipótesis nula es
definiendo 1).j = (JH1 - (Jj, j = 1,··· , K - 1; así la hipótesis nula es la siguiente:
NJ
R.j = LR;j
i=l
K
Los R.j satisfacen ¿ R.j = N(N + 1)/2. La distribución bajo Ho de los Rij
j=1
así como el valor esperado, la varianza y la covarianza son los mismos que en el
70 CAPÍTULO 4. PROBLEMAS DE K MUESTRAS: UNA Y DOS VÍAS
K
caso de dos muestras, pero utilizando N = L Ni. Además,
i=l
E(R ej ) = Nj(N + 1) R ej ) = ~
E(- N
2 2
N(N + 1)
Como la diferencia Rej - J 2 representa la distancia entre la suma de los
rangos de los individuos de la j-ésima muestra y el rango esperado de estos bajo
la hipótesis nula, se espera que grandes valores de estas diferencias acumuladas
apoyen la hipótesis alternativa de no igualdad de las medianas de las distribuciones
muestreadas.
La estadística de KruskalWallis para probar la hipótesis Ho : el = ... = eK ,
es la siguiente:
H = 12
N(N + 1) L
K 1
N (Re j - Nj(N + 1))2
J=l J 2
H _ 12 R2 .
- N(N + 1) L ;J - 3(N + 1)
K
J=l J
N
_J ~A
N J
0< Aj < 1 (4.1)
Manejo de empates
Aunque teóricamente la probabilidad de que se presenten observaciones em-
patadas en la muestra es igual a cero porque las distribuciones muestreadas se
4.2. ARREGLOS DE UNA VÍA Y PRUEBA VE KRUSKAL-WALLIS
---,._----------
71
H*:>
'/
2
Xl-a ,K-l
El valor de la estadística H* es 7,85, mayor que xLo 05'3 = 7,81; por lo tanto,
se rechaza la hipótesis Ho : (JI = (J2 = (J3 = (J4 a fa~or' de la alternativa KI :
(JI, (J2, (J3, (J4 no son todos iguales.
Empates
En el ejemplo anterior hay 26 empates de tamaño 1 y tres empates de tamaño
2, por lo tanto, bj = 2 en tres de los casos y bj = 1 en los restantes 26 casos.
72 CAPÍTULO 4. PROBLEMAS DE K MUESTRAS: UNA Y DOS VÍAS
D _ 1 -
Z] - v1V(R ej - R ei )
la cual, bajo la hipótesis nula, tiene
E(D ij ) = O Var(D ij ) =
N+1(1
12 N + Ni
1)
j
Var(D) ---+ -
1 ( -1 1)
+- N---+oo
Z] 12 Aj Ai
En estas condiciones puede demostrarse que Dij se distribuye asintóticamente
como una normal de media cero y varianza (J
2
= 1(1
12 Aj + Ai1) .
Para hacer la prueba se procede como sigue: sea a el nivel de significancia
global de la prueba y
20'
a' = K(K _ 1) (4.3)
a'
donde Z eL es tal que P( Z ~ Z eL) = -, o bien cuando
2 2 2
- - N(N + 1) (~ + ~)
IRej - Reil ~ z,!/- ,/ 12 N Ni
j
4.2. ARREGLOS DE UNA VÍA Y PRUEBA DE KRUSKAL-WALLIS 73
J= ¿Wij
i<j
donde
v = 1,··· ,Nj u= 1,··· ,Ni
es el número de observaciones de la muestra j que exceden a las de la muestra i.
La prueba de Jonckheere Terpstra rechaza la hipótesis Ho : el = ... = eK a
favor de la alternativa K 1 : el ~ ... ~ eK cuando
J ~ E( J) + Z", JVar J
donde
N K 2
E(J) = ¿ Ni2N = N ¿--t
j 2
-
i<j j=l
porque
K 2 K
(¿N j ) = ¿NJ +2¿¿NiNj
j=l j=l i<j
y
1 K
Var(J) = 72 (N (2N + 3) - ¿NJ(2N
2
j + 3))
j=l
y Z" el a-ésimo cuantil superior de la distribución normal.
74 CAPÍTULO 4. PROBLEMAS DE K MUESTRAS: UNA Y DOS VÍAS
2. Una situación ligeramente diferente pero que puede ser descrita por este
modelo es cuando m jueces (bloques) ordenan K productos (tratamientos).
En este caso no hay independencia entre tratamientos, pues se trata del
mismo juez calificando cada vez un producto diferente.
Modelo de muestreo
Para la primera situación se supone que las observaciones provienen de varia-
bles aleatorias independientes X ij , i = 1, ... , n j = 1, ... , K, de distribuciones
Fi(x-e j ), Fi E 0 0 , i = 1, ... , n. Es decir, Fi es la distribución de las observaciones
e
en el i-ésimo bloque y dentro del i-ésimo bloque j es la mediana del j-ésimo
tratamiento. Para la segunda situación se supone que la observación en el i-ésimo
bloque (X il , ... ,XiK ) proviene de una distribución conjunta F i (X1 - el, ... ,XK -
eK), y que la distribución de cualquier permutación de los tratamientos dentro de
un bloque es la misma. El interés en cualquiera de los dos casos está en contrastar
la hipótesis H o : el = ... = eK con la alternativa K 1: no todos los e SOIl iguales.
Sea Rij el rango de X ij entre X i1 , ... , X iK , que son las observaciones dentro
n
del i-ésimo bloque. Entonces R.j = ¿ Rij es la suma de los rangos del j-ésimo
i=l
tratamiento. Este esquema se muestra en la tabla siguiente:
4.3. ARREGLOS DE DOS VÍAS Y PRUEBA DE FRIEDMAN 75
Tratamientos
Bloques 1 2 K
1 Rll R 12 R 1K
2 R 21 R 22 R 2K
n Rnl R n2 R nK
R. 1 R. 2 R.K
12 K ( n(K+1))2
nK(K + 1) ~ R.j -
M ( 4.4)
2
12 ~
( nK(K + 1) ~ R.j
2) - 3n(K + 1) (4.5)
Manejo de empates
En este caso los empates representan un problema sólo cuando se encuentran
dentro del mismo bloque. Cuando son pocos, puede usarse el rango promedio en
los bloques que contengan empates. Si son muchos puede corregirse la estadística
de prueba así:
donde Ti es el número de grupos con empates en el i-ésimo bloque i = 1, ... ,n, bij ,
con j = 1,'" ,Ti, es el número de observaciones empatadas en el j-ésimo grupo
de empates del i-ésimo bloque y los R.j se calculan asignando rangos promedios a
los grupos empatados. Bajo la hipótesis nula, la estadística M* tiene distribución
X2 con K- 1 grados de libertad y, por lo tanto, se rechaza Ha : ()¡ = ... = BK
cuando: M* ~ xi-a' K-l'
Ejemplo 4.3.1. (Tomado de Lehmann, 1975, p. 266). Relaciones entre asociación y
memoria. Para estudiar el efecto de las asociaciones emocionales sobre la memoria,
se pidió a 15 sujetos recordar el título de 18 historias que ellos habían escrito antes.
Las historias se clasificaron según el mensaje contenido: positivo (+), neutro (O) y
negativo ( ). Se tienen entonces n = 15 bloques, K = 3 tratamientos con N = 45
76 CAPÍTULO 4. PROBLEMAS DE K MUESTRAS: UNA Y DOS VÍAS
----- ------
Como ejercicio, puede verificarse que el valor de la estadística, corregida por em-
4,43 C
pates, es M* = 0,883 = 5,021. on este valor no se rechaLla Ho al nivel de
significancia del 5 % pues X6.95:2 = 5,8.
20'
donde a' = K(K _ 1) y a' = 1
2
-1>(ZD.'.) 2
4.3. ARREGLOS DE DOS VÍAS Y PRUEBA DE FRIEDMAN 77
Q = _1 ~
Vn ~
(j _K2+ 1) (R ._n( K2+ 1) )
eJ
j=l
donde E(Q) = O Y
Asociación y correlación
Modelo de muestreo
Se tiene una muestra aleatoria (Xl, Yd,··· ,(Xn , Yn ) proveniente de una dis-
tribución bivariada continua F( x, y), con distribuciones marginales continuas Fx (x)
y Fy(y). Es decir, los datos corresponden a la observación de dos características
observadas simultáneamente sobre un grupo de n individuos.
Sin perder generalidad, puede suponerse que las parejas de datos se encuentran
ordenadas con respecto a la primera componente del par, es decir que
Xl < X 2 < ... < X n
En este caso, al asignar rangos a las dos características simultáneamente, se obtiene
la sucesión
(1, Sd,·· . ,(n, Sn)
donde SI, ... ,Sn son los rangos de las Y.
f: (i _ n +2 1) (Si _ n +2 1)
2=1
rs
¿n(.z -
n+1)2n(
- ¿ S in+1)2
--
i=l 2 i=l 2
78
5.1. COEFICIENTE DE CORRELACIÓN POR RANGOS DE SPEARMAN 79
~(i-n;lr n(n 2 - 1)
12
~ (Si - n; 1 r = ~ (i - n; 1
pues la suma sobre los Si es sólo una permutación de los sumandos de la suma
r
sobre i. Así, el denominador completo es:
n(n 2 - 1)
12
Para el numerador, basta escribirlo como:
t (i -
2=1
n; 1) Si _ t (i _n; 1)n ; 1 t (i _n; 1) Si
2=1
=
,=1
porque ¿n (. n+1)n+1
z- - ...
- - - = O. Entonces (eJerc1clO):
i=l 2 2
f= (i - _n+_1)
i=l 2
Si ¿n .Z Si -
i=l
n(n+1)2
----'----
4
rs = ---:--;:---,--
2 (5.2)
n(n - 1) n(n 2 - 1)
12 12
Finalmente, nótese que (ejercicio):
~ d2 = n(n + 1)(2n + 1) _ 2 ~ iS
L...-' 3 L...- 2
i=l i=l
entonces
2
todo i, porque entonces ¿ d i 2 = O. Además, para que rs = -1, es necesario
i=l
que los rangos de las dos sucesiones vayan en direcciones opuestas, lo cual ocurre
cuando Si = n - i + l. En este caso basta demostrar que (ejercicio):
n n
¿d i
2 = ¿(i _(n _ i + 1))2 = n(n 2
-1)
2=1 i=l
Para la interpretación es suficiente tener en cuenta que los valores cercanos a uno
indican asociación positiva o directa entre las variables (aumento en X implica
aumento en Y, disminución en X implica disminución en Y, y viceversa en ambos
casos). Los valores cercanos a menos uno indican asociación negativa o inversa
entre las variables (aumento en X implica disminución en Y, disminución en X
implica aumento en Y, y viceversa en ambos casos).
_ _ _ _ _ nega~amen~ L _ _ _ _ _
X 1 2 3
n
y SI S2 S3 ¿ iSi Valores de D rs
i=1
1 2 3 14 1,0
1 3 2 13 °2 0,5
2 1 3 13 2 0,5
2 3 1 11 6 -0,5
3 1 2 11 6 -0,5
3 2 1 10 8 -1,0
n 2 -1 n+1
E(Si) = n +1 Var(S) =-- Cov(S2, S) = - -12-
2 2 12 J
1
Var(r s ) = - -
n-1
Con lo anterior también se demuestra que (véase Hettmansperger, 1984):
1
= ~
12 ~(.
n
bx = 12 ¿(bj - 1)2bj y bY ~ eJ - 1) 2 ej
j=1 j=1
~
si x >O
sg(x) = { si x = O
-1 si x <O
Los pares (Xi, Yi) y (Xj , Yj) son concordantes si sg(Xi - Xj) sg(Yi - Yj) = 1 Y
son diseordantes si sg(Xi - X j ) sg(Yi - Yj) = -l.
Si se define P como el número de pares concordantes y Q como el número
de pares discordantes, se calcula el exceso de concordancias sobre el exceso de
discordancias por la diferencia
S varía desde -n(n - 1)/2, valor que toma cuando todos los pares son dis-
cordantes, hasta n(n - 1)/2, cuando todos los pares son concordantes. Entonces,
máx{S} = -n(n - 1)/2. El coeficiente T de Kendall (1938) es:
S 2(P - Q)
T - - - - ---;---..,.-
- máx S - n(n - 1)
El número total de comparaciones posibles de los n pares es n( n -1) /2, número que
coincide con la suma de las concordancias y las discordancias. Es decir, P + Q =
n(n - 1)/2, así que P = n(n - 1)/2 - Q. Al remplazar este valor de P se obtiene
la siguiente expresión más común para T:
-1 <T <1
donde T = 1 cuando todos los pares son concordantes
T = -1 cuando todos los pares son discordantes, y
T = O cuando no hay concordancia ni discordancia dominantes.
P-Q
T = -¡==========~-¿===========
jn(n - 1) _ T jn(n - 1) _ T
V 2 xV 2 y
donde
Arbuhnot, J. (1710), 'An argument for Divine Providenee, taken from the eonstant
regularity observed in births of both sexes', Phil. Trans. 27, 186 190.
Bünning, H. & Trenkler, G. (1994), Nichtparametrische Statistische Methoden,
Walter de Gruuyter, Berlin. New York.
Conover, W. (1999), Practical Nonparametric Statistics, Wiley, New York.
D'Agostino, R. B. & Stephens, M. A. (1986), Goodness of Fít Techníques, Mareel
Dekker, New York.
Gibbons, J. D. (1971), Nonparametric Statístícal Inference, MeGraw Hill, New
York.
Gibbons, J. D. & Chakraborti, S. (1992), Nonparametríc Statístical Inference, Mar-
eel Dekker, N ew York.
Hettmansperger, T. (1984), Statístícal Inference Based on Ranks, John Wiley &
Sons, New York.
Hájek, J. & Sidák, Z. (1967), Theory of Rank Tests, Aeademie Press, New York.
Hájek, J., Sidák, Z. & Sen, P. (1999), Theory of Rank Tests, John Wiley & Sons,
New York.
Hollander, M. & Wolfe, D. A. (1973), Nonparametric Statistical Methods, John
Wiley & Sons, New York.
Landry, L. & Lepage, Y. (1992), 'Empirieal behaviour ofsome tests for normality',
Comm, Statist. Símul. Computo 21, 971-999.
Lehmann, E. L. (1975), Nonparametrics: Statistical Methods Based on Ranks, Me-
Graw Hill, New York.
Manoukian, E. (1986), Mathematical Nonparametric Statistics, Gordan and Breaeh
Sienee Publishers, New York.
Pearson, K. (1900), 'On the eriterion that a given system from the probable in
the ease of eorrelated system of variables is s11ch that it can be reasonable
supposed to have arisen from random sampling', Phü. Mag. Ser. 5(50), 157-
175.
Randles, R. & Wolfe, D. (1979), Introduction to the Theory of Nonparametric
Statistics, John Wiley & Sons, New York.
84
BIBLIOGRAFÍA 85
Anti-rangos, 36 K muestras
dus factores de clasificación, 74
Distribución exacta, 20 un factor de clasificación, 69
X 2 ,23 dos muestras, 58
coeficiente de Spearman, 80 una muestra, 36
Kolmogorov- Smirnov, 20
dos muestras, 56
Kruskal- Wallis, 70
Mann-Whitney-Wilcoxon, 60
Mood,66
número total de rachas, 28
rango signado de Wilcoxon, 38
con empates, 43
Empates
coeficiente de asociación de Kendall,
83
c:oeficiente de asociación de Spear-
man, 81
Kolmogorov--Smirnov para la prue-
ba de bondad de ajuste, 21
Kruskal-Wallis, 70
manejo de, 41
prueba de Friedman, 75
prueba del signo, 42
rango signado de Wilcoxon, 42
Wilcoxon para dos muestras, 63
Escalas de medida, 16
de intervalo, 17
de razón, 18
nominal, 16
ordinal o de rango, 16
Rachas
aleatoriedad, 27
definición, 26
igualdad de distribuciones, 54
Rangos, 36
86
ESTE LIBRO SE TERMINÓ DE IMPRIMIR
EN EL MES DE AGOSTO DE 2005 EN LA
UNIVERSIDAD NACIONAL DE COLOMBIA
UNIBIBWS dirunibiblo_bog@unal.edu.co
BOGOTÁ, D.C., COLOMBIA
[,1 (',¡lpcClon Not,l" de Cldsf' de 1,1 [,Icultad elE' CI\'11Ci<1'o,('\ Ull l' ¡Jele!"
,lht'lto ,1 los profesores p~¡r,l pllbllCdl su experlenCld dOCl'Iltl',
1I'(Opll,lda en el tiempo el tlaves de notas esc IILIS, Se espel,l C¡IJC la',
'11\I'II,'I,lC1ones autor (olegas y plofc'sores cstuckllltes ')f'dll 1,1 melol
¡lUn rol palcl que ('')\'lS not.1s c,e cjí'puren, el fl!l eje qlW (,n UIl h¡'ul
IlWClldto ,lclqUlt'IClII CHéltuLl cit' texto,
(Ot11I1.· I d,tonal
I acuitad h ( "'Il( 'd';
11 1 1111