Академический Документы
Профессиональный Документы
Культура Документы
Introducción
En este tema veremos,
◊ Inferencia no paramétrica en una población
Contraste de bondad de ajuste de Kolmogorov-Smirnov.
Contrastes de posición:
Test de los rangos signados de Wilcoxon.
◊ Inferencia no paramétrica en dos poblaciones independientes
Contraste de homogeneidad de Kolmogorov-Smirnov.
Contraste de la U de Mann-Whitney-Wilcoxon.
◊ Inferencia no paramétrica en dos poblaciones apareadas
◊ Independencia de dos variables
Contraste del coeficiente de la τ de Kendall.
◊ Inferencia no paramétrica en varias poblaciones independientes
Test de Kruskall-Wallis
1
1/12/17
Introducción
H 0 : !Los!datos!proceden!de!una!distribución!F0 ⎪⎫ H 0 : F = F0 ⎫⎪
⎬⇔ ⎬
H1 : !Los!datos!no!proceden!de!una!distribución!F0 ⎪⎭ H 0 : F ≠ F0 ⎪
! ⎭
2
1/12/17
Una vez ordenada la muestra, la función de distribución empírica, Fn, de los datos
para las n observaciones se define como:
⎧ 0 si x < x(1)
⎪
⎪ 1
⎪ si x(1) ≤ x < x(2)
⎪ n
⎪ !
⎪ i
Fn (x) = ⎨ si x(i) ≤ x < x(i+1)
⎪ n
⎪ !
⎪ n −1
⎪ si x( n−1) ≤ x < x( n)
⎪ n
⎪ 1 si x > x( n)
! ⎪⎩
Es decir, Fn es la proporción de observaciones que son inferiores o iguales a x.
{
Dn = máx Fn (x(i−1) ) − F0 (x(i) ) , Fn (x(i) ) − F0 (x(i) ) }
Se rechaza la hipótesis nula a nivel α para valores grandes del estadístico; es decir,
se rechaza si
D > Dn,α !con !P(Dn > Dn,α ) = α
! n
Por tanto la región crítica es RC = [Dn,α ,+∞)
Tema 9.- Introducción a la inferencia no paramétrica 6
3
1/12/17
Fn
Fn (x(i) ) − F0 (x(i) )
Fn (x(i−1) ) − F0 (x(i) )
F0
H 0 : !F = F0 ≡ N (0,1) ⎫⎪
⎬
H : !F ≠ F0 ≡ N (0,1) ⎭⎪
! 1
Los 10 valores observados, ordenados de menor a mayor vienen dados en la
siguiente tabla. En la misma tabla también se proporcionan otros valores
necesarios para calcular el estadístico del contraste:
(i) X(i) Fn(x(i)) Fn(x(i-1)) F0(x(i)) Fn (x(i ) ) − F0 (x(i ) ) Fn (x(i −1) ) − F0 (x(i ) )
1 -2.46 0.1 0 0.0069 0.0931 0.0069
2 -1.23 0.2 0.1 0.1093 0.0907 0.0093
3 -0.39 0.3 0.2 0.3483 0.0483 0.1483
4 -0.10 0.4 0.3 0.4602 0.0602 0.1602
5 -0.02 0.5 0.4 0.4920 0.0080 0.0920
6 0.40 0.6 0.5 0.6554 0.0554 0.1554
7 0.44 0.7 0.6 0.6700 0.0300 0.0700
8 0.81 0.8 0.7 0.7910 0.0090 0.0910
9 1.39 0.9 0.8 0.9177 0.0177 0.1177
10 1.76 1.00 0.9 0.9608 0.0392 0.0608
4
1/12/17
D10=máx(0.0931,0. 1602)=0.1602
D10,0.05=0.409
H 0 : M = M 0 ⎫⎪ H 0 : M ≤ M 0 ⎫⎪ H 0 : M ≥ M 0 ⎫⎪
⎬ ⎬ ⎬
H1 : M ≠ M 0 ⎭⎪ H1 : M > M 0 ⎭⎪ H1 : M < M 0 ⎭⎪
5
1/12/17
③ Se suman por separado los rangos de las diferencias positivas (W+) y negativas
(W-). El estadístico de Wilcoxon es
W =W +
Si H0 es cierta es lógico que W+ y W- sean iguales (habrá igual número a un
lado que a otro del 0).
n
n(n + 1)
(Como W+ y W- están relacionados linealmente W + + W − = ∑i = basta
considerar W+) i=1 2
Tema 9.- Introducción a la inferencia no paramétrica 11
Para el contraste H 0 : M ≥ M 0 ⎫⎪
⎬
H1 : M < M 0 ⎭⎪
Se rechaza la hipótesis nula si W < c con P(W < c) = α. R.C.=(0,Wn,1−α ]
Para el contraste H 0 : M = M 0 ⎫⎪
⎬
H1 : M ≠ M 0 ⎪⎭
Se rechaza la hipótesis nula si W < c1 ó W > c2 con P(W < c1) = α/2 y P(W > c2) = α/2.
R.C.=(0, Wn,1−α /2 ] U[Wn,α /2,+∞)
6
1/12/17
Ejemplo
En general, la distancia mediana que alcanzan los lanzadores de peso es de 21
metros. Se está estudiando un nuevo material con el que se cree que puede
aumentar esta distancia. Se anota esta distancia para 10 lanzadores, y los
resultados son
24.1 25.8 20.5 20.9 27.3 21.5 20.1 28.9 19.2 26.3
X i# 24.1% 25.8% 20.5% 20.9% 27.3% 21.5% 20.1% 28.9% 19.2% 26.3%
Xi$21# 3.1% 4.8% -0.5% -0.1% 6.3% 0.5% -0.9% 7.9% -1.8% 5.3%
!! − !" # 3.1% 4.8% 0.5% 0.1% 6.3% 0.5% 0.9% 7.9% 1.8% 5.3%
Ri# 6% 7% 2.5% 1% 9% 2.5% 4% 10% 5% 8%
Signo# +% +% -% -% +% +% -% +% -% +%
Los valores que corresponden a los rangos 2 y 3 son los mismos (0.5),
deshacemos el empate asignando a cada uno la media de los rangos, 2.5.
W+ = ∑ Ri = 6 + 7 + 9 + 2.5 + 10 + 8 = 42.5
rangos!
! positivos
Por tanto,
W = W + = 42.5
R.C.= [44,+∞)
7
1/12/17
Se rechazará la hipótesis nula cuando Dnm>Dnm,α, cuyo valor se obtiene en las tablas
correspondientes.
Ejemplo
Se observaron 12 niñas y 12 niños de 4 años durante dos sesiones de juegos de 15
minutos. Durante estos dos periodos se cuantificó el juego de cada niñ@ según su
agresividad, dándose los siguientes resultados
Contrastar la hipótesis de que hubo diferencias entre los sexos por la cantidad de
agresividad demostrada mediante el test de Kolmogorov-Simirnov.
6
Dm,n > Dm,n,α = D12,12,0.05 =
12
8
1/12/17
x FX,12(x) FY,12(x) FX ,12 (x) − FY ,12 (x) x FX,12(x) FY,12(x) FX ,12 (x) − FY ,12 (x)
Contraste de U de Mann-Whitney-Wilcoxon
H 0 : FX ≤ F Y (⇒ M X ≥ M Y ) ⎫⎪ H 0 : FX ≥ F Y (⇒ M X ≤ M Y ) ⎫⎪
⎬ ⎬
H1 : FX > F Y (⇒ M X < M Y ) ⎭⎪ H1 : FX < F Y (⇒ M X > M Y ) ⎭⎪
H 0 : FX = F Y (⇒ M X = M Y ) ⎫⎪
⎬
H1 : FX ≠ F Y (⇒ M X ≠ M Y ) ⎭⎪
Sean
⎧ 1 si Xi < Y j
⎪ n
Zij = ⎨ , i = 1,…, m; j = 1,…,n (∑ Zij = !número!de!Y j !mayores!que!Xi = Zi⋅ )
⎪⎩ 0 si Xi > Y j ! j=1
!
9
1/12/17
m n
U = ∑ ∑ Zij = !Número!de!valores!Y1 ,…,Yn !que!son!mayores!que!cada!uno!de!los!X1 ,…, X m
! i=1 j=1
U varía entre 0 (si todos los valores de Xi son mayores que los Yj) y m×n (si todos
los Xi son menores que los Yj).
Para el contraste
H 0 : FX ≤ F Y (⇒ M X ≥ M Y ) ⎪⎫
⎬
H1 : FX > F Y (⇒ M X < M Y ) ⎪⎭
Se rechaza la hipótesis nula si U > c con P(U > c) = α. (R.C.=[Um,n,α ,+∞) )
Para el contraste H 0 : FX ≥ F Y (⇒ M X ≤ M Y ) ⎫⎪
⎬
H1 : FX < F Y (⇒ M X > M Y ) ⎭⎪
Se rechaza la hipótesis nula si U < c con P(U < c) = α. (R.C.=(0,Um,n,1−α ] )
Para el contraste
H 0 : FX = F Y (⇒ M X = M Y ) ⎫⎪
⎬
H1 : FX ≠ F Y (⇒ M X ≠ M Y ) ⎪⎭
Se rechaza la hipótesis nula si U < c1 ó U > c2 con P(U < c1) = α/2 y P(U > c2) = α/2.
(R.C.= (0,Um,n,1−α /2 ] U[Um,n,α /2,+∞) )
10
1/12/17
Ejemplo
Queremos averiguar si el número de horas que dedican los estudiantes a las
asignaturas de Introducción financiera y Contabilidad son las mismas. Los datos
son los siguientes:
Introducción
Contabilidad
financiera
10 13
6 17
8 14
10 12
12 10
13 9
11 15
9 16
5 11
11
El contraste es
H 0 : FX = FY ⎪⎫ H 0 : M X = M Y ⎪⎫
⎬ ⇒ ⎬
H1 : FX ≠ FY ⎪⎭ H1 : M X ≠ M Y ⎪⎭
5 6 8 9 9 10 10 10 11 11 11 12 12 13 13 14 15 16 17
x x x x y x x y x x y x y x y y y y y
U = 9 + 9 + 9 + 8 + 7 + 7 + 6 + 6 + 5 + 4 = 70
En la tabla obtenemos
U10,9,0.05 = 65
U10,9,0.95 = m ⋅ n − U10,9,0.05 = 10 ⋅ 9 − 65 = 25
11
1/12/17
Individuo 1 2 3 4 5 6 7 8
Producto original 6 4 5 8 3 6 7 5
Producto nuevo 8 9 4 7 9 9 7 9
!" − 0 -2 -5 1 1 -6 -3 0 -4
Rango 3 6 1.5 1.5 7 4 X 5
Signo - - + + - - -
𝐻; : 𝑀> ≥ 0 (𝑀B ≥ 𝑀C )
G
𝐻E : 𝑀> < 0 (𝑀B < 𝑀C )
𝑛×(𝑛 + 1) 7×8
𝑊H,;.JK = − 𝑊H,;.;K = − 24 = 28 − 24 = 4
2 2
y
R.C.=(0,4]
Como el valor del estadístico es menor que 4, se rechaza la hipótesis nula. Por
tanto, los consumidores prefieren el nuevo producto.
12
1/12/17
Ejemplo
Se tiene una muestra de parejas de jóvenes con la siguiente distribución de alturas
Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Mujer 72 60 76 62 63 46 68 71 61 65
n(n − 1) 10 ⋅9
El número total de pares que se pueden formar es NP = = = 45
2 2
13
1/12/17
Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Rango 10 5 8 7 1 4 9 6 2 3
Mujer 72 60 76 62 63 46 68 71 61 65
Rango 9 2 10 4 5 1 7 8 3 6
(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)
(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)
Luego NC = 5 + 6 + 4 + 6 + 5 + 2 + 3 + 0 + 1 = 32
14
1/12/17
El coeficiente de la τ de Kendall es NC − N D
τ=
NP
El estadístico del contraste será S = NC-ND, entonces se rechazará la hipótesis nula si
el valor del estadístico está en la región crítica:
Contraste de Kruskall-Wallis
H 0 :Las!medianas!de!todas!las!poblaciones!son!iguales ⎫⎪
⎬
H1 : Al!menos!un!par!de!medianas!no!son!iguales ⎭⎪
!
El procedimiento es el siguiente:
② Sustituir los datos de todas las poblaciones por sus rangos asignando en los
empates la media de los rangos que les corresponderían si no hubiese
empates.
15
1/12/17
1 ⎛ 12 k
Ri2 ⎞
H= ⎜ ∑
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟
⎠
donde
k = !número!de!muestras!(poblaciones)
ni = !tamaño!muestral!de!la!población!i
n = !tamaño!muestral!total!n = n1 +…+ nk
!
1 m 3
y L = 1− ∑ (L − Li )
n3 − n i=1 i
El estadístico H es una medida de la variabilidad de los rangos, Ri , y sigue una
distribución χ k−1
2
H 0 : M i = M j ⎫⎪
⎬ !para!todo!i ≠ j
H1 : M i ≠ M j ⎪⎭
!
16
1/12/17
Ejemplo
Un estudio pretende analizar si existen diferencias entre el nivel de insulina
producido por 5 tratamientos diferentes para mejorar el rendimiento de los
deportistas. Los valores obtenidos por los distintos individuos son los siguientes:
m = 2, L1 = 2, L2 = 2
Calculamos el valor de L:
1 m 3 1 12
L = 1− ∑ (L − Li ) = 1− 313 − 31 ⎡⎣(23 − 2) + (23 − 2) ⎤⎦ = 1− 29760 = 0.9996
n − n i=1 i
3
El estadístico es
1 ⎛ 12 k
Ri2 ⎞ 1 ⎡ 12 ⎤
H= ⎜ ∑
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟ =
⎠ 0.9996 ⎢ 31⋅32 9754 − 3⋅32 ⎥ = 22
⎣ ⎦
Como
χ k−1,
2
α
= χ 4,0.05
2
= 9.487 R.C.=[9.487,+∞)
y H > 9.487, se rechaza la hipótesis nula y, por tanto, hay diferencias entre las
poblaciones. El nivel de insulina es distinto según el tratamiento utilizado.
17
1/12/17
18