Tema 9. - Introducción A La Inferencia No Paramétrica

1/12/17
Tema 9.- Introducción a la inferencia

no paramétrica
◊ Introducción
◊ Inferencia no paramétrica en una población
◊ Inferencia no paramétrica en dos poblaciones
independientes
◊ Inferencia no paramétrica en dos poblaciones
dependientes
◊ Independencia de dos variables
◊ Inferencia no paramétrica en varias poblaciones
independientes.
Introducción
En este tema veremos,
◊ Inferencia no paramétrica en una población
Contraste de bondad de ajuste de Kolmogorov-Smirnov.
Contrastes de posición:
Test de los rangos signados de Wilcoxon.
◊ Inferencia no paramétrica en dos poblaciones independientes
Contraste de homogeneidad de Kolmogorov-Smirnov.
Contraste de la U de Mann-Whitney-Wilcoxon.
◊ Inferencia no paramétrica en dos poblaciones apareadas
◊ Independencia de dos variables
Contraste del coeficiente de la τ de Kendall.
◊ Inferencia no paramétrica en varias poblaciones independientes
Test de Kruskall-Wallis
Tema 9.- Introducción a la inferencia no paramétrica 2
1
1/12/17
Introducción
En inferencia paramétrica se necesita bien suponer que la variable sigue una

distribución normal o bien que los tamaños muestrales sean lo suficientemente
grandes para poder asumir la distribución normal.
En caso de que no se dé ninguna de las dos condiciones se deben utilizar procedi-

mientos de inferencia no paramétrica.
Se aconseja acudir a los procedimientos no paramétricos cuando:

◇ No se conoce la distribución de la variable y/o se duda de su normalidad.
◇ El número de individuos es pequeño y hay ausencia de normalidad.
Ventajas de los contrastes no paramétricos:

◇ Son simples de deducir, ya que sus expresiones son sencillas.
◇ Son rápidos, ya que las operaciones matemáticas son ordenar, contar, sumar y
restar.
◇ Tienen un campo de aplicación muy amplio, ya que las hipótesis necesarias son
muy generales y mucho menos exigentes que las de los contrastes paramétricos.
Su principal desventaja es la pérdida de información. También son menos eficientes

que los procedimientos paramétricos. En general, si es posible, no se aconseja su
uso.
Inferencia no paramétrica en una población
Contraste de bondad de ajuste de Kolmogorov-Smirnov
Este contraste sólo es válido para distribuciones continuas. Resolveremos el

siguiente contraste:
H 0 : !Los!datos!proceden!de!una!distribución!F0 ⎪⎫ H 0 : F = F0 ⎫⎪
⎬⇔ ⎬
H1 : !Los!datos!no!proceden!de!una!distribución!F0 ⎪⎭ H 0 : F ≠ F0 ⎪
! ⎭
Es un contraste alternativo al de la χ2 con la ventaja de que se puede utilizar cuando

el tamaño muestral es pequeño.
Consiste en comparar la distribución empírica obtenida a partir de los datos con la

distribución F0.
La distribución empírica para una muestra de tamaño n se obtiene de la siguiente

forma:
En primer lugar se ordenan los elementos de la muestra de menor a mayor:
(x1 , x2 ,…, xn ) → (x(1) , x(2) ,…, x( n) )
2
1/12/17
Una vez ordenada la muestra, la función de distribución empírica, Fn, de los datos
para las n observaciones se define como:
⎧ 0 si x < x(1)
⎪
⎪ 1
⎪ si x(1) ≤ x < x(2)
⎪ n
⎪ !
⎪ i
Fn (x) = ⎨ si x(i) ≤ x < x(i+1)
⎪ n
⎪ !
⎪ n −1
⎪ si x( n−1) ≤ x < x( n)
⎪ n
⎪ 1 si x > x( n)
! ⎪⎩
Es decir, Fn es la proporción de observaciones que son inferiores o iguales a x.
Se toma como estadístico del contraste la mayor de las diferencias en valor

absoluto entre la función de distribución empírica de los datos y la propuesta en la
hipótesis nula:
Dn = sup Fn (x) − F0 (x) Estadístico de Kolmogorov-Smirnov
Como la función Fn es escalonada, las diferencias máximas se tienen en los puntos

de salto. Así que Dn se calcula del siguiente modo:
{
Dn = máx Fn (x(i−1) ) − F0 (x(i) ) , Fn (x(i) ) − F0 (x(i) ) }
Se rechaza la hipótesis nula a nivel α para valores grandes del estadístico; es decir,
se rechaza si
D > Dn,α !con !P(Dn > Dn,α ) = α
! n
Por tanto la región crítica es RC = [Dn,α ,+∞)
3
1/12/17
Fn
Fn (x(i) ) − F0 (x(i) )
Fn (x(i−1) ) − F0 (x(i) )
F0

Ejemplo
Se desea contrastar la hipótesis de si una muestra de 10 observaciones se
seleccionó o no de una normal estándar. Las hipótesis son
H 0 : !F = F0 ≡ N (0,1) ⎫⎪
⎬
H : !F ≠ F0 ≡ N (0,1) ⎭⎪
! 1
Los 10 valores observados, ordenados de menor a mayor vienen dados en la
siguiente tabla. En la misma tabla también se proporcionan otros valores
necesarios para calcular el estadístico del contraste:
(i) X(i) Fn(x(i)) Fn(x(i-1)) F0(x(i)) Fn (x(i ) ) − F0 (x(i ) ) Fn (x(i −1) ) − F0 (x(i ) )
1 -2.46 0.1 0 0.0069 0.0931 0.0069
2 -1.23 0.2 0.1 0.1093 0.0907 0.0093
3 -0.39 0.3 0.2 0.3483 0.0483 0.1483
4 -0.10 0.4 0.3 0.4602 0.0602 0.1602
5 -0.02 0.5 0.4 0.4920 0.0080 0.0920
6 0.40 0.6 0.5 0.6554 0.0554 0.1554
7 0.44 0.7 0.6 0.6700 0.0300 0.0700
8 0.81 0.8 0.7 0.7910 0.0090 0.0910
9 1.39 0.9 0.8 0.9177 0.0177 0.1177
10 1.76 1.00 0.9 0.9608 0.0392 0.0608
4
1/12/17
El valor del estadístico es
D10=máx(0.0931,0. 1602)=0.1602
Buscamos el valor D10,0.05 en la tabla correspondiente. Se tiene que
D10,0.05=0.409
Como 0.1602<0.409, no se rechaza la hipótesis nula. Podemos suponer que los

datos siguen una distribución N(0,1).
Tema 9.- Introducción a la inferencia no paramétrica

9
Contrastes de posición: Test de los rangos signados de Wilcoxon

Sean
X variable aleatoria continua y simétrica respecto a su mediana M
(X1, X2,…,Xn) una muestra aleatoria de tamaño n de X
M0 valor hipotético de la mediana.
Los contrastes de hipótesis que vamos a resolver son los siguientes:
H 0 : M = M 0 ⎫⎪ H 0 : M ≤ M 0 ⎫⎪ H 0 : M ≥ M 0 ⎫⎪
⎬ ⎬ ⎬
H1 : M ≠ M 0 ⎭⎪ H1 : M > M 0 ⎭⎪ H1 : M < M 0 ⎭⎪
Esto equivale a que aproximadamente la mitad de las observaciones estén

repartidas por igual a cada lado de M0 o que a uno de los lados haya un número
significativamente mayor que al otro.
Calculamos las diferencias X 1 − M 0 , X 2 − M 0 ,…, X n − M 0

(si M=M0 aproximadamente la mitad de las observaciones estarán a la izquierda
del 0)
5
1/12/17
Para resolver el contraste seguimos los siguientes pasos:
① Ordenamos de menor a mayor el conjunto de las diferencias anteriores en

valor absoluto, X i − M 0 .
② Asignamos rangos, Ri, a estas diferencias del 1 al n, de forma que a la diferencia

más pequeña le corresponde el rango 1 y a la mayor el rango n.
Nota: Si hay empates de asigna a todas las coincidencias la media de los rangos
que les corresponderían.
Si M=M0, cada rango tiene la misma posibilidad de que se le asigne un signo
positivo o negativo.
③ Se suman por separado los rangos de las diferencias positivas (W+) y negativas
(W-). El estadístico de Wilcoxon es
W =W +
Si H0 es cierta es lógico que W+ y W- sean iguales (habrá igual número a un
lado que a otro del 0).
n
n(n + 1)
(Como W+ y W- están relacionados linealmente W + + W − = ∑i = basta
considerar W+) i=1 2

Nota: W grande
④ Para el contraste indicaría que hay
H 0 : M ≤ M 0 ⎪⎫ más observaciones
⎬ y con mayores
H1 : M > M 0 ⎪⎭ magnitudes a la
derecha de M0
Se rechaza la hipótesis nula si W > c con P(W > c) = α.
R.C.=[Wn,α ,+∞)
Para el contraste H 0 : M ≥ M 0 ⎫⎪
⎬
H1 : M < M 0 ⎭⎪
Se rechaza la hipótesis nula si W < c con P(W < c) = α. R.C.=(0,Wn,1−α ]
Para el contraste H 0 : M = M 0 ⎫⎪
⎬
H1 : M ≠ M 0 ⎪⎭
Se rechaza la hipótesis nula si W < c1 ó W > c2 con P(W < c1) = α/2 y P(W > c2) = α/2.
R.C.=(0, Wn,1−α /2 ] U[Wn,α /2,+∞)
6
1/12/17
Ejemplo
En general, la distancia mediana que alcanzan los lanzadores de peso es de 21
metros. Se está estudiando un nuevo material con el que se cree que puede
aumentar esta distancia. Se anota esta distancia para 10 lanzadores, y los
resultados son
24.1 25.8 20.5 20.9 27.3 21.5 20.1 28.9 19.2 26.3
Vamos a resolver el siguiente contraste al nivel de significación α=0.05

H 0 : M ≤ 21⎪⎫
⎬
H1 : M > 21 ⎭⎪
X i# 24.1% 25.8% 20.5% 20.9% 27.3% 21.5% 20.1% 28.9% 19.2% 26.3%
Xi$21# 3.1% 4.8% -0.5% -0.1% 6.3% 0.5% -0.9% 7.9% -1.8% 5.3%
!! − !" # 3.1% 4.8% 0.5% 0.1% 6.3% 0.5% 0.9% 7.9% 1.8% 5.3%
Ri# 6% 7% 2.5% 1% 9% 2.5% 4% 10% 5% 8%
Signo# +% +% -% -% +% +% -% +% -% +%
Los valores que corresponden a los rangos 2 y 3 son los mismos (0.5),
deshacemos el empate asignando a cada uno la media de los rangos, 2.5.
Los valores de los estadísticos son
W+ = ∑ Ri = 6 + 7 + 9 + 2.5 + 10 + 8 = 42.5
rangos!
! positivos
Por tanto,
W = W + = 42.5
Para n=10 y α=0.05, en la tabla correspondiente obtenemos el valor Wα=44.

Como el valor del estadístico es menor, no se rechaza la hipótesis nula.
R.C.= [44,+∞)
No tenemos evidencia suficiente para concluir que el material aumenta la

distancia de los lanzamientos.
7
1/12/17
Inferencia no paramétrica en dos poblaciones
Compararemos el comportamiento una variable en dos poblaciones independientes

desde el punto de vista no paramétrico.
Contraste de Kolmogorov-Smirnov para dos poblaciones

Se trata de contrastar si dos muestras aleatorias (x1,…,xm) de una variable aleatoria
con función de distribución FX(x) y otra (y1,…,yn) de una variable con función de
distribución FY(x), proceden de la misma distribución; es decir son homogéneas. Las
hipótesis son
H 0 : FX (x) = FY (x) ⎪⎫
⎬
H1 : FX (x) ≠ FY ( y) ⎭⎪
Para resolver este contraste se calculan las funciones de distribución empíricas

correspondientes a ambas muestras, FX (x) y FY(x) y con ellas el estadístico del
contraste, que viene dado por
Dmn = máx FX (x) − FY (x)
Se rechazará la hipótesis nula cuando Dnm>Dnm,α, cuyo valor se obtiene en las tablas
correspondientes.
Ejemplo
Se observaron 12 niñas y 12 niños de 4 años durante dos sesiones de juegos de 15
minutos. Durante estos dos periodos se cuantificó el juego de cada niñ@ según su
agresividad, dándose los siguientes resultados
Niños: 86 69 72 65 113 65 118 45 141 41 50 104

Niñas: 55 40 22 58 16 7 9 16 26 36 20 15
Contrastar la hipótesis de que hubo diferencias entre los sexos por la cantidad de
agresividad demostrada mediante el test de Kolmogorov-Simirnov.
Se trata de contrastar H0: FX=FY frente a H1: FX≠FY. Rechazamos si
6
Dm,n > Dm,n,α = D12,12,0.05 =
12
8
1/12/17
Calculamos el estadístico mediante la siguiente tabla:
x FX,12(x) FY,12(x) FX ,12 (x) − FY ,12 (x) x FX,12(x) FY,12(x) FX ,12 (x) − FY ,12 (x)
7 0 1/12 1/12 50 3/12 10/12 7/12

9 0 2/12 2/12 55 3/12 11/12 8/12
15 0 3/12 3/12 58 3/12 1 9/12
16 0 5/12 5/12 65 5/12 1 7/12
20 0 6/12 6/12 69 6/12 1 6/12
22 0 7/12 7/12 72 7/12 1 5/12
26 0 8/12 8/12 86 8/12 1 4/12
36 0 9/12 9/12 104 9/12 1 3/12
40 0 10/12 10/12 113 10/12 1 2/12
41 1/12 10/12 9/12 118 11/12 1 1/12
45 2/12 10/12 8/12 141 1 1 0
Como D12,12 = 10/12 > 6/12, rechazamos la hipótesis nula. Hay diferencias entre
los sexos.
Contraste de U de Mann-Whitney-Wilcoxon
Dadas dos variables aleatorias ordinales o continuas, X e Y, se trata de contrastar la

homogeneidad de ambas. Es decir, se contrastan las siguientes hipótesis:
H 0 : FX ≤ F Y (⇒ M X ≥ M Y ) ⎫⎪ H 0 : FX ≥ F Y (⇒ M X ≤ M Y ) ⎫⎪
⎬ ⎬
H1 : FX > F Y (⇒ M X < M Y ) ⎭⎪ H1 : FX < F Y (⇒ M X > M Y ) ⎭⎪
H 0 : FX = F Y (⇒ M X = M Y ) ⎫⎪
⎬
H1 : FX ≠ F Y (⇒ M X ≠ M Y ) ⎭⎪
Sean
⎧ 1 si Xi < Y j
⎪ n
Zij = ⎨ , i = 1,…, m; j = 1,…,n (∑ Zij = !número!de!Y j !mayores!que!Xi = Zi⋅ )
⎪⎩ 0 si Xi > Y j ! j=1
!
9
1/12/17
Se define el estadístico de Mann-Whitney-Wilcoxon de la siguiente forma
m n
U = ∑ ∑ Zij = !Número!de!valores!Y1 ,…,Yn !que!son!mayores!que!cada!uno!de!los!X1 ,…, X m
! i=1 j=1
U varía entre 0 (si todos los valores de Xi son mayores que los Yj) y m×n (si todos
los Xi son menores que los Yj).
Ejemplo de cálculo del estadístico

Sean m = 4, n = 3 y los valores de las muestras son tales que
x2 < x1 < y3 < y2 < x4 < y1 < x3

Entonces
U = 3 + 3 + 1+ 0 = 7
U grande indica que los valores de la segunda muestra tienden a ser más grandes
que los de la primera, rechazamos H0:MX≥MY (H0:FX≤FY )
Si U es pequeño se deberá rechazar H0:MX≤MY (H0:FX≥FY )
Si U es grande o pequeño se deberá rechazar H0:MX=MY (H0:FX=FY ).
Para el contraste
H 0 : FX ≤ F Y (⇒ M X ≥ M Y ) ⎪⎫
⎬
H1 : FX > F Y (⇒ M X < M Y ) ⎪⎭
Se rechaza la hipótesis nula si U > c con P(U > c) = α. (R.C.=[Um,n,α ,+∞) )
Para el contraste H 0 : FX ≥ F Y (⇒ M X ≤ M Y ) ⎫⎪
⎬
H1 : FX < F Y (⇒ M X > M Y ) ⎭⎪
Se rechaza la hipótesis nula si U < c con P(U < c) = α. (R.C.=(0,Um,n,1−α ] )
Para el contraste
H 0 : FX = F Y (⇒ M X = M Y ) ⎫⎪
⎬
H1 : FX ≠ F Y (⇒ M X ≠ M Y ) ⎪⎭
Se rechaza la hipótesis nula si U < c1 ó U > c2 con P(U < c1) = α/2 y P(U > c2) = α/2.
(R.C.= (0,Um,n,1−α /2 ] U[Um,n,α /2,+∞) )
10
1/12/17
Ejemplo
Queremos averiguar si el número de horas que dedican los estudiantes a las
asignaturas de Introducción financiera y Contabilidad son las mismas. Los datos
son los siguientes:
Introducción
Contabilidad
financiera
10 13
6 17
8 14
10 12
12 10
13 9
11 15
9 16
5 11
11
El contraste es
H 0 : FX = FY ⎪⎫ H 0 : M X = M Y ⎪⎫
⎬ ⇒ ⎬
H1 : FX ≠ FY ⎪⎭ H1 : M X ≠ M Y ⎪⎭
m=10, n=9, α=0.1
5 6 8 9 9 10 10 10 11 11 11 12 12 13 13 14 15 16 17
x x x x y x x y x x y x y x y y y y y
U = 9 + 9 + 9 + 8 + 7 + 7 + 6 + 6 + 5 + 4 = 70
En la tabla obtenemos
U10,9,0.05 = 65
U10,9,0.95 = m ⋅ n − U10,9,0.05 = 10 ⋅ 9 − 65 = 25
Como el valor de U es mayor que 65, se rechaza la hipótesis de homogeneidad de

las variables. Las horas de estudio para contabilidad son superiores a las de
introducción financiera.
11
1/12/17
Inferencia no paramétrica en dos poblaciones dependientes
El problema del contraste en muestras apareadas se resuelve de forma similar a

como se hizo en el caso paramétrico; es decir trabajando con la muestra obtenida
como la diferencia entre las muestras de ambas poblaciones. Posteriormente
utilizaremos el contraste de Wilcoxon para resolver el problema.
Lo veremos mediante un ejemplo:

Ejemplo
Un fabricante de alubias precocinadas está considerando una nueva receta para la
salsa utilizada en su producto. Elige una muestra aleatoria de 8 individuos y a cada
uno de ellos le pide que valore en una escala de 1 a 10 el sabor del producto original
y el del nuevo producto. Los resultados se establecen en la siguiente tabla
Individuo 1 2 3 4 5 6 7 8
Producto original 6 4 5 8 3 6 7 5
Producto nuevo 8 9 4 7 9 9 7 9
!" − 0 -2 -5 1 1 -6 -3 0 -4
Rango 3 6 1.5 1.5 7 4 X 5
Signo - - + + - - -
El estadístico del contraste es

𝑊 = 𝑊 # = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑟𝑎𝑛𝑔𝑜𝑠 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑎
𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎𝑠 = 1.5 + 1.5 = 3
Inferencia no paramétrica en dos poblaciones dependientes
Queremos determinar si el nuevo producto es preferido al original. Es decir el

contraste será
𝐻; : 𝑀> ≥ 0 (𝑀B ≥ 𝑀C )
G
𝐻E : 𝑀> < 0 (𝑀B < 𝑀C )
El estadístico del contraste era W =W + = 3

En la tabla obtenemos que para n=7 y α=0.05 es W7,0.05=24. Entonces,
𝑛×(𝑛 + 1) 7×8
𝑊H,;.JK = − 𝑊H,;.;K = − 24 = 28 − 24 = 4
2 2
y
R.C.=(0,4]
Como el valor del estadístico es menor que 4, se rechaza la hipótesis nula. Por
tanto, los consumidores prefieren el nuevo producto.
12
1/12/17
Independencia de dos variables
Contraste del coeficiente de correlación τ de Kendall
El coeficiente τ de Kendall mide la asociación entre dos variables ordinales o

continuas.
El interés se centrará en la ordenación de los pares de casos entre las variables, ya

que se pretende saber si el conocimiento de la ordenación de los casos de una
variable es útil para la predicción de la ordenación de los casos de la otra variable. Si
es así habrá asociación entre las variables.
Sean (x1,...,xn) e (y1,...,yn) las observaciones correspondientes a dos variables X e Y.

La asociación es positiva cuando
x < xj y yi < y j !!!!ó!!!!!xi > x j y yi > y j
! i
La asociación es negativa cuando
x < xj y yi > y j !!!!ó!!!!!xi > x j y yi < y j

! i
El numero total de pares que tenemos es
n(n − 1)
NP =
2
Calculamos el número de pares concordantes, NC, (asociación positiva) y el

número de pares discordantes, ND, (asociación negativa) mediante un ejemplo.
Ejemplo
Se tiene una muestra de parejas de jóvenes con la siguiente distribución de alturas
Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Mujer 72 60 76 62 63 46 68 71 61 65
n(n − 1) 10 ⋅9
El número total de pares que se pueden formar es NP = = = 45
2 2
Se tiene que n(n − 1)

ND = − N C = 45 − N C
2
13
1/12/17
Obtención del número de pares concordantes, NC:
Se asigna a cada observación de cada muestra el rango correspondiente
Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Rango 10 5 8 7 1 4 9 6 2 3
Mujer 72 60 76 62 63 46 68 71 61 65
Rango 9 2 10 4 5 1 7 8 3 6
Entonces, se ordena la muestra por pares en función de los rangos de la primera

muestra de la siguiente forma
(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)
Finalmente contamos los pares concordantes:
(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)
Para (1,5) -+--+-+++=5 Para (6,8) -+-+=2
Para (2,3) + - - + -+ + + + = 6 Para (7,4) +++=3
Para (3,6) --+-+++=4 Para (8,10) --=0
Para (4,1) ++++++=6 Para (9,7) +=1
Para (5,2) +++++=5
Luego NC = 5 + 6 + 4 + 6 + 5 + 2 + 3 + 0 + 1 = 32
14
1/12/17

Contraste
Resolvemos el siguiente contraste:
H0: Las variables son independientes

H1: Las variables no son independientes
El coeficiente de la τ de Kendall es NC − N D
τ=
NP
El estadístico del contraste será S = NC-ND, entonces se rechazará la hipótesis nula si
el valor del estadístico está en la región crítica:
(−∞,−Sn,α /2 ] ∪ [Sn,α /2 ,+∞)
El estadístico del contraste para el ejemplo queda

S = N C − N D = 32 − (45 − 32) = 32 − 13 = 19
Por otra parte en las tablas obtenemos
Sn,α /2 = S10,0.025 = 21
Como 19 <21, no se rechaza la hipótesis de independencia.
Contrastes no paramétricos en varias poblaciones independientes
Contraste de Kruskall-Wallis
Es una alternativa al procedimiento ANOVA para el caso en que no se cumpla la

hipótesis de normalidad y los tamaños muestrales sean pequeños en alguna de las
poblaciones. Las hipótesis que se contrastan son
H 0 :Las!medianas!de!todas!las!poblaciones!son!iguales ⎫⎪
⎬
H1 : Al!menos!un!par!de!medianas!no!son!iguales ⎭⎪
!
El procedimiento es el siguiente:
① Ordenar de menor a mayor los datos combinados de todas las poblaciones.
② Sustituir los datos de todas las poblaciones por sus rangos asignando en los
empates la media de los rangos que les corresponderían si no hubiese
empates.
③ Calcular la suma total de rangos por población, Ri
15
1/12/17
④ Obtener el número de grupos de datos empatados, m
⑤ Calcular Li = número de empates de cada rango correspondiente a

observaciones empatadas.
⑥ Calcular el estadístico de Kruskall-Wallis, dado por:
1 ⎛ 12 k
Ri2 ⎞
H= ⎜ ∑
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟
⎠
donde
k = !número!de!muestras!(poblaciones)
ni = !tamaño!muestral!de!la!población!i
n = !tamaño!muestral!total!n = n1 +…+ nk
!
1 m 3
y L = 1− ∑ (L − Li )
n3 − n i=1 i
El estadístico H es una medida de la variabilidad de los rangos, Ri , y sigue una
distribución χ k−1
2
; es decir en [ χ k−1,𝛂 , +∞)

2
Se rechaza H0 a nivel α cuando H ≥ χ k−1,
2
α
Búsqueda de las causas de significación: comparaciones múltiples
Cuando en el test de Kruskall-Wallis se rechaza la hipótesis nula hay que buscar

dónde se encuentran las diferencias.
Se resolverán los siguientes contrastes:
H 0 : M i = M j ⎫⎪
⎬ !para!todo!i ≠ j
H1 : M i ≠ M j ⎪⎭
!
Se rechaza Ho a nivel α cuando Ri R j

−
ni n j
≥ Zα /c
n(n + 1) 1 1
L +
12 ni n j
Es decir la región crítica es [Z𝛼/c,+∞), donde c es el número de comparaciones a
realizar.
16
1/12/17
Ejemplo
Un estudio pretende analizar si existen diferencias entre el nivel de insulina
producido por 5 tratamientos diferentes para mejorar el rendimiento de los
deportistas. Los valores obtenidos por los distintos individuos son los siguientes:
Tratamiento*1* 1.53% 1.61% 3.75% 2.89% 3.26% % %

Tratamiento*2% 3.15% 3.89% 3.59% 1.89% 1.45% 1.56% %
Tratamiento*3% 3.89% 3.68% 5.70% 5.62% 5.79% 5.33% %
Tratamiento*4% 8.18% 5.64% 7.36% 5.33% 8.82% 5.26% 7.10%
Tratamiento*5% 5.86% 5.46% 5.69% 6.49% 7.81% 9.03% 7.49%
Trat.& Rangos& Ri& R2i/ni&

1& 2" 4" 11" 6" 8" " " 31" 192.2"
2& 7" 12.5" 9" 5" 1" 3" " 37.5" 234.4"
3& 12.5" 10" 21" 18" 22" 15.5" " 99" 1633"
4& 29" 19" 26" 15.5" 30" 14" 25" 158.5" 3566"
5& 23" 17" 20" 24" 28" 31" 27" 170" 4219"
Total& " " " " " " " " 9754"
m = 2, L1 = 2, L2 = 2
Calculamos el valor de L:
1 m 3 1 12
L = 1− ∑ (L − Li ) = 1− 313 − 31 ⎡⎣(23 − 2) + (23 − 2) ⎤⎦ = 1− 29760 = 0.9996
n − n i=1 i
3
El estadístico es
1 ⎛ 12 k
Ri2 ⎞ 1 ⎡ 12 ⎤
H= ⎜ ∑
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟ =
⎠ 0.9996 ⎢ 31⋅32 9754 − 3⋅32 ⎥ = 22
⎣ ⎦
Como
χ k−1,
2
α
= χ 4,0.05
2
= 9.487 R.C.=[9.487,+∞)
y H > 9.487, se rechaza la hipótesis nula y, por tanto, hay diferencias entre las
poblaciones. El nivel de insulina es distinto según el tratamiento utilizado.
17
1/12/17
Para establecer las comparaciones múltiples, construimos las siguientes tablas
Tratamiento* Ri* ni* Ri/ni* 1/ni*

1* 31# 5# 6,2# 0,2#
2* 37,5# 6# 6,25# 0,1667#
3* 99# 6# 16,5# 0,1667#
4* 158,5# 7# 22,643# 0,1429#
5* 170# 7# 24,286# 0,1429#
c = 10 Comparación+ Estadístico+ Z0.005+ Conclusión+
1"y"2" 0,0091" 2.58" No+significativo+
𝑅V 𝑅W
− 1"y"3" 1,8712" 2.58" No+significativo+
𝑛V 𝑛W 1"y"4" 3,0892" 2.58" Significativo+
𝑇= 1"y"5" 3,3978" 2.58" Significativo+
𝑛(𝑛 + 1) 1 1 2"y"3" 1,9530" 2.58" No+significativo+
𝐿 + 2"y"4" 3,2414" 2.58" Significativo+
12 𝑛V 𝑛W 2"y"5" 3,5662" 2.58" Significativo+
R.C.=[Zα/c ,+∞)=[2.58, +∞)
Como podemos observar, hay diferencias entre los tratamientos (poblaciones) 1 y

2 con 4 y 5.
18

Tema 9. - Introducción A La Inferencia No Paramétrica

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tema 9. - Introducción A La Inferencia No Paramétrica

Загружено:

Авторское право:

Доступные форматы

1/12/17

Tema 9.- Introducción a la inferencia

Tema 9.- Introducción a la inferencia no paramétrica 2

En inferencia paramétrica se necesita bien suponer que la variable sigue una

En caso de que no se dé ninguna de las dos condiciones se deben utilizar procedi-

Se aconseja acudir a los procedimientos no paramétricos cuando:

Ventajas de los contrastes no paramétricos:

Su principal desventaja es la pérdida de información. También son menos eficientes

Inferencia no paramétrica en una población

Contraste de bondad de ajuste de Kolmogorov-Smirnov

Este contraste sólo es válido para distribuciones continuas. Resolveremos el

Es un contraste alternativo al de la χ2 con la ventaja de que se puede utilizar cuando

Consiste en comparar la distribución empírica obtenida a partir de los datos con la

La distribución empírica para una muestra de tamaño n se obtiene de la siguiente

En primer lugar se ordenan los elementos de la muestra de menor a mayor:

(x1 , x2 ,…, xn ) → (x(1) , x(2) ,…, x( n) )

Tema 9.- Introducción a la inferencia no paramétrica 4

Inferencia no paramétrica en una población

Tema 9.- Introducción a la inferencia no paramétrica 5

Inferencia no paramétrica en una población

Se toma como estadístico del contraste la mayor de las diferencias en valor

Dn = sup Fn (x) − F0 (x) Estadístico de Kolmogorov-Smirnov

Como la función Fn es escalonada, las diferencias máximas se tienen en los puntos

Inferencia no paramétrica en una población

Tema 9.- Introducción a la inferencia no paramétrica 7

Inferencia no paramétrica en una población

Tema 9.- Introducción a la inferencia no paramétrica 8

Inferencia no paramétrica en una población

El valor del estadístico es

Buscamos el valor D10,0.05 en la tabla correspondiente. Se tiene que

Como 0.1602<0.409, no se rechaza la hipótesis nula. Podemos suponer que los

Tema 9.- Introducción a la inferencia no paramétrica

Inferencia no paramétrica en una población

Contrastes de posición: Test de los rangos signados de Wilcoxon

Los contrastes de hipótesis que vamos a resolver son los siguientes:

Esto equivale a que aproximadamente la mitad de las observaciones estén

Calculamos las diferencias X 1 − M 0 , X 2 − M 0 ,…, X n − M 0

Inferencia no paramétrica en una población

Para resolver el contraste seguimos los siguientes pasos:

① Ordenamos de menor a mayor el conjunto de las diferencias anteriores en

② Asignamos rangos, Ri, a estas diferencias del 1 al n, de forma que a la diferencia

Inferencia no paramétrica en una población

Tema 9.- Introducción a la inferencia no paramétrica 12

Inferencia no paramétrica en una población

Vamos a resolver el siguiente contraste al nivel de significación α=0.05

Tema 9.- Introducción a la inferencia no paramétrica 13

Inferencia no paramétrica en una población

Los valores de los estadísticos son

Para n=10 y α=0.05, en la tabla correspondiente obtenemos el valor Wα=44.

No tenemos evidencia suficiente para concluir que el material aumenta la

Tema 9.- Introducción a la inferencia no paramétrica 14

Inferencia no paramétrica en dos poblaciones

Compararemos el comportamiento una variable en dos poblaciones independientes

Contraste de Kolmogorov-Smirnov para dos poblaciones

Para resolver este contraste se calculan las funciones de distribución empíricas

Dmn = máx FX (x) − FY (x)

Tema 9.- Introducción a la inferencia no paramétrica 15

Inferencia no paramétrica en dos poblaciones

Niños: 86 69 72 65 113 65 118 45 141 41 50 104

Se trata de contrastar H0: FX=FY frente a H1: FX≠FY. Rechazamos si

Tema 9.- Introducción a la inferencia no paramétrica 16

Inferencia no paramétrica en dos poblaciones

Calculamos el estadístico mediante la siguiente tabla: