Вы находитесь на странице: 1из 18

1/12/17

Tema 9.- Introducción a la inferencia


no paramétrica
◊ Introducción
◊ Inferencia no paramétrica en una población
◊ Inferencia no paramétrica en dos poblaciones
independientes
◊ Inferencia no paramétrica en dos poblaciones
dependientes
◊ Independencia de dos variables
◊ Inferencia no paramétrica en varias poblaciones
independientes.

Introducción
En este tema veremos,
◊ Inferencia no paramétrica en una población
Contraste de bondad de ajuste de Kolmogorov-Smirnov.
Contrastes de posición:
Test de los rangos signados de Wilcoxon.
◊ Inferencia no paramétrica en dos poblaciones independientes
Contraste de homogeneidad de Kolmogorov-Smirnov.
Contraste de la U de Mann-Whitney-Wilcoxon.
◊ Inferencia no paramétrica en dos poblaciones apareadas
◊ Independencia de dos variables
Contraste del coeficiente de la τ de Kendall.
◊ Inferencia no paramétrica en varias poblaciones independientes
Test de Kruskall-Wallis

Tema 9.- Introducción a la inferencia no paramétrica 2

1
1/12/17

Introducción

En inferencia paramétrica se necesita bien suponer que la variable sigue una


distribución normal o bien que los tamaños muestrales sean lo suficientemente
grandes para poder asumir la distribución normal.

En caso de que no se dé ninguna de las dos condiciones se deben utilizar procedi-


mientos de inferencia no paramétrica.

Se aconseja acudir a los procedimientos no paramétricos cuando:


◇ No se conoce la distribución de la variable y/o se duda de su normalidad.
◇ El número de individuos es pequeño y hay ausencia de normalidad.

Ventajas de los contrastes no paramétricos:


◇ Son simples de deducir, ya que sus expresiones son sencillas.
◇ Son rápidos, ya que las operaciones matemáticas son ordenar, contar, sumar y
restar.
◇ Tienen un campo de aplicación muy amplio, ya que las hipótesis necesarias son
muy generales y mucho menos exigentes que las de los contrastes paramétricos.

Su principal desventaja es la pérdida de información. También son menos eficientes


que los procedimientos paramétricos. En general, si es posible, no se aconseja su
uso.
Tema 9.- Introducción a la inferencia no paramétrica 3

Inferencia no paramétrica en una población

Contraste de bondad de ajuste de Kolmogorov-Smirnov

Este contraste sólo es válido para distribuciones continuas. Resolveremos el


siguiente contraste:

H 0 : !Los!datos!proceden!de!una!distribución!F0 ⎪⎫ H 0 : F = F0 ⎫⎪
⎬⇔ ⎬
H1 : !Los!datos!no!proceden!de!una!distribución!F0 ⎪⎭ H 0 : F ≠ F0 ⎪
! ⎭

Es un contraste alternativo al de la χ2 con la ventaja de que se puede utilizar cuando


el tamaño muestral es pequeño.

Consiste en comparar la distribución empírica obtenida a partir de los datos con la


distribución F0.

La distribución empírica para una muestra de tamaño n se obtiene de la siguiente


forma:

En primer lugar se ordenan los elementos de la muestra de menor a mayor:

(x1 , x2 ,…, xn ) → (x(1) , x(2) ,…, x( n) )

Tema 9.- Introducción a la inferencia no paramétrica 4

2
1/12/17

Inferencia no paramétrica en una población

Una vez ordenada la muestra, la función de distribución empírica, Fn, de los datos
para las n observaciones se define como:

⎧ 0 si x < x(1)

⎪ 1
⎪ si x(1) ≤ x < x(2)
⎪ n
⎪ !
⎪ i
Fn (x) = ⎨ si x(i) ≤ x < x(i+1)
⎪ n
⎪ !
⎪ n −1
⎪ si x( n−1) ≤ x < x( n)
⎪ n
⎪ 1 si x > x( n)
! ⎪⎩
Es decir, Fn es la proporción de observaciones que son inferiores o iguales a x.

Tema 9.- Introducción a la inferencia no paramétrica 5

Inferencia no paramétrica en una población

Se toma como estadístico del contraste la mayor de las diferencias en valor


absoluto entre la función de distribución empírica de los datos y la propuesta en la
hipótesis nula:

Dn = sup Fn (x) − F0 (x) Estadístico de Kolmogorov-Smirnov

Como la función Fn es escalonada, las diferencias máximas se tienen en los puntos


de salto. Así que Dn se calcula del siguiente modo:

{
Dn = máx Fn (x(i−1) ) − F0 (x(i) ) , Fn (x(i) ) − F0 (x(i) ) }
Se rechaza la hipótesis nula a nivel α para valores grandes del estadístico; es decir,
se rechaza si
D > Dn,α !con !P(Dn > Dn,α ) = α
! n
Por tanto la región crítica es RC = [Dn,α ,+∞)
Tema 9.- Introducción a la inferencia no paramétrica 6

3
1/12/17

Inferencia no paramétrica en una población

Fn

Fn (x(i) ) − F0 (x(i) )
Fn (x(i−1) ) − F0 (x(i) )

F0

Tema 9.- Introducción a la inferencia no paramétrica 7

Inferencia no paramétrica en una población


Ejemplo
Se desea contrastar la hipótesis de si una muestra de 10 observaciones se
seleccionó o no de una normal estándar. Las hipótesis son

H 0 : !F = F0 ≡ N (0,1) ⎫⎪

H : !F ≠ F0 ≡ N (0,1) ⎭⎪
! 1
Los 10 valores observados, ordenados de menor a mayor vienen dados en la
siguiente tabla. En la misma tabla también se proporcionan otros valores
necesarios para calcular el estadístico del contraste:

(i) X(i) Fn(x(i)) Fn(x(i-1)) F0(x(i)) Fn (x(i ) ) − F0 (x(i ) ) Fn (x(i −1) ) − F0 (x(i ) )
1 -2.46 0.1 0 0.0069 0.0931 0.0069
2 -1.23 0.2 0.1 0.1093 0.0907 0.0093
3 -0.39 0.3 0.2 0.3483 0.0483 0.1483
4 -0.10 0.4 0.3 0.4602 0.0602 0.1602
5 -0.02 0.5 0.4 0.4920 0.0080 0.0920
6 0.40 0.6 0.5 0.6554 0.0554 0.1554
7 0.44 0.7 0.6 0.6700 0.0300 0.0700
8 0.81 0.8 0.7 0.7910 0.0090 0.0910
9 1.39 0.9 0.8 0.9177 0.0177 0.1177
10 1.76 1.00 0.9 0.9608 0.0392 0.0608

Tema 9.- Introducción a la inferencia no paramétrica 8

4
1/12/17

Inferencia no paramétrica en una población

El valor del estadístico es

D10=máx(0.0931,0. 1602)=0.1602

Buscamos el valor D10,0.05 en la tabla correspondiente. Se tiene que

D10,0.05=0.409

Como 0.1602<0.409, no se rechaza la hipótesis nula. Podemos suponer que los


datos siguen una distribución N(0,1).

Tema 9.- Introducción a la inferencia no paramétrica


9

Inferencia no paramétrica en una población

Contrastes de posición: Test de los rangos signados de Wilcoxon


Sean
X variable aleatoria continua y simétrica respecto a su mediana M
(X1, X2,…,Xn) una muestra aleatoria de tamaño n de X
M0 valor hipotético de la mediana.

Los contrastes de hipótesis que vamos a resolver son los siguientes:

H 0 : M = M 0 ⎫⎪ H 0 : M ≤ M 0 ⎫⎪ H 0 : M ≥ M 0 ⎫⎪
⎬ ⎬ ⎬
H1 : M ≠ M 0 ⎭⎪ H1 : M > M 0 ⎭⎪ H1 : M < M 0 ⎭⎪

Esto equivale a que aproximadamente la mitad de las observaciones estén


repartidas por igual a cada lado de M0 o que a uno de los lados haya un número
significativamente mayor que al otro.

Calculamos las diferencias X 1 − M 0 , X 2 − M 0 ,…, X n − M 0


(si M=M0 aproximadamente la mitad de las observaciones estarán a la izquierda
del 0)
Tema 9.- Introducción a la inferencia no paramétrica 10

5
1/12/17

Inferencia no paramétrica en una población

Para resolver el contraste seguimos los siguientes pasos:

① Ordenamos de menor a mayor el conjunto de las diferencias anteriores en


valor absoluto, X i − M 0 .

② Asignamos rangos, Ri, a estas diferencias del 1 al n, de forma que a la diferencia


más pequeña le corresponde el rango 1 y a la mayor el rango n.
Nota: Si hay empates de asigna a todas las coincidencias la media de los rangos
que les corresponderían.
Si M=M0, cada rango tiene la misma posibilidad de que se le asigne un signo
positivo o negativo.

③ Se suman por separado los rangos de las diferencias positivas (W+) y negativas
(W-). El estadístico de Wilcoxon es
W =W +
Si H0 es cierta es lógico que W+ y W- sean iguales (habrá igual número a un
lado que a otro del 0).
n
n(n + 1)
(Como W+ y W- están relacionados linealmente W + + W − = ∑i = basta
considerar W+) i=1 2
Tema 9.- Introducción a la inferencia no paramétrica 11

Inferencia no paramétrica en una población


Nota: W grande
④ Para el contraste indicaría que hay
H 0 : M ≤ M 0 ⎪⎫ más observaciones
⎬ y con mayores
H1 : M > M 0 ⎪⎭ magnitudes a la
derecha de M0
Se rechaza la hipótesis nula si W > c con P(W > c) = α.
R.C.=[Wn,α ,+∞)

Para el contraste H 0 : M ≥ M 0 ⎫⎪

H1 : M < M 0 ⎭⎪
Se rechaza la hipótesis nula si W < c con P(W < c) = α. R.C.=(0,Wn,1−α ]

Para el contraste H 0 : M = M 0 ⎫⎪

H1 : M ≠ M 0 ⎪⎭
Se rechaza la hipótesis nula si W < c1 ó W > c2 con P(W < c1) = α/2 y P(W > c2) = α/2.
R.C.=(0, Wn,1−α /2 ] U[Wn,α /2,+∞)

Tema 9.- Introducción a la inferencia no paramétrica 12

6
1/12/17

Inferencia no paramétrica en una población

Ejemplo
En general, la distancia mediana que alcanzan los lanzadores de peso es de 21
metros. Se está estudiando un nuevo material con el que se cree que puede
aumentar esta distancia. Se anota esta distancia para 10 lanzadores, y los
resultados son

24.1 25.8 20.5 20.9 27.3 21.5 20.1 28.9 19.2 26.3

Vamos a resolver el siguiente contraste al nivel de significación α=0.05


H 0 : M ≤ 21⎪⎫

H1 : M > 21 ⎭⎪

X i# 24.1% 25.8% 20.5% 20.9% 27.3% 21.5% 20.1% 28.9% 19.2% 26.3%
Xi$21# 3.1% 4.8% -0.5% -0.1% 6.3% 0.5% -0.9% 7.9% -1.8% 5.3%
!! − !" # 3.1% 4.8% 0.5% 0.1% 6.3% 0.5% 0.9% 7.9% 1.8% 5.3%
Ri# 6% 7% 2.5% 1% 9% 2.5% 4% 10% 5% 8%
Signo# +% +% -% -% +% +% -% +% -% +%

Los valores que corresponden a los rangos 2 y 3 son los mismos (0.5),
deshacemos el empate asignando a cada uno la media de los rangos, 2.5.

Tema 9.- Introducción a la inferencia no paramétrica 13

Inferencia no paramétrica en una población

Los valores de los estadísticos son

W+ = ∑ Ri = 6 + 7 + 9 + 2.5 + 10 + 8 = 42.5
rangos!
! positivos

Por tanto,
W = W + = 42.5

Para n=10 y α=0.05, en la tabla correspondiente obtenemos el valor Wα=44.


Como el valor del estadístico es menor, no se rechaza la hipótesis nula.

R.C.= [44,+∞)

No tenemos evidencia suficiente para concluir que el material aumenta la


distancia de los lanzamientos.

Tema 9.- Introducción a la inferencia no paramétrica 14

7
1/12/17

Inferencia no paramétrica en dos poblaciones

Compararemos el comportamiento una variable en dos poblaciones independientes


desde el punto de vista no paramétrico.

Contraste de Kolmogorov-Smirnov para dos poblaciones


Se trata de contrastar si dos muestras aleatorias (x1,…,xm) de una variable aleatoria
con función de distribución FX(x) y otra (y1,…,yn) de una variable con función de
distribución FY(x), proceden de la misma distribución; es decir son homogéneas. Las
hipótesis son
H 0 : FX (x) = FY (x) ⎪⎫

H1 : FX (x) ≠ FY ( y) ⎭⎪

Para resolver este contraste se calculan las funciones de distribución empíricas


correspondientes a ambas muestras, FX (x) y FY(x) y con ellas el estadístico del
contraste, que viene dado por

Dmn = máx FX (x) − FY (x)

Se rechazará la hipótesis nula cuando Dnm>Dnm,α, cuyo valor se obtiene en las tablas
correspondientes.

Tema 9.- Introducción a la inferencia no paramétrica 15

Inferencia no paramétrica en dos poblaciones

Ejemplo
Se observaron 12 niñas y 12 niños de 4 años durante dos sesiones de juegos de 15
minutos. Durante estos dos periodos se cuantificó el juego de cada niñ@ según su
agresividad, dándose los siguientes resultados

Niños: 86 69 72 65 113 65 118 45 141 41 50 104


Niñas: 55 40 22 58 16 7 9 16 26 36 20 15

Contrastar la hipótesis de que hubo diferencias entre los sexos por la cantidad de
agresividad demostrada mediante el test de Kolmogorov-Simirnov.

Se trata de contrastar H0: FX=FY frente a H1: FX≠FY. Rechazamos si

6
Dm,n > Dm,n,α = D12,12,0.05 =
12

Tema 9.- Introducción a la inferencia no paramétrica 16

8
1/12/17

Inferencia no paramétrica en dos poblaciones

Calculamos el estadístico mediante la siguiente tabla:

x FX,12(x) FY,12(x) FX ,12 (x) − FY ,12 (x) x FX,12(x) FY,12(x) FX ,12 (x) − FY ,12 (x)

7 0 1/12 1/12 50 3/12 10/12 7/12


9 0 2/12 2/12 55 3/12 11/12 8/12
15 0 3/12 3/12 58 3/12 1 9/12
16 0 5/12 5/12 65 5/12 1 7/12
20 0 6/12 6/12 69 6/12 1 6/12
22 0 7/12 7/12 72 7/12 1 5/12
26 0 8/12 8/12 86 8/12 1 4/12
36 0 9/12 9/12 104 9/12 1 3/12
40 0 10/12 10/12 113 10/12 1 2/12
41 1/12 10/12 9/12 118 11/12 1 1/12
45 2/12 10/12 8/12 141 1 1 0
Como D12,12 = 10/12 > 6/12, rechazamos la hipótesis nula. Hay diferencias entre
los sexos.
Tema 9.- Introducción a la inferencia no paramétrica 17

Inferencia no paramétrica en dos poblaciones

Contraste de U de Mann-Whitney-Wilcoxon

Dadas dos variables aleatorias ordinales o continuas, X e Y, se trata de contrastar la


homogeneidad de ambas. Es decir, se contrastan las siguientes hipótesis:

H 0 : FX ≤ F Y (⇒ M X ≥ M Y ) ⎫⎪ H 0 : FX ≥ F Y (⇒ M X ≤ M Y ) ⎫⎪
⎬ ⎬
H1 : FX > F Y (⇒ M X < M Y ) ⎭⎪ H1 : FX < F Y (⇒ M X > M Y ) ⎭⎪

H 0 : FX = F Y (⇒ M X = M Y ) ⎫⎪

H1 : FX ≠ F Y (⇒ M X ≠ M Y ) ⎭⎪
Sean
⎧ 1 si Xi < Y j
⎪ n
Zij = ⎨ , i = 1,…, m; j = 1,…,n (∑ Zij = !número!de!Y j !mayores!que!Xi = Zi⋅ )
⎪⎩ 0 si Xi > Y j ! j=1
!

Tema 9.- Introducción a la inferencia no paramétrica 18

9
1/12/17

Inferencia no paramétrica en dos poblaciones

Se define el estadístico de Mann-Whitney-Wilcoxon de la siguiente forma

m n
U = ∑ ∑ Zij = !Número!de!valores!Y1 ,…,Yn !que!son!mayores!que!cada!uno!de!los!X1 ,…, X m
! i=1 j=1

U varía entre 0 (si todos los valores de Xi son mayores que los Yj) y m×n (si todos
los Xi son menores que los Yj).

Ejemplo de cálculo del estadístico


Sean m = 4, n = 3 y los valores de las muestras son tales que

x2 < x1 < y3 < y2 < x4 < y1 < x3


Entonces
U = 3 + 3 + 1+ 0 = 7
U grande indica que los valores de la segunda muestra tienden a ser más grandes
que los de la primera, rechazamos H0:MX≥MY (H0:FX≤FY )
Si U es pequeño se deberá rechazar H0:MX≤MY (H0:FX≥FY )
Si U es grande o pequeño se deberá rechazar H0:MX=MY (H0:FX=FY ).

Tema 9.- Introducción a la inferencia no paramétrica 19

Inferencia no paramétrica en dos poblaciones

Para el contraste
H 0 : FX ≤ F Y (⇒ M X ≥ M Y ) ⎪⎫

H1 : FX > F Y (⇒ M X < M Y ) ⎪⎭
Se rechaza la hipótesis nula si U > c con P(U > c) = α. (R.C.=[Um,n,α ,+∞) )

Para el contraste H 0 : FX ≥ F Y (⇒ M X ≤ M Y ) ⎫⎪

H1 : FX < F Y (⇒ M X > M Y ) ⎭⎪
Se rechaza la hipótesis nula si U < c con P(U < c) = α. (R.C.=(0,Um,n,1−α ] )

Para el contraste
H 0 : FX = F Y (⇒ M X = M Y ) ⎫⎪

H1 : FX ≠ F Y (⇒ M X ≠ M Y ) ⎪⎭

Se rechaza la hipótesis nula si U < c1 ó U > c2 con P(U < c1) = α/2 y P(U > c2) = α/2.
(R.C.= (0,Um,n,1−α /2 ] U[Um,n,α /2,+∞) )

Tema 9.- Introducción a la inferencia no paramétrica 20

10
1/12/17

Inferencia no paramétrica en dos poblaciones

Ejemplo
Queremos averiguar si el número de horas que dedican los estudiantes a las
asignaturas de Introducción financiera y Contabilidad son las mismas. Los datos
son los siguientes:
Introducción
Contabilidad
financiera
10 13
6 17
8 14
10 12
12 10
13 9
11 15
9 16
5 11
11

El contraste es
H 0 : FX = FY ⎪⎫ H 0 : M X = M Y ⎪⎫
⎬ ⇒ ⎬
H1 : FX ≠ FY ⎪⎭ H1 : M X ≠ M Y ⎪⎭

Tema 9.- Introducción a la inferencia no paramétrica 21

Inferencia no paramétrica en dos poblaciones

m=10, n=9, α=0.1

5 6 8 9 9 10 10 10 11 11 11 12 12 13 13 14 15 16 17
x x x x y x x y x x y x y x y y y y y

U = 9 + 9 + 9 + 8 + 7 + 7 + 6 + 6 + 5 + 4 = 70

En la tabla obtenemos

U10,9,0.05 = 65
U10,9,0.95 = m ⋅ n − U10,9,0.05 = 10 ⋅ 9 − 65 = 25

Como el valor de U es mayor que 65, se rechaza la hipótesis de homogeneidad de


las variables. Las horas de estudio para contabilidad son superiores a las de
introducción financiera.

Tema 9.- Introducción a la inferencia no paramétrica 22

11
1/12/17

Inferencia no paramétrica en dos poblaciones dependientes

El problema del contraste en muestras apareadas se resuelve de forma similar a


como se hizo en el caso paramétrico; es decir trabajando con la muestra obtenida
como la diferencia entre las muestras de ambas poblaciones. Posteriormente
utilizaremos el contraste de Wilcoxon para resolver el problema.

Lo veremos mediante un ejemplo:


Ejemplo
Un fabricante de alubias precocinadas está considerando una nueva receta para la
salsa utilizada en su producto. Elige una muestra aleatoria de 8 individuos y a cada
uno de ellos le pide que valore en una escala de 1 a 10 el sabor del producto original
y el del nuevo producto. Los resultados se establecen en la siguiente tabla

Individuo 1 2 3 4 5 6 7 8
Producto original 6 4 5 8 3 6 7 5
Producto nuevo 8 9 4 7 9 9 7 9
!" − 0 -2 -5 1 1 -6 -3 0 -4
Rango 3 6 1.5 1.5 7 4 X 5
Signo - - + + - - -

El estadístico del contraste es


𝑊 = 𝑊 # = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑟𝑎𝑛𝑔𝑜𝑠 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑎
𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎𝑠 = 1.5 + 1.5 = 3

Tema 9.- Introducción a la inferencia no paramétrica 23

Inferencia no paramétrica en dos poblaciones dependientes

Queremos determinar si el nuevo producto es preferido al original. Es decir el


contraste será

𝐻; : 𝑀> ≥ 0 (𝑀B ≥ 𝑀C )
G
𝐻E : 𝑀> < 0 (𝑀B < 𝑀C )

El estadístico del contraste era W =W + = 3


En la tabla obtenemos que para n=7 y α=0.05 es W7,0.05=24. Entonces,

𝑛×(𝑛 + 1) 7×8
𝑊H,;.JK = − 𝑊H,;.;K = − 24 = 28 − 24 = 4
2 2
y

R.C.=(0,4]

Como el valor del estadístico es menor que 4, se rechaza la hipótesis nula. Por
tanto, los consumidores prefieren el nuevo producto.

Tema 9.- Introducción a la inferencia no paramétrica 24

12
1/12/17

Independencia de dos variables

Contraste del coeficiente de correlación τ de Kendall

El coeficiente τ de Kendall mide la asociación entre dos variables ordinales o


continuas.

El interés se centrará en la ordenación de los pares de casos entre las variables, ya


que se pretende saber si el conocimiento de la ordenación de los casos de una
variable es útil para la predicción de la ordenación de los casos de la otra variable. Si
es así habrá asociación entre las variables.

Sean (x1,...,xn) e (y1,...,yn) las observaciones correspondientes a dos variables X e Y.


La asociación es positiva cuando
x < xj y yi < y j !!!!ó!!!!!xi > x j y yi > y j
! i
La asociación es negativa cuando

x < xj y yi > y j !!!!ó!!!!!xi > x j y yi < y j


! i
El numero total de pares que tenemos es
n(n − 1)
NP =
2
Tema 9.- Introducción a la inferencia no paramétrica 25

Independencia de dos variables

Calculamos el número de pares concordantes, NC, (asociación positiva) y el


número de pares discordantes, ND, (asociación negativa) mediante un ejemplo.

Ejemplo
Se tiene una muestra de parejas de jóvenes con la siguiente distribución de alturas

Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Mujer 72 60 76 62 63 46 68 71 61 65

n(n − 1) 10 ⋅9
El número total de pares que se pueden formar es NP = = = 45
2 2

Se tiene que n(n − 1)


ND = − N C = 45 − N C
2

Tema 9.- Introducción a la inferencia no paramétrica 26

13
1/12/17

Independencia de dos variables

Obtención del número de pares concordantes, NC:

Se asigna a cada observación de cada muestra el rango correspondiente

Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Rango 10 5 8 7 1 4 9 6 2 3
Mujer 72 60 76 62 63 46 68 71 61 65
Rango 9 2 10 4 5 1 7 8 3 6

Entonces, se ordena la muestra por pares en función de los rangos de la primera


muestra de la siguiente forma

(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)

Finalmente contamos los pares concordantes:

Tema 9.- Introducción a la inferencia no paramétrica 27

Independencia de dos variables

(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)

Para (1,5) -+--+-+++=5 Para (6,8) -+-+=2

Para (2,3) + - - + -+ + + + = 6 Para (7,4) +++=3

Para (3,6) --+-+++=4 Para (8,10) --=0

Para (4,1) ++++++=6 Para (9,7) +=1

Para (5,2) +++++=5

Luego NC = 5 + 6 + 4 + 6 + 5 + 2 + 3 + 0 + 1 = 32

Tema 9.- Introducción a la inferencia no paramétrica 28

14
1/12/17

Independencia de dos variables


Contraste
Resolvemos el siguiente contraste:

H0: Las variables son independientes


H1: Las variables no son independientes

El coeficiente de la τ de Kendall es NC − N D
τ=
NP
El estadístico del contraste será S = NC-ND, entonces se rechazará la hipótesis nula si
el valor del estadístico está en la región crítica:

(−∞,−Sn,α /2 ] ∪ [Sn,α /2 ,+∞)

El estadístico del contraste para el ejemplo queda


S = N C − N D = 32 − (45 − 32) = 32 − 13 = 19
Por otra parte en las tablas obtenemos
Sn,α /2 = S10,0.025 = 21
Como 19 <21, no se rechaza la hipótesis de independencia.
Tema 9.- Introducción a la inferencia no paramétrica 29

Contrastes no paramétricos en varias poblaciones independientes

Contraste de Kruskall-Wallis

Es una alternativa al procedimiento ANOVA para el caso en que no se cumpla la


hipótesis de normalidad y los tamaños muestrales sean pequeños en alguna de las
poblaciones. Las hipótesis que se contrastan son

H 0 :Las!medianas!de!todas!las!poblaciones!son!iguales ⎫⎪

H1 : Al!menos!un!par!de!medianas!no!son!iguales ⎭⎪
!
El procedimiento es el siguiente:

① Ordenar de menor a mayor los datos combinados de todas las poblaciones.

② Sustituir los datos de todas las poblaciones por sus rangos asignando en los
empates la media de los rangos que les corresponderían si no hubiese
empates.

③ Calcular la suma total de rangos por población, Ri

Tema 9.- Introducción a la inferencia no paramétrica 30

15
1/12/17

Contrastes no paramétricos en varias poblaciones independientes

④ Obtener el número de grupos de datos empatados, m

⑤ Calcular Li = número de empates de cada rango correspondiente a


observaciones empatadas.

⑥ Calcular el estadístico de Kruskall-Wallis, dado por:

1 ⎛ 12 k
Ri2 ⎞
H= ⎜ ∑
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟

donde
k = !número!de!muestras!(poblaciones)
ni = !tamaño!muestral!de!la!población!i
n = !tamaño!muestral!total!n = n1 +…+ nk
!
1 m 3
y L = 1− ∑ (L − Li )
n3 − n i=1 i
El estadístico H es una medida de la variabilidad de los rangos, Ri , y sigue una
distribución χ k−1
2

; es decir en [ χ k−1,𝛂 , +∞)


2
Se rechaza H0 a nivel α cuando H ≥ χ k−1,
2
α

Tema 9.- Introducción a la inferencia no paramétrica 31

Contrastes no paramétricos en varias poblaciones independientes

Búsqueda de las causas de significación: comparaciones múltiples

Cuando en el test de Kruskall-Wallis se rechaza la hipótesis nula hay que buscar


dónde se encuentran las diferencias.

Se resolverán los siguientes contrastes:

H 0 : M i = M j ⎫⎪
⎬ !para!todo!i ≠ j
H1 : M i ≠ M j ⎪⎭
!

Se rechaza Ho a nivel α cuando Ri R j



ni n j
≥ Zα /c
n(n + 1) 1 1
L +
12 ni n j
Es decir la región crítica es [Z𝛼/c,+∞), donde c es el número de comparaciones a
realizar.
Tema 9.- Introducción a la inferencia no paramétrica 32

16
1/12/17

Contrastes no paramétricos en varias poblaciones independientes

Ejemplo
Un estudio pretende analizar si existen diferencias entre el nivel de insulina
producido por 5 tratamientos diferentes para mejorar el rendimiento de los
deportistas. Los valores obtenidos por los distintos individuos son los siguientes:

Tratamiento*1* 1.53% 1.61% 3.75% 2.89% 3.26% % %


Tratamiento*2% 3.15% 3.89% 3.59% 1.89% 1.45% 1.56% %
Tratamiento*3% 3.89% 3.68% 5.70% 5.62% 5.79% 5.33% %
Tratamiento*4% 8.18% 5.64% 7.36% 5.33% 8.82% 5.26% 7.10%
Tratamiento*5% 5.86% 5.46% 5.69% 6.49% 7.81% 9.03% 7.49%

Trat.& Rangos& Ri& R2i/ni&


1& 2" 4" 11" 6" 8" " " 31" 192.2"
2& 7" 12.5" 9" 5" 1" 3" " 37.5" 234.4"
3& 12.5" 10" 21" 18" 22" 15.5" " 99" 1633"
4& 29" 19" 26" 15.5" 30" 14" 25" 158.5" 3566"
5& 23" 17" 20" 24" 28" 31" 27" 170" 4219"
Total& " " " " " " " " 9754"

m = 2, L1 = 2, L2 = 2

Tema 9.- Introducción a la inferencia no paramétrica 33

Contrastes no paramétricos en varias poblaciones independientes

Calculamos el valor de L:

1 m 3 1 12
L = 1− ∑ (L − Li ) = 1− 313 − 31 ⎡⎣(23 − 2) + (23 − 2) ⎤⎦ = 1− 29760 = 0.9996
n − n i=1 i
3

El estadístico es

1 ⎛ 12 k
Ri2 ⎞ 1 ⎡ 12 ⎤
H= ⎜ ∑
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟ =
⎠ 0.9996 ⎢ 31⋅32 9754 − 3⋅32 ⎥ = 22
⎣ ⎦

Como
χ k−1,
2
α
= χ 4,0.05
2
= 9.487 R.C.=[9.487,+∞)

y H > 9.487, se rechaza la hipótesis nula y, por tanto, hay diferencias entre las
poblaciones. El nivel de insulina es distinto según el tratamiento utilizado.

Tema 9.- Introducción a la inferencia no paramétrica 34

17
1/12/17

Contrastes no paramétricos en varias poblaciones independientes

Para establecer las comparaciones múltiples, construimos las siguientes tablas

Tratamiento* Ri* ni* Ri/ni* 1/ni*


1* 31# 5# 6,2# 0,2#
2* 37,5# 6# 6,25# 0,1667#
3* 99# 6# 16,5# 0,1667#
4* 158,5# 7# 22,643# 0,1429#
5* 170# 7# 24,286# 0,1429#
c = 10 Comparación+ Estadístico+ Z0.005+ Conclusión+
1"y"2" 0,0091" 2.58" No+significativo+
𝑅V 𝑅W
− 1"y"3" 1,8712" 2.58" No+significativo+
𝑛V 𝑛W 1"y"4" 3,0892" 2.58" Significativo+
𝑇= 1"y"5" 3,3978" 2.58" Significativo+
𝑛(𝑛 + 1) 1 1 2"y"3" 1,9530" 2.58" No+significativo+
𝐿 + 2"y"4" 3,2414" 2.58" Significativo+
12 𝑛V 𝑛W 2"y"5" 3,5662" 2.58" Significativo+
3"y"4" 1,2146" 2.58" No+significativo+
3"y"5" 1,5395" 2.58" No+significativo+
4"y"5" 0,3381" 2.58" No+significativo+
R.C.=[Zα/c ,+∞)=[2.58, +∞)

Como podemos observar, hay diferencias entre los tratamientos (poblaciones) 1 y


2 con 4 y 5.

Tema 9.- Introducción a la inferencia no paramétrica 35

18

Вам также может понравиться