Академический Документы
Профессиональный Документы
Культура Документы
PRUEBAS NO PARAMTRICAS
Partiendo de la base de que algunas Pruebas de Hiptesis dependen del supuesto de
normalidad, muchas de estas siguen siendo aproximadamente vlidos cuando se aplican
a muestras muy grandes, incluso si la distribucin de la poblacin no es normal.
Sin embargo, muchas veces se da tambin el caso de que, en aplicaciones prcticas,
dicho supuesto de normalidad no sea sostenible. Lo deseable entonces ser buscar la
inferencia en contrastes que sean vlidos bajo un amplio rango de distribuciones de la
poblacin.
Tales contrastes (o pruebas) se denominan no paramtricos.
En este tema se intentar describir contrastes no paramtricos que son apropiados para
analizar algunos de los problemas que hubiera podido encontrar antes. Los contrastes no
paramtricos son generalmente, vlidos cualquiera que sea la distribucin de la
poblacin. Es decir, dichos contrastes pueden ser desarrollados de manera que tengan el
nivel de significacin requerido, sin importar la distribucin de los miembros de la
poblacin.
El objetivo es dar una idea general de aquellos mtodos que son mas utilizados. As, en
el presente tema se tratarn procedimientos no paramtricos para contrastar la igualdad
de los parmetros de centralizacin de dos distribuciones poblacionales.
La mayor parte de las tcnicas estudiadas hacen suposiciones sobre la composicin de
los datos de la poblacin.
Las suposiciones comunes son que la poblacin sigue una distribucin normal, que
varias poblaciones tienen varianzas iguales y que los datos se miden en una escala de
intervalos o en una escala de razn. Este tema presentar un grupo de tcnicas llamadas
no pramtricas que son tiles cuando estas suposiciones no se cumplen.
Existen otras muchas pruebas estadsticas diseadas para situaciones en las que no se
cumplen las suposiciones crticas o que involucran datos cuantitativos o categricos.
Los analistas que manejan estos datos deben familiarizarse con libros que abordan tales
pruebas, conocidas comnmente como pruebas estadsticas no paramtricas. Se
presentarn aqu unas cuantas de las pruebas no paramtricas que mas se usan.
Qu ocurre con las pruebas no paramtricas frente a las que si lo son?
Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin de los
datos poblacionales.
Las pruebas no paramtricas son de uso comn:
1.- Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas, por lo
general llamadas pruebas paramtricas.
2.- Cuando es necesario usar un tamao de muestra pequeo y no es posible verificar
que se cumplan ciertas suposiciones clave.
3.- Cuando se necesita convertir datos cualitativos a informacin til para la toma de
decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala nominal u
ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos
datos se usan de manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas paramtricas:
1.- Por lo general, son fciles de usar y entender.
2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas.
3.- Se pueden usar con muestras pequeas.
4.- Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1.- A veces, ignoran, desperdician o pierden informacin.
Ctedra Estadstica II
Universidad de Mendoza
96.2
98.0
99.1 102.5
101.6
probar la Hiptesis Nula que = contra la Hiptesis alternativa > 98.0 con un
nivel de significancia de 0.01.
1. Hiptesis
Nula:
Ctedra Estadstica II
p.
Universidad de Mendoza
Ejecutando:
>> signo(98,0.01)
ans =
0
Ctedra Estadstica II
Universidad de Mendoza
45 y 36
57 y 51
73 y 60
83 y 77
46 y 44
34 y 29
124 y 119
26 y 24
33 y 35
17 y 11
1. Hiptesis
Nula:
=
p.
Hiptesis Alternativa: - > p.
2. Nivel de significancia: =0.05.
3. Criterio: Se denota con x a los signos positivos. Se rechaza la hiptesis nula si la
probabilidad de obtener x o ms signos es menor o igual que 0.05.
Clculos: reemplazando cada par de valores por un signo + o segn el primero sea
mayor que el segundo y viceversa.
++++-+++++
x=9 n=10
0.17
I
0.51
1.11
II
1.13
II
0.18
I
0.53
II
II
II
II
II
II
II
II
II
1.36
I
asignando a los datos en este orden los rangos 1, 2, , 29: Se encuentra que los valores
de la primera muestra tienen los rangos: 1, 2, 3, 4, 6, 7, 9, 10, 11, 12, 14, 15, 19, 20, 29
mientras que los de la segunda muestra 5, 8, 13, 16, 17, 18, 21, 22, 23, 24, 25, 26, 27,
28.
No hay nexo entre los valores pertenecientes a los distintas muestras, pero si lo
hubiese, se asignara a cada una de las observaciones relacionadas la media de los
rangos que tienen conjuntamente [por caso, si el tercero y cuarto valores fuesen
idnticos se asignara a cada uno el rango (3+4)/2=3.5, y si el 9no., 10mo. y 11mo.
fueran iguales, se asignara a cada uno el rango (9+10+11)/3=10].
Ctedra Estadstica II
Universidad de Mendoza
La Hiptesis Nula que se desea probar es que las dos muestras provienen de
poblaciones idnticas, habiendo razn en tal caso para establecer que las medias de los
rangos asignados a los valores de las dos muestras deberan ser ms o menos iguales.
En lugar de las medias, se pueden comparar tambin las sumas de los rangos
asignados a los valores de las dos muestras, con ello se toma en cuenta de manera
apropiada una posible diferencia de los tamaos. La suma de rangos son R1=162 y
R2=273 y queda por ver si la diferencia es demasiado grande como para rechazar la
Hiptesis Nula.
Se definen dos estadsticos:
n1 n2
U1
n1 ( n1 1)
2
R1
U2
n1 n2
n2 ( n2 1)
2
R2
n1n2
2
U1
n1n2( n1 n2 1)
12
Si existen rangos iguales estas formas dan slo aproximaciones, pero el nmero
de rangos iguales es pequeo, por lo tanto las aproximaciones suelen ser buenas.
Estudios numricos han demostrado que la distribucin muestral de U1 puede
aproximarse mediante una distribucin normal con n1 y n2 ambos mayores que 8, la
Hiptesis Nula (provenir de dos poblaciones idnticas) se puede fundamentar en el
estadstico:
z
U1 U1
U1
Ctedra Estadstica II
son
idnticas
Universidad de Mendoza
15
14
16 8 10 5
22 .9
10 5
U1
1514( 15 14 1)
12
22 .9
2.7 5
5- Decisin: dado que z > z Se Rechaza la Hiptesis Nula. Luego, existe diferencia en
las dimensiones de los promedios reales de los dos tipos de arena.
La siguiente funcin Matlab, permite calcular el estadstico correspondiente a la
prueba.
function Wilcoxon
% Prueba no parametrica U o de Wicoxon
%
% Entrada: muestra1, vector de datos correspondiente a la muestra 1(externo)
%
muestra2, vector de datos correspondiente a la muestra 2(externo)
%
alfa, real, nivel de significacion
% Salida: z, real, estadistico para la prueba
%
% Lectura de datos
load muestra1.txt -ascii;load muestra2.txt -ascii;
n1=length(muestra1);n2=length(muestra2);
% Construye una matriz con las dos muestras, en la segunda columna
% se mantiene la pista de donde proviene
k=1; for i=1:n1, A(k,1)=muestra1(i);A(k,2)=1;k=k+1; end
for i=1:n2, A(k,1)=muestra2(i);A(k,2)=2;k=k+1; end
% ordena segun valores de la primera columna
k=1;while k<n1+n2,
if A(k,1)>A(k+1,1), temp=A(k,1);A(k,1)=A(k+1,1);A(k+1,1)=temp;
temp=A(k,2);A(k,2)=A(k+1,2);A(k+1,2)=temp; k=1;
else, k=k+1;
end
end
% Verificacion de elementos iguales
cont=1; ref=0;
for i=2:n1+n2
if A(i-1,1)==A(i,1),
cont=cont+1;
ref=i;
end
end
ref=ref-cont+1; s=0;
for i=ref:ref+cont-1, s=s+i; end
prom=s/cont;
R1=0;R2=0;i=2;
while i<=n1+n2,
if A(i-1,1)~=A(i,1),
if A(i-1,2)==1,R1=R1+(i-1);end
Ctedra Estadstica II
Universidad de Mendoza
if A(i-1,2)==2,R2=R2+(i-1);
end
else,
i1=i-1;
for k=1:cont-1,
if A(i1,2)==1,R1=R1+prom;i1=i1+1; end
if A(i1,2)==2,R2=R2+prom;i1=i1+1; end
end
i=i+cont-1;
end
i=i+1;
end
if A(n1+n2,2)==1,R1=R1+n1+n2;end
if A(n1+n2,2)==2,R2=R2+n1+n2;end
uu1=n1*n2+n1*(n1+1)/2-min(R1,R2);mu1=n1*n2/2;
sig=sqrt(n1*n2*(n1+n2+1)/12);
z=(uu1-mu1)/sig
Ejecutando:
>> wilcoxon
z=
2.7495
PRUEBA H (o de Kruskal-Wallis)
Es una generalizacin de la Prueba U que permite probar la Hiptesis Nula de
que k muestras aleatorias independientes provienen de poblaciones idnticas.
Se clasifican las observaciones conjuntamente, y si Ri es la suma de los rangos
ocupados por las ni observaciones de la i-sima muestra y n1 + n2 ++ nk = n. La
prueba se funda en el estadstico:
H
n( n 1)
12
3
4
17
i 1
Ri 2 3 (n 1)
ni
3
1.06
4 10i y cuando Ho es verdadera, la distribucin muestral de H es
cuando ni >5 1 para
toda
aproximada con
64 la distribucin chi-cuadrada con k-1 grados de libertad.
Universidad de Mendoza
12
842
18( 18 1) 6
55 .5
7
2
31 .5
3 (18 1)
R1= 84
R2= 55.5
R3= 31.5
6.6 6
5- Decisin: dado que H > 5.991 Se Rechaza la Hiptesis Nula. Luego, los tres mtodos
no tienen igual eficacia.
PRUEBAS DE ALEATORIEDAD
Es necesario saber que seguridad hay de que una muestra sea aleatoria. Una de
las pruebas se basa en el orden en que fueron obtenidos los datos, con ms precisin, se
fundamenta en el nmero de corridas exhibidas en los resultados muestrales.
Dada una sucesin de dos smbolos (por ejemplo, cara y cruz de una moneda)
una corrida es la sucesin de smbolos idnticos contenidos entre smbolos diferentes o
ninguno de todos. Por ejemplo:
2 n1 n2
n1 n2
2 n1 n2 2 n1 n2 n1 n2
n1 n2 2 n1 n2 1
Ctedra Estadstica II
Universidad de Mendoza
u u
u
2 10 17
10 17
6 13 .59
2.3 7
13.59
2 10 17 ( 2 10 17 10 17)
2
(10 17) ( 10 17 1)
2.37
3.2
5. Decisin: dado que z < -2.575 Se Rechaza la Hiptesis Nula. Luego, el arreglo no es
aleatorio. En realidad el nmero total de corridas es mucho menor que el esperado y
existe una fuerte tendencia a que las partes defectuosas aparezcan aglomeradas, la razn
de esto seguramente la descubrir un ingeniero familiarizado con el proceso.
Tambin se puede utilizar la prueba de secuencias para probar la aleatoriedad de
muestras que constan de datos numricos contando secuencias por encima y por debajo
de la mediana.
Si con a se denota una observacin por encima de la mediana de la muestra y
con b se denota una observacin por debajo de la mediana, se puede emplear la sucesin
de letras a y b para probar la aleatoriedad del mtodo indicado.
Una aplicacin muy comn de esta prueba es el Control de Calidad, donde las
media de pequeas muestras sucesivas se exhiben en orden cronolgico sobre una
grfica.
Problema: Un ingeniero est preocupado debido a que estn realizando demasiadas
modificaciones al ajustar un torno automtico. Dados los siguientes dimetros medios
(en pulgadas) de 40 ejes maquinados sucesivamente en el torno:
.261 .258 .249 .251 .247 .256 .250 .247 .255 .243 .252 .250 .253 .247
.251 .243 .258 .251 .245 .250 .248 .252 .254 .250 .247 .253 .251 .246
.249 .252 .247 .250 .253 .247 .249 .253 .246 .251 .249 .253
Ctedra Estadstica II
Universidad de Mendoza
2 19 16
19 16
27 18 .37
2.8 9
18.37
2 19 16 ( 2 19 16 19 16)
2
(19 16) ( 19 16 1)
2.89
2.9 86
5. Decisin: dado que z > 2.33 Se Rechaza la Hiptesis Nula. Luego, se acepta la
alternativa, esto es el Arreglo no es aleatorio.
Todo este proceso se puede realizar con la siguiente funcin Matlab:
function z=corridas
% Prueba de la mediana para determinar aleatoriedad de la toma
% de datos presentes en el archivo ascii datos.txt
% Entradas: u, vector, obtenido del archivo ascii "datos.txt"
% Salida: z, real, Estadistico
% Retoma el valor de la secuencia y calcula la mediana de la misma
load datos.txt;u=datos;
m=median(u);
% Se calcula el numero de valores por encima y por debajo de la mediana y
% se eliminan los elementos iguales a ella
encima=0;debajo=0;
k=1;
for i=1:length(u)
if u(i)~=m, v(k)=u(i);k=k+1;; end
if u(i)>m,encima=encima+1; end
if u(i)<m,debajo=debajo+1; end
end
% Se rehace el vector sin los elementos iguales a la media
for i=1:length(v),v(i)=v(i)-m;end
% Se calcula el numero de corridas en la variable C
C=1;
for i=1:length(v)-1
if sign(v(i))~=sign(v(i+1));C=C+1;end
end
% Se calcula la media y la desviacion estandar de las corridas
media=2*encima*debajo/(encima+debajo)+1;
desv1=2*encima*debajo*(2*encima*debajo-encima-debajo);
desv2=(encima+debajo)^2*(encima+debajo-1);
desv=sqrt(desv1/desv2);
% Calculo del estadistico
z=(C-media)/desv;
Si se ejecuta la misma:
>> corridas
ans =
2.9834
PRUEBAS DE KOLMOGOROV-SMIRNOV
Ctedra Estadstica II
10
Universidad de Mendoza
14.8
28.2
23.1
4.4
28.7
19.5
2.4
25.0
6.2
Ctedra Estadstica II
11
Universidad de Mendoza
5. Decisin: Ya que 0.193 < 0.410 (valor de Tabla) No se Rechaza la Hiptesis Nula.
Luego, los agujeros estn significativamente uniformemente distribuidos.
La funcin Matlab kolmogorov permite realizar esta prueba:
function kolmogorov(A)
% Prueba de Kolmogorov-Smirnov sobre problema de placa de hojalata de ancho A
% con datos presentes en el archivo ascii kolmo.txt
% Entradas: u, vector, obtenido del archivo ascii "kolmo.txt"
% Salida: D, real, Estadistico
load kolmo.txt;u=kolmo;
% Se ordena los valores en forma creciente y se dividen los elemtos por A
% distribucion acumulada observada
u=sort(u)/A;
% distribucion acumulada teorica
for i=1:length(u),T(i)=i/length(u);end
% diferencias "hasta" distribucion teorica
difer1=abs(T-u);
for i=1:length(u)-1,difer2(i)=abs(T(i)-u(i+1));end
% diferencias "desde" distribucion teorica
difer2(length(u))=abs(1-u(length(u)));
% El valor de D se calcula como el mayor de los elementos de ambos vectores
D=max(max(difer1),max(difer2))
Ejecutando:
>> kolmogorov(30)
D=
0.1933
Ctedra Estadstica II
12