Академический Документы
Профессиональный Документы
Культура Документы
PRUEBA DE KOLMOGOROV-SMIRNOV
GARCA, Yelitza
CRDENAS, Eduardo
FIGUEREDO, Rosa
Universidad Nacional Experimental de Guayana
Ingeniera Informtica. Urb. Chilemex. Ciudad Guayana. Venezuela.
e-mail: eduloy@hotmail.com
RESUMEN
El Mtodo de Kolmogorov-Smirnov para dos muestras dirige el inters hacia los puntos de
acuerdo a dos distribuciones acumulativas. Esta prueba examina los puntos de coincidencia
de dos conjuntos de valores muestrales. Si las dos muestras han sido de verdad extradas de
la misma distribucin de poblacin, puede esperarse que las distribuciones acumulativas de
ambas muestras sean claramente prximas entre s, ya que solamente deberan mostrar
desviaciones casuales de la distribucin de poblacin. Un alejamiento excesivo de las
distribuciones acumulativas de las dos muestras sugieren que las muestras provienen de
poblaciones diferentes. As, una desviacin bastante grande entre las dos distribuciones
acumulativas muestrales es una razn para rechazar H0.
PALABRAS CLAVES
Mtodos No-Paramtricos, Kolmogorov-Smirnov, estocsticamente.
INTRODUCCIN
El mtodo no-paramtrico de Kolmogorov-Smirnov para dos muestras independientes que
se presentar a continuacin, establece que para la aplicacin de este mtodo se utilicen la
tabla de valores crticos de KD, la tabla de valores crticos de D y la tabla de valores crticos
de Ji-cuadrado.
La primera tabla, se usa cuando n1 y n2 son iguales y son menores o iguales que 40. La
segunda es para muestras grandes sin considerar la igualdad entre muestras, y la ultima para
pruebas de una cola y con muestras grandes sin considerar la igualdad entre ellas.
A travs de la aplicacin de este mtodo se verificar la igualdad entre las funciones de
distribucin de las muestras extradas de poblaciones diferentes.
1. PRUEBA DE DOS MUESTRAS DE KOLMOGOROV-SMIRNOV
La prueba de dos muestras de Kolmogorov-Smirnov dirige el inters hacia los puntos de
acuerdo entre dos distribuciones acumulativas. Examina los puntos de coincidencia de dos
conjuntos de valores mustrales.
Esta prueba de dos muestras puede confirmar que dos muestras independientes han sido
extradas de la misma poblacin (o de poblaciones con la misma distribucin). La prueba
de dos colas es sensible a cualquier diferencia en las distribuciones de las que se sacaron las
dos muestras: Diferencias en colocacin (tendencia central), en dispersin, en oblicuidad,
etc. La prueba de una cola se usa para decidir si los valores de la poblacin en las que se
tom una de las muestras son mayores o menores que los de la poblacin de la que se tom
la otra.
Si las dos muestras han sido de verdad extradas de la misma distribucin de poblacin,
puede esperarse que las distribuciones acumulativas de ambas muestras sean claramente
prximas entre s, ya que solamente deberan mostrar desviaciones casuales de la
distribucin de poblacin. Un alejamiento excesivo de las distribuciones acumulativas de
las dos muestras sugiere que las muestras provienen de poblaciones diferentes. As, una
desviacin bastante grande entre las dos distribuciones acumulativas mustrales es una
razn para rechazar la hiptesis nula Ho.
Mtodo.
Al aplicar la prueba de dos muestras de Kolmogorov-Smirnov, hacemos una distribucin de
frecuencia acumulativas para cada muestra de observaciones, usando los mismos intervalos
para ambas distribuciones. En seguida sustraemos, para cada intervalo, cada funcin
escalonada de la otra. La prueba examina la ms grande de estas desviaciones observadas.
Sea Sn1 (X) la funcin acumulativa escalonada que se ha observado en una de las muestras,
esto es, Sn1(X) = K/n1, donde K es el nmero de puntajes iguales o menores de X. Y sea S n2
(X) la funcin acumulativa escalonada que se ha observado en la otra muestra, esto es,
Sn2(X) = K/n2. Ahora bien, la prueba de dos muestras de Komogorov-Smirnov examina la
diferencia:
D = mxima [Sn1 (X) Sn2 (X)]
(1.1)
(1.2)
para una prueba de dos colas. La distribucin muestral de D se conoce (Smirnov 1948;
Massey, 1951) y las probabilidades asociadas con la ocurrencia de valores tan grandes
como el de una D observada conforme a la hiptesis de nulidad (que supone dos muestras
procedentes de la misma distribucin) se han tabulado.
Para la prueba de una cola encontramos el valor mximo de D en la direccin predicha por
la formula 1.1 y para una prueba de dos colas encontramos el valor mximo absoluto de D
por la formula 1.2, es decir, la desviacin mxima independientemente de su direccin.
Esto se debe a que en la prueba de una cola, H 1 afirma que los valores de la poblacin de la
que extrajo una de las muestras son estocsticamente ms grandes que los de la poblacin
3
de la que se sac la otra, mientras en la prueba de dos colas, H 1 simplemente dice que las
dos muestras proceden de diferentes poblaciones.
Muestras pequeas.
Cuando n1 = n2 y cuando ambas n1 y n2 valen 40 o menos, puede usarse la tabla L para
probar la hiptesis de nulidad. Para leer la tabla L, se debe conocer el valor N y el valor de
Kd.
Por ejemplo, en una prueba de una cola donde N = 14, si K d 8 podemos rechazar la
hiptesis de nulidad a nivel = 0.01.
Ejemplo para muestra pequea.
Se compara el aprendizaje serial de diez alumnos del sptimo grado con el aprendizaje
serial de diez alumnos de dcimo grado. Su hiptesis era que el efecto de primaca debera
ser menos prominente en el aprendizaje del grupo de los sujetos jvenes. El efecto de
primaca es la tendencia a que el material aprendido tempranamente en una serie sea
recordado ms eficientemente que el material aprendido posteriormente en la seria. El
prob esta hiptesis comparando el porcentaje de errores hechos por los dos grupos en la
primera mitad de las series de material aprendido, prediciendo que el grupo de mayor edad
(los de dcimo grado) haran relativamente menos errores al repetir la primera mitad de la
serie que el grupo ms joven.
1.- Ho: no hay diferencias en las proporciones de errores al recordar la primera mitad de las
series aprendidas entre los sujetos del undcimo y sptimo grado.
Ha: los del undcimo grado cometen proporcionalmente menos errores que los del
sptimo grado al recordar la primera mitad de la serie aprendida.
S1 (X)
S2 (X)
S1 (X)-S2 (X)
Obsrvese que la discrepancia ms grande entre las dos series es 7/10. K d = 7, el numerador
de esta diferencia mayor. La referencia a la tabla de los valores crticos de K d revela que
cuando N es igual a 10 el valor de Kd = 7 es significativo en el nivel = 0.01 para una
prueba de una cola. En vista de que el valor observado de K d de acuerdo con H0 es a lo ms
igual al nivel de significacin previamente fijado, se rechaza H0 y se acepta Ha. Concluimos
que los del undcimo grado cometen proporcionalmente menos errores que los del sptimo
grado al recordar la primera mitad de la serie aprendida.
Muestras grandes: pruebas de dos colas.
Cuando n1 y n2 son mayores que 40, la tabla de valores crticos D puede usarse para la
prueba de dos muestras de Kolmogorov-Smirnov. Cuando se emplea esta tabla, no es
necesario que n1 = n2.
Para usar esta tabla se determina el valor de D para los datos observados usando la formula
(1.2). Despus se compara el valor observado con el valor critico que se obtiene insertando
los valores observados de n1 y n2 en la expresin dada en la tabla de valores crticos de D.
Si la D observada es igual o menor que la calculada a partir de la expresin en la tabla, H 0
puede rechazarse en el nivel de significacin asociado con esa expresin.
Ejemplo. Una muestra aleatoria de tamao 9, X1, ... X9 es obtenida de una poblacin y otra
muestra aleatoria de tamao 15, Y1, ..., Y15 es obtenida de una segunda poblacin. La
hiptesis nula es que las dos poblaciones tienen funciones de distribucin idnticas. Si las
6
respectivas funciones son denotadas por F(x) y G(x), entonces la hiptesis nula podra ser
escrita como:
H0: F(x) = G(x)
La hiptesis alternativa puede ser como:
Ha: F(x) G(x)
Las dos muestras son ordenadas de la ms pequea a la ms grande por conveniencia, y sus
valores, junto con otros conjuntos de valores pertinentes a informacin acerca de sus
funciones de distribucin empricas, son dadas como sigue:
Xi
Yi
S1 (x) - S1 (x)
5.2
0 - 1/15 = -1/15
5.7
0 - 2/15 = -2/15
5.9
0 - -3/15 = -1/5
6.5
0 - 4/15 = -4/15
6.8
0 - 5/15 = -1/3
7.6
8.4
8.6
8.7
9.3
9.8
9.9
10.1
10.6
11.2
1 - 9/15 = 2/15
11.3
1 - 10/15 = 1/3
11.5
1 - 11/15 = 4/15
12.3
1 - 12/15 = 1/15
12.5
1 - 13/15 = 2/15
13.4
1 - 14/15 = 1/15
14.6
1-1=0
La esttica de la prueba para la prueba de dos muestras est dada por la siguiente ecuacin
como
T1 = mximoS1(x) - S2(x)
= 2/5 = 0.4
la diferencia mayor entre S1(x) y S2(x), el cual pertenece a la ocurrencia entre x = 11.2 y x =
11.3. El valor 0.4 de T1 pudo haber sido determinado grficamente por el dibujo de la
grfica de S1(x) y S2(x) en el mismo eje de coordenadas.
De la tabla de valores crticos de D (para muestras grandes de dos colas) podemos observar
que para un nivel de significacin de 0.05 y con n = 9 = N 1 y m = 15 = N2 podemos utilizar
la ecuacin especificada en dicha tabla.
____________
W0.05 = 1.36(9 + 15)/9*15 = 0.573
Esto ilustra la tendencia de la aproximacin asinttica de una prueba conservadora.
Muestras Grandes: prueba de una cola.
Cuando n1 y n2 son grandes haciendo caso omiso de que sean iguales o no, podemos hacer
una prueba de una cola con:
D = mxima [Sn1 (X) - Sn2 (X)]
8
(1.1)
Probamos la hiptesis de nulidad que supone dos muestras extradas de la misma poblacin
alterna, que afirma que los valores de la poblacin de la que una de las muestras fue
extrada son estocsticamente mayores que los de la poblacin de la que se sac la otra
muestra. Por ejemplo, podemos probar no simplemente si un grupo experimental es
diferente de un grupo de control, sino si un grupo experimental es "ms alto" que el grupo
control.
Ha sido demostrado que
x2 = 4D2(n1n2/n1 +n2)
(1.3)
El autoritarismo fue medido por la muy bien conocida F de autoritarismo, y las sujetas
fueron agrupadas por sus puntajes "altos" y "bajos". Las de puntajes "altos" fueron las que
calificaron en la mediana o por encima de ella en la escala F; las de puntajes bajos, las que
calificaron por debajo de la mediana. Se predijo que los dos grupos diferan en el nmero
de fotografas "identificadas".
1. Hiptesis de nulidad.
H0: las alumnas de la universidad que califican con autoritarismo bajo estereotipan tanto
("identifican" tantas fotografas) como las que califican con autoritarismo alto.
Ha: las alumnas que califican con autoritarismo alto estereotipan ms ("identifican"
tantas fotografas) que las que califican con autoritarismo bajo.
10
x2,
11
"identificadas"
0-2
3-5
6-8
9-11
12-14
15-17
18-20
11
7
8
3
5
5
5
1
3
6
12
12
14
6
S44(x)
S54(x)
0-2
11/44
1/54
18-20
44/44
54/54
S44(x)
S54(x)
S44(x) - S54(x)
0-2
0.250
0.018
0.232
18-20
1.0
1.0
0.0
Por simple sustraccin, encontramos las diferencias entre las distribuciones en los
diferentes intervalos de las dos muestras. La mayor de estas diferencias en la direccin
predicha es 0.406.
12
Estos es,
D = mximo valor de [Sn1(x) - Sn2(x)]
(1.1)
x2
= 4D2(n1n2)/n1 + n2
= 4(0.406)2(44)(54)/44 + 54
= 15.97
13
14
15
Nivel de
significacin
0.10
1.22(n1 + n2)/n1n2
0.05
1.36(n1 + n2)/n1n2
0.025
1.48(n1 + n2)/n1n2
0.01
1.63(n1 + n2)/n1n2
0.005
1.73(n1 + n2)/n1n2
0.001
1.95(n1 + n2)/n1n2
BIBLIOGRFIA
CONOVER, W. J. (1.971). Practical Non Parametric Statistic, Editorial John Wiley &
Sons, INC. Estados Unidos.
SIDNEY, Siegel. (1.956). Non Parametric Statitics for the Behavioral Sciences. Editorial
McGraw-Hill. Estados Unidos.
16