Вы находитесь на странице: 1из 16

TALLER DEL MTODO NO PARAMTRICO:

PRUEBA DE KOLMOGOROV-SMIRNOV
GARCA, Yelitza
CRDENAS, Eduardo
FIGUEREDO, Rosa
Universidad Nacional Experimental de Guayana
Ingeniera Informtica. Urb. Chilemex. Ciudad Guayana. Venezuela.
e-mail: eduloy@hotmail.com
RESUMEN
El Mtodo de Kolmogorov-Smirnov para dos muestras dirige el inters hacia los puntos de
acuerdo a dos distribuciones acumulativas. Esta prueba examina los puntos de coincidencia
de dos conjuntos de valores muestrales. Si las dos muestras han sido de verdad extradas de
la misma distribucin de poblacin, puede esperarse que las distribuciones acumulativas de
ambas muestras sean claramente prximas entre s, ya que solamente deberan mostrar
desviaciones casuales de la distribucin de poblacin. Un alejamiento excesivo de las
distribuciones acumulativas de las dos muestras sugieren que las muestras provienen de
poblaciones diferentes. As, una desviacin bastante grande entre las dos distribuciones
acumulativas muestrales es una razn para rechazar H0.
PALABRAS CLAVES
Mtodos No-Paramtricos, Kolmogorov-Smirnov, estocsticamente.
INTRODUCCIN
El mtodo no-paramtrico de Kolmogorov-Smirnov para dos muestras independientes que
se presentar a continuacin, establece que para la aplicacin de este mtodo se utilicen la
tabla de valores crticos de KD, la tabla de valores crticos de D y la tabla de valores crticos
de Ji-cuadrado.

La primera tabla, se usa cuando n1 y n2 son iguales y son menores o iguales que 40. La
segunda es para muestras grandes sin considerar la igualdad entre muestras, y la ultima para
pruebas de una cola y con muestras grandes sin considerar la igualdad entre ellas.
A travs de la aplicacin de este mtodo se verificar la igualdad entre las funciones de
distribucin de las muestras extradas de poblaciones diferentes.
1. PRUEBA DE DOS MUESTRAS DE KOLMOGOROV-SMIRNOV
La prueba de dos muestras de Kolmogorov-Smirnov dirige el inters hacia los puntos de
acuerdo entre dos distribuciones acumulativas. Examina los puntos de coincidencia de dos
conjuntos de valores mustrales.
Esta prueba de dos muestras puede confirmar que dos muestras independientes han sido
extradas de la misma poblacin (o de poblaciones con la misma distribucin). La prueba
de dos colas es sensible a cualquier diferencia en las distribuciones de las que se sacaron las
dos muestras: Diferencias en colocacin (tendencia central), en dispersin, en oblicuidad,
etc. La prueba de una cola se usa para decidir si los valores de la poblacin en las que se
tom una de las muestras son mayores o menores que los de la poblacin de la que se tom
la otra.
Si las dos muestras han sido de verdad extradas de la misma distribucin de poblacin,
puede esperarse que las distribuciones acumulativas de ambas muestras sean claramente
prximas entre s, ya que solamente deberan mostrar desviaciones casuales de la
distribucin de poblacin. Un alejamiento excesivo de las distribuciones acumulativas de
las dos muestras sugiere que las muestras provienen de poblaciones diferentes. As, una
desviacin bastante grande entre las dos distribuciones acumulativas mustrales es una
razn para rechazar la hiptesis nula Ho.

Mtodo.
Al aplicar la prueba de dos muestras de Kolmogorov-Smirnov, hacemos una distribucin de
frecuencia acumulativas para cada muestra de observaciones, usando los mismos intervalos
para ambas distribuciones. En seguida sustraemos, para cada intervalo, cada funcin
escalonada de la otra. La prueba examina la ms grande de estas desviaciones observadas.
Sea Sn1 (X) la funcin acumulativa escalonada que se ha observado en una de las muestras,
esto es, Sn1(X) = K/n1, donde K es el nmero de puntajes iguales o menores de X. Y sea S n2
(X) la funcin acumulativa escalonada que se ha observado en la otra muestra, esto es,
Sn2(X) = K/n2. Ahora bien, la prueba de dos muestras de Komogorov-Smirnov examina la
diferencia:
D = mxima [Sn1 (X) Sn2 (X)]

(1.1)

Para una prueba de una cola, y:


D = mxima Sn1 (X) Sn2 (X)

(1.2)

para una prueba de dos colas. La distribucin muestral de D se conoce (Smirnov 1948;
Massey, 1951) y las probabilidades asociadas con la ocurrencia de valores tan grandes
como el de una D observada conforme a la hiptesis de nulidad (que supone dos muestras
procedentes de la misma distribucin) se han tabulado.
Para la prueba de una cola encontramos el valor mximo de D en la direccin predicha por
la formula 1.1 y para una prueba de dos colas encontramos el valor mximo absoluto de D
por la formula 1.2, es decir, la desviacin mxima independientemente de su direccin.
Esto se debe a que en la prueba de una cola, H 1 afirma que los valores de la poblacin de la
que extrajo una de las muestras son estocsticamente ms grandes que los de la poblacin
3

de la que se sac la otra, mientras en la prueba de dos colas, H 1 simplemente dice que las
dos muestras proceden de diferentes poblaciones.
Muestras pequeas.
Cuando n1 = n2 y cuando ambas n1 y n2 valen 40 o menos, puede usarse la tabla L para
probar la hiptesis de nulidad. Para leer la tabla L, se debe conocer el valor N y el valor de
Kd.
Por ejemplo, en una prueba de una cola donde N = 14, si K d 8 podemos rechazar la
hiptesis de nulidad a nivel = 0.01.
Ejemplo para muestra pequea.
Se compara el aprendizaje serial de diez alumnos del sptimo grado con el aprendizaje
serial de diez alumnos de dcimo grado. Su hiptesis era que el efecto de primaca debera
ser menos prominente en el aprendizaje del grupo de los sujetos jvenes. El efecto de
primaca es la tendencia a que el material aprendido tempranamente en una serie sea
recordado ms eficientemente que el material aprendido posteriormente en la seria. El
prob esta hiptesis comparando el porcentaje de errores hechos por los dos grupos en la
primera mitad de las series de material aprendido, prediciendo que el grupo de mayor edad
(los de dcimo grado) haran relativamente menos errores al repetir la primera mitad de la
serie que el grupo ms joven.
1.- Ho: no hay diferencias en las proporciones de errores al recordar la primera mitad de las
series aprendidas entre los sujetos del undcimo y sptimo grado.
Ha: los del undcimo grado cometen proporcionalmente menos errores que los del
sptimo grado al recordar la primera mitad de la serie aprendida.

2.- Nivel de significacin = 0.01 y n1 = n2 = N, nmero de sujetos en cada grupo, 10.


3.- Distribucin muestral. La tabla de los valores crticos de Kd para n1 = n2 donde n1 y n2
son menores que 40.
4.- Regin de rechazo. Como H a predice la direccin de la diferencia, la regin de rechazo
tiene una cola. H0 ser rechazada si el valor de K d para la mayor desviacin en la
direccin predicha es tan grande que la probabilidad asociada con su ocurrencia
conforme a H0 es menor o igual que = 0.01.
5.- Decisin. La TABLA 1 contiene los porcentajes de los errores de cada sujeto,
cometidos al recordar la primera mitad del material aprendido serialmente. Para el
anlisis con la prueba de Kolmogorov-Smirnov, estos datos fueron clasificados en dos
distribuciones acumulativas, mostradas en la TABLA 2. Aqu n1 = 10 pertenecientes al
undcimo grado y n2 =10 al sptimo grado.
TABLA 1. Porcentaje de errores totales en la primera mitad de la serie.
Sujetos del sptimo grado
39.1
41.2
45.2
46.2
48.4
48.7
55.0
40.6
52.1
47.2

Sujetos del undcimo grado


35.2
39.2
40.9
38.1
34.4
29.1
41.8
24.3
32.4
32.6

TABLA 2. Datos de la TABLA 1 ordenados para la prueba de Kolmogorov-Smirnov.

S1 (X)
S2 (X)
S1 (X)-S2 (X)

Porcentaje de errores totales en la primera mitad de la serie


24-27
28-31
32-35
36-39
40-43
44-47
48-51
52-55
1/10
2/10
5/10
7/10
10/10
10/10
10/10
10/10
0/10
0/10
0/10
0/10
3/10
5/10
8/10
10/10
1/10
2/10
5/10
7/10
7/10
5/10
2/10
0

Obsrvese que la discrepancia ms grande entre las dos series es 7/10. K d = 7, el numerador
de esta diferencia mayor. La referencia a la tabla de los valores crticos de K d revela que
cuando N es igual a 10 el valor de Kd = 7 es significativo en el nivel = 0.01 para una
prueba de una cola. En vista de que el valor observado de K d de acuerdo con H0 es a lo ms
igual al nivel de significacin previamente fijado, se rechaza H0 y se acepta Ha. Concluimos
que los del undcimo grado cometen proporcionalmente menos errores que los del sptimo
grado al recordar la primera mitad de la serie aprendida.
Muestras grandes: pruebas de dos colas.
Cuando n1 y n2 son mayores que 40, la tabla de valores crticos D puede usarse para la
prueba de dos muestras de Kolmogorov-Smirnov. Cuando se emplea esta tabla, no es
necesario que n1 = n2.
Para usar esta tabla se determina el valor de D para los datos observados usando la formula
(1.2). Despus se compara el valor observado con el valor critico que se obtiene insertando
los valores observados de n1 y n2 en la expresin dada en la tabla de valores crticos de D.
Si la D observada es igual o menor que la calculada a partir de la expresin en la tabla, H 0
puede rechazarse en el nivel de significacin asociado con esa expresin.
Ejemplo. Una muestra aleatoria de tamao 9, X1, ... X9 es obtenida de una poblacin y otra
muestra aleatoria de tamao 15, Y1, ..., Y15 es obtenida de una segunda poblacin. La
hiptesis nula es que las dos poblaciones tienen funciones de distribucin idnticas. Si las
6

respectivas funciones son denotadas por F(x) y G(x), entonces la hiptesis nula podra ser
escrita como:
H0: F(x) = G(x)
La hiptesis alternativa puede ser como:
Ha: F(x) G(x)
Las dos muestras son ordenadas de la ms pequea a la ms grande por conveniencia, y sus
valores, junto con otros conjuntos de valores pertinentes a informacin acerca de sus
funciones de distribucin empricas, son dadas como sigue:

Xi

Yi

S1 (x) - S1 (x)

5.2

0 - 1/15 = -1/15

5.7

0 - 2/15 = -2/15

5.9

0 - -3/15 = -1/5

6.5

0 - 4/15 = -4/15

6.8

0 - 5/15 = -1/3

7.6

1/9 - 5/15 = -2/9


8.2

8.4

2/9 - 6/15 = -8/45

8.6

3/9 - 6/15 = -1/15

8.7

4/9 - 6/15 = 2/45


9.1

9.3

4/9 - 7/15 = -1/45


5/9 - 7/15 = 4/45

9.8

5/9 - 8/15 = 1/45

9.9

6/9 - 8/15 = 2/15

10.1

7/9 - 8/15 = 11/45

10.6

8/9 - 8/15 = 16/45


10.8

1/9 = 6/15 = -13/45

8/9 - 9/15 = 13/45

11.2

1 - 9/15 = 2/15
11.3

1 - 10/15 = 1/3

11.5

1 - 11/15 = 4/15

12.3

1 - 12/15 = 1/15

12.5

1 - 13/15 = 2/15

13.4

1 - 14/15 = 1/15

14.6

1-1=0

La esttica de la prueba para la prueba de dos muestras est dada por la siguiente ecuacin
como
T1 = mximoS1(x) - S2(x)
= 2/5 = 0.4
la diferencia mayor entre S1(x) y S2(x), el cual pertenece a la ocurrencia entre x = 11.2 y x =
11.3. El valor 0.4 de T1 pudo haber sido determinado grficamente por el dibujo de la
grfica de S1(x) y S2(x) en el mismo eje de coordenadas.
De la tabla de valores crticos de D (para muestras grandes de dos colas) podemos observar
que para un nivel de significacin de 0.05 y con n = 9 = N 1 y m = 15 = N2 podemos utilizar
la ecuacin especificada en dicha tabla.
____________
W0.05 = 1.36(9 + 15)/9*15 = 0.573
Esto ilustra la tendencia de la aproximacin asinttica de una prueba conservadora.
Muestras Grandes: prueba de una cola.
Cuando n1 y n2 son grandes haciendo caso omiso de que sean iguales o no, podemos hacer
una prueba de una cola con:
D = mxima [Sn1 (X) - Sn2 (X)]
8

(1.1)

Probamos la hiptesis de nulidad que supone dos muestras extradas de la misma poblacin
alterna, que afirma que los valores de la poblacin de la que una de las muestras fue
extrada son estocsticamente mayores que los de la poblacin de la que se sac la otra
muestra. Por ejemplo, podemos probar no simplemente si un grupo experimental es
diferente de un grupo de control, sino si un grupo experimental es "ms alto" que el grupo
control.
Ha sido demostrado que

x2 = 4D2(n1n2/n1 +n2)

(1.3)

tiene una distribucin muestral a la que se aproxima la distribucin Ji-cuadrada con gl = 2.


Es decir, podemos determinar la significacin de un valor observado de D, calculado a
partir de la frmula (1.2), resolviendo la frmula (1.3) para los valores de D, n1 y n2,
consultando la distribucin Ji-cuadrada con gl = 2.
Ejemplo para muestras grandes: prueba de una cola.
En un estadio de los correlatos de la estructura de la personalidad autoritaria, se elabor una
hiptesis que supona que las personas de alto autoritarismo mostrara mayor presencia de
estereotipos frente a los miembros de diferentes grupos tnicos nacionales que aquellas
otras de autoritarismo bajo. Esta hiptesis fue probada con un grupo de 98 alumnas
universitarias seleccionadas al azar. A cada sujeto se le dieron veinte fotografas y se le
pidi "identificar" aquellas cuya nacionalidad reconocieran, colocando junto a las
fotografas que escogieran, el nombre del grupo nacional. Las sujetas estaban en libertad de
"identificar" (con ste mtodo) tantas fotografas como desearan. Sin que lo supieran las
estudiantes, todas las fotografas eran de nacionalidades mexicanos - candidatos a la
Legislatura y triunfadoras en concursos de belleza - mientras la lista de los veinte grupos

tnicos y nacionales no inclua "mexicano". Debido a esto, el nmero de fotografas


"identificadas" por cualquier sujeto constituy un ndice de su tendencia al estereotipo.

El autoritarismo fue medido por la muy bien conocida F de autoritarismo, y las sujetas
fueron agrupadas por sus puntajes "altos" y "bajos". Las de puntajes "altos" fueron las que
calificaron en la mediana o por encima de ella en la escala F; las de puntajes bajos, las que
calificaron por debajo de la mediana. Se predijo que los dos grupos diferan en el nmero
de fotografas "identificadas".
1. Hiptesis de nulidad.
H0: las alumnas de la universidad que califican con autoritarismo bajo estereotipan tanto
("identifican" tantas fotografas) como las que califican con autoritarismo alto.
Ha: las alumnas que califican con autoritarismo alto estereotipan ms ("identifican"
tantas fotografas) que las que califican con autoritarismo bajo.

2. Prueba estadstica. Como las de calificaciones baja y las de calificaciones altas


constituyen dos grupos independiente, se escogi una prueba para dos muestras
independientes. Debido a que el nmero de fotografas "identificadas" por una sujeta no
puede considerarse ms que una medida ordinal de la tendencia de la sujeto a
estereotipar, es adecuada a una prueba no paramtrica. La prueba de dos muestras de
Kolmogorov-Smirnov compara las dos distribuciones de frecuencias acumulativas de las
muestras y determina si la D observada permite deducir que han sido tomadas de dos
diferentes poblaciones, una de las cuales es estocsticamente mayos que la otra.
3. Nivel de significacin. Sea = 0.01. Los tamaos de n1 y n2 pueden determinarse
solamente despus de obtener los datos, en vista de que las sujetos sern agrupadas de

10

acuerdo a su calificacin en la escala F, ya sea en la mediana o, por encima de ella, o ya


sea por debajo de la mediana.
4. Distribucin muestral. La distribucin muestral es:

x2 = 4D2(n1 y n2)/( n1 + n2)


Segn la frmula (1.3), donde D ha sido calculada con la frmula (1.1). Se le aproxima
a la distribucin Ji- cuadrada, con gl = 2. La probabilidad asociada con un valor
observado de D puede determinarse calculando x2 con la frmula (1.3) y la tabla C.
5. Regin de rechazo. En vista de que Ha predice la direccin de la diferencia entre las de
puntajes F bajos y altos, se us una prueba de una cola. La regin de rechazo consiste
en todos los valores de

x2,

calculados con la frmula (1.3), tan grandes que la

probabilidad asociada con su ocurrencia conforme a H0 para gl = 2 es igual o menor que


= 0.01.
6. Decisin. De las 98 alumnas, 44 obtuvieron puntajes F por debajo de la mediana. As,
n1 = 44. Las restantes 54 obtuvieron puntajes en, o por encima de la mediana: n 2 = 54.
El nmero de fotografas "identificada" por cada una de las sujetas de los dos grupos se
da en la TABLA 3. Para aplicar la prueba de Kolmogorov-Smirnov, reorganizaremos
estos datos en dos distribuciones de frecuencias acumulativas, como se ha hecho en la
TABLA 4. Para facilitar el clculo, las fracciones mostradas en dicha tabla pueden
convertirse en valores decimales; estos valores aparecen en la TABLA 5.

11

TABLA 3. Nmero de alumnas de autoritarismo altos y bajos que identifican "diferentes


nmeros de fotografas.
Nmero de fotografas

Nmero de puntajes bajos

Nmero de puntajes altos

"identificadas"
0-2
3-5
6-8
9-11
12-14
15-17
18-20

11
7
8
3
5
5
5

1
3
6
12
12
14
6

TABLA 4. Datos de la TABLA 3 organizados para la prueba de Kolmogorov-Smirnov

S44(x)
S54(x)

0-2
11/44
1/54

Nmero de fotografa "identificada"


3-5
6-8
9-11
12-14
15-17
18/44
26/44
29/44
34/44
39/44
5/54
10/54
22/54
34/54
38/54

18-20
44/44
54/54

TABLA 5. Equivalentes decimales de los datos de la TABLA 4

S44(x)
S54(x)
S44(x) - S54(x)

0-2
0.250
0.018
0.232

Nmero de fotografa "identificada"


3-5
6-8
9-11
12-14
15-17
0.409
0.591
0.659
0.773
0.886
0.074
0.184
0.407
0.630
0.704
0.335
0.406
0.252
0.143
0.182

18-20
1.0
1.0
0.0

Por simple sustraccin, encontramos las diferencias entre las distribuciones en los
diferentes intervalos de las dos muestras. La mayor de estas diferencias en la direccin
predicha es 0.406.

12

Estos es,
D = mximo valor de [Sn1(x) - Sn2(x)]

(1.1)

= mximo valor de [S44(x) - S54(x)]


= 0.406
Con D = 0.406, calculamos el valor de x2 definido por la frmula (1.3).

x2

= 4D2(n1n2)/n1 + n2
= 4(0.406)2(44)(54)/44 + 54
= 15.97

La referencia al tabla C seala que la probabilidad asociada con x2 = 15.97 para gl = 2, es


p < 0.001, (prueba de una cola). Ya que este valor es menor que = 0.01, podemos
rechazar Ho ya aceptar Ha. Concluimos que las alumnas con calificacin alta en la escala de
autoritarismo estereotipan ms ("identifican" ms fotografas) que las alumnas con
calificacin baja.
CONCLUSIONES
Resumen del procedimiento. Pasos para usar la prueba de dos muestras de KolmogorovSmirnov:
1. Se dispone cada uno de los grupos de puntajes en una distribucin de frecuencias
acumulativas con los mismos intervalos (o clasificaciones) para ambas
distribuciones. Si usan tantos intervalos como sea factible, claro esta si existe un
numero considerable de intervalos los resultados sern mas precisos.
2. Por sustraccin, se determina la diferencia entre las distribuciones acumulativas de
las dos muestras en cada punto registrado.

13

3. Por inspeccin, se determina la mayor de estas diferencias; esta es D. Para una


prueba de una cola, D es la diferencia ms grande en la direccin predicha.
4. El mtodo para determinar la significacin de la D observada depende del tamao
de las muestras y de la naturaleza de Ha.
a. Cuando n1 = n2 = N y cuando N 40, se usa la tabla de valores crticos de
Kd, que contiene los valores crticos de K d (el numerador de D) en diferentes
niveles de significacin, de pruebas de una y dos colas.
b. Para una prueba de dos colas, cuando n1 = n2. Los valores crticos de D para
valores grandes dados de n1 y n2 pueden calcularse a partir de las
expresiones incorporadas a la tabla de los valores crticos de D.
c. Para una prueba de una cola, cuando n1 y n2 son grandes, el valor de x 2 con
gl = 2 asociado con la D observada se calcula con la formula:
x2 = 4D2(n1n2 / n1+n2). La significacin del valor resultante de x2 con gl = 2 puede
determinarse por referencia a la tabla *C. Esta aproximacin Ji- cuadrada es tambin til
para muestras pequeas con n1 n2, pero en esa aplicacin la prueba es conservadora.
Si el valor observado es igual o mayor que el que se da en la tabla apropiada para un nivel
particular de significacin, Ho puede rechazarse en tal nivel de significacin.

14

Tabla de Valores crticos de KD en la prueba de dos muestras de


Kolmogorov-Smirnov (Muestras Pequeas)
N
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40

15

Prueba de una cola


= 0.05
= 0.01
3
4
4
5
5
6
5
6
5
6
6
7
6
7
6
8
6
8
7
8
7
8
7
9
7
9
8
9
8
10
8
10
8
10
8
10
9
11
9
11
9
11
9
11
9
11
9
12
10
12
10
12
10
12
11
13
11
14

Prueba de dos colas


= 0.05
= 0.01
4
5
5
5
6
6
6
6
7
6
7
7
8
7
8
7
8
7
9
8
9
8
9
8
10
8
10
9
10
9
10
9
11
9
11
9
11
10
11
10
12
10
12
10
12
10
12
11
13
11
13
11
13
12
13

Tabla de valores crticos de D en la prueba de dos muestras de KolmogorovSmirnov


(Muestras grandes: prueba de dos colas)

Nivel de
significacin

Valores de D tan grandes que requieren rechazar H0


en el nivel de significacin indicado, donde D =
mximo
Sn1(X) - Sn1(X)

0.10

1.22(n1 + n2)/n1n2

0.05

1.36(n1 + n2)/n1n2

0.025

1.48(n1 + n2)/n1n2

0.01

1.63(n1 + n2)/n1n2

0.005

1.73(n1 + n2)/n1n2

0.001

1.95(n1 + n2)/n1n2

BIBLIOGRFIA
CONOVER, W. J. (1.971). Practical Non Parametric Statistic, Editorial John Wiley &
Sons, INC. Estados Unidos.
SIDNEY, Siegel. (1.956). Non Parametric Statitics for the Behavioral Sciences. Editorial
McGraw-Hill. Estados Unidos.

16

Вам также может понравиться