Вы находитесь на странице: 1из 9

Prueba de Bondad de Ajuste

En este captulo nos hemos ocupado de la prueba de hiptesis estadsticas acerca de


parmetros individuales de la poblacin, tales como , 2 y p. Ahora estudiaremos una
prueba para determinar si una variable sigue una distribucin especfica. La prueba se basa en
el grado de ajuste que hay entre la frecuencia de ocurrencia de las observaciones de una
muestra observada y las frecuencias esperadas que se obtienen de una distribucin hipottica.
La idea de comparar las distribuciones tericas y empricas es la base de la prueba de
Kolmogrov Smirnov (K-S). Son pruebas no paramtricas que se utilizan para diferencias
entre distribuciones acumuladas. La prueba unimuestral se refiere a la concordancia entre una
distribucin acumulada continua con una determinada distribucin terica, es pues, una
prueba de bondad de ajuste. La prueba bimuestral sta relacionada con la conformidad entre
dos distribuciones observadas, donde se prueba la hiptesis de que dos muestras
independientes provienen de distribuciones continuas idnticas y es sensible a diferencias de
la poblacin con respecto a la localizacin, dispersin o sesgo.
La prueba de Bondad de Ajuste o prueba chi- cuadrada, se aplica a variables aleatorias tanto
discretas como continas. Se basa en comparar funciones de densidad de probabilidad, en vez
de las funciones de densidad acumuladas, como en la prueba K-S.

a) Prueba de Bondad de Ajuste para Distribuciones Continuas No Tabuladas


Ejemplo: Consideremos el conjunto de datos en la siguiente tabla, que representan los tiempos
de servicio (en minutos) para una muestra de 60 clientes. Se quiere probar si los datos se han
sacado de una distribucin exponencial.
Tabla 1
0.7
1.5
2.7
9.6
0.7
8.7

0.4
2.4
0.4
1.6
1.9
2.4

3.4
3.4
2.2
5.2
9.1
7.2

4.8
6.4
2.4
0.6
1.3
1.5

2.0
3.7
0.5
0.9
10.6
7.9

1.0
4.8
1.7
3.9
3.0
11.7

5.5
2.5
9.3
3.3
0.3
6.3

6.2
5.5
8.0
0.2
2.9
3.8

1.2
0.3
4.7
0.2
2.9
6.9

4.4
8.7
5.9
4.9
4.8
5.3

Una manera rpida de verificar si un conjunto de datos se ajusta a una distribucin terica
dada es comparar, grficamente, la distribucin emprica acumulada con la correspondiente
funcin de densidad acumulada de la distribucin terica propuesta. Si las dos funciones no
muestran una desviacin excesiva, existe la probabilidad de que la distribucin terica se
ajuste a los datos.
Entonces, el primer paso en el procedimiento chi-cuadrada es elaborar un histograma de
frecuencia. Esto nos permite decidir visualmente cul de las funciones tericas de densidad se
ajusta mejor a los datos del histograma.
Prof. Mnica Ansin Antille

1/9

Tabla 2: Tabla de distribucin de frecuencias


Intervalo
[ )

Conteo de las
observaciones

0 - 1
1
2
3
4
5
6
7
8
9
10
11

/// /
/// /
/// /
/// /
/// /
/// /

2
3
4
5
6
7
8
9
10
11
12

Frecuencias
Observadas
( i)

Frecuencias
Relativas
(f i)

Frecuencias
Relativas
Acumuladas (Fi)

11

0.1833

0.1833

8
9
7
6
5
4
2
3
3
1
1

0.1333
0.1500
0.1167
0.1000
0.0833
0.0667
0.0333
0.0500
0.0500
0.0167
0.0167

0.3166
0.4666
0.5833
0.6833
0.7866
0.8333
0.8666
0.9166
0.9666
0.9833
1.0000

60

1.0000

//// /

///
////
//
/

////
//
///
///
/
/

Frecuencia relativa
0,2 0,1833
0,1333

0,15

0,15
0,1167

0,1

0,1

0,0833

0,0667
0,0333

0,05

0,05

0,05
0,0167 0,0167

0
1

Prof. Mnica Ansin Antille

10

11

12

2/9

1,2
1

Distribucion
exponencial
acumulada

0,8
0,6

Distribucion
empirica
acumulada

0,4
0,2
0
1

10

11

12

Comparando la distribucin emprica con la F(t) (funcin acumulada), est sugiere que la
distribucin exponencial podra dar un ajuste razonable. Tambin si observamos el
histograma, este parece corresponder a una funcin de densidad exponencial.
1)

H0: X Exp ()
Exp ()
H1: X

f (t)

F (T )

e t
t 0
0
en otro lugar

f (t )

dt 1 e t

T0

2) Estimamos al parmetro con la inversa de la media aritmtica (estimador de mxima


1 X .

verosimilitud)
De los valores de la tabla 1, calculamos la
minutos, entonces

= 0.254
x = 3.937 minutos, por lo tanto

f (t) = 0.254 e 0.254 t

t>0

F (T) = 1 - e 0.254 T

T>0

La prueba de Bondad de Ajuste se basa en la medicin de la cantidad de desviacin entre las


funciones de densidad emprica y terica. Para lograr esto, supongamos que [ I i 1 , I i ]
representa las fronteras del intervalo i , y supongamos que f (t) es la funcin de densidad
hipottica.
Dada una muestra de tamao n, la frecuencias terica o esperada asociada al intervalo i, se
calcula como
ei n

Ii

f ( t ) dt

i = 1, 2, . . . , k

I i 1

Prof. Mnica Ansin Antille

3/9

donde k es el nmero de celdas ( de intervalos ) usados en la f (t) emprica.


La estadstica apropiada en que se basa el criterio de decisin para un experimento con k
celdas la define el siguiente
TEOREMA: La prueba de bondad de ajuste entre las frecuencias observadas ( i) y las
frecuencias esperadas (e i) se basa en la cantidad
U

i ei 2

i 1

ei

12 , k r 1

donde U es el valor de la variable aleatoria cuya distribucin muestal se aproxima a la


distribucin chi cuadrada; cuando el nmero de celdas (k) es muy grande y r es el nmero
de parmetros estimados en la prueba ( tambin se lo define como el nmero de cantidades
que se obtengan de los datos observados que se necesitan para calcular las frecuencias
esperadas ).

Si las frecuencias observadas estn cercanas a sus correspondientes frecuencias esperadas el


valor de U ser pequeo, lo cual indica un buen ajuste.
f
Si las frecuencias observadas difieren considerablemente
(
de las frecuencias esperadas, el valor de U ser grande
x
y el ajuste ser pobre. Un buen ajuste lleva al no
)
rechazo de la hiptesis nula (H0), mientras que un ajuste
deficiente conduce a un rechazo. Por lo tanto, la regin
1
crtica o de rechazo caer en el extremo derecho de la

X
distribucin chi cuadrada.
=

0
c .
2 0
Este criterio de decisin no debe usarse si las frecuencias observadas no son iguales
a 5, por
5
lo menos. En nuestro ejemplo, para usar la distribucin exponencial es necesario estimar , la
media de la variable aleatoria exponencial. Esto significa que r = 1. La funcin exponencial
hipottica es:
f (t) = 0.254 e 0.254 t

t>0

Para la celda i obtenemos la frecuencia esperada (terica) como:


ei n

Ii

I i 1

Prof. Mnica Ansin Antille

f ( t ) dt = 60

0.254 I

i 1

0.254 I

4/9

Tabla 3: Tabla de distribucin de frecuencias


Intervalo
[ )

Frecuencias
Observadas ( i )

01
12
23
34
45
56
67
78
89
9 10
10 11
11 12
12

11
8
9
7
6
5
4
2
3
3
1
1
0

Totales

n = 60

i ei 2

Frecuencias
Esperadas ( e i )

25

13.47
10.44
8.10
6.28
4.87
3.88
2.93
2.27
1.76
1.37
1.06
0.82
2.75

ei
0.453
0.570
0.100
0.083

21.71

n = 60

0.499

U = 1.705

No debemos olvidar que el criterio de decisin de sta prueba no debe usarse si las
frecuencias observadas en cualquier intervalo no son, por lo menos, iguales a 5. Esto se logra
combinando intervalos sucesivos hasta que la regla se satisfaga. Entonces, el nmero efectivo
de celdas es k = 5 y como estimamos un solo parmetro, los grados de libertad de la c2
son k r 1 = 5 1 1 = 3. Si suponemos = 0.05, el valor critico se obtiene de tabla
2
0.95
,

( 3)

7.81

Puesto que el valor de la prueba es U = 1.705 y siendo


R. de R.: U > c2 / P ( U >

2
c

1-

) H0 =

c2

=0

Decidimos aceptar la hiptesis de que la muestra se obtuvo de una distribucin exponencial


hipottica, ya que 1.705 < 7.81, el valor de U cae en la regin de aceptacin. Esto quiere
decir que podemos usar la distribucin.
f (t) = 0.254 e 0.254 t

Prof. Mnica Ansin Antille

t>0

5/9

b) Pruebas de Bondad de Ajuste para Distribuciones Discretas Tabuladas


Ejemplo: El nmero de camiones petroleros que llegan a una refinera por da, ha sido
registrado durante 1000 das. Los resultados se muestran en la siguiente tabla:
N de camiones por da
(frecuencias observadas) i

0
372

1
360

2
191

3
57

4
16

5
2

6
1

7
1

Es razonable suponer que el nmero de camiones que lleguen a la refinera por da, en base a
los datos, es una variable aleatoria discreta que sigue una distribucin de Poisson?. Suponer
= 0.05
1)

H 0: X

e x
P0
x!

P 0 ()

P 0 ()
H 1: X

2) Estimamos el parmetro con

i 1

E X
Var X

1000
X 1 , donde k
1,
1000

es el nmero de celdas (resultados posibles de un experimento), en nuestro caso k = 8.

Las frecuencias esperadas o tericas las hallamos de tabla, haciendo e i = n p i donde n es el


tamao total de la muestra y p i = P (X = x i) es la probabilidad asociada a la distribucin que
esta en juego.
e 0 = n P ( X = 0 ) = 1000 x 0.3679 368
e 1 = n P ( X = 1 ) = 1000 x 0.3679 368
e 2 = n P ( X = 2 ) = 1000 x 0.1839 184
e 3 = n P ( X = 3 ) = 1000 x 0.0613 61
e 4 = n P ( X = 4 ) = 1000 x 0.0153 15
e 5 = n P ( X = 5 ) = 1000 x 0.0031 3
e 6 = n P ( X = 6 ) = 1000 x 0.0005 1
e 7 = n P ( X = 7 ) = 1000 x 0.0001 0

N de camiones por da
(frecuencias observadas) i
(frecuencias esperadas) e i

0
372
368

1
360
368

2
191
184

3
57
61

4
16
15

5
2
3

6
1
1

7
1
0

Analizando los datos vemos que no varan las frecuencias observadas de las tericas, entonces
aceptamos la suposicin de una distribucin de Poisson. La estadstica apropiada en que se
basa el criterio de decisin para un experimento con k celdas la define el siguiente
Prof. Mnica Ansin Antille

6/9

3) R. de R.: U > c2 / P (U > c2 ) H =


0

constituye la regin crtica de rechazo.

Este criterio de decisin no debe usarse si las frecuencias esperadas no son iguales a 5, por lo
menos. En nuestro ejemplo, combinamos las celdas cuyos valores son menores que 5 y
obtenemos:
N de camiones por da
(frecuencias observadas) i
(frecuencias esperadas) e i

i e i 2

i 1

ei

372 368 2
368

0
372
368

1
360
368

360 368 2
368

2
191
184

3
57
61

4
20
19

191 184 2
184

57 61 2
61

20 19 2 = 1.535
19

2
2
2
c2 = 1 , k r 1 = 0.95, 5 1 1 = 0.95, 3 = 7.81

4) Conclusin: Como U < c2 (1.535 < 7.81) entonces aceptamos la hiptesis nula, es
decir el nmero de camiones que llegan por da a la refinera siguen una distribucin de
Poisson
f (t )

e- 1 1x
1

x!
x !e

x 0, 1, 2,

con una significancia del 5 %.

c) Pruebas de Bondad de Ajuste para Distribuciones Continuas Tabuladas


Ejemplo: Los datos de la tabla representan la vida de cuarenta acumuladores para automviles
redondeados en dcima de aos. Los acumuladores tienen una vida garantizada de tres aos.
Tabla 4
4.7
3.8
3.2
2.6
3.9

3.0
4.2
3.5
2.2
4.1

3.5
4.5
3.2
3.7
3.0

2.6
3.4
1.6
3.1
3.3

3.8
3.1
4.7
3.7
2.5

4.3
3.4
3.6
2.9
3.3

3.9
3.1
3.3
3.1
3.7

4.4
3.0
4.1
1.9
3.6

Tabla 5: Tabla de distribucin de frecuencias


Prof. Mnica Ansin Antille

7/9

Intervalo de
Clase [ )
1.45 1.95
1.95 2.45
2.45 2.95
1.95 3.45
3.45 3.95
3.95 4.45
4.45 4.95

Punto
Medio
1.7
2.2
2.7
3.2
3.7
4.2
4.7

Frecuencias
Observadas ( i)
2
1
4
15
10
5
3

Frecuencias
Relativas ( f r )
0.025
1.025
0.100
0.100
0.375
0.250
0.125

40

1.000

Viendo el histograma podemos suponer que los datos siguen una distribucin normal.
H 0: X N (, 2)
N (, 2)
H 1: X
De los datos de la tabla 4, se obtienen x = 3.4125 y s = 0.703. Estos valores se usarn para
estimar a y a en el calculo de los valores de z correspondientes a los lmites de clase.
Por ejemplo, el valor de z correspondiente a los lmites de la cuarta clase son:

z1

2.95 3.4125
0.658
0.703

z2

3.45 3.4125
0.053
0.703

Entonces el rea entre z 1 y z 2 es


Area = P ( 0.658 < Z < 0.053) = F N ( 0.053 ) F N ( 0.658 ) = 0.5211 0.2552 = 0.2659
Por lo tanto la frecuencia esperada para la cuarta clase es:
Prof. Mnica Ansin Antille

8/9

e 4 = n P = 40 x 0.2659 = 10.6
Cuando queremos hallar la frecuencia esperada para el primer intervalo de clase, la
obtenemos usando el rea total bajo la curva normal hacia la izquierda del lmite 1.95, es decir
P (X < 1.95) y para el ltimo intervalo de clase se emplea el rea total hacia la derecha del
lmite inferior del intervalo, el cual es de 4.45, P (X > 4.45). Todas las otras frecuencias
esperadas se determinan por el mtodo descrito para la cuarta clase. Entonces
Tabla 6: Tabla de distribucin de frecuencias
Intervalo de
Clase [ )

Frecuencias
Observadas ( i)

1.45 1.95
1.95 2.45
2.45 2.95
1.95 3.45
3.45 3.95
3.95 4.45
4.45 4.95

2
1
4
15
10
5
3

i ei 2

Frecuencias
Esperadas (e i)
0.6
2.7
6.8
10.6
10.3
6.1
2.2

ei

10.1

0.9515

8.3

1.8264
0.0087
0.0108
2.7974

H 0 : X N ( , 2 )
N ( , 2 )
H1 : X
R. de R.: P ( U >
U=

i ei 2

i 1

ei

2
c

f
) H0 =

1-

= 2.7974

c2

2
2
c2 = 1 , k r 1 = 0.95, 4 2 1 =

2
0.95 , ( 1 )

=0

3.841

Como el valor de la U es menor que c2 (2.7974 < 3.841), no hay razn para rechazar la
hiptesis nula y concluir que la distribucin normal
f(t)

1
0.703

1
2

( x - 3.4125 )2
0.703

proporciona un buen ajuste para la distribucin de la vida de los acumuladores.

Prof. Mnica Ansin Antille

9/9

Вам также может понравиться