Вы находитесь на странице: 1из 15

PROBLEMA RESUELTO DE PRUEBA DE BONDAD DE AJUSTE

Si un ingeniero de control de calidad toma una muestra de 10 neumticos que salen de una lnea de ensamblaje y l desea verificar sobre la base de los datos que siguen, los nmeros de llantas con defectos observadas en 200 das, si es cierto que el 5% de todos los neumticos tienen defecto; es decir, si el muestrea una poblacin binomial con n = Nmero de unidades con defecto 0 1 2 ms 10 y = .05 Nmero de muestras 138 53 9

1. Establecer la hiptesis Ho: La poblacin es binomial Ha: La poblacin no es binomial 2. Establecer la estadstica de prueba

=
2

i =1

[f

oi

f ei f ei

Oi = Valor observado en la i-simo celda. Ei = Valor esperado en la i-simo celda. K = Categoras o celdas. m = Parmetros

3. 3. Definir el nivel de significancia y la zona de rechazo

g,l = k- m 1 = (3 0- 1) = 5.99 Nivel de significancia = 0.05

2 2 Zona de rechazo = { / 5.99) m = 0 porque no se necesito estimar ningn parmetro 4. Calculo de la estadstica de prueba 2 k f oi f ei 2 = f ei i =1

Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades utilizaremos la formula de la binomial x nx f ( x) = ( n x ) (1 ) donde n = 10
f ( 0) =

= 0.05
0

( )0.05
10 0

(1 0.05)10 0 = .599

f (1) =

( )0.05
10 1

( 1 0.05)10 1 = .315

y la probabilidad de 2 ms = 1.0 - .599 - .315 = .086 ahora ya podemos encontrar las frecuencias esperadas: 200 ( .599) = 119.8 200(.315) = 63 200 (.086) = 17.2 Al aplicar la formula se tiene:

2 =

(138 119.8) 2 (53 63.0) 2 (9 17.2) 2 + + 119.8 63 17.2 = 8.26

5. Como 8.26 es mayor que 5.99,se rechaza la hiptesis nula con un nivel de significancia de 0.05. 6. Conclusin Se concluye que el porcentaje verdadero de neumticos con defecto no es el 5%.

UNIDAD: PRUEBA DE BONDAD DE AJUSTE


Pruebas de tablas de contingencias En muchas ocasiones, los n elementos de una muestra de poblacin pueden clasificarse de acuerdo con dos criterios diferentes. Por ello interesa conocer si los dos mtodos de clasificacin son estadsticamente independientes; por ejemplo, podemos considerar la poblacin de ingenieros graduado y tal vez deseemos determinar si el salario inicial es independiente de las disciplinas acadmicas. Supngase que el primer mtodo de clasificacin tiene r niveles y que el segundo mtodo de clasificacin tiene c niveles. Sea oij la frecuencia observada para el nivel i del primer mtodo de clasificacin y el nivel j del segundo mtodo de clasificacin. Los datos apareceran, en general, como en la tabla. Una tabla de tales caractersticas se llama comnmente tabla de contingencia r X c. Estamos interesados en probar la hiptesis de que los mtodos de clasificacin de rengln y de columna son independientes. Si rechazamos esta hiptesis, concluimos que hay cierta interaccin entre los dos criterios de clasificacin. Los procedimientos de prueba exactos son difciles de obtener, pero una estadstica de prueba aproximada es valida para n grande. Supngase las oij como variables aleatorias multinomiales y pij como la probabilidad de que un elemento elegido al azar cae en la celda ijesima, dado que las dos clasificaciones son independientes. Entonces pij = uivj , donde ui es la probabilidad de que un elemento elegido al azar caiga en el rengln de clase i y vj es la probabilidad de que un elemento seleccionado en forma aleatoria caiga en la columna de clase j. Luego, suponiendo independencia, los estimadores de mxima probabilidad de ui y vj son:

i =

Oij

j = Una tabla de contingencia r X c Columnas

Oij

...

1 2 Renglones ... r

O11 O21 ... Or1

O12 O22 ... Or2

... ... ... ...

O1c O2c ... Orc

En consecuencia, el nmero esperado de cada celda es

Eij = nivj = Entonces, para n grande, la estadstica


2

Oij

Oij

X20 =

- X2 (r 1) (c 1)

Aproximadamente, y rechazaramos la hiptesis de independencia si X20 > X2a, (r 1) (c 1). Prueba de bondad de ajuste de ji-cuadrada El procedimiento de prueba requiere una muestra aleatoria de tamao n de la variable aleatoria X, cuya funcin de densidad de probabilidad se desconoce. Estas n observaciones se arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 0 1 la frecuencia observada en el intervalo de la clase iesimo. De la distribucin de probabilidad hipottica, calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E 1. La estadstica de prueba es:

X20 = Puede demostrar que X0 sigue aproximadamente la distribucin ji cuadrada con k-p-1 grados de libertad, donde p representa el numero de parmetros de la distribucin hipottica estimada por el medio de estadstica de muestra. Esta aproximacin se mejora cuando n aumenta. Rechazaramos la hiptesis de que X se ajusta ala distribucin hipottica si X 0>X k-p-1 Un punto que debe advertirse en la aplicacin de este procedimiento de prueba se refiere ala magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado pequeas, entonces X0 no reflejan la desviacin de las observaciones respecto alas esperadas, si no solo las mas pequeas de las frecuencias esperadas. No hay un acuerdo general en relacin con el valor mnimo de las frecuencias esperadas, aunque los valores de 3,4 y 5 se utilizan ampliamente como mnimos. Si la frecuencia esperada es demasiado pequea, puede combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias observadas correspondientes se combinaran tambin en ese caso, y k se reducir en 1. No se requiere que los intervalos de clase sean de igual ancho. Ejemplo Una distribucin completamente especificada Un cientfico de computadoras ha desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. Codifica el algoritmo y genera 1000 dgitos pseudoaleatorios. Los datos se muestran en la tabla 11-3. Existe evidencia de que el generador de nmeros aleatorios esta trabajando correctamente? Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la distribucin uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir exactamente 100 veces. Esto es, las frecuencias esperadas E =100 para I=0,1,.,9 Puesto que estas

frecuencias estimadas pueden estimarse sin que sea necesario estimular ningn parmetro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendr k-p-1=10-0-1=9 grados de libertad. Total 0123456789n _______________________________________________________________ Frecuencia Observada O 94 93 112 101 104 95 100 99 108 94 1000 Frecuencias Esperada E 100 100 100 100 100 100 100 100 100 100 1000 _______________________________________________________________ El valor esperado de la estadstica de prueba es
2222

X20 =

Puesto que X =16.92 no somos capaces de rechazar la hiptesis de que los datos proviene de una distribucin uniforme discreta. En consecuencia, el generador de nmeros aleatorios parece estar trabajando en forma satisfactoria. 1. Test de Kolmogorov-Smirnov Para la aplicacin del test sealado, es necesario determinar la Frecuencia observada acumulada. Para la frecuencia observada en el caso especial de Gumbel, se ordena la informacin de menor a mayor y se aplica:

Donde: Fn (x): frecuencia observada acumulada. n: N total de orden N: N total de datos. En el caso de la frecuencia terica acumulada, sta se determina a travs de la funcin de Gumbel.

Una vez determinadas ambas frecuencias, se obtiene el supremo de las diferencias entre ambas, en la i-sima posicin de orden, que se denomina D.

Luego, asumiendo un valor de significancia, se recurre a la tabla de valores crticos de D en la prueba de bondad de ajuste de Kolmogorov-Smirnov, y considerando el tamao de la muestra, se establece lo siguiente: Si D < D tabla, se acepta que (el ajuste es adecuado, con el nivel de confiabilidad asumido. 2. Problemas Ejercicio 1. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific a sus hijos en tres categoras en funcin de su peso en relacin con los percentiles 10 y 90 de la poblacin. El resultado se expresa en la tabla siguiente:

Peso del nio Madre fumadora? Menor de 10 Si No 117 124 Entre 10 y 90 529 1147 Mayor de 90 19 117

Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?

PRUEBA CHI-CUADRADA PARA LA BONDAD DEL AJUSTE


A lo largo de este curso nos ocupamos de la prueba de hiptesis estadsticas acerca de parmetros de una poblacin como , y P. Ahora se considera una prueba para determinar si una poblacin tiene una distribucin terica especfica. La prueba se basa en qu tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribucin hipottica. La formula que se utilizar para calcular el valor de chi-cuadrada es igual a la de la seccin anterior, con el mismo concepto de grados de libertad. Ejemplo: 1. Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observ el nmero de caras de cada serie. El nmero de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.
Nmero de series Nmero de caras (frecuencia observada) 38 144 342 287 164 25

0 1 2 3 4 5

Total 2. 3. 4. 5. 6.

1000

Ajustar una distribucin binomial a los datos con un = 0.05. Solucin: H0; Los datos se ajustan a una distribucin binomial. H1; Los datos no se ajustan a una distribucin binomial. Para obtener los valores esperados se tiene que utilizar la formula de la distribucin binomial: , donde n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe que =np en una distribucin binomial, por lo que = 5p.

7. Para la distribucin de frecuencias observada, la media del nmero de caras es: 8.

9. Por lo tanto

. As pues, la distribucin binomial

ajustada viene dada por p(x) = . 10. Al seguir esta frmula se calcula la probabilidad de obtener caras, segn el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dar el valor esperado. Se resumen los resultados en la tabla siguiente:
Nmero de caras (x) 0 1 2 3 4 5 P(x caras) 0.0332 0.1619 0.3162 0.3087 0.1507 0.0294 Frecuencia esperada 33.2 161.9 316.2 308.7 150.7 29.4 Frecuencia observada 38 144 342 287 164 25

11. Para los grados de libertad el valor de m ser uno, ya que se tuvo que estimar la media de la poblacin para poder obtener el valor de p y as poder calcular los valores esperados. 12. Grados de libertad: k-1-m = 6-1-1 = 4

13. 14. Regla de decisin: 15. Si X2R 9.49 no se rechaza Ho. 16. Si X2R >9.49 se rechaza Ho. 17. Clculos:

18.

Justificacin y decisin: 19. Como el 7.54 no es mayor a 9.49, no se rechaza H 0 y se concluye con un = 0.05 que el ajuste de los datos a una distribucin binomial es bueno. 20. Se propone que el nmero de defectos en las tarjetas de circuito impreso sigue una distribucin Poisson. Se rene una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el nmero de defectos. Los resultados obtenidos son los siguientes:
Nmero de defectos 0 1 2 3 ms Frecuencia observada 32 15 9 4

21. Muestran estos datos suficiente evidencia para decir que provienen de una distribucin Poisson?. Haga la prueba de la bondad del ajuste con un = 0.05. 22. Solucin: 23. H0; La forma de la distribucin de los defectos es Poisson. 24. H1; La forma de la distribucin de los defectos no es Poisson. 25. La media de la distribucin Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra. 26. 27. A partir de la distribucin Poisson con parmetro 0.75, pueden calcularse las probabilidades asociadas con el valor de x. Esto es la frmula de la Poisson es: 28. 29. Con esta frmula se calculan las probabilidades, mismas que se multiplican por 60 para obtener los valores esperados.
Nmero de defectos 0 Probabilidad 0.472 Frecuencia esperada 28.32 Frecuencia observada 32

1 2 3 ms

0.354 0.133 0.041

21.24 7.98 2.46

15 9 4

30. Puesto que la frecuencia esperada en la ltima celda es menor que 5, se combinan las dos ltimas celdas.
Nmero de defectos 0 1 2 ms Frecuencia esperada 28.32 21.24 10.44 Frecuencia observada 32 15 13

31. Los grados de libertad seran 3-1-1=1, debido a que la media de la distribucin Poisson fue estimada a partir de los datos.

32. 33. Regla de decisin: 34. Si X2R 3.84 no se rechaza Ho. 35. Si X2R >3.84 se rechaza Ho. 36. Clculos:

37. 38. Justificacin y decisin: 39. Como el 2.94 no es mayor a 3.84, no se rechaza H 0 y se concluye con un = 0.05 que la distribucin de defectos en las tarjetas de circuito impreso es Poisson. 40. Pruebe la hiptesis de que la distribucin de frecuencia de las duraciones de bateras dadas en la siguiente tabla, se puede aproximar mediante una distribucin normal con media = 3.5 y desviacin estndar =0.7. Utilice un = 0.05. Lmites de clase
Frecuencias observadas

1.45 1.95 1.95 2.45 2.45 2.95 2.95 3.45 3.45 3.95 3.95 4.45 4.45 4.95

2 1 4 15 10 5 3

Solucin: Se procede a elaborar el histograma, para visualizar los datos:

Como se puede observar el histograma tiene una forma que aparenta ser normal, se probar esta hiptesis. H0; Los datos provienen de una distribucin normal. H1; Los datos no provienen de una distribucin normal. En este ejercicio en particular se cuenta con la media y desviacin estndar de la poblacin, por lo que no se tiene que estimar. En caso de que no se tuviera, se estimaran a partir de los datos agrupados con las frmulas que se vieron en la Unidad III del curso de probabilidad y estadstica, tomando en cuenta que para los grados de libertad el valor de m sera 2, ya que se estimara la media y la desviacin estndar.

Se proceder a calcular los valores de z para encontrar las probabilidades en la tabla. Recordando que , se sustituye el valor de x por los lmites de clase comenzando con el lmite de 1.95

Lmite real

P(x)

1.95 2.45 2.95 3.45 3.95 4.45

-2.21 -1.50 -0.79 -0.07 0.64 1.36

P(x 1.95) = 0.01355 P(x 2.45) = 0.06680 P(x 2.95) = 0.21476 P(x 3.45) = 0.47210 P(x 3.95) = 0.26109 P(x 4.45) = 0.08691

La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite de 4.45, es porque la suma de todas las probabilidades debe ser 1, bajo la curva normal. A continuacin se muestra la curva normal con sus respectivas probabilidades, segn los limites reales. Las probabilidades que no se muestran en la tabla anterior y estn en la curva se calcularon por diferencias.

P(1.95 P(2.45 P(2.95 P(3.45 P(3.50 P(3.95

x x x x x x

2.45) = 0.0668-0.013553 = 0.053254 2.95) = 0.21476-0.0668 = 0.147953 3.45) = 0.4721-0.21476 = 0.25734 3.50) = 0.50-0.4721 = 0.0279 3.95) = 0.50-0.26109= 0.23891 4.45) = 0.26109-0.086915 = 0.17417

Con estas probabilidades se calcularn los valores esperados, multiplicando cada probabilidad por 40. Lmites de clase
1.45 1.95 1.95 2.45 2.45 2.95 2.95 3.45 3.45 3.95 3.95 4.45 4.45 4.95 85 3 Frecuencias observadas 2 71 4 15 10 Frecuencia esperada 0.54212 2.13016 5.91812 10.29360 10.67240 6.96680 3.47660

Probabilidad 0.01355 0.05325 0.14795 0.25734 0.26681 0.17417 0.08691

Grados de libertad: k-1-m = 4-1-0 = 3

Regla de decisin: Si X2R 7.815 no se rechaza Ho.

Si X2R >7.815 se rechaza Ho.

Clculos:

Justificacin y decisin: Como el 3.06 no es mayor de 7.815, no se rechaza H 0 y se concluye con un = 0.05 que el ajuste de los datos a una distribucin normal es bueno.

Вам также может понравиться