Вы находитесь на странице: 1из 11

PRUEBA DE BONDAD Y AJUSTE

CONCEPTO:
En la construccin del modelo de simulacin es importante decidir si un conjunto de
datos se ajusta apropiadamente a una distribucin especfica de probabilidad. Al
probar la bondad del ajuste de un conjunto de datos, se comparan las frecuencias
observadas FO realmente en cada categora o intervalo de clase con las frecuencias
esperadas tericamente FE.

EJERCICIO 1.

La siguiente muestra de tamao 50 ha sido obtenida de una

poblacin que registra la vida til (en unidades de tiempo) de bateras alcalinas tipo
AAA. Prubese la hiptesis nula de que la variable aleatoria vida til de las bateras
sigue una distribucin exponencial negativa. Considrese un nivel de significancia
alpha de 5%.
8.223
2.230
2.920
0.761
1.064

0.836
3.810
0.968
4.490
0.186

2.634
1.624
0.333
1.514
2.782

4.778
1.507
4.025
1.064
3.246

0.406
2.343
0.538
5.088
5.587

0.517
1.458
0.234
1.401
0.685

2.330
0.774
3.323
0.294
1.725

2.563
0.023
3.334
3.491
1.267

0.511
0.225
2.325
2.921
1.702

6.426
3.214
7.514
0.334
1.849

SOLUCIN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el
rango o recorrido igual a 8.2. El valor promedio es de 2.3. A continuacin ordenamos
los valores de manera ascendente y construimos el histograma de frecuencias
relativas con seis clases cada una de longitud 1.5. (esto es debido a que 8.2 / 6 =
1.3)
K
1
2
3

Clase
0.0 - 1.15
1.15 - 3.0
3.0 - 4.5

FO absoluta
21
15
8

FO relative
0.42
0.30
0.16

4
5
6

4.5 - 6.0
6.0 - 7.5
7.5 - 9.0

3
1
2

0.06
0.02
0.04

Re agrupamos las clases de modo que la FO sea de al menos 5


K

Clase

FO absoluta

FO relativa

0.0 - 1.15

21

0.42

1.15 - 3.0

15

0.30

3.0 - 4.5

0.16

4.5 - 9.0

0.12

Como nuestra hiptesis nula es que los datos se ajustan a la funcin de probabilidad
exponencial negativa, emplearemos tal funcin para calcular mediante integracin el
porcentaje de probabilidad esperado para cada subintervalo. Ya vimos que el valor
promedio es de 2.3, sin embargo para fines prcticos lo consideraremos como 2.0.
El clculo de la integral para la primer clase es:

k Clase

FO relativa

FE terica

(FO-FE)2FE

1 0.0 - 1.5

0.42

0.528

0.022

2 1.5 - 3.0

0.30

0.249

0.010

3 3.0 - 4.5

0.16

0.118

0.015

4 4.5 - 9.0

0.12

0.105

0.002

Entonces se tiene el valor

Ahora compararemos este valor calculado contra el valor tabulado de la distribucin


Ji cuadrada con un nivel de significancia alpha de 5% y el nmero de grados de
libertad

V = (k 1) 1 = (4 1) 1 = 2. (Obsrvese que se estim el parmetro promedio ?).


Entonces

Como vemos el valor calculado es menor que el valor tabulado, por tanto la
conclusin es que no se puede rechazar la hiptesis nula de que la muestra proviene
de una distribucin exponencial con media 2.0.

EJERCICIO 2. El departamento de transito de la ciudad ha registrado el nmero


de automviles que transitan hacia el norte en la interseccin de dos avenidas y
obtienen los siguientes datos:
Vehculos/minuto

11

12

13

14

10

21

55

105

186

Vehculos/minuto

21

22

23

24

Frecuencia

15
248
25

16

17

290
26

18
372

27

28

19

20

244

180

29

30

Frecuencia
Vehculos/min
Frecuencia

165

145

31
58

32
53

104

100

94

90

82

74

64

60

33

34

35

36

37

38

39

40

33

22

45

15

12

10

Agrupe en 6 clases y utilizando un (miu) = x (x barra, media) ; Desv. Estndar = S y


Alfa = .05 Pruebe si la distribucin normal es un modelo apropiada a esta situacin.

La media es 20,9762
La desviacin s= 5,6618
Tenemos 30 datos por lo que creamos 6 grupos de 5 y sumamos las frecuencias de
cada grupo
[11-15] = 10+21+55+105+186 = 377
[16-20] = 248 + 290 + 372 +244+180 = 1334
[21-25] = 165 + 145 + 104 + 100 + 94 = 608
[26-30] = 90 + 82 + 74 + 64 + 60 = 370
[31-35] = 58 + 53 + 45 + 33 + 22 = 211
[36-40] = 15 + 12 + 10 + 5 + 2 = 44

EN RESUMEN LAS FRECUENCIAS DE CADA INTERVALO ES:


[11-15] = 377
[16-20] = 1334
[21-25] = 608
[26-30] = 370
[31-35] = 211

[36-40] = 44
EL TOTAL DE DATOS ES 2944
Estas son las frecuencias obtenidas, ahora debemos calcular las frecuencias
esperadas para cada intervalo para una distribucin Normal(20.9762 , 5.6618)
Para cada intervalo calculamos la probabilidad y multiplicando por el total
obtendremos la frecuencia esperada, te muestro el primer intervalo y de los dems
te indico solo el resultado.

INTERVALO [11-15]
Debemos calcular la probabilidad de
P(10.5<X<15.5)
Para una distribucin Normal(20.9762 , 5.6618)
El valor 11 para a ser 11-0.5 = 10.5 y el 15 pasa a ser 15+0.5 = 15.5 para aproximar la
distribucin dicreta de los datos por una continua (la normal)
P(10.5<X<15.5)
Estandarizamos con Z=(X-) para utilizad la distribucin Normal estandarizada
N(0,1)
X=10.5 --> Z(10.5-20.9762)/5.6618 --> Z= -1.8503
X=15.5 --> Z(15.5-20.9762)/5.6618 --> Z= -0.9672
Es decir que

P(10.5<X<15.5) =
P(-1.8503<Z< -0.9672)=
P(Z<-0.9672) - P(Z< -1.8503) = (segn las tablas)
0.1667 - 0.0321 = 0.1346
Es decir P(10.5<X<15.5) = 0.1346
Como el total de datos es 2944, la frecuencia esperada para el intervalo [11-15] es
2944*0.1346 = 396.2624
Por un procedimiento similar las siguientes frecuencias son

[11-15] = 396.2624

(calculada en el punto anterior)

[16-20] = 882.5175
[21-25] = 946.1146
[26-30] = 488.3238
[31-35] = 121.0509
[36-40] = 14.34728

AHORA DISPONEMOS DE LAS FRECUENCIAS OBSERVADAS (OI)


[11-15] = 377
[16-20] = 1334
[21-25] = 608
[26-30] = 370
[31-35] = 211

[36-40] = 44
AHORA DISPONEMOS DE LAS FRECUENCIAS LAS ESPERADAS (EI)
[11-15] = 396.2624
[16-20] = 882.5175
[21-25] = 946.1146
[26-30] = 488.3238
[31-35] = 121.0509
[36-40] = 14.3472
Tenemos 6 categoras que significan N-1-(parmetros estimados a partir de la
muestra) = 6-1-2=3 grados de libertad para la distribucin chi-cuadrado. El valor
crtico para la distribucin chi con 5 grados y alfa=0.05 (probabilidad acumulada
igual a 0.95) es segn las tablas
= 7.8147
Si el valor del estadstico
X = (Oi-Ei)/Ei
Es mayor que =7.8147 entonces rechazaremos la hipotesis de ajuste a una
distribucin normal, en caso que sea inferior a 7.8147 entonces diremos que los
datos se ajusta a una normal(20.9762 , 5.6618).
= (377-396.2624)/396.2624 + ... + (44-14.3473)/14.3473
= 450.3162
RESPUESTA:
Este valor es muy superior a 7.8147, por lo que concluimos que los datos no siguen
una distribucin normal (20.9762, 5.6618), aunque esto ya se vea al comparar las
frecuencias observadas y las esperadas.

PRUEBA DE INDEPENDENCIA
CONCEPTO:
Al estudiar la diferencia entre los parmetros poblacionales a travs de la
diferencia muestral de los estadsticos muestrales correspondientes, lo que hemos
hecho es realizar un anlisis comparativo de dos variables: X: Observaciones
provenientes de la primera poblacin, e Y: Observaciones provenientes de la
segunda poblacin.
Y al plantear la Hiptesis Nula de la igualdad de dichos parmetros, lo que hemos
hecho es afirmar que dichos parmetros tienen el mismo comportamiento o que no
existe suficiente evidencia para afirmar que difieren, versus la Hiptesis
Alternativa que la niega.
Queremos ahora generalizar este tipo Pero a diferencia de probar el mismo
comportamiento entre dos poblaciones, trataremos de probar hiptesis de
independencia en el comportamiento de las mismas, versus la hiptesis alternativa
que afirma la dependencia entre el comportamiento de las poblaciones.

EJEMPLO 1. Para estudiar la dependencia entre la prctica de algn deporte y


la depresin, se seleccion una muestra aleatoria simple de 100 jvenes, con los
siguientes resultados:
Con depresin

9
22
31

L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22


16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hiptesis de independencia de caracteres con un nivel de significacin
del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de
depresin.

EJERCICIO

2.

Se

realiza

una

investigacin

para

determinar

si

hay

alguna asociacin aparente entre la altura de los estudiantes de posgrado y el xito


en sus clases, a juicio de sus profesores. Se selecciona una muestra aleatoria
consistente en 500 estudiantes. Se clasifica a cada estudiante de acuerdo a dos
criterios, la altura y el xito. La tabla de contingencia generada es la siguiente:

Mayor altura que el promedio poblacional

xito

Si

no

si

162

263

425

no

38

37

75

200

300

500

Comparamos el nmero de observaciones en cada celda con el nmero esperado, si H


0 es cierta:

Datos utilizados para contrastar asociacin entre altura y xito en las clases. Las
frecuencias esperadas aparecen entre parntesis :

Mayor altura que el promedio poblacional

xito

si

Si

no

162(170)

263(255

425

)
no

38(30)

37(45)

75

200

300

500

Para saber si las diferencias entre valores halladoz y valores esperados es


significativa entonces aplicamos el estadistico ji-cuadrado:

A partir de la tabla Ji-cuadrado vemos que:

Como 4.18 est entre 3.84 y 5.02, el valor p est entre 0.025 (0.975) 0.05 (0.950).
El valor p es pequeo, es menor de 0.05. Podemos rechazar H 0 y concluir que la
sobretalla y el xito en las clases no son independientes.