Вы находитесь на странице: 1из 12

Universidad Tecnológica Nacional Facultad Regional San Nicolás

CÁTEDRA

PROBABILIDAD Y ESTADÍSTICA
Depto. Materias Básicas

ESPECIALIDADES

Ingeniería Eléctrica
Ingeniería Mecánica
Ingeniería Metalúrgica

DOCENTES

Prof. Adjunto: Dra. Ana María Craveri


Ayudante de Primera: Est. Susana Carasai

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 1


Universidad Tecnológica Nacional Facultad Regional San Nicolás

CAPÍTULO 10
Aplicaciones de la Distribución de Probabilidad χ2

10.1.- Introducción a la prueba χ2


En el capítulo 5 al referirnos a las distribuciones de probabilidad de variables continuas se
definió la distribución χ2 y se mencionaron sus características generales. En este capítulo
nos referiremos específicamente a las aplicaciones de esta distribución de probabilidad en
las pruebas de hipótesis. Concretamente se desarrollan:
• Prueba de hipótesis para la variancia
• Prueba de hipótesis para la bondad de ajuste
• Prueba de homogeneidad de muestras (comparación de dos o más proporciones en
muestras independientes)
• Prueba de independencia de variables categóricas.

10.2- Prueba de hipótesis para la variancia


En forma análoga a lo que se ha desarrollado sobre las herramientas de inferencia para la
media poblacional, en ocasiones puede interesar realizar estimaciones o pruebas de
hipótesis para otro parámetro de interés en las poblaciones como es la variancia σ2 o su raíz
cuadrada el desvío estándar σ.
Como ya sabemos, para aportar conclusiones a partir de la información proporcionada por
muestras con un riesgo medido en términos de probabilidad, es necesario conocer la
distribución de probabilidad de los estadísticos de prueba que se construyen para llevar
adelante el test de hipótesis.
En este caso en particular, si S2 es la variancia de una muestra de tamaño n extraída de una
población normal cuya variancia es σ2, entonces la estadística que se construye para probar
si la varianza de la población es igual o no a un valor especificado es:

( n − 1) S 2
χ2 = esta estadística tiene una distribución χ2 con v= (n-1) grados de libertad
σ x2
n es el tamaño de la muestra
S2 es la estimación puntual de σ2 calculado con los datos de la muestra
σ2 es el valor supuesto para la variancia poblacional
Para el planteo de las hipótesis y la regla de decisión de la prueba se sigue el criterio ya
analizado en oportunidad del desarrollo de este tema. En la figura que sigue se sintetizan los
elementos para realizar una prueba bilateral o unilateral acerca de la variancia de una
población.

Los valores críticos para los distintos niveles de significación y grados de libertad se
encuentran tabulados. En general las tablas están construidas para distintos valores de áreas
del extremo superior y distintos valores de v (grados de libertad).

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 2


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Ejemplo Nº1
Un fabricante de herrajes para puertas tiene un proceso de producción que está diseñado
para elaborar piezas con un diámetro proyectado de 2,5 pulgadas. Históricamente la
desviación estándar del diámetro era de 0.035 pulgadas. En un esfuerzo por reducir la
variabilidad del proceso, se han llevado a cabo varios estudios que han tenido como
resultado el rediseño del proceso. Una muestra de 25 piezas de herrajes producidas con el
nuevo proceso indica una desviación estándar de 0.025 pulgadas.
Al nivel de significación de 0.05 ¿existe evidencia de que la variabilidad del proceso haya
disminuido significativamente?

H0) σ2 ≥ 0,001225 H1) σ2< 0,001225 α=0.05

Se plantea una prueba unilateral a la izquierda, la regla de decisión nos llevaría a rechazar la H0)
toda vez que el estadístico de prueba sea menor al valor χc2 correspondiente al nivel de
significación fijado de 0.05 y con 24 grados de libertad.
S i la población de valores de diámetros es normal, entonces El estadístico de prueba es:

( 25 − 1)0,000625
χ2 = = 12,244898 χc2 =13,848
0,001225

Observación: el valor χc2 es un valor de la tabla χ2 correspondiente a 1-α=0.95 y v=24


grados de libertad. La decisión es rechazar la hipótesis nula.
Se concluye que con un riesgo del 5% puede afirmarse que el nuevo proceso ha reducido
significativamente la variabilidad del diámetro de las piezas de herrajes producidas.
A continuación correspondería construir un intervalo de confianza para el parámetro de
dispersión del nuevo proceso.

10.2.1.- Intervalo de confianza para la variancia

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 3


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Como hemos planteado en el capítulo de estimación de los parámetros µ y p queremos calcular


los límites de confianza tal que:
P{S 2 − ε < σ 2 < S 2 + ε }= 1 − α
Sabemos que si X es una variable con distribución de probabilidad normal, tomando muestras
de tamaño n de esa población, la variable:
( n − 1) S 2
χ2 = se distribuye como χv2 ; v=n-1 grados de libertad
σ 2
x
Luego:
 (n − 1) S 2 
Pχ 2 α < < χ 2α  =1−α
 v ;1− 2 σ 2 v;
2 

Despejando σ 2 resulta:
 
 ( n − 1) S 2 ( n − 1) S 2 
P <σ <
2
 =1−α
 χ v;α χ2 α 
2
v ;1−
 2 2 

Retomando el Ejemplo Nº1


24(0,000625) 24(0,000625
<σ2 <
39,364 12,401
0,00038< σ2 <0.0012
Los límites para el desvío estándar poblacional son:

0.0195< σ <0.0346
La dispersión del nuevo proceso se ubica entre 0,0195 pulgadas y 0,0346 pulgadas con un
95% de confianza.

Ejemplo N2
Supongamos que en un proceso de llenado de cajas de jabón, interesa decidir si hay
evidencia de que la desviación estándar ha cambiado con respecto al valor histórico de 15
gsr. en base a la información de una muestra de tamaño n= 25 que proporciona un valor de
S= 17,7 gr. El planeo de las hipótesis sería:

H0) σ2=225 H1) σ2 ≠ 225 α=0.05

S i la población de valores de contenido de jabón de las cajas en gramos es normal, entonces el


estadístico de prueba es:

(25 − 1)3132,9
χ2 = = 33,42
225

Para v=24 grados de libertad y probabilidades acumuladas de 0,025 y 0,975 los valores
críticos resultan ser: 12,401 y 39,364 respectivamente.

Regla de decisión

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 4


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Como 12,401<33,42<39,364 la decisión es no rechazar la hipótesis nula. La conclusión es


que no existe evidencia de que la desviación estándar real del proceso (es decir de la
población) sea distinta de 15grs.

10.3.- Pruebas de hipótesis con datos categóricos


10.3.1.- Generalidades
Hasta el momento nos hemos referido a las pruebas de hipótesis que permiten concluir
sobre los resultados de variables cuantitativas (discretas ó continuas) medidas en las
unidades de medida correspondientes según la definición de la variable operacional. Nos
referiremos en este capítulo a la técnica utilizada cuando los datos a analizar son
frecuencias (nº de observaciones) dentro de cada categoría de una variable categórica.
Debemos aclarar que estas categorías pueden ser cualitativas, por ejemplo: tipo de aleación
ó cuantitativas por ejemplo: intervalos de resistencia a la tracción.
Vamos a abordar tres tipos de pruebas:
1- Prueba de Bondad de Ajuste: se refiere a comprobar si los datos experimentales
están de acuerdo con una cierta distribución teórica postulada a priori.
2- Prueba de Homogeneidad de muestras: consiste en comprobar si 2 o más
muestras pueden considerarse extraídas de una misma población
3- Prueba de independencia de variables categóricas: consiste en comprobar, a
través de los datos de una muestra clasificada según dos atributos, si éstos pueden
considerarse independientes o si están asociados.
Cada una de estas pruebas tiene características específicas sobre el planteo de las hipótesis,
pero la expresión general del estadístico χ2 propuesto por Pearson es común a todas ellas,
esta es:

k
(Oi − Ei ) 2
χ2 = ∑ ~ χv2 ; v: grados de libertad
i =1 Ei

Oi es la frecuencia observada en una categoría


Ei es la frecuencia esperada en dicha categoría bajo la hipótesis nula (o sea si la hipótesis
nula es cierta).
Karl Pearson probó que si la hipótesis nula es cierta el estadístico de prueba χ2 se distribuye
aproximadamente con una distribución de probabilidad χ2 con v grados de libertad, que en
forma general se obtienen así:

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 5


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Grados de Libertad = k-p-h,


k: el número de clases (sumandos)
p: el número de parámetros estimados para obtener las Ei
h: el número de condiciones impuestas a las frecuencias esperadas Ei.
Regla de decisión: independientemente del tratamiento específico que se hará para cada
uno de los problemas, si este estadístico de prueba toma un valor alto significa que las
frecuencias observadas difieren significativamente de las esperadas.
Observación: esta formulación de χ2 se aplica solamente a datos frecuenciales es decir al
número de observaciones (frecuencia absoluta) en las categorías y no a datos que resulten
de mediciones, porcentajes o proporciones.

10.3.2.- Prueba de Bondad de Ajuste


Como ya adelantamos, el procedimiento estadístico consiste en testar si un conjunto de
datos empíricos pueden ser ajustados con una distribución teórica hipotética.
Ejemplo Nº 3
Se desea ensayar la hipótesis de que la cantidad diaria de reclamos por defecto en los
levantacristales de una marca de automóviles que llegan a la fábrica puede ser ajustada con
una distribución de Poisson. Se cuenta con los siguientes datos:

Reclamos 0 1 2 3 4 5 6 7 8 9 10
(X)

Nº de días (Oi) 26 62 120 145 131 101 61 27 9 1 1

Probabilidad 0,0294 0,1037 0,1829 0,215 0,1895 0,1336 0,0785 0,0396 0,0174 0,0068 0,0035
Poisson
λ =3,526

Frecuencias 20,12 70,94 125,09 147,03 129,62 91,42 53,73 27,08 11,93 4,65 2,39
Esperadas (Ei)

Fte: García, R. M. (2008). Inferencia estadística y diseño de experimentos. Bs. As:


Eudeba.
λ =3,526 es la estimación del único parámetro de Poisson: λ (promedio de reclamos por
día) con los datos empíricos. Con este valor se calculan las correspondientes
probabilidades según la distribución de probabilidad de Poisson de parámetro λ= 3,526
para los valores 0;1;2;3;…de la variable .
Las frecuencias esperadas (Ei) se calculan multiplicando las probabilidades de cada
valor de la variable por n=684 (total de días de observación)
Condiciones de validez para esta prueba:
►Ninguna Ei debe ser menor que 1 y no más del 20% de ellas puede ser menor o igual a 5.
Si esto no se cumple se puede agrupar clases o aumentar el tamaño de la muestra.
►Cuando el nº de clases es ≤ 4 se hace necesaria una corrección por continuidad, en este
caso el estadístico de prueba resulta:

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 6


Universidad Tecnológica Nacional Facultad Regional San Nicolás

χ2 = Σ (|Oi - Ei | - 0,5 )2
Ei

Para cumplir con la primera de las condiciones, es necesario agrupar las últimas clases de la
tabla

Reclamos 0 1 2 3 4 5 6 7 8 9 ó más
(X)

Nº de días 26 62 120 145 131 101 61 27 9 2


(Oi)

Probabilidad 0,0294 0,1037 0,1829 0,215 0,1895 0,1336 0,0785 0,0396 0,0174 0,0103
Poisson
λ =3,526

Frecuencias 20,12 70,94 125,09 147,03 129,62 91,42 53,73 27,07 11,93 7,05
Esperadas
(Ei)

La P(X ≥ 9) =1- [P (0) + P (1) + .... + P (8)] = 0,0103 .


La E9= 0,0103x684=7,0452

Ho) La distribución de Poisson ajusta los datos experimentales


H1) La distribución de Poisson no ajusta los datos experimentales

Nivel de significación α=0,05

El estadístico de prueba:

k
(Oi − Ei ) 2 (26 − 20,12) 2 (62 − 70,94) 2 (2 − 7,05) 2
χ 2= ∑ = + + ... + = 9,435
i =1 Ei 20,12 70,94 7,05

El valor χ c2 = χα2 = 0,05; v =8 =15,507

Los grados de libertad se calculan con:

K=10: el número de clases (número de sumandos luego de hacer el agrupamiento)


P=1: el número de parámetros estimados para obtener las Ei (se estimó el único parámetro
de Poisson)
H=1: el número de condiciones impuestas a las frecuencias esperadas Ei es la
condición: ∑ Ei = n = 684

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 7


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Por lo tanto v=10-1-1=8 grados de libertad

La decisión es aceptar la hipótesis nula concluyendo que la variable en estudio “número de


reclamos que llegan por día a la empresa” tiene una distribución de probabilidad de Poisson
de parámetro λ=3,526 reclamos en promedio por día.

Test de Hipótesis de Homogeneidad de Muestras


Hemos visto en el Capítulo 3 la comparación de dos proporciones en muestras
independientes utilizando la prueba z.
Consideremos ahora querer comparar más de dos poblaciones, por ejemplo pensemos en
que tenemos información sobre cuatro máquinas que producen cierto tipo de biela para
automóviles. Se extraen diariamente muestras aleatorias de cada máquina y se clasifican
según su condición. La información se resume en la siguiente tabla:

Tabla de Frecuencias Observadas

Máquina Condición
Defecto Defecto Sin defecto Total
Irrecuperable Recuperable
1 7 28 115 150

2 15 20 85 120

3 10 30 90 130

4 5 40 115 160
Total 37 118 405 560

La H0 que se plantea será:

Ho) la proporción de las distintas condiciones de las piezas en cada una de las clases de
máquina es la misma. Es decir todas las máquinas son homogéneas.
Esta hipótesis se interpreta como que hay una distribución de probabilidad multinomial de
parámetros p1 (proporción de defecto irrecuperable), p2 (proporción de defecto recuperable)
y p3 (proporción de no defectuosos) y en la hipótesis nula se supone: p1=p2=p3.

H1) la proporción en cada una de las clases no es la misma.


La hipótesis alternativa se interpreta como que las muestras provienen de poblaciones con
distintos valores de pj

Para llevar a cabo el test deben calcularse las frecuencias esperadas. Esto lo haremos
calculando las probabilidades y estimando las frecuencias esperadas bajo el supuesto
indicado en la hipótesis nula. Tomemos por ejemplo el cálculo de E32 que corresponde a las
piezas producidas por la máquina 3 y su condición es recuperable.

nº total de piezas con defecto recuperable 118


pˆ 2= =
Total 560
n= 130, ya que 130 es el tamaño de muestra de la máquina 3, luego

E32= 130. 118 = Total de su fila x Total de su columna


560 Total

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 8


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Análogamente se calculan las restantes frecuencias esperadas.

Tabla de frecuencias observadas y esperadas


Máquina irrecuperable Recuperable Sin defecto Total
1 7 (9,91) 28 (31,61) 115 (108,48) 150
2 15 (7,93) 20 (25,28) 85 (86,79) 120
3 10 (8,59) 30 (27,39) 90 (94,02) 130
4 5 (10,57) 40 (33,72) 115 (115,71) 160
Total 37 118 405 560

χ2 = Σ Σ ( Oij - Eij )2 = 13,87


Eij

Nos queda ahora determinar los grados de libertad. Simbolizamos con r el nº de filas (en
nuestro ejemplo es el número de máquinas) y con s el número de columnas (en nuestro
ejemplo es el número de condiciones de las piezas)
Cálculo de los grados de libertad
k = r.s (ya que hay r.s casillas)
p = s (ya que hay que estimar las proporciones pj)
h = r-1 (ya que la suma de las Eij en cada fila deben verificar el tamaño de la muestra)
Luego los grados de liberad=v= r.s – s – (r-1) = s (r – 1)- (r – 1)= (r-1)(s-1), o sea nº de filas
menos uno por nº de columnas menos uno.
En nuestro ejemplo sería (4-1)(3-1) = 6 ; entonces χ26,5% = 12,592 y como χ2 experimental
(13,87) es mayor concluimos que hay diferencias en las proporciones de irrecuperables,
recuperables y no defectuosos de las distintas máquinas.

Observamos que en el ejemplo que hemos desarrollado todas las Eij son mayores que cinco
lo que nos garantiza la efectividad del test. Si no fuera así una de las soluciones sería
aumentar el tamaño de muestra.

Test de Independencia para variables cualitativas: Tablas de Contingencia

Frecuentemente se está frente al problema de estudiar conjuntamente dos variables


cualitativas (o atributos) presentes en las unidades experimentales y preguntarse si existe o
no algún tipo de relación entre estas variables, es decir si los valores que toma una de ellas
van a condicionar, de algún modo, los valores que tome la otra variable.

6.4.1 Tablas de Contingencia r x s


Una empresa constructora debe decidir sobre cuatro marcas de interruptores de luz para
instalar en los departamentos de sus edificios en construcción. Es necesario que la caja sea
capaz de tolerar cierto nivel estipulado de corriente sin que falle para ser considerada su
compra. Se cuenta en este momento con 691 cajas interruptoras de luz de cuatro fabricantes
que son sometidas al nivel estipulado de corriente y se registra si falla o no falla

Fabricante No falla Falla Total


1 293 181 474
2 39 31 70
3 51 59 110
4 18 19 37
Total 401 290 691

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 9


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Nótese que las 691 cajas pueden considerarse una muestra que ha sido clasificada con respecto a
dos características cualitativas: “fabricante”, con cuatro niveles y “funcionamiento” con dos
niveles. Los datos de la muestra se organizan en una tabla de contingencia 4 x 2.
La pregunta a responder es, en general, si los dos atributos A y B, por ejemplo, están
relacionados o son independientes.
La H0 puede formularse de diferentes maneras:
“Los atributos A y B son independientes” ó “A y B no están relacionados” ó “A y B no están
asociados”.
La H1 postularía que las dos variables cualitativas están asociadas.

En nuestro ejemplo la pregunta sería si el funcionamiento correcto o no del interruptor, al ser


sometido a la corriente estipulada, depende del fabricante o sea de la marca de interruptor.
H0) El funcionamiento es independiente del tipo de caja interruptora (o marca del interruptor).
H1) El funcionamiento depende de la marca.
Entonces si Ai es el suceso “que un elemento caiga en la clase i de A” y Bj el suceso “que caiga
en la clase j de B”, el supuesto de independencia entre estos sucesos se explicitaría en las
hipótesis de la siguiente manera:

H0) P (Ai ∩ B j ) = P (Ai). P (Bj) para todo i ≠ j

H1) P (Ai ∩ B j) ≠ P (Ai). P (Bj) en alguna ocasión

Recordemos que sólo si A y B son sucesos independientes, la probabilidad de la intersección


será el producto de las probabilidades simples.
Para obtener las Eij aplicamos la regla de probabilidad para sucesos independientes, es decir
Eij = n P ( A i ) P ( Bj ) . Los resultados de nuestro ejemplo serían:

Frecuencias Observadas y Esperadas

Fabricante No falla Falla Total


1 293 (275) 181 ( 199) 474

2 39 ( 41) 31 ( 29) 70

3 51 ( 64) 59 (46 ) 110

4 18 (21 ) 19 (16 ) 37

Total 401 290 691

Calculamos la estadística chi- cuadrado y obtenemos χ2 = 10,3474

Los grados de libertad son : k= r.s casillas


p= (r-1) + (s-1) que son las probabilidades que hay que estimar
h = 1 pues hay una única muestra

Luego rs-(r-1)-(s-1) -1 = (r-1)(s-1) que en definitiva es la expresión que se utiliza de los grados
de libertad.

Entonces en nuestro ejemplo sería (4-1) (2-1) = 3 grados de libertad. Además χ23,5% = 7,815

Luego: 10,3474 > 7,815 la decisión es rechazar la H0, es decir hay relación entre el tipo
de interruptor (fabricante) y el funcionamiento del interruptor bajo una corriente pico
especificada.
Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 10
Universidad Tecnológica Nacional Facultad Regional San Nicolás

Observación: Como puede verse, el cálculo del estadístico de prueba en una tabla de
contingencia rxs es el mismo para un test de homogeneidad ó un test de independencia, al
igual que la regla de decisión, pero debe notarse que el muestreo es distinto en cada caso (r
muestras independientes en el primero y una sola muestra clasificada según dos variables
cualitativas en el segundo) y las hipótesis que se formulan son también diferentes.

EJERCICIOS

1.- Los datos de la tabla siguiente corresponden al consumo diario de agua en un


frigorífico. Se desea ensayar la hipótesis de que provienen de una población
normalmente distribuida.
Consumo de agua Nº de días
(miles de litros
40-50 2
50-60 12
60-70 232
70-80 192
80-90 66
90-100 90
100-110 6
Total 600

2.- Se desea verificar si un dado está equilibrado. A tal efecto se arroja 120 veces y se anota el
número de su cara superior. Resultando:

Resultado 1 2 3 4 5 6
Nº de ocurrencias 28 12 12 26 32 10

Probar si se trata de un dado no viciado (α=0.05)

3.- La siguiente distribución de frecuencias corresponde a la variable: número de


partículas en suspensión por cm3 de agua. Se supone que puede ajustarse a una
distribución de Poisson. Con los datos de la muestra se estimó el parámetro λ=1.4
promedio de partículas en suspensión por cm3 de agua

Nº de partículas 0 1 2 3 4 5 6 7
Frecuencias Observadas 28 30 15 8 4 2 1 1

Desarrollar la prueba de bondad de ajuste con un nivel de significación del 5%

4.- Una hilandería tiene 4 plantas similares que producen el mismo tipo de hilo. Con
respecto a su elongación de rotura, el hilo se clasifica como de elongación baja
(defectuoso), elongación media (bueno) y elongación alta (defectuoso). Se tomaron
muestras de cada una de las 4 plantas

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 11


Universidad Tecnológica Nacional Facultad Regional San Nicolás

Planta 1 2 3 4 Total
Elongación
Baja 10 16 17 8 51
Media 176 178 174 173 701
Alta 14 6 9 19 48
Total 200 200 200 200 800

Testar la hipótesis de que las proporciones de los distintos tipos de elongación son las
mismas para las 4 fábricas.

5.- La siguiente tabla muestra el número de accidentes registrados en el último año


según sector productivo y gravedad de la lesión.

Sector Industria Construcción Transporte Rural

Lesión
Leve 154 359 783 109
Grave 42 63 352 35
Muy grave 18 22 257 12

Probar si hay asociación entre sector productivo y gravedad de la lesión provocada por el
accidente.

Probabilidad y Estadística - 2017 - Dra. Ana María Craveri Página 12

Вам также может понравиться