Академический Документы
Профессиональный Документы
Культура Документы
3º semestre
Clave:
LIC. 01142315
Unidad 3
Estadística inferencial para dos poblaciones
Estadística para la investigación en seguridad pública
Unidad 3. Estadística inferencial para dos poblaciones
Índice
Presentación.................................................................................................................................................................................................... 3
Propósitos........................................................................................................................................................................................................ 3
Competencia a desarrollar ............................................................................................................................................................................... 4
Dos muestras independientes.......................................................................................................................................................................... 4
Intervalo de confianza para dos medias ....................................................................................................................................................... 5
Cierre............................................................................................................................................................................................................. 22
Fuentes de consulta ...................................................................................................................................................................................... 23
Presentación
En los intervalos de confianza para dos medias se analizan los casos en los que las varianzas son
conocidas y cuando son desconocidas (iguales o diferentes). Muestra poblacional
Propósitos
Comprender el procedimiento que permite determinar el intervalo de confianza en el caso de la diferencia de dos
medias poblacionales independientes, para las distintas situaciones que se presentan según sea la varianzas de las
dos poblaciones.
Aplicar la metodología que permite realizar una prueba de hipótesis para la diferencia de dos medias.
Comprender el procedimiento sobre el cálculo del intervalo de confianza para la diferencia de dos proporciones
poblacionales.
Aplicar la metodología sobre la prueba de hipótesis para la diferencia de dos proporciones.
Competencia a desarrollar
Compara dos muestras poblacionales independientes para interpretar información que oriente en la toma de
decisiones a través de técnicas de estadística inferencial.
En las unidades anteriores se estudió la manera de realizar una prueba de hipótesis para una media poblacional y para una proporción
poblacional. Ahora se mostrará la forma de realizar una estimación por intervalo y realizar pruebas de hipótesis cuando se tienen dos
poblaciones, y lo que interesa es la diferencia entre dos medias poblacionales o la diferencia entre dos proporciones poblacionales.
Este tipo de problema es mucho más frecuente en la vida real, puesto que en muchas ocasiones lo que interesa es hacer un comparativo
entre las medias. Por ejemplo, si se desea tomar la decisión sobre el tipo o marca de lámparas que un municipio debe comprar, se pueden
comparar las vidas medias de cada tipo de lámpara para decidir.
Si se hiciera una gran cantidad de muestreos para cada uno de los dos tipos de lámparas, se obtendrían las medias de cada una de las
__ __
muestras y después se harían las diferencias de estas por pares. Por ejemplo, x1 x2 . Puede observarse que la distribución así formada
se comporta de manera normal, por tal razón es que resulta posible darle un tratamiento parecido a lo hecho anteriormente.
Para hacer una inferencia acerca de la diferencia de las medias de dos poblaciones, se elige una muestra aleatoria simple de tamaño n1
unidades de la población 1 y otra muestra aleatoria simple de tamaño n2 unidades de la población 2. A estas dos muestras que se toman
separadas y sin que la elección de la primera afecte a la segunda, se les conoce como muestras aleatorias simples independientes.
Para que los métodos descritos en las secciones siguientes sean válidos, resulta extremadamente importante asegurarse de que las
muestras tomadas sean aleatorias simples independientes, ya que de otra manera los métodos descritos no sirven.
Para estimar la diferencia entre dos medias poblaciones 1 2 se toma una muestra aleatoria simple de n1 elementos de la población 1 y
una muestra aleatoria simple de n2 elementos de la población 2, y se calculan las dos medias muestrales:
__
Sea x1 la media obtenida de la muestra aleatoria simple de tamaño n1 .
__
Sea x2 la media obtenida de la muestra aleatoria simple de tamaño n2 .
Si ambas poblaciones tienen distribución normal o si los tamaños de las muestras son suficientemente grandes, por el teorema del límite
__ __
central se sabe que las distribuciones muestrales de x1 y x2 pueden ser aproximadas mediante una distribución normal, de manera que la
__ __
distribución muestral de x1 x2 tendrá una distribución normal, cuya media es 1 2 y una varianza dada por 2 1 2 .
__ __ 2 2
n1 n2
La estimación por intervalo de la diferencia entre las dos medias poblacionales es:
__ __ 12 22 __ __ 12 22
x1 x2 z 1 2 x1 x2 z
2 n1 n2 2 n1 n2
En la fórmula puede apreciarse que será necesario conocer la varianzas de las poblaciones, es decir, 12 y 22 ; por esa razón se deben
considerar dos casos:
Varianzas conocidas
A continuación se ejemplifica el método para determinar el intervalo de confianza para la diferencia de dos medias cuando las varianzas
son conocidas.
Ejemplo (1)
Cierto grupo de abogados tienen dos despachos representativos en casos de niños, uno en la periferia de la ciudad T1 y otro en un centro comercial
T2 . El gerente regional ha observado que casos que se llevan a término excelente en uno, no lo son en el otro y él cree que esa situación se debe a
ciertas diferencias entre los clientes de los dos despachos, por ejemplo, edad, educación, ingreso, etc. Para corroborar su idea, pide que se investigue
la diferencia entre las medias de las edades de los clientes de los dos despachos.
De acuerdo con datos de estudios anteriores sobre los clientes, se sabe que las desviaciones estándar poblacionales de cada una de las tiendas son
1 9 años y 2 10 años .
Solución: Si se toma una muestra aleatoria simple de tamaño n1 clientes de la población 1 y una muestra aleatoria simple de tamaño n2 clientes de
la población 2, y se calculan las dos medias muestrales, los valores obtenidos son:
T1 T2
Tamaño de la muestra n1 36 n2 49
__ __
Media muestral x1 40 años x2 35 años
Con esta información, la estimación por intervalo de 1 2 con 95% de confianza se encuentra haciendo:
__ __ 12 22 __ __ 12 22
x1 x2 z 1 2 x1 x2 z
2 n1 n2 2 n1 n2
1. La diferencia de las edades promedio de las poblaciones de los clientes que van a los despachos 1 y 2 oscila entre 1 y 9 años.
2. La edad promedio de los clientes que van al despacho 1 es mayor entre 1 y 9 años que la edad promedio de los clientes que van al
despacho 2.
Varianzas desconocidas
Cuando no se conocen las varianzas de las poblaciones, tanto en las estimaciones por intervalo como en las pruebas de hipótesis, se
emplea la distribución t de Student en lugar de la distribución normal estándar; es decir, lo que debe hacerse es remplazar las z por t en la
fórmula ya conocida:
__ __ 12 22 __ __ 12 22
x1 x2 z 1 2 x1 x2 z
2 n1 n2 2 n1 n2
__ __ 12 22 __ __ 12 22
x1 x2 t , n n 2 1 2 x1 x2 t
2
1 2 n1 n2 2
, n1 n2 2 n1 n2
Sin embargo, no es posible realizar las estimaciones con la fórmula anterior, pues aún se deben considerar dos situaciones que se
resuelven de manera diferente:
Varianzas iguales
Generalmente, cuando se estudia una población no se conocen sus parámetros y, por ello, se toman muestras para estimarlos. En algunos
casos se llega a observar que las varianzas de dos poblaciones son muy parecidas, motivo por el que, aun siendo desconocidas, se infiere
que son iguales y a partir de esa inferencia se estima el intervalo de confianza para la diferencia de las medias usando la siguiente
expresión:
__ __ 1 1 __ __ 1 1
x1 x2 t , n n 2 s p 1 2 x1 x2 t sp
2
1 2 n1 n2 2
, n1 n2 2 n1 n2
s 2p
n1 1 s12 n2 1 s22
n1 n2 2
Ejemplo (2)
Un investigador privado de casos difíciles asegura que la vida media de sus asuntos excede en más de 1000 horas la vida media de los casos de uno de
sus competidores. Para contrastar la afirmación, con un nivel de confianza del 95%, se probaron nueve casos del investigador y siete de su competidor.
En la tabla se muestra la duración de los asuntos para ambos muestreos, en miles de horas:
Investigador 66.4 61.6 60.5 59.1 63.6 61.4 62.5 64.4 60.7
privado
Competidor 58.2 60.4 55.2 62.0 57.3 58.7 56.1
Solución: A continuación se presentan los cálculos necesarios para dar respuesta a cada uno de los incisos.
5.03
__
58.2 60.4 55.2 62.0 57.3 58.7 56.1
x2
7
58 .27
9 1
2
5.61
b) Como no se conocen las varianzas poblacionales, y al encontrar las varianzas muestrales se ve que sus valores son cercanos, se puede considerar
que la diferencia de medias se distribuye como t de Student con n1 n2 2 grados de libertad.
n1 n2 2 14
2
c) Para determinar el intervalo de confianza, primero se debe estimar la varianza ponderada ( s p ).
s 2p
9 1 5.03 7 1 5.61
972
5.284
Y al mismo tiempo:
Por tanto:
3.97 2.484 1 2 3.97 2.484
1.486 1 2 6.454
Como la diferencia de las medias poblacionales está entre 1486 horas y 6454 horas, se puede concluir que la afirmación del investigador es cierta.
En la unidad 2 se vio la relación entre intervalos de confianza y pruebas de hipótesis. En esa misma línea de ideas, puede mostrarse que la
metodología descrita también es aplicable para el caso de dos poblaciones y la diferencia de sus medias.
Ejemplo (3)
Para la situación descrita en el ejemplo 2, ahora se probará la hipótesis de que la vida de los casos del investigador privado excede en más 1000 horas la
vida media de los casos de uno de sus competidores.
Solución: Siguiendo los pasos descritos con anterioridad para la prueba de hipótesis:
5) Estadística t , n1 n2 2
__
6) Datos x1 62,200 horas , s1 2,240 horas
__
x2 58,270 horas , s2 2,370 horas
t0
62 .2 58 .27 1 2.529
7) Estandarización
2.2987 1 1
9 7
Valor crítico t 1.76
Conclusión: La vida media de los casos del investigador privado sí excede en más de 1,000 horas a la vida media de los casos del competidor.
Región de rechazo
Región de no
rechazo de Ho
t0.05,14 1.76 t0 2.529
Tal y como se esperaba, las conclusiones obtenidas con ambas metodologías son las mismas.
Varianzas distintas
Cuando se desconocen las varianzas y se ha monitoreado el comportamiento de las poblaciones, hay casos en los que se observa que las
varianzas de dos poblaciones son muy diferentes, de manera que se estiman con las varianzas muestrales. A partir de esa inferencia, el
intervalo de confianza para la diferencia de las medias se determina con:
n1 1 n1 n2 1 n2
Ejemplo (4)
Se realiza un estudio para identificar diferencias entre los ingresos de los empleados de dos juzgados; se toma una muestra aleatoria simple de 28
empleados en el primero y otra muestra aleatoria simple e independiente de 22 empleados en el segundo.
Juzgado 1 Juzgado 2
Tamaño de la muestra n1 28 n2 22
__ __
Media muestral x1 $1,025 x2 $910
Desviación estándar muestral s1 $150 s2 $125
Se desea estimar la diferencia entre el sueldo medio de los trabajadores del juzgado 1 y el sueldo medio de los trabajadores del juzgado 2.
2
150 2 125 2
28 22
v 2 2
47 .8
1 150 2 1 125 2
28 1 28 22 1 22
Como el resultado no es un número entero, se redondea hacia el número entero inferior 47 para tener un valor t mayor y dar una estimación por
intervalo más prudente. En la tabla de la distribución t para 47 grados de libertad, se encuentra t0.025, 47 2.012 .
El intervalo de confianza de 95% para la diferencia entre dos medias poblacionales se calcula como sigue:
Por tanto, el sueldo medio de los empleados del juzgado 1 excede en, al menos, $36.00 el sueldo medio de los empleados del juzgado 2 y, cuando
mucho, en $194.00.
En la unidad anterior se realizaron pruebas de hipótesis cuando se deseaba tomar una decisión sobre una hipótesis en particular, ahora se
realizará una prueba de hipótesis sobre la diferencia entre las proporciones de dos poblaciones, de manera que las tres formas de las
pruebas de hipótesis son:
H 0 : p1 p2 0
H1 : p1 p2 0
H 0 : p1 p2 0
H1 : p1 p2 0
H 0 : p1 p2 0
H1 : p1 p2 0
Puede apreciarse que en todas las hipótesis consideradas se usa el cero como la diferencia de interés; por ejemplo, si se supone que H 0 ,
considerada como igualdad, es verdadera, se tiene p1 p2 0 , lo que equivale a decir que las proporciones poblacionales son iguales, es
decir, p1 p2 .
La distribución muestral de la diferencia de proporciones se puede aproximar mediante una distribución binomial, que tiene una proporción
___ ___ ___
p , obtenida de combinar los estimadores puntuales de las dos muestras, p1 y p2 . El estimador puntual de p es denominado estimador
___ ___
combinado de p , y es un promedio ponderado de p1 y p2 , es decir:
____ ____
___
n p n p
p 1 1 2 2 .
n1 n2
____ ____
Por otra parte, con muestras grandes, es decir, cuando n1 p1 , n1 1 p1 , n2 p2 y n2 1 p2 sean todos mayores o iguales a 5, el
____ ____
___ ___ ___ ___
estadístico de prueba para pruebas de hipótesis acerca de p1 p2 está dado por: z p1 p2 .
0
__
1 __
1
p 1 p
1n n2
Ejemplo (5)
Una compañía de seguridad privada desea comercializar un nuevo servicio de protección, por lo que su departamento de mercadotecnia debe saber
si hay diferencia en las proporciones de mujeres jóvenes y mayores que comprarían el servicio. Se muestrean dos poblaciones independientes:
mujeres jóvenes y mujeres mayores y se consideran un nivel de confianza del 95%.
Solución: Siguiendo los pasos descritos con anterioridad para la prueba de hipótesis:
3) Hipótesis alternativa H1 : p1 p2 0
4) Nivel de significancia 0.05
Probabilidad del 0.95
95% de confianza
5) Estadística z
2
____
19
6) Datos p1 0.19
100
____
62
p2 0.31
200
___
p
100 0.19 200 0.31 0.27
100 200
0.19 0.31
7) Estandarización z0
0.27 1 0.27 1 1
100 200
z0 2.2069
Valor crítico z 1.96
2
Conclusión: Se rechaza la hipótesis de que la proporción de mujeres jóvenes que compraría el servicio de protección es igual a la proporción de
mujeres mayores.
Ejemplo (6)
Para el problema descrito en el ejemplo 5 se determinará el intervalo de confianza para la diferencia de proporciones.
__
____ ____ __
1 1
p1 p2 z0 p 1 p p1 p2
n1 n2
__
____ ____ __
1 1
p1 p2 z0 p 1 p
n1 n2
1 1
0.19 0.31 1.96 0.27 1 0.27 p1 p2
100 200
Y al mismo tiempo:
1 1
p1 p2 0.19 0.31 1.96 0.27 1 0.27
100 200
Por tanto:
0.12 0.1065 p1 p2 0.12 0.1065
0.226 p1 p2 0.013
De aquí puede verse que la proporción de la primera población (mujeres jóvenes) siempre será menor que la proporción de mujeres
mayores; este resultado es consistente con lo que se concluyó en el ejemplo 5.
Cierre
En esta última unidad se establecieron intervalos de confianza tanto para la diferencia de dos medias poblacionales como para la
diferencia de dos proporciones poblacionales. Se revisó que para determinar los intervalos de confianza para dos medias debían
analizarse los casos en los que las varianzas son conocidas, o aquellos cuando son desconocidas pero se pueden considerar
iguales, y finalmente, cuando son desconocidas pero se sabe que son diferentes.
Adicionalmente, y puesto que se sabía de una relación entre los intervalos de confianza y las pruebas de hipótesis, se realizaron
pruebas de hipótesis para la diferencia de dos medias con la intención de comparar los resultados obtenidos con ambos
procedimientos.
Se revisaron y aplicaron los procedimientos para la determinación del intervalo de confianza y para la realización de una prueba de
hipótesis en el caso de la diferencia de dos proporciones.
Fuentes de consulta
(s. a.) (s. f.). Pruebas de hipótesis para la media con muestra grande. Recuperado de https://goo.gl/k6Ed2A
Anderson, D. R. (2012). Estadística para administración y economía (11ª ed.). México: Cengage Learning.
Berenson, M. L. (2001). Estadística para administración (2ª ed.). México: Pearson Education.
Devore, J. L. (2012). Probabilidad y estadística para ingeniería y ciencias (11ª ed.). México: Cengage Learning.
Gálvez, G. (2012). Apuntes de estadística. Recuperado de http://goo.gl/tVKOTK
Hoel, P. G. (1991). Estadística elemental (4ª ed.). México: CECSA.
Kazmier, L. y Díaz, A. (2006). Estadística aplicada a administración y a la economía (4ª ed.). España: McGraw-Hill.
Lind, D. A., Marchal, W. G. y Whaten, S. A. (2008). Estadística aplicada a los negocios y la economía (13ª ed.). México: McGraw-Hill.
Lind, D. A., Mason, R. D. y Marchal, W. G. (2001). Estadística para administración y economía (3ª ed.). México: McGraw-Hill.
Mayes, A. C. y Mayes, D. G. (1980). Fundamentos de estadística para economía. México: Limusa.
Naiman, A., Rosenfeld, R. y Zirkel, G. (1987). Introducción a la estadística (3ª ed.). México: McGraw-Hill.
Nieves, A. y Domínguez, F. C. (2010). Probabilidad y estadística para ingeniería. México: McGraw-Hill.
Pagano, R. R. (2011). Estadística para las ciencias del comportamiento (9ª ed.). México: Cengage Learning.
Ross, S. M. (2008). Introducción a la estadística. España: Reverté.
Vitutor (2010). Ejercicios y problemas de contraste de hipótesis. Recuperado de http://goo.gl/UyA5JN