Вы находитесь на странице: 1из 45

INFERENCIA ESTADISTICA – PROBLEMAS DE

ESTIMACION DE PROMEDIOS POBLACIONALES


La INFERENCIA ESTADISTICA consiste en aquellos métodos con los cuales se pueden realizar
inferencias o generalizaciones acerca de una población utilizando datos muestrales

INFERENCIA
ESTADISTICA

ESTIMACIÓN PRUEBA DE
HIPOTESIS
ESTIMACIÓN
MÉTODOS CLÁSICOS
 ESTIMACIÓN PUNTUAL
Una estimación puntual de un parámetro es simplemente una
selección UNICA del valor del parámetro.

 ESTIMACIÓN POR INTERVALO


Reconociendo la incertidumbre de que la muestra no es la población
estimaremos un intervalo dentro del cual se esperaría encontrar el
parámetro.
NOTACION:
Θ (Tita minúscula) Parámetro a estimar

𝚯 (Tita mayúscula y el “^” indica estimación) Estadístico que
se usa para obtener una estimación puntual del
parámetro. Recibe el nombre de ESTIMADOR PUNTUAL

𝛉 Estimación puntual de θ. Es un valor de ෡ para
𝚯
una muestra seleccionada
EJEMPLO:
Para estimar el parámetro µ  θ se usa el estimador

X Θ ෡
Para una muestra x1, x2, …, xn se calcula:
x1+ x2 + ….+ xn

X =
𝑛
෡ X
𝛉 ഥ será una estimación de µ
PARAMETROS ESTIMADOR ESTIMACION
Θ ෡ (x1, ….. , xn) Var.
Θ ෡ (x1, ….., xn)
𝛉
Aleatoria
E (X) ó (µX) Media Muestral
Var (x) ó (X) S2 Varianza Muestral s2= 𝐯𝐚𝐫 ෢𝟐
ෞ (𝒙) 
E (X) ó (µX) ෩ Mediana Muestral
𝐗 𝐱෤
P 𝑻 pො =
P= proporción
𝒏 𝐍° é𝐱𝐢𝐭𝐨𝐬 𝐝𝐞 𝐥𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚
muestral 𝐧
Números Números
estiman
PROPIEDADES DE UN BUEN ESTIMADOR (que influyen en la
selección de un estimador sobre otro)
1. INSESGAMIENTO
2. VARIANZA MINIMA
1. INSESGAMIENTO
ESTIMADORES INSESGADOS
෡ tuviera un valor esperado
Sería deseable que el estimador Θ
IGUAL al parámetro a estimar
Ej: µ : parámetro a estimar

µ: esperanza de la población
DEF:
෡ es un estimador INSESGADO DE Θ sii
Θ ෡) = Θ
E(Θ
Si un estimador no es insesgado se conoce como sesgado
෡ )= SESGO
Θ - E(Θ

EJEMPLOS DE ESTIMADORES INSESGADOS


para E (X) en cualquier población
para µXҧ de población N (µx , x2)
𝒫 para p de una población Bernoulli con parámetro p
S2 para Var (x) en cualquier población
S2 para 2en una población N (µ , 2)
S2 para µ una población Poisson
para µ una población Poisson
2. VARIANZA MINIMA
Si Θ෡1 y Θ ෡ 2 son dos estimadores insesgados del mismo
parámetro poblacional Θ, se elegirá al estimador cuya
distribución muestral tuviera la varianza más pequeña
෡ 1 ) < Var( Θ
Si Var(Θ ෡ 2)
෡ 1 es un estimador más eficiente de Θ que
Se afirma que “Θ
෡ 2”
Θ
DEF: Si se consideran TODOS los posibles estimadores
INSESGADOS de algún parámetro Θ, aquel con la varianza más
pequeña recibe el nombre de “ESTIMADOR MAS EFICIENTE
DE Θ”
Estimadores de Θ
Solo Θ1, Θ2 y Θ3 son estimadores INSESGADOS.
Θ4 es SESGADO.

¿Cuál estimador de Θ seleccionaría?


Var (Θ1) < Var (Θ2)
Entonces el mejor estimador es Θ1
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Una estimación puntual, con frecuencia es inadecuada como una
estimación de un parámetro, ya que raramente coincide con este. Un tipo
de estimación alternativo es una estimación por intervalo.
Una estimación por intervalo de un parámetro poblacional θ es un
intervalo de la forma
L ≤ θ ≤ U,
Donde L es el límite inferior y U es el límite superior.
L y U dependen del valor del estadístico Θ ෡ para una muestra en particular,
y también de la distribución muestral de Θ ෡.
Ya que muestras distintas generalmente dan valores distintos de Θ ෡ y, por
lo tanto de L y U, a partir de la distribución muestral de Θ ෡ , será posible
determinar L y U tales que P(L(Θ෡ ) ≤ θ ≤ U (Θ
෡ )) sea igual a cualquier valor
fraccionario positivo menor que 1, que se desee especificar.

෡ )) = 1 -  para 0 <  < 1, entonces hay una


෡ ) ≤ θ ≤ U (𝜣
Si, por ejemplo P(L(𝜣
probabilidad dada 1 -  de seleccionar una muestra que produzca un
intervalo que contenga a θ.

El intervalo L ≤ θ ≤ U que se calcula a partir de la muestra seleccionada, se


denomina entonces INTERVALO DE CONFIANZA del (1-) 100%

La fracción de 1- recibe el nombre de COEFICIENTE DE CONFIANZA o


GRADO DE CONFIANZA.
L y U se llaman LIMITES DE CONFIANZA INFERIOR Y SUPERIOR
respectivamente.

Por ejemplo, si el coeficiente de confianza es 0.95 entonces a largo plazo


puede esperarse que el 95% de los límites de confianza calculados incluyan
el verdadero valor de θ.
INTERVALO DE CONFANZA PARA LA MEDIA, VARIANZA CONOCIDA

Población X ˜ N ( µ,2) MEDIA µ DESCONOCIDA, VARIANZA 2 CONOCIDA


X1, X2, … Xn muestra aleatoria de tamaño n de esa población.
La media muestral es un estimador puntual razonable de la media
desconocida µ
2
Distribución muestral de ˜ N ( µ, )
n
xത −µ
Luego Z =  ˜ N (0, 1) Normal Estándar
𝑛
De la figura se observa que:
P( -Z /2 ≤ Z ≤ Z /2) = 1 - 
De modo que
xത −µ
P( -Z /2 ≤  ≤ Z /2) = 1 - 
𝑛

La expresión puede escribirse como

 
P( - Z /2
𝒏
≤ µ ≤ + Z /2
𝒏
) =1-
Walpole (capítulo Estimación) dice: “Muestras diferentes darán valores diferentes de y
por lo tanto, producirán diferentes estimaciones del parámetro  como se observa en la
figura siguiente. Los puntos circulares al centro de cada intervalo indican la posición de la
estimación puntual para cada muestra aleatoria. Se ve que la mayoría de los intervalos
contiene , pero no en todos los casos. Note que todos los intervalos son del mismo ancho,
pues esto solo depende de la elección de z/2 un vez que se determina .

Cuanto más grande sea el valor z/2 que


elijamos, más anchos haremos los intervalos, y
podremos tener más confianza en que la
muestra particular que se seleccione producirá
un intervalo que contenga al parámetro
desconocido .”

Estimaciones por intervalos de  para muestras diferentes


Ejemplo (Berenson Levine- capítulo Estimación).-
Supongamos que en el proceso del llenado de cereales, que se desconocía la media poblacional  , pero que se
conocía la desviación estándar real de la población  y que era 15 gramos. Si supiéramos luego que la media poblacional
µ=368 grs., ¿sería correcto decir que nuestro intervalo de confianza contiene a la media?
En primer lugar estimamos puntualmente a . Para ello se toma una muestra de n=25 cajas que se han llenado un
día determinado y usamos a como estimador puntual. Entonces nuestro promedio estimado de las 25 cajas es de 363,5
grs.
La CONFIANZA se mide con una probabilidad que denotamos con 1- ( probabilidad de seleccionar una
muestra que produzca un intervalo que contenga en su interior a ).
1- = 0,90 (un error de cada 10)
= 0,95 (5 errores de cada 100)
= 0,99 (un error de cada 100)
= 0,999 (un error de cada 1000)
Mientras más anchos son los intervalos, podremos tener más confianza de que la muestra particular que se
seleccione producirá un intervalo que contenga al parámetro desconocido .”

La PRECISION se mide por la longitud (ancho) l del intervalo, para el caso analizado,
𝝈 𝝈
l = + z /2 - ( - z /2 ) = 2 z /2 𝒏 𝒏
Mientras más grande sea el intervalo, será mayor la longitud y menor la precisión.
Obviamente un intervalo más preciso será el que tenga la menor longitud. En el ejemplo del IC del 95%
para el peso medio  de las cajas de cereal, obtenido para una muestra de tamaño n = 25 es l = 11,76 grs.
Si 1- (la confianza) aumenta , z
/2 (número de la tabla) aumenta, luego ¡¡CONFIANZA Y PRECISION
SON COMPETITIVOS!!
n también controla la precisión a través de 𝑛
Diseño a priori: Antes de sacar la muestra y hacer todo el análisis, si el cliente
quiere el 95% de confianza y una precisión l determinada, entonces el
tamaño de muestra lo determinamos haciendo
2∗𝑧𝛼 ∗ 2∗𝑧𝛼 ∗ 2
2
⇒ 𝑛= 2 𝑛 =
𝑙 𝑙
En el ejemplo de las cajas de cereal, si el cliente quiere el 95% de confianza y
una precisión dada por l = 5,
2
2 ∗ 1,96 ∗ 15
𝑛= = 138,2976 = 139
5
Se necesita una muestra de tamaño139 para tener la precisión pedida.
𝜎
Conclusión: I es directamente proporcional a inversamente proporcional a
𝑛
𝑛 y directamente proporcional a 𝑧𝛼
2
ERROR EN LA ESTIMACIÓN
Tamaño error e = |µ- |

Si se utiliza como una estimación de µ podemos tener una confianza del (1-)
𝝈
100% de que el error no excederá de z /2 .
𝒏
¿Qué tan grande debe ser la muestra para asegurar que el error al estimar µ
será menor que una cantidad específica e?
𝝈
Debemos elegir “n” de modo que de z /2 = e
𝒏
Resolviendo la ecuación para n
 2
(1) 𝑛 = 𝑧𝛼 redondear al entero siguiente cuando se tiene n valor
2 𝑒
fraccionario. Si se usa como una estimación de µ, podemos tener una confianza
del (1-) 100% que el error no excederá una cantidad específica e cuando el
tamaño de la muestra sea (1)
Ejemplo: se realizó un estudio para estimar la media de deudas en las tarjetas de crédito en la población de
familias de Argentina. En la tabla se presentan los saldos en las tarjetas de crédito de una muestra de n = 70
familias.
Datos:
SALDOS EN LAS TARJETAS DE CRÉDITO DE UNA MUESTRA DE 70 FAMILIAS

𝑋ത = $9312 y s = $4007. El t0.025 correspondiente


a 95% de confianza y n-1= 69 grados de
libertad. El valor de t que se necesita está en
el renglón correspondiente a 69 grados de
libertad y en la columna correspondiente a
0.025 en la cola superior. El valor que se
encuentra es t.025 = 1.995.

- t /2
s
𝒏
≤ µ ≤ + t /2
s
𝒏
4007
9312 – 1,995 * 𝟕𝟎
≤ µ ≤ 9312 + 1,995 * 4007
𝟕𝟎

8357 ≤ µ ≤ 10267

Con la muestra de 70 familias se obtiene una media muestral de $9312 para los saldos en las tarjetas de
crédito, una desviación estándar muestral de $4007, una estimación del error estándar de la media de $479
(valor redondeado) y un intervalo de confianza de 95% que va de $8357 a $10267.
DOS MUESTRAS
DEFINICION: Intervalo de confianza para la diferencia de dos medias, varianzas
conocidas.
ഥe𝐘
Si 𝐗 ഥ son las medias de dos muestras aleatorias independientes de tamaños
n1 y n2 tomadas de poblaciones que tienen varianzas conocidas 12 y 22,
respectivamente, entonces un intervalo de confianza del 100 ( 1-  )% para
µ1 − µ2 es:

1 𝟐 2 𝟐 1 𝟐 2 𝟐
𝐗 ഥ − 𝑍
ഥ− 𝐘
𝒏𝟏
+
𝒏𝟐
≤ µ1 − µ2 ≤ ഥ + 𝑍
ഥ− 𝐘
𝐗
𝒏𝟏
+
𝒏𝟐
2 2

Donde 𝑍 es el valor de la distribución


2

estándar que deja la derecha un área de 2 .
El grado de confianza 1 -  es EXACTO cuando las poblaciones son normales. Para las
poblaciones que no lo son, el nivel de confianza es aproximadamente válido para
muestras de tamaño razonable.
El procedimiento para estimar “la diferencia entre dos medias” es aplicable SI SE CONOCEN
12 y 22.
 Si 12 y 22 no se conocen y las distribuciones involucradas son aproximadamente
normales, debe considerarse la distribución t (como en el caso de una muestra)
 Si 12 y 22 no se conocen y no se está dispuesto a suponer normalidad de las
poblaciones, muestras GRANDES (n1 ≥30 y n2≥30) permitirán el uso de S1 y S2 en lugar
de 12 y 22 respectivamente, entendiendo que S1 ≈ 12 y S2 ≈ 22
 El IC del 100 ( 1 - ) % para µ1 − µ2 será
S1 𝟐 S2 𝟐 S1 𝟐 S2 𝟐
ഥ− 𝐘
𝐗 ത − 𝑍 + ഥ− 𝐘
≤ µ1 − µ2 ≤ 𝐗 ത + 𝑍 +
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
2 2

Un vez más el intervalo de confianza es una aproximación.


1.60934 km = 1
milla
1 galón = 3.78541
Interpretación del intervalo de confianza

+ ≤ µ𝟏 − µ𝟐 ≤ +
Significa que µ1 > µ2

- ≤ µ𝟏 − µ𝟐 ≤ +
0 ∈ al intervalo que µ1 ≊µ2

- ≤ µ 𝟏 − µ𝟐 ≤ -
Significa que µ2 > µ1
DEFINICION: Si xത, yത , S12 , y S22 son las medias y las varianzas muestrales de
dos muestras aleatorias de tamaño n1 y n2 respectivamente, tomadas de dos
poblaciones normales e independientes, con varianzas desconocidas pero
iguales, entonces un IC del 100 (1-) % para µ1 − µ2 es:
1 1 1 1
𝐱ത − 𝐲ത − 𝑡 𝑆𝑝 + ≤ µ1 − µ2 ≤ 𝐱ത − 𝐲ത + 𝑡 𝑆𝑝 +
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
2 2

En donde:
𝑛1−1 S1 𝟐 + 𝑛2−1 S2 𝟐
Sp= estimador combinado de 
𝑛1+𝑛2−2

𝑡 valor de la distribución de t con n1 + n2 -2 GL con un área de a la
2
2
derecha
NOTA: El procedimiento para determinar los IC para µ1 − µ2 con 12 =
22 = 2 desconocidas requiere la SUPOSICION que las POBLACIONES
SEAN NORMALES
Desviaciones ligeras de la suposición de varianzas iguales o de la
normalidad no alteran el grado de confianza del intervalo.
Si las varianzas poblacionales son considerablemente diferentes, AUN se
obtienen resultados razonables CUANDO las poblaciones son
NORMALES, SIEMPRE QUE n1 = n2.
Para alcanzar la máxima eficiencia al realizar una operación de ensamble en una planta manufacturera,
obreros nuevos requieren aproximadamente un periodo de capacitación de 1 mes.
Se sugirió un nuevo método de capacitación y se realizo un examen para comparar el nuevo método contra
el procedimiento estándar. Dos grupos de nueve obreros nuevos cada uno fueron capacitados durante 3
semanas, un grupo usando el nuevo método y el otro siguiendo el procedimiento estándar de capacitación.
El tiempo (en minutos) requerido por cada obrero para ensamblar el dispositivo se registro al final del
periodo de 3 semanas. Las mediciones resultantes son las que se muestran en la Tabla 8.3. Calcule la
diferencia real de las medias (µ1 − µ2) con coeficiente de confianza .95. Suponga que los tiempos de
ensamble están distribuidos normalmente en forma aproximada, que las varianzas de los tiempos de
ensamble son aproximadamente iguales para los dos métodos y que las muestras son independientes.
sp = 4.716.

Este intervalo de confianza se puede escribir en la forma [-1.05, 8.37]. El intervalo es bastante ancho e
incluye valores positivos y negativos. Si µ1 − µ2 es positivo, µ1 > µ2 y el procedimiento estándar tiene un
tiempo de ensamble esperado mayor que el nuevo procedimiento.
Si µ1 − µ2 es realmente negativo, lo inverso es verdadero. Como el intervalo contiene valores positivos y
negativos, se puede decir que ninguno de los métodos de capacitación produce un tiempo medio de
ensamble que difiera del otro.
DEFINICION
Si xത, yത , S12 , y S22 son las medias y las varianzas muestrales de dos muestras
aleatorias de tamaño n1 y n2 respectivamente, tomadas de dos poblaciones
normales e independientes, con varianzas desconocidas y distintas, entonces
un Intervalo de Confianza del 100 (1-) % para µ1 − µ2 es:
A diferencia de la situación que se describió antes, las condiciones de las dos poblaciones no se
asignan de forma aleatoria a las unidades experimentales. Mas bien, cada unidad experimental
homogénea recibe ambas condiciones de la población; como resultado, cada unidad experimental
tiene un par de observaciones, una para cada población. Por ejemplo, si realizamos una prueba de
una nueva dieta con 15 individuos, los pesos antes y después de seguir la dieta conforman la
información de las dos muestras. Las dos poblaciones son “antes” y “después”, y la unidad
experimental es el individuo. Evidentemente, las observaciones en un par tienen algo en común.
Para determinar si la dieta es efectiva consideramos las diferencias d1, d2,..., dn en las observaciones
pareadas. Estas diferencias son los valores de una muestra aleatoria D1, D2,..., Dn de una población
de diferencias, que supondremos distribuidas normalmente, con media μD = μ1 – μ2 y varianza σD 2 .
Estimamos σD 2 mediante s2, la varianza de las diferencias que constituyen nuestra muestra. El
ഥ.
estimador puntual de μD es dado por 𝐷
Otra ilustración del pareado implicaría elegir n pares de sujetos, donde cada par tenga una
característica similar, como el coeficiente intelectual (CI), la edad o la raza, y luego para cada par
seleccionar un miembro al azar para obtener un valor de X1, dejando que el otro miembro
proporcione el valor de X2. En este caso, X1 y X2 podrían representar las calificaciones obtenidas por
dos individuos con igual CI cuando uno es asignado al azar a un grupo que usa el método de
enseñanza convencional y al otro a un grupo que utiliza materiales programados.
Estadística para Administración. Berenson – Levine – Krehbiel. 4ta. Edición Ed.
Pearson.

Probabilidad y estadística para ingeniería y ciencias, Ronald E. Walpole, Raymond H.


Myers, Sharon l. Myers y Keying Ye. (2012). Probabilidad y estadística para ingeniería y
ciencias, 9ª Edición. Ed. Pearson educación

Вам также может понравиться