Вы находитесь на странице: 1из 112

Estadística II

1 Muestreo

Prof. Adriana Pérez


aaperez@uade.edu.ar
¿Para que sirve la estadística?
Es fácil mentir con la estadística.
Pero es más fácil mentir sin ella.

„ Para describir un conjunto de datos


„ Para estimar características poblacionales
„ Para probar hipótesis formuladas sobre una
población
„ Para construir modelos y efectuar predicciones

2
Población y muestra
N
„ Población o universo es el conjunto de todas las
unidades de interés o de análisis en donde los
resultados del estudio deberán extrapolarse (hacer
inferencia).
… Normalmente es demasiado grande para poder
abarcarlo.
… El estudio de toda la población se denomina
censo
„ Muestra es un subconjunto suyo al que tenemos
acceso y sobre el que realmente hacemos las
observaciones (mediciones) n
… Debería ser “representativo”
… Esta formado por miembros “seleccionados” de
la población (individuos, unidades
experimentales o de observación).
… Fracción de muestreo: es la proporción de la
población que está siendo muestreada (n/N)
3
INDEC.
Censo
Nacional de
Población,
Hogares y
Vivienda
2001

4
INDEC. Encuesta
Permanente de
hogares (EPH)

Para medir el desempleo,


650 encuestadores entrenados
visitan anualmente 35.000
hogares particulares
pertenecientes a 28
aglomerados urbanos

5
INDEC. EPH: Desempleo

6
Inferencia estadística
Consiste en extrapolar las conclusiones
extraídas de una muestra sobre la población

„ La población ideal que se pretende estudiar se denomina población


objetivo, de referencia, de interés o universo.

„ El grupo que en realidad podemos estudiar, porque es el grupo del


cual extraeremos la muestra, se denomina población muestreada.
… Las conclusiones se deben aplicar a la población de la cual se
extrajo la muestra
„ Marco muestral: es la lista de todas las unidades que pueden ser
muestreadas

„ Las formas de obtener datos son: por muestreo o mediante


experimentos
7
La población objetivo y la efectivamente
muestreada pueden no ser iguales
Población objetivo
Población del
marco muestral

• no incluido • no localizable • no es elegible


• rehúsa Población
en el marco
muestral responder muestreada
• no puede
responder

8
Errores no muestrales o Sesgos
„ Un método de muestreo está sesgado si produce
resultados que sistemáticamente difieren de la población
objetivo
„ Sesgo de selección: es la tendencia sistemática a excluir o
incluir cierto tipo de individuos en el proceso de muestreo
(sub o sobrecobertura)
„ Sesgo de medición: cuando el instrumento con el que se
mide tiene una tendencia a diferir del valor verdadero en
alguna dirección
„ Sesgo de no respuesta: es la distorsión que aparece
cuando cierto grupo de individuos seleccionados para ser
muestreados no responden, y estos no respondentes tienen
tendencia a ser diferentes de los que sí responden

9
Errores muestrales
„ Son aquellos que aparecen como resultado de analizar
solo a una parte de la población, y se deben al azar
… Aunque la población objetivo y la muestreada coincidan,
los resultados de la muestra no serán exactamente
iguales a los poblacionales!
„ A diferencia de los errores no muestrales, disminuyen
cuando aumenta el tamaño de la muestra
„ Si la muestra está diseñada de forma probabilística es
posible controlar su magnitud y dar una estimación del mismo

10
Errores en la toma de datos

Sesgo de
selección
Error
Muestral Sesgo de
no respuesta

Población Población Muestra Muestra


Objetivo muestreada Planeada Actual

11
Técnicas de muestreo
… Muestreos probabilísticos
„ todos los individuos tienen una probabilidad conocida
de ser elegidos para formar parte de la muestra,
asegurando la representatividad de la muestra elegida
„ Es posible hacer estadística inferencial con ellos.

… Muestreos no probabilísticos
„ No se conoce la probabilidad de selección del individuo.
„ Son muestreos que seguramente esconden sesgos.
„ No se pueden extrapolar los resultados a la
población.
… A pesar de ello una buena parte de los estudios que
se publican usan esta técnica!

12
Muestreos no probabilísticos

‰ Muestreo de voluntarios
‰ Muestreo por conveniencia
‰ Muestreo por cuotas

No se puede evaluar “Precisión” en términos probabilísticos,

No obliga a tener una base o “Marco” para la selección

Son mucho más baratos

No garantiza “representatividad” y se corre el riesgo de que se


termine en un estudio de casos
13
Muestreos probabilísticos
‰ Muestreo aleatorio simple
‰ Muestreo sistemático
‰ Muestreo estratificado
‰ Muestreo por conglomerados
‰ Muestreo multietápico
‰ Muestreo Proporcional a Tamaño

Elimina sesgos de selección y caprichos humanos,


Permite emplear la inferencia estadística para proyectar y analizar los
resultados,
Permite cuantificar la incertidumbre, el riesgo y la validez que
podemos poner en los resultados

14
Muestreo aleatorio simple
„ Se eligen individuos de la población de estudio, de
manera que todos tienen la misma probabilidad de
ser seleccionados, hasta alcanzar el tamaño
muestral deseado.
„ Se puede realizar partiendo del listado de todos los
individuos que componen la población (marco
muestral) y eligiendo individuos aleatoriamente
„ Normalmente tiene un costo bastante alto.

15
Ejemplo
•Se desea efectuar una encuesta a los productores lecheros sobre
la política de retenciones del gobierno. En cierta región existen 750
establecimientos. Se desea seleccionar 25 para ser encuestados.
¿Cómo se debería proceder?
1.
1. Asigna
Asignaaacada
cadaestablecimiento
establecimientoun
un •Tabla de números aleatorios
número
númerodel
del11al
al750.
750. •Tecla RAN# de la calculadora
•Función Muestra de Excel
2.
2. Elige
Elige25
25números
númerosaleatorios
aleatoriosde
detres
tres
cifras
cifrasde
deuna
unatabla
tablaoocalculadora
calculadoraoo
mediante
mediantesoftware.
software.
3.
3. Si
Sisale
saleun
unnúmero
númeroentre
entre 750
750yy1000,
1000,
se
seelige
eligeotro
otronúmero.
número.
4.
4. Los
Los25
25establecimientos
establecimientoscon
conestos
estos
números
númerosson
sonelegidos
elegidospara
paraser
ser
encuestados.
encuestados. 16
Muestreo sistemático
„ Se tiene una lista de los individuos de la población de
estudio (marco muestral). Si queremos una muestra
de un tamaño dado, elegimos individuos igualmente
espaciados de la lista, donde el primero ha sido elegido
al azar.
A B C D E F G H I J K L M N O….

„ CUIDADO: Si en la lista existen periodicidades,


obtendremos una muestra sesgada.

… Un caso real: Se eligió una de cada cinco casas para un estudio de


salud pública en una ciudad donde las casas se distribuyen en
manzanas de cinco casas. Salieron con mucha frecuencia las de las
esquinas, que reciben más sol, están mejor ventiladas,…

17
Muestreo estratificado
„ Se aplica cuando sabemos que la población es heterogénea, es decir
que hay ciertos factores (variables, subpoblaciones o estratos) que
pueden influir en el estudio y queremos asegurarnos de tener cierta
cantidad mínima de individuos de cada tipo:
… Hombres y mujeres,
… Niveles socioeconómicos…
„ Se divide a la población en estratos o bloques homogéneos
„ El tamaño de la muestra de cada estrato depende principalmente de la
variabilidad del mismo
„ Se realiza entonces un M.A.S. de los individuos de cada uno de los
estratos.
„ La idea es minimizar la variabilidad dentro del estrato y maximizar la
variabilidad entre estratos
„ Al extrapolar los resultados a la población hay que tener en cuenta el
tamaño relativo del estrato con respecto al total de la población
(ponderación).
„ Es más eficiente que el MAS
18
Ejemplos
„ Dividir la Capital en distritos electorales y tomar una
muestra aleatoria simple en cada uno de ellos.

„ Elegir un registro aleatoriamente de la guía telefónica


y seleccionar cada 50 números después de este.

„ Encuestar a todos los estudiantes de una universidad

„ Seleccionar a los primeros 5 clientes que ingresan a


un hipermercado

19
Preguntas que deben formularse
antes de creerle a una encuesta
„ ¿Quién llevó a cabo la encuesta?
„ ¿Cuál es la población objetivo?
„ ¿Cómo fue seleccionada la muestra?
„ ¿Cuál es el tamaño de la muestra?
„ ¿Cuál fue la tasa de respuesta?
„ ¿Cómo fueron contactados los entrevistados?
„ ¿Cuándo fue tomada la muestra?
„ ¿Cuáles fueron exactamente las preguntas?

20
¿Y una vez que tenemos la muestra?
„ Procedemos a caracterizarla, describirla, resumirla
„ Para eso necesitamos estadísticos
„ Los estadísticos son cantidades numéricas que
sintetizan la información contenida en los datos

21
Un brevísimo resumen sobre estadísticos
„ Tendencia central
… Indican valores con respecto a los que los datos parecen
agruparse.
„ Media o promedio, mediana y moda
„ Variabilidad
… Indican la mayor o menor concentración de los datos con respecto
a las medidas de tendencia central.
„ Varianza, Desviación estándar, coeficiente de variación
„ Posición
… Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
„ Cuartiles, deciles, percentiles
„ Proporción o porcentaje
„ Indican la relación entre la cantidad de éxitos y el total de datos
22
Ejemplo
„ Se efectúa una investigación sobre el uso de
telefonía celular entre estudiantes universitarios.
… ¿Qué porcentaje de los estudiantes usa celular?
… ¿Cuánto gastan en general por mes?
… ¿Es muy variable el gasto entre los usuarios?
… ¿Lo poseen más los hombres o las mujeres?
… ¿Qué cantidad de llamadas reciben usualmente por día?
… ¿El uso es mayor entre los que trabajan y los que no?

23
Relacionando gráficos de distribución de
frecuencias con estadísticos

Posición / Proporción Asimetría

24
Estadísticos de dispersión
„ Varianza muestral

∑ (x )
n
2
i −x
i =1
s2 =
n −1
… Es el promedio de las desviaciones (al cuadrado) de cada dato
con respecto a la media
… A mayor variabilidad, mayor varianza
… Es sensible a valores extremos
… Sus unidades son las de la variable al cuadrado.

25
„ Desvío estándar muestral o típico

∑ (x )
n
2
i −x
s= s2 = i =1
n −1
… Tiene las mismas unidades que la variable
… A mayor variabilidad, mayor desvío estándar
… No confundir con error estándar o típico

26
„ Coeficiente de variación
s
CV = × 100
x

… No tiene unidades
… Es una medida de variabilidad relativa: mide la desviación
típica en forma de “qué tamaño tiene con respecto a la media”
… Se utiliza para comparar variabilidad

27
Estadísticos de posición
„ Se define el fractil de orden k como un valor de la variable por
debajo del cual se encuentra el k% de los datos.

„ Casos particulares son los percentiles, cuartiles, deciles,


percentiles,...

10%

P10 P70 28
Población total según escala de ingreso individual. Total de aglomerados urbanos. Segundo trimestre 2005

Escala de ingreso Población Porcentaje Ingreso Total Porcentaje Ingreso Ingreso


Número de decil por decil de por decil del medio por medio por
Desde Hasta
(miles) personas (miles) ingreso decil estrato

1 3 150 1.189 125.864 1,4 106

2 150 250 1.189 230.377 2,6 194

3 250 303 1.189 345.389 3,9 290

4 303 400 1.190 428.717 4,9 360 238

5 400 500 1.189 545.482 6,2 459

6 500 610 1.188 678.388 7,7 571

7 610 800 1.189 844.682 9,6 710

8 800 1.000 1.189 1.052.633 12,0 885 656

9 1.000 1.500 1.189 1.409.926 16,0 1.186

10 1.500 53.000 1.189 3.126.037 35,6 2.630 1.908


Población CON Ingresos 11.891 51,0 8.787.495 100,0 739
Población SIN Ingresos 11.413 48,9
Ingresos parciales y Ns/Nr -- --
Entrevistas no realizadas 17 0,1

POBLACIÓN TOTAL 23.320 100,0

Fuente: INDEC, Encuesta Permanente de Hogares Continua.


29
Distribución normal o de Gauss
„ Distribución simétrica
„ Está caracterizada por dos
parámetros:
† la media µ localizada en el centro
de la distribución
† el desvío estándar σ localizado en
cada punto de inflexión.
„ Aparece de manera natural:
… Altura, peso
… En procesos de fabricación
industriales
… En distribuciones binomiales con
n grande (n>20) y p no demasiado
pequeño (np>5) ni grande (nq>5).

30
La regla 68-95-99.7
„ Entre la media y un desvío estándar tenemos siempre
la misma probabilidad: aprox. 68%
„ Entre la media y dos desvíos estándar: aprox. 95%
„ Entre la media y tres desvíos estándar aprox. 99.7%

31
Estandarización
„ Dada una variable de media µ y desviación típica σ, se denomina
valor estandarizado o valor Z, de una observación x, a la distancia
(con signo) con respecto a la media, medido en desviaciones
estándar, es decir
x−µ
z=
σ
„ Es decir, el valor Z representa el número de las desviaciones estándar en
que una observación (x) está arriba o debajo de la media.
„ Cuanto más grande sea el valor de Z, más lejos estará el valor de la
media.
„ Si un valor Z es negativo, la observación (x) está debajo de la media. Si el
valor Z es positivo, la observación (x) está por arriba de la media.
„ es un valor sin dimensiones, y por lo tanto es una medida útil para
comparar valores de datos de dos poblaciones distintas, para saber cuál
de los dos es más extremo. Se puede usar para detectar datos atípicos

32
Bibliografía
„ Anderson DR, Sweeney DJ, Williams, TA. Estadística
para administración y economía. 7° Edición.1999.
… Capítulo 7: 7.1, 7.2 y 7.8

33
2 Distribución muestral
Parámetros y estimadores
„ Parámetro : Es una cantidad numérica calculada sobre la
población
θ
† La idea es resumir toda la información que hay en la población
en unos pocos números (parámetros).
… Los ingresos promedio de los argentinos

„ Estimador: Ídem (cambiar población por muestra) θˆ


… La idea es obtener un valor aproximado del parámetro.
… Los ingresos promedio de los que estamos en este aula.
„ Somos una muestra (¿representativa?) de la población.

Normalmente nos interesa conocer un parámetro, pero por la


dificultad que conlleva estudiar a *TODA* la población, calculamos
un estimador sobre una muestra y confiamos en que sean
próximos.
35
Simbología:

Medida Parámetro Estimador


(poblacional) (muestral)
Promedio µ x
Desvío estándar
θ
σ s
Variancia σ2 s2
Proporción p p̂
Cantidad de datos N n
36
Distribución de los estimadores
„ Los parámetros se calculan sobre los N valores de la población,
por lo tanto no cambian a menos que cambie la población, son
constantes.
„ Los estimadores se calculan sobre n valores muestrales, por lo
tanto varían de muestra en muestra y por lo tanto son variables
aleatorias.
„ Si se extrajeran todas las muestras posibles de una población
(infinitas!) pordríamos estudiar cómo se comportan los
estimadores.
„ Las distribuciones de probabilidad de los estadísticos se
denominan distribuciones muestrales.

Por lo tanto los estimadores, como toda variable aleatoria, se pueden


caracterizar por:
1. su tendencia central: promedio o esperanza
2. su variabilidad: desvío estándar (llamado error estándar)
3. su distribución de probabilidades (normal, binomial, etc)
37
Distribuciones muestrales
Definición: La distribución muestral de un estimador es la
distribución de probabilidades de todos los posibles valores de
un estimador que se pueden obtener extrayendo infinitas
muestras de tamaño n de la población.

Las distribuciones muestrales de los estimadores pueden ser:

9aproximadas mediante técnicas de simulación


9derivadas de teoremas matemáticos. El teorema Central del
límite es uno de ellos.

38
Distribución muestral de la media
Simulación
Si de una población con promedio µ y desvío estándar σ
se extraen infinitas muestras de tamaño n y a cada una
de ellas se le calcula el promedio x …

„ ¿Cuál es el promedio de estos x ? µx = µ


„ ¿Cuál es la variabilidad de estos x ? σ x = σ n
„ ¿Qué distribución de probabilidades tienen estos x?

39
Teorema central del límite
Si de una población con distribución no normal o
desconocida con media µ y desvío estándar σ se
extraen infinitas muestras aleatorias de tamaño n
y a cada una de ellas se le calcula el promedio x ,
se demuestra que este se comporta según una
distribución normal si n es lo suficientemente
grande

40
¿A qué consideramos un n
“lo suficientemente grande”?
„ Si la variable original es normal, entonces x será
normal, para cualquier n
„ Si la variable original es aproximadamente simétrica,
entonces x tenderá a una distribución
aproximadamente normal para n relativamente bajos
„ Si la variable original es marcadamente asimétrica,
entonces n deberá ser de al menos 30 para que la
distribución de x sea normal

41
Distribución muestral de la media
x distribución normal x distribución normal
µ µx = µ
σ σx =σ n

x−µ x−µ
z= z=
σ σ n
42
Teorema central del límite
x distribución no normal o x distribución normal
distribución desconocida si n→∞ (n≥30)
µ µx = µ
σ σx =σ n
1

0
0 10

x−µ x−µ
z= z=
σ σ n
43
¿Es útil conocer la distribución de un estimador?
„ Es la clave para hacer inferencia. Ilustrémoslo con un ejemplo
… Si de una variable conocemos µ y σ, sabemos que para muestras
“grandes”, la media muestral es:
„ aproximadamente normal

„ con la misma media


σ
„ con desvío estándar (error estándar) mucho menor ES =
n
… Es decir si por ejemplo µ=60 y σ=5, y obtenemos muestras de tamaño
n=100,
„ El desvío estándar de la media muestral (error estándar) es:

„ La probabilidad de que la media muestral sea mayor a 61 es:

44
Propiedades de un buen estimador
„ Insesgado: Un estimador es insesgado cuando la esperanza
del estimador es igual al valor del parámetro que se desea
estimar. O sea:
µ (θˆ ) = θ
„ Consistente: A medida que el tamaño de la muestra aumenta
el estimador debe tender al valor del parámetro y su variancia
debe tender a cero
„ Eficiente: Un estimador es eficiente cuando tiene variancia
mínima.
„ Suficiente: El estimador es suficiente cuando aprovecha toda
la información existente en la muestra

45
Propiedades de un buen estimador

ƒInsesgado: significa que el promedio del estimador es igual al


parámetro (no sobre ni subestima sistemáticamente al parámetro)
ƒDe los estimadores insesgados, se prefieren aquellos con menor
variabilidad (más eficientes)
46
Distribución de 3 estimadores

Parámetro

Estimador 1 Estimador 2 Estimador 3

¿Cuál es el mejor estimador?


47
Bibliografía
„ Anderson DR, Sweeney DJ, Williams, TA.
Estadística para administración y economía.
7° Edición.1999.
… Capítulo 7: 7.4, 7.5 y 7.7

48
3 Estimación de
parámetros

Estimación de un promedio
con desvío poblacional desconocido
Estimación
„ Las poblaciones son descriptas mediante sus
parámetros
… Para variables cuantitativas, las poblaciones
son descriptas mediante µ y σ.
… Para variables cualitativas, las poblaciones
son descriptas mediante p.
„ Si los valores de los parámetros son
desconocidos, podemos estimarlos en base a
muestras y esperamos que sean una buena
aproximación al valor exacto

50
Definiciones

„ estimación puntual: se calcula un valor simple a


partir de la muestra a fin de estimar el parámetro

„ estimación por intervalo de confianza: se


calculan dos números para crear un rango de
valores que se espera contenga al parámetro
con una cierta probabilidad o nivel de confianza

P( LI < θ < LS ) = 1 − α

51
¿Qué tan buena es la estimación?
Error muestral
„ es la distancia entre el estimador puntual y el verdadero valor
del parámetro
„ Es el error que surge por estudiar a una parte de la población
„ Posee las mismas unidades que la variable en estudio
„ Su magnitud es desconocida y por lo tanto imposible de
calcular con certeza
„ Se sabe que disminuye cuando aumenta el tamaño de la
muestra
„ Si la muestra está diseñada de forma probabilística es
posible controlar su magnitud y dar una estimación del mismo
„ Pero para eso es necesario conocer la distribución de
probabilidades (distribución muestral) del estimador
52
¿Qué son los errores no muestrales?

ƒ Otros errores ajenos al muestreo: no respuesta, codificación,


encuestador, encuestado, lógicos, de concepción, etc.
ƒ No disminuyen cuando el tamaño de la muestra aumenta
ƒ muy pero muy difíciles de medir!!!

53
¿Qué tan buena es la estimación?
Nivel de confianza
„ es la probabilidad de que el intervalo contenga al parámetro
„ Se lo simboliza como 1- α
„ Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95 ; 0,99
„ α es la probabilidad de error (no contener al parámetro) y se la
denomina también riesgo Intervalos de confianza para la media
„ Es el porcentaje de intervalos 63
Cobertura: 95,00%

que se espera contengan al 62

parámetro (para ese tamaño de 61

muestra)
Media
60

59

58

57
0 25 50 75 100
Intervalos 54
¿Cómo calcular el error muestral en la estimación
de µ?
x−µ
z=
σ n
P( zα 2 < Z < z1−α 2 ) = 1 − α
x −µ
P ( zα 2 < < z1−α 2 ) = 1 − α
σ n
P ( zα / 2 σ n < x − µ < z1−α / 2 σ n) = 1−α
EM

55
¿Entre qué valores esperaría que se encuentre µ?
Intervalo de confianza para µ

P ( zα / 2 σ n < x − µ < z1−α / 2 σ n) = 1−α

P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α


LI LS

P( LI < µ < LS ) = 1 − α
x ± zα 2 σ n
x ± EM

56
¿Cómo mejorar la estimación?
Para disminuir el error muestral Nivel de zα/2
(mayor precisión): confianza
0.90 1.645
… Tamaño de la muestra 0.95 1.96
… Nivel de confianza 0.99 2.576
… Desvío estándar

P( LI < µ < LS ) = 1 − α
x ± zα 2 σ n
x ± EM

57
¿De qué depende el tamaño de una
muestra?
ƒ De los recursos y del presupuesto: $$$$.
ƒ Del tipo de población en estudio.
ƒ De la variable a estudiar (cuali o cuantitativa).
ƒ Del grado de homogeneidad de ésta en la
población.
ƒ Del diseño muestral empleado.

58
¿Qué se necesita para determinar el tamaño
de una muestra para un promedio?
Tres elementos importantes:
1. Error muestral o margen de error deseado.
2. Nivel de Confianza o de Riesgo, y el valor del
fractil de la distribución asociada a alguno de ellos.
3. Una magnitud de la dispersión o del grado
de heterogeneidad de la variable a estudiar.

EM = zα 2 σ n

59
Supuestos
Para que las estimaciones sean confiables se debe cumplir:

… Muestreo aleatorio probabilístico


… Muestreo con reposición o bien debe suponerse que la
población es infinita
… La variable x debe tener distribución normal; en caso
contrario, el tamaño de la muestra debe ser lo
suficientemente grande (n≥30)
… El desvío estándar poblacional debe ser conocido

60
Intervalos de confianza:
un ejemplo
Como parte del control de calidad de una panificadora, se mide
en cada lote la concentración de conservantes. En base a 15
muestras se estimó la concentración promedio de conservante
en un lote:
IC95: 0.25-0.35 (mg/100g)
‰ El promedio del lote está entre 0.25 y 0.35
‰ El promedio de la marca está entre 0.25 y 0.35
‰ El 95% de las muestras tiene entre 0.25 y 0.35 mg/100g
‰ Si se aumenta la confianza el IC se achica (es más preciso)
‰ Si se quiere achicar el IC se debe aumentar el tamaño de la
muestra
‰ El promedio de las muestras es cualquier número entre 0.25 y
0.35
‰ La amplitud del IC es de 0.10 mg/100g
61
Bibliografía
„ Anderson DR, Sweeney DJ, Williams, TA.
Estadística para administración y economía.
7° Edición.1999.
… Capítulo 8: 8.1 y 8.3

62
4 Estimación de un
promedio con desvío
poblacional desconocido
Distribución muestral de x cuando el desvío
estándar poblacional es desconocido
„ En la práctica es habitual que TODOS los parámetros
poblacionales son desconocidos, es decir que ni el
promedio µ ni el desvío estándar poblacional σ son
conocidos!
„ Como se desconoce σ se utiliza su estimador s → mayor
incertidumbre
„ No es correcto utilizar la distribución normal para x
x−µ
z=
σ n
„ Se demuestra que la media muestral en estos casos ajusta
a una distribución conocida como t de Student
x−µ
tGL =
s n 64
Distribución t de Student
„ Tiene forma acampanada como la normal estándar, pero su
dispersión es mayor (es más aplanada). Esto se debe a que al
desconocer σ hay mayor incertidumbre
„ Es simétrica con respecto al cero, es decir que µ=0
„ No se trata de una única curva, sino de infinitas curvas, cada
una caracterizada por un parámetro denominado grados de
libertad (GL)
„ Los GL dependen del tamaño de la muestra
„ A medida que aumentan los GL
más se asemeja a la normal estándar
(porque s converge a σ)

65
Distribución muestral de x cuando no se
conoce σ
1. La media de x es:
2. El desvío estándar (ES) de x es:
3. Si el tamaño de la muestra es lo suficientemente
grande o x es normal, la distribución de x es
t de Student, con n-1 grados de libertad

66
Intervalo de confianza para µ
„ Con σ conocido
P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α

„ Con σ desconocido

P( x + t n −1,α / 2 s n < µ < x + t n −1,1−α / 2 s n) = 1−α


LI LS

P( LI < µ < LS ) = 1 − α
x ± t n −1,α 2 s n
x ± EM 67
¿Cómo mejorar la estimación?
Para disminuir el error muestral (mayor precisión):

… Tamaño de la muestra
… Nivel de confianza
… Desvío estándar

EM = t n −1,α 2 s n

Como el n está a ambos lados de la ecuación, se debe


utilizar un método iterativo para calcular el tamaño muestral

68
Supuestos
Para que las estimaciones sean confiables se debe cumplir:

… Muestreo aleatorio probabilístico


… Muestreo con reposición o bien debe suponerse que la
población es infinita
… La variable x debe tener distribución normal; en caso
contrario, el tamaño de la muestra debe ser lo
suficientemente grande (n≥30)

69
5 Estimación de una
proporción
Un ejemplo
Se desea estimar la tasa de desocupación en
Morón
Identifique:
„ Población
„ Muestra
„ Tipo de muestreo
„ Individuo
„ Parámetro
„ Estimador
71
Distribución muestral de p̂

Si de una población con cierta proporción de éxitos


p se extraen infinitas muestras aleatorias de
tamaño n y a cada una de ellas se le calcula la
proporción muestral p̂ , se demuestra que esta
se comporta según una distribución normal
siempre y cuando se cumplan las condiciones de
aproximación de la distribución binomial a la
normal, es decir:
n > 30, pn ≥5 y qn ≥ 5

72
Distribución muestral de p̂
1. La media de p̂ es: p
pq
2. El desvío estándar (ES) de p̂ es: σ pˆ =
n
3. Si el tamaño de la muestra es lo
suficientemente grande, pn ≥ 5 y qn ≥ 5, la
distribución de p̂ es normal

73
Intervalo de confianza para p
„ Para µ con σ conocido
P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α

„ Para p
pˆ qˆ pˆ qˆ
P ( pˆ + zα / 2 < p < pˆ + z1−α / 2 ) = 1−α
n n
LI LS

P( LI < p < LS ) = 1 − α
pˆ qˆ
pˆ ± z1−α / 2 pˆ ± EM
n 74
¿Cómo mejorar la estimación?
Para disminuir el error muestral (mayor precisión):

… Tamaño de la muestra
… Nivel de confianza

pˆ qˆ
EM = z1−α / 2
n

Si no existe muestreo previo, se asume p = 0.5

75
Supuestos
Para que las estimaciones sean confiables se debe cumplir:

… Muestreo aleatorio probabilístico


… Muestreo con reposición o bien debe suponerse que la
población es infinita
… Para que sea válida la aproximación a la normal el
tamaño de la muestra debe ser lo suficientemente grande
(n≥30), pn ≥ 5 y qn ≥ 5

76
Intervalos de confianza:
un ejemplo

77
En resumen:
„ IC: estimador ± EM

x ± z ES x x ± t ES x pˆ ± z ES pˆ
x ± zσ n x ±t s n pˆ qˆ
pˆ ± z
n
„ Todos los EM son proporcionales a √n Ö para reducir un
IC a la mitad, se debe cuadriplicar el tamaño de la
muestra

78
Bibliografía

„ Anderson DR, Sweeney DJ, Williams, TA.


Estadística para administración y economía. 7°
Edición.1999.
… Capítulo 8: 8.2, 8.3 y 8.4

79
6 Estimación de la
variabilidad
Un ejemplo
Se desea estimar la variabilidad en la concentración de
hemoglobina en jugadores de fútbol profesionales. Una
muestra aleatoria de 9 jugadores arrojó los siguientes
valores (en g/dl):
15.3 16.0 14.4 16.2 16.2 14.9 15.7 15.3 14.6
Identifique:
„ Población
„ Muestra
„ Tipo de muestreo
„ Individuo
„ Parámetro
„ Estimador
81
Distribución muestral
Si de una población con distribución normal se extraen
infinitas muestras aleatorias de tamaño n y a cada
una de ellas se le calcula la varianza muestral s2 ,
se demuestra que el estadístico
2
(n - 1)s
σ 2

se comporta según una distribución chi-cuadrado


(χ2) con n -1 grados de libertad

82
Distribución chi-cuadrado (χ2)
„ Es una distribución asimétrica positiva
„ Solo toma valores positivos, es decir que χ2 ≥ 0
„ No se trata de una única curva, sino de infinitas curvas, cada
una caracterizada por un parámetro denominado grados de
libertad (GL) 0,25

GL=3
„ Los GL dependen del 0,20

tamaño de la muestra
0,15

Densidad
„ A medida que aumentan los GL=5

GL la distribución tiende a 0,10

hacerse simétrica GL=10


0,05

0,00
0 5 10 15 20
X2

83
Intervalo de confianza para la varianza σ2

(n − 1)S ; (n − 1)S
2 2

χ 2
n −1;1−α / 2 χ 2
n −1;α / 2

LI LS

P( LI < σ 2 < LS ) = 1 − α

„ Para el desvío estándar se debe aplicar raíz cuadrada


„ Observar que los límites del intervalo no son simétricos con
respecto al estimador

84
7 Introducción a las
pruebas de hipótesis
¿Qué es una prueba de hipótesis?
Creo que con la nueva
campaña publicitaria
„ Es un proceso para determinar la aumentaremos el
promedio de ventas
validez de una aseveración hecha
sobre la población basándose en
evidencia muestral
„ Es una creencia sobre la población,
sobre sus parámetros:
… Media
… Variancia o desvío estándar
… Proporción
„ Debe plantearse antes de obtener
la muestra

86
Identificación de hipótesis
„ Hipótesis nula Ho „ Hipótesis Alternativa H1
… es el status quo o estado … es lo opuesto a la hipótesis
actual (lo que se cree hasta el nula, el cambio en la
momento) o la que asegura población que el investigador
que no hay diferencias en la
población espera sea verdadero

… Los datos pueden refutarla … Los datos pueden mostrar


evidencia a favor
… No debería ser rechazada sin
una buena razón. … No debería ser aceptada sin
una gran evidencia a favor.

Nota: Las hipótesis nula y alternativa se


refieren ambas a la misma población
87
Definiendo las Hipótesis
¿La aspirina reduce el peligro de cáncer?
Un estudio sugiere que tomando una aspirina cada día por medio
durante 20 años puede reducirse el riesgo de enfermarse de
cáncer de colon. Por otro lado, según la Sociedad Americana de
Cáncer, el riesgo a sufrir de cáncer de colon es 1 en 20 en
individuos mayores de 60 años.

„Ho :
„ H1 :

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:


„Ho :
„ H1 :

88
Definiendo las Hipótesis
¿El nuevo material es mejor?
Suponga que Ud. trabaja en una compañía que produce
cacerolas con una duración de vida promedio de 7 años. Ud.
sugiere cambiar el material de las cacerolas para extender su
promedio de vida.
„Ho :
„ H1 :

Usando parámetros:
„Ho :
„ H1 :

89
Definiendo las Hipótesis
¿El debate cambió la intención de voto?
Una consultora, a una semana de las elecciones presidenciales,
afirma que el candidato favorito obtiene el 50% de los votos. Este
candidato tendrá un debate televisado con su rival. La hipótesis
que deseamos testear es que el debate afectará la proporción de
personas que votarán por el candidato favorito.

„Ho :
„ H1 :

Usando parámetros:
„Ho :
„ H1 :

90
Pasos en una Prueba de hipótesis:
1. Planteo de las hipótesis
1. Establecer la hipótesis nula en términos de igualdad
Ho: θ = θ0 θ ≥ θ0 θ ≤ θ0

2. Establecer la hipótesis alternativa, que puede


hacerse de tres maneras, dependiendo del interés
del investigador

H1: θ ≠ θ0 θ < θ0 θ > θ0

Prueba bilateral unilateral izq unilateral der

91
1. Planteo de hipótesis
Resumiendo:
ƒ Se plantean dos hipótesis o aseveraciones sobre
valores de parámetros poblacionales
ƒ Las dos hipótesis son incompatibles
ƒ Las dos hipótesis se refieren a la misma población

¿Cuál de las dos es válida?

Se debe decidir en base a evidencia muestral

92
Contrastando una hipótesis Son demasiados...

Creo que la edad


media es 40 años
con un desvío de 5...

Ho: µ = 40 años
H1: µ ≠ 40 años

Muestra
aleatoria
¡Gran
diferencia!

X = 20 años Rechazo la
hipótesis
93
Razonamiento básico
1. Suponemos que H0 es cierta
2. Construímos la distribución de probabilidades del
estimador del parámetro en estudio (distribución
muestral)

3. Decidimos qué valores del estimador serían esperables


(probables) de obtener en una muestra y cuáles no
(zona crítica o de rechazo de Ho)

94
Razonamiento básico
Si supongo que H0 es cierta...

¿qué hace un
investigador
cuando su teoría no
coincide con sus
predicciones?

µ = 40
X = 20

... el resultado del experimento sería improbable.


Sin embargo ocurrió.

95
Razonamiento básico
Si supongo que H0 es cierta...

Rechazo que H0 sea


cierta.

µ = 40
X = 20

... el resultado del experimento sería improbable.


Sin embargo ocurrió.

96
Razonamiento básico
Si supongo que H0 es cierta...

¿Si una teoría hace • No hay evidencias contra H0


predicciones con
•No se rechaza H0
éxito, queda
probado que es •La prueba no es concluyente
cierta?

µ = 40
X = 38

... el resultado del experimento es coherente.

97
2. Elegir el máximo nivel de error aceptable α
„ Se lo conoce también como nivel de significación o
riesgo
„ Es una probabilidad baja: 1% , 5%
„ Fijado de antemano por el investigador
„ Es la probabilidad de rechazar Ho cuando esta es cierta

98
3. Elegir el estadístico de prueba
„ Se elige el estimador del parámetro en estudio
„ Se debe conocer la distribución muestral del
estimador:

… para una prueba de hipótesis sobre µ, el


estimador es x y su distribución de
probabilidades es normal o Student

… para una prueba de hipótesis sobre p, el


estimador es p̂ y su distribución de
probabilidades es normal si n ≥ 30, pn ≥ 5 y qn ≥ 5

99
Región crítica y nivel de significación
Región crítica o de rechazo de Ho Nivel de significación: α
„ Valores ‘improbables’ si Ho fuera „ Número pequeño: 1% , 5%, 10%
cierta „ Fijado de antemano por el
„ Es conocida antes de realizar el investigador
experimento: resultados „ Es la probabilidad de rechazar H0
experimentales que refutarían H0 cuando es cierta

α=5%

Reg. Crit. Reg. Crit.

No rechazo H0
Η0: µ=40

100
Pruebas de hipótesis uni y bilaterales
La posición de la región crítica depende de la hipótesis alternativa

Bilateral H1: µ≠40

Unilateral Unilateral
izquierda derecha

H1: µ<40 H1: µ>40


101
Pasos en una Prueba de hipótesis:
4. Condición de rechazo de Ho
Establecer la condición de rechazo de Ho, es decir bajo que
valores muestrales se debería rechazar la hipótesis nula

Para ello es necesario:


Š Suponer que Ho es verdadera
Š Determinar la distribución muestral del estimador
Š Determinar el rango de valores muestrales que serían
improbables de observar si Ho fuera verdadera

102
4. Condición de rechazo
Ho: µ = 40 años x
Estimador:
H1: µ ≠ 40 años

Distribución muestral de x si Ho fuera verdadera:

α=5%
σx =σ n
Rechazo Ho No rechazo Ho Rechazo Ho

α /2=0.025 1 − α=0.95 α /2=0.025

x
xcrit1 µ = 40 xcrit 2

xcrit1 = zα 2σ + µ 0 xcrit 2 = z1−α 2σ + µ 0


n n 103
5. Regla de decisión
Es el curso de acción a seguir si se rechaza Ho:
ƒ se aconseja el uso de aspirina
ƒ se recomienda la utilización del nuevo material para cacerolas
ƒ se publica que el candidato favorito descendió en las encuestas

6. Conclusión
Se extrae la muestra, se calcula el estimador y se contrasta con
los valores críticos:
ƒ Si el estimador cayó en la zona de rechazo, se rechaza Ho,
existen evidencias concluyentes en contra de Ho
ƒ Si el estimador cayó en la zona de no rechazo, no se rechaza
Ho, no existen evidencias concluyentes en contra de Ho

104
7. Supuestos
Para que las conclusiones sean válidas, se deben verificar los
supuestos de la prueba.
Para PH para una media con desvío poblacional conocido:
… muestra aleatoria y observaciones independientes
… distribución normal o tamaño de muestra suficientemente
grande
… desvío poblacional conocido

Para PH para una media con desvío poblacional desconocido:


… muestra aleatoria y observaciones independientes
… distribución normal o tamaño de muestra suficientemente
grande
Para PH para una proporción:
… muestra aleatoria y observaciones independientes
… tamaño de muestra suficientemente grande; pn>5 y qn>5
105
Riesgos al tomar decisiones
Ejemplo 1: Se juzga a un individuo por la presunta comisión de un delito

Los datos pueden refutarla


La que se acepta si las
„ H0: Hipótesis nula pruebas no indican lo contrario
… Es Rechazarla por error tiene
graves consecuencias

„ H1: Hipótesis alternativa


… Es No debería ser aceptada sin una
gran evidencia a favor.
Rechazarla por error tiene
consecuencias consideradas
menos graves que la anterior

106
Riesgos al contrastar hipótesis
Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados
Ejemplo 3: Parece que una nueva campaña publicitaria incrementará las ventas

„ H0: Hipótesis nula No especulativa


… (Ej.1) Es inocente
… (Ej.2) El nuevo tratamiento no tiene efecto
… (Ej.3) La campaña no sirve

„ H1: Hipótesis alternativa


… (Ej.1) Es culpable Especulativa
… (Ej.2) El nuevo tratamiento es útil
… (Ej. 3) La campaña es efectiva

107
Tipos de error al tomar una decisión

Realidad
Inocente Culpable

V Error
e Inocente OK
r Menos grave
e
d
i
c Error
t Culpable OK
o Muy grave

108
Tipos de error al tomar una decisión
Realidad
H0 verdadera H0 falsa

Decisión Error de tipo II


No rechazo
Ho correcta Probabilidad β
Decisión Probabilidad 1-α
basada
en la Error de tipo I Decisión
muestra Rechazo
Ho Probabilidad α correcta
Acepto H1 (nivel de Probabilidad 1-β
significación) (potencia)
109
No se puede tener todo

β

„ Fijado α, β queda definido por H1


„ Para un tamaño muestral fijo, no se pueden reducir a la
vez ambos tipos de error.
„ Para reducir β, hay que aumentar el tamaño muestral.

110
Observaciones
„ Las hipótesis no se plantean después de observar los datos, sino
antes.

„ α debe ser pequeño y es fijado por el investigador

„ La prueba de hipótesis se plantea de manera tal de controlar el error


de tipo I

„ Rechazar una hipótesis no prueba que sea falsa. Podemos cometer


error de tipo I

„ No rechazar una hipótesis no prueba que sea cierta. Podemos


cometer error de tipo II

„ Si decidimos rechazar una hipótesis debemos mostrar la probabilidad


de equivocarnos.
111
Bibliografía
„ Anderson DR, Sweeney DJ, Williams, TA.
Estadística para administración y economía. 7°
Edición.1999.
… Capítulo 9: 9.1 a 9.4

112

Вам также может понравиться