Clases Primera Parte

Estadística II
1 Muestreo
Prof. Adriana Pérez

aaperez@uade.edu.ar
¿Para que sirve la estadística?
Es fácil mentir con la estadística.
Pero es más fácil mentir sin ella.
Para describir un conjunto de datos

Para estimar características poblacionales
Para probar hipótesis formuladas sobre una
población
Para construir modelos y efectuar predicciones
2
Población y muestra
N
Población o universo es el conjunto de todas las
unidades de interés o de análisis en donde los
resultados del estudio deberán extrapolarse (hacer
inferencia).
Normalmente es demasiado grande para poder
abarcarlo.
El estudio de toda la población se denomina
censo
Muestra es un subconjunto suyo al que tenemos
acceso y sobre el que realmente hacemos las
observaciones (mediciones) n
Debería ser “representativo”
Esta formado por miembros “seleccionados” de
la población (individuos, unidades
experimentales o de observación).
Fracción de muestreo: es la proporción de la
población que está siendo muestreada (n/N)
3
INDEC.
Censo
Nacional de
Población,
Hogares y
Vivienda
2001
4
INDEC. Encuesta
Permanente de
hogares (EPH)
Para medir el desempleo,

650 encuestadores entrenados
visitan anualmente 35.000
hogares particulares
pertenecientes a 28
aglomerados urbanos
5
INDEC. EPH: Desempleo
6
Inferencia estadística
Consiste en extrapolar las conclusiones
extraídas de una muestra sobre la población
La población ideal que se pretende estudiar se denomina población

objetivo, de referencia, de interés o universo.
El grupo que en realidad podemos estudiar, porque es el grupo del

cual extraeremos la muestra, se denomina población muestreada.
Las conclusiones se deben aplicar a la población de la cual se
extrajo la muestra
Marco muestral: es la lista de todas las unidades que pueden ser
muestreadas
Las formas de obtener datos son: por muestreo o mediante

experimentos
7
La población objetivo y la efectivamente
muestreada pueden no ser iguales
Población objetivo
Población del
marco muestral
• no incluido • no localizable • no es elegible

• rehúsa Población
en el marco
muestral responder muestreada
• no puede
responder
8
Errores no muestrales o Sesgos
Un método de muestreo está sesgado si produce
resultados que sistemáticamente difieren de la población
objetivo
Sesgo de selección: es la tendencia sistemática a excluir o
incluir cierto tipo de individuos en el proceso de muestreo
(sub o sobrecobertura)
Sesgo de medición: cuando el instrumento con el que se
mide tiene una tendencia a diferir del valor verdadero en
alguna dirección
Sesgo de no respuesta: es la distorsión que aparece
cuando cierto grupo de individuos seleccionados para ser
muestreados no responden, y estos no respondentes tienen
tendencia a ser diferentes de los que sí responden
9
Errores muestrales
Son aquellos que aparecen como resultado de analizar
solo a una parte de la población, y se deben al azar
Aunque la población objetivo y la muestreada coincidan,
los resultados de la muestra no serán exactamente
iguales a los poblacionales!
A diferencia de los errores no muestrales, disminuyen
cuando aumenta el tamaño de la muestra
Si la muestra está diseñada de forma probabilística es
posible controlar su magnitud y dar una estimación del mismo
10
Errores en la toma de datos
Sesgo de
selección
Error
Muestral Sesgo de
no respuesta
Población Población Muestra Muestra

Objetivo muestreada Planeada Actual
11
Técnicas de muestreo
Muestreos probabilísticos
todos los individuos tienen una probabilidad conocida
de ser elegidos para formar parte de la muestra,
asegurando la representatividad de la muestra elegida
Es posible hacer estadística inferencial con ellos.
Muestreos no probabilísticos
No se conoce la probabilidad de selección del individuo.
Son muestreos que seguramente esconden sesgos.
No se pueden extrapolar los resultados a la
población.
A pesar de ello una buena parte de los estudios que
se publican usan esta técnica!
12
Muestreos no probabilísticos
Muestreo de voluntarios
Muestreo por conveniencia
Muestreo por cuotas
No se puede evaluar “Precisión” en términos probabilísticos,
No obliga a tener una base o “Marco” para la selección
Son mucho más baratos
No garantiza “representatividad” y se corre el riesgo de que se

termine en un estudio de casos
13
Muestreos probabilísticos
Muestreo aleatorio simple
Muestreo sistemático
Muestreo estratificado
Muestreo por conglomerados
Muestreo multietápico
Muestreo Proporcional a Tamaño
Elimina sesgos de selección y caprichos humanos,

Permite emplear la inferencia estadística para proyectar y analizar los
resultados,
Permite cuantificar la incertidumbre, el riesgo y la validez que
podemos poner en los resultados
14
Muestreo aleatorio simple
Se eligen individuos de la población de estudio, de
manera que todos tienen la misma probabilidad de
ser seleccionados, hasta alcanzar el tamaño
muestral deseado.
Se puede realizar partiendo del listado de todos los
individuos que componen la población (marco
muestral) y eligiendo individuos aleatoriamente
Normalmente tiene un costo bastante alto.
15
Ejemplo
•Se desea efectuar una encuesta a los productores lecheros sobre
la política de retenciones del gobierno. En cierta región existen 750
establecimientos. Se desea seleccionar 25 para ser encuestados.
¿Cómo se debería proceder?
1.
1. Asigna
Asignaaacada
cadaestablecimiento
establecimientoun
un •Tabla de números aleatorios
número
númerodel
del11al
al750.
750. •Tecla RAN# de la calculadora
•Función Muestra de Excel
2.
2. Elige
Elige25
25números
númerosaleatorios
aleatoriosde
detres
tres
cifras
cifrasde
deuna
unatabla
tablaoocalculadora
calculadoraoo
mediante
mediantesoftware.
software.
3.
3. Si
Sisale
saleun
unnúmero
númeroentre
entre 750
750yy1000,
1000,
se
seelige
eligeotro
otronúmero.
número.
4.
4. Los
Los25
25establecimientos
establecimientoscon
conestos
estos
números
númerosson
sonelegidos
elegidospara
paraser
ser
encuestados.
encuestados. 16
Muestreo sistemático
Se tiene una lista de los individuos de la población de
estudio (marco muestral). Si queremos una muestra
de un tamaño dado, elegimos individuos igualmente
espaciados de la lista, donde el primero ha sido elegido
al azar.
A B C D E F G H I J K L M N O….
CUIDADO: Si en la lista existen periodicidades,

obtendremos una muestra sesgada.
Un caso real: Se eligió una de cada cinco casas para un estudio de

salud pública en una ciudad donde las casas se distribuyen en
manzanas de cinco casas. Salieron con mucha frecuencia las de las
esquinas, que reciben más sol, están mejor ventiladas,…
17
Muestreo estratificado
Se aplica cuando sabemos que la población es heterogénea, es decir
que hay ciertos factores (variables, subpoblaciones o estratos) que
pueden influir en el estudio y queremos asegurarnos de tener cierta
cantidad mínima de individuos de cada tipo:
Hombres y mujeres,
Niveles socioeconómicos…
Se divide a la población en estratos o bloques homogéneos
El tamaño de la muestra de cada estrato depende principalmente de la
variabilidad del mismo
Se realiza entonces un M.A.S. de los individuos de cada uno de los
estratos.
La idea es minimizar la variabilidad dentro del estrato y maximizar la
variabilidad entre estratos
Al extrapolar los resultados a la población hay que tener en cuenta el
tamaño relativo del estrato con respecto al total de la población
(ponderación).
Es más eficiente que el MAS
18
Ejemplos
Dividir la Capital en distritos electorales y tomar una
muestra aleatoria simple en cada uno de ellos.
Elegir un registro aleatoriamente de la guía telefónica

y seleccionar cada 50 números después de este.
Encuestar a todos los estudiantes de una universidad
Seleccionar a los primeros 5 clientes que ingresan a

un hipermercado
19
Preguntas que deben formularse
antes de creerle a una encuesta
¿Quién llevó a cabo la encuesta?
¿Cuál es la población objetivo?
¿Cómo fue seleccionada la muestra?
¿Cuál es el tamaño de la muestra?
¿Cuál fue la tasa de respuesta?
¿Cómo fueron contactados los entrevistados?
¿Cuándo fue tomada la muestra?
¿Cuáles fueron exactamente las preguntas?
20
¿Y una vez que tenemos la muestra?
Procedemos a caracterizarla, describirla, resumirla
Para eso necesitamos estadísticos
Los estadísticos son cantidades numéricas que
sintetizan la información contenida en los datos
21
Un brevísimo resumen sobre estadísticos
Tendencia central
Indican valores con respecto a los que los datos parecen
agruparse.
Media o promedio, mediana y moda
Variabilidad
Indican la mayor o menor concentración de los datos con respecto
a las medidas de tendencia central.
Varianza, Desviación estándar, coeficiente de variación
Posición
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Cuartiles, deciles, percentiles
Proporción o porcentaje
Indican la relación entre la cantidad de éxitos y el total de datos
22
Ejemplo
Se efectúa una investigación sobre el uso de
telefonía celular entre estudiantes universitarios.
¿Qué porcentaje de los estudiantes usa celular?
¿Cuánto gastan en general por mes?
¿Es muy variable el gasto entre los usuarios?
¿Lo poseen más los hombres o las mujeres?
¿Qué cantidad de llamadas reciben usualmente por día?
¿El uso es mayor entre los que trabajan y los que no?
23
Relacionando gráficos de distribución de
frecuencias con estadísticos
Posición / Proporción Asimetría
24
Estadísticos de dispersión
Varianza muestral
∑ (x )
n
2
i −x
i =1
s2 =
n −1
Es el promedio de las desviaciones (al cuadrado) de cada dato
con respecto a la media
A mayor variabilidad, mayor varianza
Es sensible a valores extremos
Sus unidades son las de la variable al cuadrado.
25
Desvío estándar muestral o típico
∑ (x )
n
2
i −x
s= s2 = i =1
n −1
Tiene las mismas unidades que la variable
A mayor variabilidad, mayor desvío estándar
No confundir con error estándar o típico
26
Coeficiente de variación
s
CV = × 100
x
No tiene unidades
Es una medida de variabilidad relativa: mide la desviación
típica en forma de “qué tamaño tiene con respecto a la media”
Se utiliza para comparar variabilidad
27
Estadísticos de posición
Se define el fractil de orden k como un valor de la variable por
debajo del cual se encuentra el k% de los datos.
Casos particulares son los percentiles, cuartiles, deciles,

percentiles,...
10%
P10 P70 28
Población total según escala de ingreso individual. Total de aglomerados urbanos. Segundo trimestre 2005
Escala de ingreso Población Porcentaje Ingreso Total Porcentaje Ingreso Ingreso

Número de decil por decil de por decil del medio por medio por
Desde Hasta
(miles) personas (miles) ingreso decil estrato
1 3 150 1.189 125.864 1,4 106
2 150 250 1.189 230.377 2,6 194
3 250 303 1.189 345.389 3,9 290
4 303 400 1.190 428.717 4,9 360 238
5 400 500 1.189 545.482 6,2 459
6 500 610 1.188 678.388 7,7 571
7 610 800 1.189 844.682 9,6 710
8 800 1.000 1.189 1.052.633 12,0 885 656
9 1.000 1.500 1.189 1.409.926 16,0 1.186
10 1.500 53.000 1.189 3.126.037 35,6 2.630 1.908

Población CON Ingresos 11.891 51,0 8.787.495 100,0 739
Población SIN Ingresos 11.413 48,9
Ingresos parciales y Ns/Nr -- --
Entrevistas no realizadas 17 0,1
POBLACIÓN TOTAL 23.320 100,0
Fuente: INDEC, Encuesta Permanente de Hogares Continua.

29
Distribución normal o de Gauss
Distribución simétrica
Está caracterizada por dos
parámetros:
la media µ localizada en el centro
de la distribución
el desvío estándar σ localizado en
cada punto de inflexión.
Aparece de manera natural:
Altura, peso
En procesos de fabricación
industriales
En distribuciones binomiales con
n grande (n>20) y p no demasiado
pequeño (np>5) ni grande (nq>5).
30
La regla 68-95-99.7
Entre la media y un desvío estándar tenemos siempre
la misma probabilidad: aprox. 68%
Entre la media y dos desvíos estándar: aprox. 95%
Entre la media y tres desvíos estándar aprox. 99.7%
31
Estandarización
Dada una variable de media µ y desviación típica σ, se denomina
valor estandarizado o valor Z, de una observación x, a la distancia
(con signo) con respecto a la media, medido en desviaciones
estándar, es decir
x−µ
z=
σ
Es decir, el valor Z representa el número de las desviaciones estándar en
que una observación (x) está arriba o debajo de la media.
Cuanto más grande sea el valor de Z, más lejos estará el valor de la
media.
Si un valor Z es negativo, la observación (x) está debajo de la media. Si el
valor Z es positivo, la observación (x) está por arriba de la media.
es un valor sin dimensiones, y por lo tanto es una medida útil para
comparar valores de datos de dos poblaciones distintas, para saber cuál
de los dos es más extremo. Se puede usar para detectar datos atípicos
32
Bibliografía
Anderson DR, Sweeney DJ, Williams, TA. Estadística
para administración y economía. 7° Edición.1999.
Capítulo 7: 7.1, 7.2 y 7.8
33
2 Distribución muestral
Parámetros y estimadores
Parámetro : Es una cantidad numérica calculada sobre la
población
θ
La idea es resumir toda la información que hay en la población
en unos pocos números (parámetros).
Los ingresos promedio de los argentinos
Estimador: Ídem (cambiar población por muestra) θˆ

La idea es obtener un valor aproximado del parámetro.
Los ingresos promedio de los que estamos en este aula.
Somos una muestra (¿representativa?) de la población.
Normalmente nos interesa conocer un parámetro, pero por la

dificultad que conlleva estudiar a *TODA* la población, calculamos
un estimador sobre una muestra y confiamos en que sean
próximos.
35
Simbología:
Medida Parámetro Estimador

(poblacional) (muestral)
Promedio µ x
Desvío estándar
θ
σ s
Variancia σ2 s2
Proporción p p̂
Cantidad de datos N n
36
Distribución de los estimadores
Los parámetros se calculan sobre los N valores de la población,
por lo tanto no cambian a menos que cambie la población, son
constantes.
Los estimadores se calculan sobre n valores muestrales, por lo
tanto varían de muestra en muestra y por lo tanto son variables
aleatorias.
Si se extrajeran todas las muestras posibles de una población
(infinitas!) pordríamos estudiar cómo se comportan los
estimadores.
Las distribuciones de probabilidad de los estadísticos se
denominan distribuciones muestrales.
Por lo tanto los estimadores, como toda variable aleatoria, se pueden

caracterizar por:
1. su tendencia central: promedio o esperanza
2. su variabilidad: desvío estándar (llamado error estándar)
3. su distribución de probabilidades (normal, binomial, etc)
37
Distribuciones muestrales
Definición: La distribución muestral de un estimador es la
distribución de probabilidades de todos los posibles valores de
un estimador que se pueden obtener extrayendo infinitas
muestras de tamaño n de la población.
Las distribuciones muestrales de los estimadores pueden ser:
9aproximadas mediante técnicas de simulación

9derivadas de teoremas matemáticos. El teorema Central del
límite es uno de ellos.
38
Distribución muestral de la media
Simulación
Si de una población con promedio µ y desvío estándar σ
se extraen infinitas muestras de tamaño n y a cada una
de ellas se le calcula el promedio x …
¿Cuál es el promedio de estos x ? µx = µ

¿Cuál es la variabilidad de estos x ? σ x = σ n
¿Qué distribución de probabilidades tienen estos x?
39
Teorema central del límite
Si de una población con distribución no normal o
desconocida con media µ y desvío estándar σ se
extraen infinitas muestras aleatorias de tamaño n
y a cada una de ellas se le calcula el promedio x ,
se demuestra que este se comporta según una
distribución normal si n es lo suficientemente
grande
40
¿A qué consideramos un n
“lo suficientemente grande”?
Si la variable original es normal, entonces x será
normal, para cualquier n
Si la variable original es aproximadamente simétrica,
entonces x tenderá a una distribución
aproximadamente normal para n relativamente bajos
Si la variable original es marcadamente asimétrica,
entonces n deberá ser de al menos 30 para que la
distribución de x sea normal
41
Distribución muestral de la media
x distribución normal x distribución normal
µ µx = µ
σ σx =σ n
x−µ x−µ
z= z=
σ σ n
42
Teorema central del límite
x distribución no normal o x distribución normal
distribución desconocida si n→∞ (n≥30)
µ µx = µ
σ σx =σ n
1
0
0 10
x−µ x−µ
z= z=
σ σ n
43
¿Es útil conocer la distribución de un estimador?
Es la clave para hacer inferencia. Ilustrémoslo con un ejemplo
Si de una variable conocemos µ y σ, sabemos que para muestras
“grandes”, la media muestral es:
aproximadamente normal
con la misma media

σ
con desvío estándar (error estándar) mucho menor ES =
n
Es decir si por ejemplo µ=60 y σ=5, y obtenemos muestras de tamaño
n=100,
El desvío estándar de la media muestral (error estándar) es:
La probabilidad de que la media muestral sea mayor a 61 es:
44
Propiedades de un buen estimador
Insesgado: Un estimador es insesgado cuando la esperanza
del estimador es igual al valor del parámetro que se desea
estimar. O sea:
µ (θˆ ) = θ
Consistente: A medida que el tamaño de la muestra aumenta
el estimador debe tender al valor del parámetro y su variancia
debe tender a cero
Eficiente: Un estimador es eficiente cuando tiene variancia
mínima.
Suficiente: El estimador es suficiente cuando aprovecha toda
la información existente en la muestra
45
Propiedades de un buen estimador
Insesgado: significa que el promedio del estimador es igual al

parámetro (no sobre ni subestima sistemáticamente al parámetro)
De los estimadores insesgados, se prefieren aquellos con menor
variabilidad (más eficientes)
46
Distribución de 3 estimadores
Parámetro
Estimador 1 Estimador 2 Estimador 3
¿Cuál es el mejor estimador?

47
Bibliografía
Anderson DR, Sweeney DJ, Williams, TA.
Estadística para administración y economía.
7° Edición.1999.
Capítulo 7: 7.4, 7.5 y 7.7
48
3 Estimación de
parámetros
Estimación de un promedio
con desvío poblacional desconocido
Estimación
Las poblaciones son descriptas mediante sus
parámetros
Para variables cuantitativas, las poblaciones
son descriptas mediante µ y σ.
Para variables cualitativas, las poblaciones
son descriptas mediante p.
Si los valores de los parámetros son
desconocidos, podemos estimarlos en base a
muestras y esperamos que sean una buena
aproximación al valor exacto
50
Definiciones
estimación puntual: se calcula un valor simple a

partir de la muestra a fin de estimar el parámetro
estimación por intervalo de confianza: se

calculan dos números para crear un rango de
valores que se espera contenga al parámetro
con una cierta probabilidad o nivel de confianza
P( LI < θ < LS ) = 1 − α
51
¿Qué tan buena es la estimación?
Error muestral
es la distancia entre el estimador puntual y el verdadero valor
del parámetro
Es el error que surge por estudiar a una parte de la población
Posee las mismas unidades que la variable en estudio
Su magnitud es desconocida y por lo tanto imposible de
calcular con certeza
Se sabe que disminuye cuando aumenta el tamaño de la
muestra
Si la muestra está diseñada de forma probabilística es
posible controlar su magnitud y dar una estimación del mismo
Pero para eso es necesario conocer la distribución de
probabilidades (distribución muestral) del estimador
52
¿Qué son los errores no muestrales?
Otros errores ajenos al muestreo: no respuesta, codificación,

encuestador, encuestado, lógicos, de concepción, etc.
No disminuyen cuando el tamaño de la muestra aumenta
muy pero muy difíciles de medir!!!
53
¿Qué tan buena es la estimación?
Nivel de confianza
es la probabilidad de que el intervalo contenga al parámetro
Se lo simboliza como 1- α
Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95 ; 0,99
α es la probabilidad de error (no contener al parámetro) y se la
denomina también riesgo Intervalos de confianza para la media
Es el porcentaje de intervalos 63
Cobertura: 95,00%
que se espera contengan al 62
parámetro (para ese tamaño de 61
muestra)
Media
60
59
58
57
0 25 50 75 100
Intervalos 54
¿Cómo calcular el error muestral en la estimación
de µ?
x−µ
z=
σ n
P( zα 2 < Z < z1−α 2 ) = 1 − α
x −µ
P ( zα 2 < < z1−α 2 ) = 1 − α
σ n
P ( zα / 2 σ n < x − µ < z1−α / 2 σ n) = 1−α
EM
55
¿Entre qué valores esperaría que se encuentre µ?
Intervalo de confianza para µ
P ( zα / 2 σ n < x − µ < z1−α / 2 σ n) = 1−α
P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α

LI LS
P( LI < µ < LS ) = 1 − α
x ± zα 2 σ n
x ± EM
56
¿Cómo mejorar la estimación?
Para disminuir el error muestral Nivel de zα/2
(mayor precisión): confianza
0.90 1.645
Tamaño de la muestra 0.95 1.96
Nivel de confianza 0.99 2.576
Desvío estándar
P( LI < µ < LS ) = 1 − α
x ± zα 2 σ n
x ± EM
57
¿De qué depende el tamaño de una
muestra?
De los recursos y del presupuesto: $$$$.
Del tipo de población en estudio.
De la variable a estudiar (cuali o cuantitativa).
Del grado de homogeneidad de ésta en la
población.
Del diseño muestral empleado.
58
¿Qué se necesita para determinar el tamaño
de una muestra para un promedio?
Tres elementos importantes:
1. Error muestral o margen de error deseado.
2. Nivel de Confianza o de Riesgo, y el valor del
fractil de la distribución asociada a alguno de ellos.
3. Una magnitud de la dispersión o del grado
de heterogeneidad de la variable a estudiar.
EM = zα 2 σ n
59
Supuestos
Para que las estimaciones sean confiables se debe cumplir:
Muestreo aleatorio probabilístico

Muestreo con reposición o bien debe suponerse que la
población es infinita
La variable x debe tener distribución normal; en caso
contrario, el tamaño de la muestra debe ser lo
suficientemente grande (n≥30)
El desvío estándar poblacional debe ser conocido
60
Intervalos de confianza:
un ejemplo
Como parte del control de calidad de una panificadora, se mide
en cada lote la concentración de conservantes. En base a 15
muestras se estimó la concentración promedio de conservante
en un lote:
IC95: 0.25-0.35 (mg/100g)
El promedio del lote está entre 0.25 y 0.35
El promedio de la marca está entre 0.25 y 0.35
El 95% de las muestras tiene entre 0.25 y 0.35 mg/100g
Si se aumenta la confianza el IC se achica (es más preciso)
Si se quiere achicar el IC se debe aumentar el tamaño de la
muestra
El promedio de las muestras es cualquier número entre 0.25 y
0.35
La amplitud del IC es de 0.10 mg/100g
61
Bibliografía
Estadística para administración y economía.
7° Edición.1999.
Capítulo 8: 8.1 y 8.3
62
4 Estimación de un
promedio con desvío
poblacional desconocido
Distribución muestral de x cuando el desvío
estándar poblacional es desconocido
En la práctica es habitual que TODOS los parámetros
poblacionales son desconocidos, es decir que ni el
promedio µ ni el desvío estándar poblacional σ son
conocidos!
Como se desconoce σ se utiliza su estimador s → mayor
incertidumbre
No es correcto utilizar la distribución normal para x
x−µ
z=
σ n
Se demuestra que la media muestral en estos casos ajusta
a una distribución conocida como t de Student
x−µ
tGL =
s n 64
Distribución t de Student
Tiene forma acampanada como la normal estándar, pero su
dispersión es mayor (es más aplanada). Esto se debe a que al
desconocer σ hay mayor incertidumbre
Es simétrica con respecto al cero, es decir que µ=0
No se trata de una única curva, sino de infinitas curvas, cada
una caracterizada por un parámetro denominado grados de
libertad (GL)
Los GL dependen del tamaño de la muestra
A medida que aumentan los GL
más se asemeja a la normal estándar
(porque s converge a σ)
65
Distribución muestral de x cuando no se
conoce σ
1. La media de x es:
2. El desvío estándar (ES) de x es:
3. Si el tamaño de la muestra es lo suficientemente
grande o x es normal, la distribución de x es
t de Student, con n-1 grados de libertad
66
Intervalo de confianza para µ
Con σ conocido
P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α
Con σ desconocido
P( x + t n −1,α / 2 s n < µ < x + t n −1,1−α / 2 s n) = 1−α

LI LS
P( LI < µ < LS ) = 1 − α
x ± t n −1,α 2 s n
x ± EM 67
Para disminuir el error muestral (mayor precisión):
Tamaño de la muestra
Nivel de confianza
Desvío estándar
EM = t n −1,α 2 s n
Como el n está a ambos lados de la ecuación, se debe

utilizar un método iterativo para calcular el tamaño muestral
68
Supuestos

La variable x debe tener distribución normal; en caso
contrario, el tamaño de la muestra debe ser lo
suficientemente grande (n≥30)
69
5 Estimación de una
proporción
Un ejemplo
Se desea estimar la tasa de desocupación en
Morón
Identifique:
Población
Muestra
Tipo de muestreo
Individuo
Parámetro
Estimador
71
Distribución muestral de p̂
Si de una población con cierta proporción de éxitos

p se extraen infinitas muestras aleatorias de
tamaño n y a cada una de ellas se le calcula la
proporción muestral p̂ , se demuestra que esta
se comporta según una distribución normal
siempre y cuando se cumplan las condiciones de
aproximación de la distribución binomial a la
normal, es decir:
n > 30, pn ≥5 y qn ≥ 5
72
Distribución muestral de p̂
1. La media de p̂ es: p
pq
2. El desvío estándar (ES) de p̂ es: σ pˆ =
n
3. Si el tamaño de la muestra es lo
suficientemente grande, pn ≥ 5 y qn ≥ 5, la
distribución de p̂ es normal
73
Intervalo de confianza para p
Para µ con σ conocido
P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α
Para p
pˆ qˆ pˆ qˆ
P ( pˆ + zα / 2 < p < pˆ + z1−α / 2 ) = 1−α
n n
LI LS
P( LI < p < LS ) = 1 − α
pˆ qˆ
pˆ ± z1−α / 2 pˆ ± EM
n 74
Para disminuir el error muestral (mayor precisión):
Tamaño de la muestra
Nivel de confianza
pˆ qˆ
EM = z1−α / 2
n
Si no existe muestreo previo, se asume p = 0.5
75
Supuestos

Para que sea válida la aproximación a la normal el
tamaño de la muestra debe ser lo suficientemente grande
(n≥30), pn ≥ 5 y qn ≥ 5
76
Intervalos de confianza:
un ejemplo
77
En resumen:
IC: estimador ± EM
x ± z ES x x ± t ES x pˆ ± z ES pˆ
x ± zσ n x ±t s n pˆ qˆ
pˆ ± z
n
Todos los EM son proporcionales a √n Ö para reducir un
IC a la mitad, se debe cuadriplicar el tamaño de la
muestra
78
Bibliografía

Estadística para administración y economía. 7°
Edición.1999.
Capítulo 8: 8.2, 8.3 y 8.4
79
6 Estimación de la
variabilidad
Un ejemplo
Se desea estimar la variabilidad en la concentración de
hemoglobina en jugadores de fútbol profesionales. Una
muestra aleatoria de 9 jugadores arrojó los siguientes
valores (en g/dl):
15.3 16.0 14.4 16.2 16.2 14.9 15.7 15.3 14.6
Identifique:
Población
Muestra
Tipo de muestreo
Individuo
Parámetro
Estimador
81
Distribución muestral
Si de una población con distribución normal se extraen
infinitas muestras aleatorias de tamaño n y a cada
una de ellas se le calcula la varianza muestral s2 ,
se demuestra que el estadístico
2
(n - 1)s
σ 2
se comporta según una distribución chi-cuadrado

(χ2) con n -1 grados de libertad
82
Distribución chi-cuadrado (χ2)
Es una distribución asimétrica positiva
Solo toma valores positivos, es decir que χ2 ≥ 0
No se trata de una única curva, sino de infinitas curvas, cada
una caracterizada por un parámetro denominado grados de
libertad (GL) 0,25
GL=3
Los GL dependen del 0,20
tamaño de la muestra
0,15
Densidad
A medida que aumentan los GL=5
GL la distribución tiende a 0,10
hacerse simétrica GL=10

0,05
0,00
0 5 10 15 20
X2
83
Intervalo de confianza para la varianza σ2
(n − 1)S ; (n − 1)S
2 2
χ 2
n −1;1−α / 2 χ 2
n −1;α / 2
LI LS
P( LI < σ 2 < LS ) = 1 − α
Para el desvío estándar se debe aplicar raíz cuadrada

Observar que los límites del intervalo no son simétricos con
respecto al estimador
84
7 Introducción a las
pruebas de hipótesis
¿Qué es una prueba de hipótesis?
Creo que con la nueva
campaña publicitaria
Es un proceso para determinar la aumentaremos el
promedio de ventas
validez de una aseveración hecha
sobre la población basándose en
evidencia muestral
Es una creencia sobre la población,
sobre sus parámetros:
Media
Variancia o desvío estándar
Proporción
Debe plantearse antes de obtener
la muestra
86
Identificación de hipótesis
Hipótesis nula Ho Hipótesis Alternativa H1
es el status quo o estado es lo opuesto a la hipótesis
actual (lo que se cree hasta el nula, el cambio en la
momento) o la que asegura población que el investigador
que no hay diferencias en la
población espera sea verdadero
Los datos pueden refutarla Los datos pueden mostrar

evidencia a favor
No debería ser rechazada sin
una buena razón. No debería ser aceptada sin
una gran evidencia a favor.
Nota: Las hipótesis nula y alternativa se

refieren ambas a la misma población
87
Definiendo las Hipótesis
¿La aspirina reduce el peligro de cáncer?
Un estudio sugiere que tomando una aspirina cada día por medio
durante 20 años puede reducirse el riesgo de enfermarse de
cáncer de colon. Por otro lado, según la Sociedad Americana de
Cáncer, el riesgo a sufrir de cáncer de colon es 1 en 20 en
individuos mayores de 60 años.
Ho :
H1 :
Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:

Ho :
H1 :
88
¿El nuevo material es mejor?
Suponga que Ud. trabaja en una compañía que produce
cacerolas con una duración de vida promedio de 7 años. Ud.
sugiere cambiar el material de las cacerolas para extender su
promedio de vida.
Ho :
H1 :
Usando parámetros:
Ho :
H1 :
89
¿El debate cambió la intención de voto?
Una consultora, a una semana de las elecciones presidenciales,
afirma que el candidato favorito obtiene el 50% de los votos. Este
candidato tendrá un debate televisado con su rival. La hipótesis
que deseamos testear es que el debate afectará la proporción de
personas que votarán por el candidato favorito.
Ho :
H1 :
Usando parámetros:
Ho :
H1 :
90
Pasos en una Prueba de hipótesis:
1. Planteo de las hipótesis
1. Establecer la hipótesis nula en términos de igualdad
Ho: θ = θ0 θ ≥ θ0 θ ≤ θ0
2. Establecer la hipótesis alternativa, que puede

hacerse de tres maneras, dependiendo del interés
del investigador
H1: θ ≠ θ0 θ < θ0 θ > θ0
Prueba bilateral unilateral izq unilateral der
91
1. Planteo de hipótesis
Resumiendo:
Se plantean dos hipótesis o aseveraciones sobre
valores de parámetros poblacionales
Las dos hipótesis son incompatibles
Las dos hipótesis se refieren a la misma población
¿Cuál de las dos es válida?
Se debe decidir en base a evidencia muestral
92
Contrastando una hipótesis Son demasiados...
Creo que la edad

media es 40 años
con un desvío de 5...
Ho: µ = 40 años
H1: µ ≠ 40 años
Muestra
aleatoria
¡Gran
diferencia!
X = 20 años Rechazo la
hipótesis
93
Razonamiento básico
1. Suponemos que H0 es cierta
2. Construímos la distribución de probabilidades del
estimador del parámetro en estudio (distribución
muestral)
3. Decidimos qué valores del estimador serían esperables

(probables) de obtener en una muestra y cuáles no
(zona crítica o de rechazo de Ho)
94
Si supongo que H0 es cierta...
¿qué hace un
investigador
cuando su teoría no
coincide con sus
predicciones?
µ = 40
X = 20
... el resultado del experimento sería improbable.

Sin embargo ocurrió.
95
Rechazo que H0 sea

cierta.
µ = 40
X = 20
... el resultado del experimento sería improbable.

Sin embargo ocurrió.
96
¿Si una teoría hace • No hay evidencias contra H0

predicciones con
•No se rechaza H0
éxito, queda
probado que es •La prueba no es concluyente
cierta?
µ = 40
X = 38
... el resultado del experimento es coherente.
97
2. Elegir el máximo nivel de error aceptable α
Se lo conoce también como nivel de significación o
riesgo
Es una probabilidad baja: 1% , 5%
Fijado de antemano por el investigador
Es la probabilidad de rechazar Ho cuando esta es cierta
98
3. Elegir el estadístico de prueba
Se elige el estimador del parámetro en estudio
Se debe conocer la distribución muestral del
estimador:
para una prueba de hipótesis sobre µ, el

estimador es x y su distribución de
probabilidades es normal o Student
para una prueba de hipótesis sobre p, el

estimador es p̂ y su distribución de
probabilidades es normal si n ≥ 30, pn ≥ 5 y qn ≥ 5
99
Región crítica y nivel de significación
Región crítica o de rechazo de Ho Nivel de significación: α
Valores ‘improbables’ si Ho fuera Número pequeño: 1% , 5%, 10%
cierta Fijado de antemano por el
Es conocida antes de realizar el investigador
experimento: resultados Es la probabilidad de rechazar H0
experimentales que refutarían H0 cuando es cierta
α=5%
Reg. Crit. Reg. Crit.
No rechazo H0
Η0: µ=40
100
Pruebas de hipótesis uni y bilaterales
La posición de la región crítica depende de la hipótesis alternativa
Bilateral H1: µ≠40
Unilateral Unilateral
izquierda derecha
H1: µ<40 H1: µ>40

101
Pasos en una Prueba de hipótesis:
4. Condición de rechazo de Ho
Establecer la condición de rechazo de Ho, es decir bajo que
valores muestrales se debería rechazar la hipótesis nula
Para ello es necesario:

Suponer que Ho es verdadera
Determinar la distribución muestral del estimador
Determinar el rango de valores muestrales que serían
improbables de observar si Ho fuera verdadera
102
4. Condición de rechazo
Ho: µ = 40 años x
Estimador:
H1: µ ≠ 40 años
Distribución muestral de x si Ho fuera verdadera:
α=5%
σx =σ n
Rechazo Ho No rechazo Ho Rechazo Ho
α /2=0.025 1 − α=0.95 α /2=0.025
x
xcrit1 µ = 40 xcrit 2
xcrit1 = zα 2σ + µ 0 xcrit 2 = z1−α 2σ + µ 0

n n 103
5. Regla de decisión
Es el curso de acción a seguir si se rechaza Ho:
se aconseja el uso de aspirina
se recomienda la utilización del nuevo material para cacerolas
se publica que el candidato favorito descendió en las encuestas
6. Conclusión
Se extrae la muestra, se calcula el estimador y se contrasta con
los valores críticos:
Si el estimador cayó en la zona de rechazo, se rechaza Ho,
existen evidencias concluyentes en contra de Ho
Si el estimador cayó en la zona de no rechazo, no se rechaza
Ho, no existen evidencias concluyentes en contra de Ho
104
7. Supuestos
Para que las conclusiones sean válidas, se deben verificar los
supuestos de la prueba.
Para PH para una media con desvío poblacional conocido:
muestra aleatoria y observaciones independientes
distribución normal o tamaño de muestra suficientemente
grande
desvío poblacional conocido
Para PH para una media con desvío poblacional desconocido:

distribución normal o tamaño de muestra suficientemente
grande
Para PH para una proporción:
tamaño de muestra suficientemente grande; pn>5 y qn>5
105
Riesgos al tomar decisiones
Ejemplo 1: Se juzga a un individuo por la presunta comisión de un delito
Los datos pueden refutarla

La que se acepta si las
H0: Hipótesis nula pruebas no indican lo contrario
Es Rechazarla por error tiene
graves consecuencias
H1: Hipótesis alternativa

Es No debería ser aceptada sin una
gran evidencia a favor.
Rechazarla por error tiene
consecuencias consideradas
menos graves que la anterior
106
Riesgos al contrastar hipótesis
Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados
Ejemplo 3: Parece que una nueva campaña publicitaria incrementará las ventas
H0: Hipótesis nula No especulativa

(Ej.1) Es inocente
(Ej.2) El nuevo tratamiento no tiene efecto
(Ej.3) La campaña no sirve
H1: Hipótesis alternativa

(Ej.1) Es culpable Especulativa
(Ej.2) El nuevo tratamiento es útil
(Ej. 3) La campaña es efectiva
107
Tipos de error al tomar una decisión
Realidad
Inocente Culpable
V Error
e Inocente OK
r Menos grave
e
d
i
c Error
t Culpable OK
o Muy grave
108
Tipos de error al tomar una decisión
Realidad
H0 verdadera H0 falsa
Decisión Error de tipo II

No rechazo
Ho correcta Probabilidad β
Decisión Probabilidad 1-α
basada
en la Error de tipo I Decisión
muestra Rechazo
Ho Probabilidad α correcta
Acepto H1 (nivel de Probabilidad 1-β
significación) (potencia)
109
No se puede tener todo
≠
β
Fijado α, β queda definido por H1

Para un tamaño muestral fijo, no se pueden reducir a la
vez ambos tipos de error.
Para reducir β, hay que aumentar el tamaño muestral.
110
Observaciones
Las hipótesis no se plantean después de observar los datos, sino
antes.
α debe ser pequeño y es fijado por el investigador
La prueba de hipótesis se plantea de manera tal de controlar el error

de tipo I
Rechazar una hipótesis no prueba que sea falsa. Podemos cometer

error de tipo I
No rechazar una hipótesis no prueba que sea cierta. Podemos

cometer error de tipo II
Si decidimos rechazar una hipótesis debemos mostrar la probabilidad

de equivocarnos.
111
Bibliografía
Estadística para administración y economía. 7°
Edición.1999.
Capítulo 9: 9.1 a 9.4
112

Clases Primera Parte

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Clases Primera Parte

Загружено:

Авторское право:

Доступные форматы

Estadística II

Prof. Adriana Pérez

 Para describir un conjunto de datos

Para medir el desempleo,

 La población ideal que se pretende estudiar se denomina población

 El grupo que en realidad podemos estudiar, porque es el grupo del

 Las formas de obtener datos son: por muestreo o mediante

• no incluido • no localizable • no es elegible

Población Población Muestra Muestra

No se puede evaluar “Precisión” en términos probabilísticos,

No obliga a tener una base o “Marco” para la selección

Son mucho más baratos

No garantiza “representatividad” y se corre el riesgo de que se

Elimina sesgos de selección y caprichos humanos,

 CUIDADO: Si en la lista existen periodicidades,

Un caso real: Se eligió una de cada cinco casas para un estudio de

 Elegir un registro aleatoriamente de la guía telefónica

 Encuestar a todos los estudiantes de una universidad

 Seleccionar a los primeros 5 clientes que ingresan a

Posición / Proporción Asimetría

 Casos particulares son los percentiles, cuartiles, deciles,

Escala de ingreso Población Porcentaje Ingreso Total Porcentaje Ingreso Ingreso

1 3 150 1.189 125.864 1,4 106

2 150 250 1.189 230.377 2,6 194

3 250 303 1.189 345.389 3,9 290

4 303 400 1.190 428.717 4,9 360 238

5 400 500 1.189 545.482 6,2 459

6 500 610 1.188 678.388 7,7 571

7 610 800 1.189 844.682 9,6 710

8 800 1.000 1.189 1.052.633 12,0 885 656

9 1.000 1.500 1.189 1.409.926 16,0 1.186

10 1.500 53.000 1.189 3.126.037 35,6 2.630 1.908

POBLACIÓN TOTAL 23.320 100,0

Fuente: INDEC, Encuesta Permanente de Hogares Continua.

 Estimador: Ídem (cambiar población por muestra) θˆ

Normalmente nos interesa conocer un parámetro, pero por la

Medida Parámetro Estimador

Por lo tanto los estimadores, como toda variable aleatoria, se pueden

Las distribuciones muestrales de los estimadores pueden ser:

9aproximadas mediante técnicas de simulación

 ¿Cuál es el promedio de estos x ? µx = µ

 con la misma media

 La probabilidad de que la media muestral sea mayor a 61 es:

Insesgado: significa que el promedio del estimador es igual al

Estimador 1 Estimador 2 Estimador 3

¿Cuál es el mejor estimador?

 estimación puntual: se calcula un valor simple a

 estimación por intervalo de confianza: se

 Otros errores ajenos al muestreo: no respuesta, codificación,

que se espera contengan al 62

parámetro (para ese tamaño de 61

P ( zα / 2 σ n < x − µ < z1−α / 2 σ n) = 1−α

P( x + zα 2 σ n < µ < x + z1−α 2 σ n) = 1−α

Muestreo aleatorio probabilístico

P( x + t n −1,α / 2 s n < µ < x + t n −1,1−α / 2 s n) = 1−α

Como el n está a ambos lados de la ecuación, se debe

Muestreo aleatorio probabilístico

Si de una población con cierta proporción de éxitos

Si no existe muestreo previo, se asume p = 0.5

Muestreo aleatorio probabilístico

 Anderson DR, Sweeney DJ, Williams, TA.

se comporta según una distribución chi-cuadrado

GL la distribución tiende a 0,10

Para describir un conjunto de datos

La población ideal que se pretende estudiar se denomina población

El grupo que en realidad podemos estudiar, porque es el grupo del

Las formas de obtener datos son: por muestreo o mediante

CUIDADO: Si en la lista existen periodicidades,

Elegir un registro aleatoriamente de la guía telefónica

Encuestar a todos los estudiantes de una universidad

Seleccionar a los primeros 5 clientes que ingresan a

Casos particulares son los percentiles, cuartiles, deciles,

Estimador: Ídem (cambiar población por muestra) θˆ

¿Cuál es el promedio de estos x ? µx = µ

con la misma media

La probabilidad de que la media muestral sea mayor a 61 es:

Insesgado: significa que el promedio del estimador es igual al

estimación puntual: se calcula un valor simple a

estimación por intervalo de confianza: se

Otros errores ajenos al muestreo: no respuesta, codificación,

Anderson DR, Sweeney DJ, Williams, TA.

Para el desvío estándar se debe aplicar raíz cuadrada

H1: Hipótesis alternativa

H0: Hipótesis nula No especulativa

H1: Hipótesis alternativa

Fijado α, β queda definido por H1

α debe ser pequeño y es fijado por el investigador

La prueba de hipótesis se plantea de manera tal de controlar el error

Rechazar una hipótesis no prueba que sea falsa. Podemos cometer

No rechazar una hipótesis no prueba que sea cierta. Podemos

Si decidimos rechazar una hipótesis debemos mostrar la probabilidad