Вы находитесь на странице: 1из 23

Distribuciones muestrales

Biometría
1
¿Qué tienen en común
estos ejemplos?

2
Inferencia estadística N

„ Población o universo es el conjunto de todas


las unidades de interés
interés. Normalmente es
demasiado grande para poder abarcarla. El
estudio de toda la población se denomina
censo.
n

„ Muestra es un subconjunto suyo al que


tenemos acceso y sobre el q
que realmente
hacemos las observaciones (mediciones)

La inferencia estadística consiste en generalizar


g
las conclusiones extraídas de una muestra
sobre la población

3
Parámetros y estimadores
„ Parámetro: Es una cantidad numérica calculada sobre
la población
„ Estimador: Es una cantidad numérica calculada sobre
la muestra

¿Y en los ejemplos?

„ Población „ Muestra
„ Parámetro „ Estimador

Pero ¿y cómo generalizamos? ¿podemos equivocarnos?


Necesitamos manejar probabilidades
4
Una situación supuesta
POBLACIÓN
41 44 34 42 53 „ Contamos con una población integrada
54 41 61 44 44 por 100 individuos; es decir N=100
52 59 36 57 61 „ La media de la ppoblación es 50; es
60 53 54 43 48 decir µ=50
57 43 51 51 52 „ La variabilidad de la población es de
32 45 55 36 47 10; es decir σ = 10
49 42 38 71 46
54 27 55 45 42 PROMEDIO μ =50
46 45 58 53 43 DESVÍO STD σ =10
42 54 44 39 49 Histograma
62 54 36 61 59 0,30

57 43 63 47 49
0,25
32 56 44 44 53

ativa
49 45 52 58 59 0,20

frecuencia rela
42 67 58 32 39 0,15
48 37 49 47 64
0,10
52 33 35 51 41
45 47 46 55 42 0 05
0,05

43 50 61 47 67
0,00
57 49 57 52 47 20 25 30 35 40 45 50 55 60 65 70 575 80
x
Y si sacamos una muestra?
POBLACIÓN
41 44 34 42 53
54 41 61 44 44
52 59 36 57 61
60 53 54 43 48 MUESTRA n=5
57 43 51 51 52 44 52 47 33 42
32 45 55 36 47
49 42 38 71 46 PROMEDIO x = 43
43.6
6
54 27 55 45 42
46 45 58 53 43 ‰ El promedio de la muestra no coincide
42 54 44 39 49 con el de la población…
62 54 36 61 59 ‰ La diferencia entre el valor muestral y
57 43 63 47 49
el poblacional se denomina error
32 56 44 44 53
muestral.
49 45 52 58 59
42 67 58 32 39
En este caso
caso, EM
EM=43.6-50=
43 6 50 -6.4
64
48 37 49 47 64 ‰ Es el costo que pagamos por no haber
52 33 35 51 41 efectuado un censo
45 47 46 55 42
PROMEDIO μ =50
43 50 61 47 67
DESVÍO STD σ =10 6
57 49 57 52 47
Y si sacamos otra muestra?
POBLACIÓN
41 44 34 42 53
54 41 61 44 44
52 59 36 57 61
60 53 54 43 48 MUESTRA n=5
57 43 51 51 52 61 45 38 67 51
32 45 55 36 47
49 42 38 71 46 PROMEDIO x = 52
52.4
4 EM=52
EM 52.4
4-50=
50 2.4
24
54 27 55 45 42
46 45 58 53 43 Los parámetros se calculan sobre los N
42 54 44 39 49 valores de la población, por lo tanto no
62 54 36 61 59 cambian a menos que cambie la
57 43 63 47 49
población, son constantes.
32 56 44 44 53
Los estimadores se calculan sobre n
49 45 52 58 59
42 67 58 32 39
valores
alores muestrales,
m estrales por lo tanto varían
arían
48 37 49 47 64 de muestra en muestra y por lo tanto
52 33 35 51 41 son variables aleatorias.
45 47 46 55 42
PROMEDIO μ =50
43 50 61 47 67
DESVÍO STD σ =10 7
57 49 57 52 47
Si repitiésemos este proceso
POBLACIÓN muchas veces,, ¿qué
¿q
41 44 34 42 53 comportamiento esperaríamos
54 41 61 44 44 para los 75.287.520 promedios
52 59 36 57 61 muestrales posibles?
60 53 54 43 48
57 43 51 51 52 MUESTRAS n=5
32 45 55 36 47
49 42 38 71 46 44 52 47 33 42 x1
54 27 55 45 42
46 45 58 53 43
61 45 38 67 51 x2
42 54 44 39 49 51 54 50 33 71 x3
62 54 36 61 59 ........... ...
57 43 63 47 49
32 56 44 44 53 41 58 49 34 49 x75287520
49 45 52 58 59
42 67 58 32 39
48
52
37
33
49
35
47
51
64
41 ?
45 47 46 55 42
PROMEDIO μ =50
43 50 61 47 67
DESVÍO STD σ =10 8
57 49 57 52 47
Distribuciones muestrales
Definición: La distribución muestral de un estimador es la
distribución de probabilidades de todos los posibles valores
de un estimador que se pueden obtener extrayendo
“infinitas” muestras aleatorias de tamaño n de la población.

La distribución de un estimador, como la de cualquier


variable aleatoria, se pueden caracterizar por:
‰ tendencia central
‰ variabilidad
‰ función de probabilidad

Las distribuciones muestrales de los estimadores pueden


ser:
‰ aproximadas mediante técnicas de simulación
‰ derivadas matemáticamente 9
Volviendo al ejemplo
Distribución muestral de x

DATOS ORIGINALES MEDIAS MUESTRALES


0,3 0,3
frecuenciia relativa

frecuenci a relativa
0,2 0,2

0,1 0,1

0,0 0,0
20 30 40 50 60 70 80 20 30 40 50 60 70 80
x Media(n=5)

PROMEDIO μ =50
DESVÍO STD σ =10 10
Distribución muestral de x
¿Y si promediamos
¿ p todas las medias muestrales?
µx = µ ESTIMADOR
INSESGADO

¿Cuál será la variabilidad de las medias muestrales?

σx = σ n
El desvío estándar de un estimador se conoce como
error estándar y da idea de la precisión en la
estimación

11
Distribución muestral de x
¿Cuál será la distribución de probabilidades
¿ p de x ?
DATOS ORIGINALES MEDIAS MUESTRALES
0,3 0,3
DISTR.
DISTR DISTR.
NORMAL NORMAL
a relativa

a relativa
0,2 0,2
frecuenciia

frecuencia
frecuenci

0,1 0,1

0,0 0,0
20 30 40
40 50
50 60
60 70
70 80
80 20 30 40 50 60 70 80
xx Media(n=5)

PROMEDIO μ =50 PROMEDIO µx =50


DESVÍO STD σ =10 ERROR STD σ x =4.5 12
¿Y si los datos originales
no siguen una distribución normal?
04
0,4
0,3 MEDIAS MUESTRALES
DATOS ORIGINALES
0,3

μ =50
elativa

μ =50

ativa
relativa
σ =9
9
0,3
σ =40 0,2
0,2

frecuenciarela
frecuencia re

frecuencia
0,1 0,1
0,1
DISTR.
NORMAL!

ando…
0,0 0,0
0,0
0 50 100 150 200 250 25
25 35
35 45
45 55
55 65
65 75
75 85
85
X Media(n=20)
Media(n=20)
( )

amplia
0,3 0,3
0,3
elativa

frecuencia relativa
ativa

0,2 0,2
0,2
frecuencia rela

frecuencia re

n=5 n=10
10 n=20
0,1 0,1 0,1

0,0
0,0 0,0
0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
Media(n=5)
Media(n=10) 13
Media(n=20)
Teorema central del límite
Si de una población con distribución no normal
o desconocida con media µ y desvío estándar
σ se extraen infinitas muestras aleatorias de
t
tamañoñ n y a cada
d una dde ellas
ll se lle calcula
l l ell
promedio x , se demuestra que dicho promedio
se comporta según una variable aleatoria
continua con distribución normal si n es lo
suficientemente grande

14
¿A qué consideramos un n “lo
suficientemente
fi i t t grande”?
d ”?
‰ Si la variable original
g es normal,, entonces x será
normal, para cualquier n
‰ Si la variable original es aproximadamente
x simétrica
y unimodal,
i d l entonces
t x tenderá
t d á a una distribución
di t ib ió
aproximadamente normal para n relativamente bajos
‰ Si la variable original es marcadamente asimétrica,
entonces n deberá ser de mayor para que la
distribución de x sea normal

15
En resumen:
st buc ó muestral
Distribución uest a de x cua do σ es co
cuando conocido
oc do

1. La media de x es: µx = µ
2. El desvío estándar de x (EE) es: σ x = σ n
3. Si el tamaño de la muestra es lo suficientemente
normal, la distribución de x es
grande o x es normal
normal

Por lo tanto es posible calcular probabilidades


utilizando: x−µ
z=
σ n 16
¿Es útil conocer la distribución
de un estimador?
Nos permite calcular probabilidades ⇒ es la clave para
hacer inferencia!
Por ejemplo:
– Se sabe que el peso de la placenta de embarazos
normales a término sigue una distribución normal con un
promedio de 500g y un desvío estándar de 50g.
– Se determinó el p
peso de la p
placenta en 50 p
partos a
término de madres fumadoras elegidas al azar y se
obtuvo un promedio de 480g.
– ¿Cuál es la probabilidad de que la media muestral sea
de 480g o menor?

17
DATOS ORIGINALES MEDIAS MUESTRALES
0,008
, 0,057

0,006 0,043

Densidad
Densidad

0,004 0,029

0,002 0,014

0,000 0,000
250 375 500 625 750 250 375 500 625 750
Peso de la placenta peso medio de 50 placentas

PROMEDIO μ =500 PROMEDIO µx =500


DESVÍO STD σ =50
50 ERROR STD σ x =50/√50=7

P(x < 480) = F (2.86) = 0.002 P l


P-valor
x −µ 480− 500
z= = = 2.86
σx 7
18
¿Qué necesitamos para hacer
i f
inferencia?
i ?

‰ una muestra aleatoria


‰ observaciones independientes
‰ un tamaño de muestra lo suficientemente
grande

19
Algunas dudas que surgen…

‰ ¿es necesario sacar muchas (infinitas)


muestras para poder aplicar el TCL?
‰¿¿A mayor
y n más cerca del parámetro
p estará
mi estimador?
‰¿¿A mayor
y n menor variabilidad de los datos?

20
Distribución muestral de x cuando el desvío
estándar
tá d poblacional
bl i l es d
desconocido
id
‰ En la práctica es habitual que TODOS los parámetros
poblacionales sean desconocidos, es decir que ni el
promedio μ ni el desvío estándar poblacional σ son
conocidos!
‰ Como se desconoce σ se utiliza su estimador s →
mayor incertidumbre
‰ No es correcto utilizar la distribución normal para x
x−µ
z=
σ n
‰ Se demuestra que la media muestral en estos casos
ajusta a una distribución conocida como t de Student
x −µ
tGL =
s n 21
Distribución t de Student
‰ Tiene forma acampanada como la normal estándar, pero su
dispersión es mayor (es más aplanada). Esto se debe a que
al desconocer σ hay mayor incertidumbre
‰ Es simétrica con respecto al cero, es decir que µ=0
‰ No se trata de una única curva, sino de infinitas curvas, cada
una caracterizada ppor un p
parámetro denominado g grados de
libertad (GL)
‰ Los GL indican la cantidad de datos independientes, es
decir el número de observaciones de la variable menos el
número de restricciones que verifican
‰ Los GL dependen del tamaño
de la muestra y en este caso valen n-1
‰ A medida que aumentan los GL
más se asemeja a la normal estándar
(porque
(p q s converge g a σ))

22
Distribución muestral de x
cuando no se conoce σ

1. La media de x es: µx = µ
2. El desvío estándar (EE) de x es: σ x = s n
3. Si el tamaño de la muestra es lo
suficientemente grande o x es normal, la
distribución de x es t de Student,
Student con n-1n1
grados de libertad
Por lo tanto es posible calcular probabilidades
utilizando:
x−µ
t n −1 =
s n 23

Вам также может понравиться