Вы находитесь на странице: 1из 9

Facultad de Ciencias Naturales, UNSa Área de Estadística Material de apoyo didáctico elaborado por Silvia Sühring

DISTRIBUCIONES MUESTRALES

A partir de los datos obtenidos de un muestreo probabilístico podemos calcular estadísticos (medidas de resumen muestrales), que nos servirán para inferir (aproximar) los valores de los parámetros de la población bajo estudio lo más fielmente.

MUESTRA estadísticos o estimadores

MUESTRA estadísticos o estimadores

POBLACIÓN

Parámetros

x

o Me

µ

x

S

 

p

Los estadísticos o estimadores toman distintos valores para cada muestra extraída de una misma población, por lo tanto son variables aleatorias y poseen distribuciones de probabilidad, llamadas distribuciones muestrales.

Distribución muestral: es la distribución de probabilidad de un estadístico calculada a partir de todas las muestras posibles de tamaño n elegidas al azar de una población determinada.

De cada distribución muestral nos interesa conocer

forma funcional media varianza

Es decir, nos interesa saber que distribución teórica tienen y cuanto valen los parámetros o características más importantes de la misma. Con esta información podremos calcular el error de estimación.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL

Población µ n x i . . .
Población
µ
n
x i
.
.
.
n x 1 n x 2
n
x 1
n
x 2

Para cada muestra aleatoria posible de tamaño n tomadas de esta población

podemos calcular la media muestral x i , la cual variará de muestra a muestra. Entonces podríamos construir una distribución de medias muestrales que estaría caracterizada por su valor esperado (la media de la media muestral =

). Por supuesto,

podríamos calcular la desviación estándar de la media muestral, también

denominada error estándar de la media = x .

2

x

x

), y su varianza (la varianza de la media muestral =

Ejemplo: supongamos que existe una población compuesta por cuatro personas con las siguientes alturas en cm: 158 - 159 - 160 - 161. El promedio de altura de esta población es = 159.5 cm, la varianza = 1.25cm 2 . Todas las muestras posibles, con reposición, de tamaño 2 que podríamos tomar de esta población serían:

Muestra

Personas

Valores de

Media

Muestra

Personas

Valores

Media

incluidas

altura

muestral

incluidas

de altura

muestral

 

1 - 1

1

158, 158

158

 

9 – 1

3

160, 158

159

 

2 –2

1

158, 159

158.5

 

10 – 2

3

160, 159

159.5

 

3 – 3

1

158, 160

159

 

11 – 3

3

160, 160

160

 

4 – 4

1

158, 161

159.5

 

12 – 4

3

160, 161

160.5

 

5 – 1

2

159, 158

158.5

 

13 – 1

4

161, 158

159.5

 

6 – 2

2

159, 159

159

 

14 - 2

4

161, 159

160

 

7 – 3

2

159, 160

159.5

 

15 – 3

4

161, 160

160.5

 

8 – 4

2

159, 161

160

 

16 – 4

4

161, 161

161

Con estos valores podemos construir la distribución de probabilidad para la media muestral:

x i f(x i )

158 0.0625

0.1250

159 0.1875

159,5

160 0.1875

160,5

161 0.0625

0.1250

0.2500

158,5

0,26 0,20 0,13 0,07 0,00 158 158 159 159 160 160 160 161 161 frecuencia
0,26
0,20
0,13
0,07
0,00
158
158
159
159
160
160
160
161
161
frecuencia relativa

Columna1

El valor esperado (media) de la media muestral es igual a la media poblacional:

de la media muestral es igual a la media poblacional: En el ejemplo: E( x )

En el ejemplo: E( x ) =

E

x i .f(x i )

(

X

)

=

x

=

= (158x0,0625 + 158,5x0,125 + …+ 161x0,0625)

= 159.5 cm

La varianza de la media muestral se puede calcular usando la fórmula conocida para varianza poblacional (de todas las muestras posibles):

V( x ) = (X i - ) 2 . f (x i ) =[(158 - 159.5) 2 x0,0625 + (158,5 -159.5) 2 x0,125 + …+ (161 – 159.5) 2 x0,0625)] = 0.625cm 2

Se puede deducir que, en general, la varianza de la media será igual a la varianza poblacional dividido el tamaño de la muestra:

V

(

X

) =

2

n

En el ejmplo : V( x ) = 0.125/2 = 0.625 cm 2

x

=

n
n

A partir de esta fórmula se puede deducir que el error típico de la media es

siempre menor que el de la población. Además resulta obvio que la varianza de las medias muestrales es inversamente proporcional al tamaño de la muestra;

si la muestra es grande la variabilidad de la media resultante de esa muestra es

menor.

1)

x

2)

x

0

cuando

n

En la distribución de medias muestrales, la forma funcional, así como su

esperanza y su varianza, dependerán de las características de la población de

la cual se extraen las muestras, del tamaño de la muestra y del procedimiento

del muestreo.

Si la población de la cual provienen las muestras tiene distribución normal con varianza conocida, entonces la media muestral tendrá distribución normal, cualquiera sea el tamaño de la nuestra n.

Si la población de la cual provienen las muestras tiene otra distribución, es posible calcular la distribución límite cuando n de la variable aleatoria media muestral, suponiendo únicamente que la varianza de esta población es finita.

TEOREMA CENTRAL DEL LÍMITE:

Dada una población con cualquier distribución con media µ y varianza finita

2 , la distribución muestral de la media, calculada a partir de muestras aleatorias repetidas de tamaño n de esta población, estará distribuida en forma aproximadamente normal, con media µ y varianza igual a 2 /n, cuando el tamaño de la muestra sea suficientemente grande.

Como regla práctica se considera que n es suficientemente grande si es 30.

Los únicos supuestos que deben cumplirse para aplicar el TCL son: que las muestras sean tomadas en forma aleatoria y que la varianza sea finita. Además, se considera que el muestreo repetido se realiza con reposición, o que el muestro se realiza sin reposición pero la población es infinita.

Si la población no es infinita y el muestreo se realiza sin reposición, la distribución muestral de la media tendrá las mismas características que en el caso anterior, pero con una varianza mayor dada por:

2

x

=

2

(

N

n

)

n

(

N

1)

FCPF (factor de corrección por población finita) = (N - n) //// (N -1)

Sabiendo que la media muestral tiene distribución normal, podemos calcular probabilidades asociadas a valores de esta variable. Para ello deberemos estandarizar los valores de la media muestral, restando su media y dividiendo por su desviación estándar:

Z =

x

x

Ejemplo cálculo de probabilidades asociadas a valores de la media muestral:

Se sabe que en cierta población humana, la longitud craneal está distribuida en forma aproximadamente normal, con µ = 185,6 mm y = 12,7 mm. a) ¿Cuál es la probabilidad de que una muestra de 35 individuos tomados al azar, tenga una media mayor a 188 mm? b) Y entre 180 y 185 mm?

Solución: a) P ( x > 188) = ? 12,7 x n ( ; )
Solución:
a) P ( x
> 188) = ?
12,7
x
n (
;
)
r
=
=
=
2,147
x
x
x
n 35
Normal(185,6,4,61): p(evento)=0,1318
0,20
0,15
0,10
0,05
0,00
175,6
180,6
185,6
190,6
195,6
Densidad

Variable

P ( x > 188) = P (Z > 1.12) = 0.1314

b) P (180 < x < 185) = ? Normal(185,6,4,61): p(evento)=0,3854 0,20 0,15 0,10 0,05
b) P (180 <
x
< 185) = ?
Normal(185,6,4,61): p(evento)=0,3854
0,20
0,15
0,10
0,05
0,00
175,6
180,6
185,6
190,6
195,6
Densidad

Variable

Z =

188

185.6 =

2.147

1.12

Z =

180

185.6 =

2.147

Z =

185

185.6 =

2.147

2.61

0.28

P (180 <

x

< 185) = P (-2.61 < Z < -0.28)

= P(Z > 0.28) - P (Z > 2.61)

= 0.3897 – 0.0045 = 0.3852

Si la población de la cual provienen las muestras tiene distribución normal con varianza 2 desconocida y las muestras extraídas son de tamaño pequeño (n < 30), los valores de S 2 varían considerablemente de muestra a muestra y la distribución de la media muestral no corresponderá con la distribución normal. En ese caso, podemos aproximar la distribución de las medias muestrales a la distribución t de Student, con = (n – 1) grados de libertad. Para calcular probabilidades asociadas a valores de la media podemos utilizar la transformación:

t

=

x

x

donde

x

=

S n
S
n

y

t

t

= (n – 1)

DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL (p)

Si X es una variable con distribución binomial con parámetro , donde es la probabilidad de éxito de la población, podemos tomar muestras repetidas de tamaño n y para cada una calcular la proporción poblacional p, como p = x/n; es decir el cociente entre el nº de casos favorables en la muestra y el nº de casos posibles (tamaño de la muestra). Los valores de p variarían entre una y otra muestra, por lo que p es una variable aleatoria. Si n fuera suficientemente grande, según el teorema central del límite, esta variable p tendría distribución aproximadamente normal con:

E(p) =

y

V

(

p

) =

2

=

.(1

)

p n

Los valores de n requeridos para que se cumpla el teorema dependen del valor de . A medida que se aleja de 0,5, n deberá ser más grande.

Para calcular las probabilidades asociadas a valores particulares de p, aplicaremos la transformación Z, utilizando luego la tabla de distribución normal estandarizada.

Z =

p

, donde

 

p

p

=

(1 ) n
(1
)
n

Si la población es finita y el muestreo se hace sin reposición, debe aplicarse el FCPF al cálculo de la varianza de p, quedando:

p

=

.(1 ) ( N n ) ◊ n ( N 1)
.(1
)
(
N
n
)
n (
N
1)

Para mejorar la aproximación, especialmente si el n es chico (entre 10 y 30), deberemos aplicar el factor de corrección por continuidad (FCC), ajuste que se hace por estar tomando a una variable con distribución discreta como si fuera continua. Para ello se debe restar ½ n al valor absoluto de p o - al calcular el valor Z:

Z =

p 1/2 n p
p
1/2 n
p

La corrección por continuidad no produce gran diferencia cuando n es grande.

Ejemplo cálculo de probabilidades asociadas a valores de proporción muestral:

En un depósito de frutos el 40% de los mismos están atacados por un hongo.

Si se extrae una muestra al azar de 200 frutos, cuál es la probabilidad de que:

a) menos del 45 % estén afectados por el hongo.

b) entre 0,47 y 0,50 de los frutos estén afectados por el hongo.

Datos:

p

n

(

p

= 0.40

=

= 0,40 ;

n = 200

= 0.0346) p .(1 ) 0.40.(0.60) = = p n 200
= 0.0346)
p
.(1
)
0.40.(0.60)
=
=
p
n
200

=

0.0346

Solución:

a) P (p < 0.45)

Z =

p

0.45

0.40 =

=

p

0.0346

1.45

Normal(0,4,0,0012): p(evento)=0,9255 12,00 9,00 6,00 3,00 0,00 0,3 0,3 0,4 0,5 0,6 Densidad
Normal(0,4,0,0012): p(evento)=0,9255
12,00
9,00
6,00
3,00
0,00
0,3
0,3
0,4
0,5
0,6
Densidad

Variable

P( Z < 1.45)

= 1 – P(Z > 1.45) = = 1 – 0.0735 = 0.9265

b) P (0.47 < p < 0.50) =

Z =

p

0.47

0.40 =

=

p

0.0346

2.02

12,00 9,00 6,00 3,00 0,00 0,3 0,3 0,4 0,5 0,6 Densidad
12,00
9,00
6,00
3,00
0,00
0,3
0,3
0,4
0,5
0,6
Densidad

Variable

Z =

p

0.50

0.40 =

=

p

0.0346

2.89

P (2.02 < Z < 2.89) = P (Z > 2.02) – P (Z > 2.89) = = 0.0217 – 0.0019 = 0.0198

DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS PROPORCIONES

MUESTRALES (

Si se extraen muestras aleatorias independientes de tamaños n 1 y n 2 , de dos poblaciones de variables con distribución binomial, donde la proporción de éxito en las dos poblaciones son 1 y 2 respectivamente, la distribución de las diferencias entre las proporciones de las muestras, (p 1 - p 2 ) , es aproximadamente normal, si n 1 y n 2 son suficientemente grandes. La media y la varianza serán:

p)

p

2

= - = (p1 - p2) = µ p 1 2 (1 ) (1 )
=
-
=
(p1 - p2) =
µ p
1
2
(1
)
(1
)
2
2
2
1
1
2
2
=
=
+
=
+
p
p
p
1
2
n
n
1
2
(
p
p
)
(
)
p
1
2
1
2
=
p
p
(1
)
(1
)
1
1
2
2
=
+
p
n
n
1
2

Z =

Donde :

µ

)

V

(

p

1

La estandarización será entonces:

Ejemplo cálculo de probabilidades asociadas a valores de diferencia de proporciones muestrales:

Para dos variedades de maíz, se sabe que la proporción de plantas atacadas por un hongo es la misma y vale 0,10. Cuál es la probabilidad de que una muestra aleatoria de 200 plantas de la primer variedad y 250 plantas de la segunda den un valor de (p 1 - p 2 ) que sea mayor que 0,06? Datos:

1 = 0.10

p

n (

p

;

2 = 0.10 )

p

n 1 = 200

n 2 = 250

(1 ) (1 ) 0.10(0.90) 0.10(0.90) 1 1 2 = + 2 = + =
(1
)
(1
)
0.10(0.90)
0.10(0.90)
1
1
2
=
+ 2
=
+
= 0.028
p
n
200 250
1 n
2
Normal(0,1): p(evento)=0.0162
0.40
P( p > 0.06) = ?
Solución:
0.30
0.20
0.06
p
Z =
=
0 =
2.14 0.10
0.028
p
0.00
-3.00
-1.50
0.00
1.50
3.00
P( p > 0.06) = P (Z > 2.14) = 0.0162
Variable
Densidad

DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES

( X )

Si se extraen muestras aleatorias independientes de tamaños n 1 y n 2 , de dos poblaciones con cualquier distribución, donde las medias de las dos poblaciones son 1 y 2 respectivamente, y las varianzas poblacionales son 2 1 y 2 2 , la distribución de las diferencias entre las medias de las muestras, es

decir (

La media

x ), será normal si tanto n 1 como n 2 son suficientemente grandes.

x

1

-

2

X

y la varianza 2 X de la diferencia de medias serán:

(

x

1

x

2

)

=

x

=

1

2

=

V

(

x

)

=

2

x

=

2

1

n

1

+

2

2

n

2

Podemos

probabilidades asociadas a diferentes valores de x, donde:

utilizar

el

procedimiento

de

estandarización

Z =

(

x

1

x

2

)

x

x

para

calcular

Esta aproximación es aplicable también en los casos en que las muestras sean pequeñas siempre y cuando las poblaciones de las cuales se extraen las muestras tengan distribución normal y las varianzas poblacionales sean conocidas. Si las varianzas poblacionales de las dos poblaciones ( 2 1 y 2 2 ) son desconocidas, pero sabemos que ambas poblaciones tienen distribución normal, podemos aproximar la distribución de la diferencia de medias muestrales a la t de Student. Entonces la media de la distribución ( ) se

esta

calculará como en el caso anterior, y la varianza ( S

distribución se calculará combinando las varianzas muestrales (S 2 1 y S 2 2 ) de

acuerdo a las fórmulas propuestas para cada caso. Podremos calcular las probabilidades asociadas a diferentes valores de

X

de

2

X

o

2

S d )

X utilizando la transformación:

t =

(

x

1

x

2

)

x

S

S x

x

t

Los valores de t tendrán una distribución t de Student con grados de libertad.

El valor de y el será calculado utilizando diferentes fórmulas dependiendo del caso.

El cálculo de los valores de S d y

varían según:

-si las varianzas poblacionales ( 1 2 y 2 2 ) son o no son iguales -si los tamaños de las muestras (n 1 y n 2 ) son o no son iguales

Para comprobar si las varianzas poblacionales son o no iguales se realiza la prueba de homogeneidad de varianzas.

En función de las distintas situaciones, los cálculos de S d y serán:

a)

Si

b) Si

2 1 =

2 1 =

2

2

2

2

;

n 1 = n 2

S d

; n 1 π n 2

=

2 S S 1 2 + 2
2
S
S
1 2 +
2

n

Sd =

n 2 S d ; n 1 π n 2 = 2 S S 1 2

(

n

1

1)

S

2

1

+

(

n

2

1)

S

2

2

n

1

+

n

2

2

1

n

1

+

1

n

2

y

= 2n - 2

y

=

n 1 +

n 2 – 2

Si

c)

2 1 π

S d

=

Si

d)

2 1 π

2 2

;

n 1 = n 2

n
n

S

1 2 S

+

2

2

2 2

Sd

; n 1 π n 2

=

2 2 S S 1 2 + n 1 n 2
2
2
S
S
1
2
+
n 1 n
2

y

=

y

S

2

1

n

1

+

S

2

2

n

2

2

S

2

1

n

1

2

n

1

1

+

S

2

2

n

2

2

n

2

1

se calcula como en c)

2