Вы находитесь на странице: 1из 10

Ciencia .

Ahora, N 15, ao 8, marzo-abril 2005


CONCEPTOS BASICOS DE INFERENCIA ESTADISTICA
DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES
ESTADISTICOS
Juan Espinoza B.
Eacultad de Agronomia Universidad de Concepcion
1. INTRODUCCION
InIerir es, en general, establecer un nuevo conocimiento a partir de uno ya dado. En estadistica
estamos interesados en inferir inIormacion sobre una poblacion, a partir de los datos de una
muestra.
La Inferencia Estadstica es la parte de la Estadistica que incluye los metodos utilizados para
tomar decisiones o para obtener conclusiones sobre una caracteristica desconocida de la
poblacion a partir de la inIormacion contenida en una o mas muestras representativas de esa
poblacion. La herramienta teorica que utiliza es la teoria de la probabilidad.
Ejemplo: Un ingeniero ha diseado un nuevo sistema para la Iertilizacion de Irambuesas y desea
obtener conclusiones sobre la Iorma en que Iuncionara una vez que se produzca a gran escala.
Para ello toma una muestra de 50 plantas, y analiza algunas caracteristicas la produccion t otal
por planta de las conclusiones que obtenga podra inIerir la produccion total.
La InIerencia Estadistica, estudia principalmente dos tipos de problemas:
a) La Estimacin: consiste en determinar una caracteristica desconocida de la poblacion.
Ejemplo: Averiguar la produccion promedio por planta.
Puede ser:
puntual: determinar el valor concreto.
por intervalos: determinar un intervalo en el que este contenida con cierto grado de
probabilidad.
b) El Contraste de hiptesis: determinar si es aceptable, a partir de los datos muestrales, que la
caracteristica estudiada tome un valor predeterminado o pertenezca a un intervalo concreto.
Ejemplo: Es la produccion media mayor que 10 kilos por planta? La produccion media por
planta tiene una distribucion normal?
1.1 CONCEPTOS BSICOS
a) Poblacin: es el conjunto de todos los individuos sujetos a estudio.
b) Muestra: es el subconjunto Iinito de elementos seleccionados de la poblacion.
Para que las inIerencias sean validas, las muestras deben ser representativas de la poblacion.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
c) Muestreo: procedimiento de obtencion de una muestra. Podemos describir los siguientes
tipos:
Muestra Aleatoria: Si se seleccionan n elementos de una poblacion de modo tal que cada
conjunto de n elementos de la poblacion tenga la misma probabilidad de ser seleccionado, se
dice que los n elementos constituyen una muestra aleatoria. En terminos estrictos esta es un
muestra aleatoria simple . Hay muchos tipos diIerentes de muestras aleatorias. A
continuacion se describen algunas de ellas.
Muestreo Aleatorio Simple (m. a. s): Cada elemento de la poblacion tiene la misma
probabilidad de ser elegido y esta probabilidad se mantiene constante a lo largo del proceso. La
tecnica del muestreo puede asimilarse a un modelo de extraccion con reemplazo. Un mismo
dato puede ser muestreado mas de una vez.
Muestreo Estratificado: Se divide a la poblacion en estratos, niveles o grupos segun criterios
preIijados y la muestra se toma asignando una proporcion de miembros a cada estrato y
escogiendo los elementos dentro de cada estrato por muestreo aleatorio simple (m. a. s.)
El muestreo aleatorio debe utilizarse cuando los elementos de la poblacion son homogeneos
respecto a la caracteristica a estudiar. Cuando dispongamos de inIormacion sobre l a poblacion
conviene tenerla en cuenta al seleccionar la muestra. Un ejemplo son las encuestas de opinion,
donde los elementos (personas) son heterogeneos en razon a su sexo, edad, proIesion, etc.
Interesa en estos casos que la muestra tenga composicion analoga a la poblacion y esto se
consigue con un muestreo estratiIicado.
Muestreo por conglomerados: cuando los elementos de la poblacion se encuentran "de
manera natural" agrupados en conglomerados, cuyo numero se conoce, y podamos suponer que
cada uno de estos conglomerados es una muestra representativa de la poblacion respecto de la
variable que se estudia. El muestreo consiste en seleccionar uno de estos conglomerados al azar
y, dentro de ellos, analizar todos sus elementos o una muestra aleatoria simple.
Si el muestreo es aleatorio, seleccionar un elemento de la poblacion es realizar un experimento
aleatorio y cada observacion de la muestra es el valor observado de una variable aleatoria
1
. La
distribucion de probabilidad de cada una de estas variables aleatorias viene determinada por la
distribucion de los elementos de la poblacion. Asi podemos deIinir:
Muestra aleatoria simple de tamao n: es una variable aleatoria n-dimensional
X = ( x
1
, x
2
, . . . , x
n
) donde cada x
i
representa el valor observado en la i-esima extraccion y
podra tomar cualquier valor de la poblacion. Por tanto, una muestra concreta realizada, sera un
valor particular, una realizacion de la muestra generica.
1
Ver revista Ciencia Ahora N 13. Marzo abril de 2004. 'Distribuciones de probabilidad p 54 - 64.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
En la medida en el que el muestreo es aleatorio, cada element o de la poblacion tiene una
probabilidad de ser elegido, cada dato muestral generico sera una variable aleatoria que tendra
asociada una Iuncion de probabilidad (o de densidad) segun una determinada distribucion que
llamaremos distribucin de la poblacin. Si trabajamos con un m. a. s. cada x
i
es
estadisticamente independiente y entonces la funcin de probabilidad o de densidad
conjunta de la muestra sera:
( ) ( , ,..., ) ( )
1 2
1
n
f X f x x x f x
n
i
i
= =
[
=
Ya hemos mencionado en la introduccion que uno de los propositos de la inIerencia estadistica
es estimar cantidades desconocidas de la poblacion (tales como la media poblacional, la
varianza, etc.) llamadas parametros poblacionales, o mas brevemente parmetros, a partir del
conocimiento de las correspondientes cantidades muestrales (tales como la media muestral, la
varianza muestral, etc.) llamadas estadisticos muestrales, o mas brevemente estadsticos.
Asi pues estadstico es cualquier Iuncion de los valores muestrales que depende exclusivamente
de estos. Como los valores muestrales son variables aleatorias, tambien lo son los estadisticos.
Todas las medidas descriptivas que dependan exclusivamente de valores muestrales son
ejemplos de estadisticos: la media muestral x , la varianza muestral , s/ x
2
s , o P
25
; pero no es
estadistico
2
/
2
s n8 porque 8
2
es la varianza poblacional, y por tanto, no depende
exclusivamente de los valores muestrales.
Consideremos todas las posibles muestras que pueden extraerse de una poblacion dada. Para
cada muestra se puede calcular un estadistico, tal como la media, la desviacion tipica, la
varianza, etc. que variara de una muestra a otra. De esta Iorma se obtiene una distribucion del
estadistico que se conoce como distribucin muestral o distribuciones en el muestreo.
En este articulo se tratara el estudio de las distribuciones muestrales de los principales
estadisticos: media muestral, varianza muestral, diIerencia de medias muestrales y cuociente de
varianzas muestrales.
Para ello, necesitamos previamente introducir otros modelos de distribucion de probabilidad,
que tienen su principal papel en el muestreo. La Distribucion Normal es el mas importante de
los modelos de distribucion de probabilidades (Vease el articulo
'Distribuciones de probabilidad, revista Ciencia Ahora N 13 Marzo 2004).
2. DISTRIBUCIONES EN EL MUESTREO
2.1 MODELOS DE DISTRIBUCION DE PROBABILIDAD EN EL MUESTREO.
2.1.1 DISTRIBUCION CHI -CUADRADO DE PEARSON.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
La distribucion .
2
de Pearson con n grados de libertad se deIine como la distribucion que
sigue la variable deIinida como suma de los cuadrados de n variables normales tipiIicadas
independientes. Las principales aplicaciones de la distribucion Chi -Cuadrado en inIerencia es
su aplicacion en contrastes de hipotesis: Test de bondad de ajuste, Test de independencia, Test
de homogeneidad.
Sean , ,...,
1 2
Z Z Z
n
un conjunto de variables aleatorias independientes (0,1) Z N
i
, entonces
2 2
1
n
X Z
n
i
i
. =

Caractersticas
(
E X n =
(
2 Jar X n =
Para el calculo de probabilidades, en las tablas podremos encontrar el valor de x tal que
( ) P X x p s =
Propiedad (Teorema de adicin)
Dadas
<
X
i
i
k
n
i
=

1
2
. independientes
2
...
1 2 1
k
X
n n n
i
k i
.

+ + +
=
Relacin con la normal
Si X .
n
2
, entonces Y = 2 X
~
N ( 2 n 1 , 1 ) si n es grande.
2.1.2. DISTRIBUCION t DE STUDENT
Dadas las variables aleatorias independientes X e Y tales que (0,1) X N e
2
Y
n
. , la
nueva variable aleatoria deIinida como
X
1
Y
n
= sigue una distribucion t de Student con n
grados de libertad, que denotamos por t
n
.
La prueba t de Student es muy utilizada en la practica para la comparacion de medias, sin
embargo a menudo su aplicacion se hace sin excesivo cuidado, no comprobando las hipotesis
que requiere, la Ialta de normalidad o la Ialta de homogeneidad en las varianzas invalida la
prueba t de Student.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
Caractersticas
(
0 E 1 = para n~2; si n 1 no existe media.
(
2
n
Jar 1
n
=

para n ~3
Para el calculo de probabilidades, en las tablas podremos encontrar el valor de x tal que
( ) P 1 x p s =
Es una distribucion simetrica y por tanto se cumple que I(x) I(-x). Con lo cual se deduce que
P ( T s x ) 1- P ( T s x )
La distribucion t de Student converge a una normal cuando los grados de libertad tienden a
inIinito (sirve para n ~ 30).
2.1.3. DISTRIBUCION F DE SNEDECOR
Sus principales usos son los de la contrastacion de la igualdad de varianzas de dos poblaciones
normales y, Iundamentalmente, el anlisis de la varianza y el diseo de experimentos,
tecnicas que permiten detectar la existencia o inexistencia de diferencias significat ivas entre
muestras diIerentes.
Dadas dos variables aleatorias independientes X
1
, X
2
tales que sus distribuciones son
X
1
.
n
2
y X
2
.
m
2
, deIinimos la nueva variable F =
X
1
n
X
2
m
que sigue una distribucion
E de Snedecor con n grados de libertad en el numerador y m grados de libertad en el
denominador, que denotamos por F
n , m
.
Para el calculo de probabilidades, en las tablas podremos encontrar el valor de x tal que
P ( F
n , m
s x ) = p para p 0.9 y 0.99.
Se cumple que P ( F
n , m
s x ) = P ( F
n , m
>
1
x
) = 1 P ( F
n , m
s
1
x
)
Un resultado particular interesante es que si X t
n
X
2
F
1 , n
.
2.1.4. TEOREMA CENTRAL DEL LIMITE (TCL)
Sean X
1
, X
2
, . . . , X
n
variables aleatorias independientes con la misma distribucion y con
media 2 y varianza 8
2
. Entonces
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
X
X X X
n
n
n
aprox
N
n
=
+ + +


1 2
2 ...
( )
( , ) 2
8
Un enunciado mas riguroso seria: Lim
n
P ( X s x ) = u
x 2
8
n
|
\


|
.
|
|
2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES ESTADISTICOS.
Consideraremos los siguientes casos: la distribucion de la poblacion es desconocida, si la
poblacion se distribuye normalmente, consideraremos caso de una muestra y dos muestras
pareadas e independientes.
2.2.1 EN UNA POBLACION CUALQUIERA.
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria de variables aleatorias identicamente distribuidas con
E X
i
| | = 2 y Var X
i
| | = 8
2
. Si no conocemos la distribucion de la poblacion, no podemos,
en general, calcular la distribucion de los estadisticos, pero si se podra, en cualquier caso,
determinar la esperanza y varianza de los principales estadisticos en Iuncion de los parametros
de la distribucion de la poblacion.
A. Media muestral
E X n
| |
= 2 (tanto para muestreo simple como para poblacion Iinita o muest reo sin reemplazo)
Var X n | | =
8
2
n
(para m. a. s.) Var X n | | =
8
2
n

N n
N 1
(para poblacion Iinita o
muestreo sin reemplazo)
Siempre que n sea muy grande (n ~ 30) podemos aplicar el TCL:
X n N 2 ,
8
2
n
|
\

|
.
|
B. Varianza muestral s
2
=
X
i
X n
( )
2

n
=
X
i
2

n
X n
2
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
Los siguientes resultados seran para m. a. s: E s
2
| |
=
n 1
n
8
2
Llamando 2
n
= E X
n
| |
tenemos
Var s
2
| |
=
2
4
2
2
n

2 2
4
2 2
2
2
( )
n
2

2
4
3 2
2
2
n
3
2.2.2 EN UNA POBLACION NORMAL.
A partir de ahora supondremos que la poblacion tiene una distribucion normal, ya que los
resultados que vamos a obtener por el Teorema Central del Limite, lo requieren. Si ni lo tuviera
serian una aproximacion cuando la muestra que tomemos sea de tamao grande.
En estas circunstancias, ya no solo podre averiguar los valores de la esperanza y varianza, sino
que podremos hablar de sus modelos de distribucion.
A. UNA MUESTRA
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria simple de variables aleatorias tales que
X
i
N 2 , 8
2
( ) i
A.1 Media muestral
X n N 2 ,
8
2
n
|
\

|
.
|
Podemos ver que E X n | | = 2 Var X n | | =
8
2
n
ya que si X
i
N 2 , 8
2
( )
, por el teorema de la adicion del tema anterior se cumple que
X
1
+ X
2
+ . . . + X
n
N n 2 , n 8
2
( )
, y por las transIormaciones lineales
X
1
+ X
2
+ . . . + X
n
n
N 2 ,
8
2
n
|
\

|
.
|
Si la poblacion es inIinita o si el muestreo es con reposicion los resultados anteriores se reducen
a: E X n
| |
= 2 Var X n
| |
=
8
2
n

N n
N 1
Ejemplo
Las masas de 1500 bolas de rodamientos estan normalmente distribuidas, con media 22,40 g y
desviacion tipica 0,048 g. Si se toman 300 muestras aleatorias de tamao 36 en esa poblacion.
(i) Determinar la media y la desviacion tipica esperada de la distribucion de muestreo de
medias, (a) si el muestreo es con reposicion y (b) si el muest reo es sin reposicion.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
(ii) Cuantas de las muestras aleatorias tendrian sus medias entre 22,39 y 22,41 g.
Solucion
(i) (a) Si el muestreo es con reposicion
(b) Si el muestreo es sin reposicion
(ii) (a) Para calcular la probabilidad P(22,39 x 22,41) , primero normalizamos los valores
(22, 39 22, 41) ( 1, 25 1, 25) 2 (0 1, 25) Por simetria
2(0, 3944) 0, 7888 de la tabla de la distribucion normal
Luego el numero de muestras es 300(0,7888) 237
P x P : P : < < = < < < <
= =
~
A.2 Varianza muestral
s
2
=
X
i
X n
( )
2

n
=
X
i
2

n
X n
2
No conocemos exactamente la distribucion de s
2
, solamente:
ns
2
8
2
.
n 1
2
pero podemos calcular
E s
2
| |
=
n 1
n
8
2
Var s
2
| |
=
2 ( n 1 ) 8
4
n
2
Debemos recordar que una distribucion chi-cuadrado se deIine como una suma de normales
tipiIicadas elevadas al cuadrado.
A.3 Media muestral con varianza desconocida
Si no conocemos el valor de 8
2
, la distribucion que hemos deducido anteriormente para el
estadistico media muestral no nos sirve, podemos utilizar entonces:
X
n
2
s
n 1 t
n 1
0, 048
22, 40 Var 0, 008
36
n n
x x
E X g X g
n
8
2 2 8
( (
= = = = = =

3
0, 048 1500 36
22, 40 7, 9061 10
1500 1 36
x x
g g 2 2 8

= = = =

1 2
22, 39 22, 40 22, 41 22, 40
1, 25 1, 25
0, 008 0, 008
: :

= = = =
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
Recordemos que la distribucion t de Student se deIinia como el cociente entre una normal
tipiIicada y la raiz cuadrada de una chi-cuadrado dividida por sus grados de libertad.
A.4 Proporcin muestral
Tenemos una poblacion Bernouilli y elegimos una muestra donde
i
X Bernoulli p .
Consideremos la variable aleatoria X "n de exitos en la muestra", que sigue una distribucion
Binomial(n, p). DeIinimos P "proporcion de exitos en n extracciones" entonces P X/n
E P | | = p Var P | | =
pq
n
B. DOS MUESTRAS INDEPENDIENTES
Supongamos ahora que queremos comparar dos variables o dos poblaciones. Para ello
necesitamos tomar dos muestras y vamos a suponer que estas muestras se toman
independientemente. Ejemplo: Supongamos que queremos comparar la produccion por planta de
Irambuesa de la variedad A y la produccion por planta de la variedad B.
Seguimos suponiendo que la distribucion de las dos poblaciones es Normal.
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria de variables aleatorias independientes tales que
X
i
N 2
x
, 8
x
2
( ) i = 1 , 2 , . . . , n e Y Y Y
m 1 2
, ,..., una muestra aleatoria de variables aleatorias
tales que Y
j
N 2
y
, 8
y
2
( ) j = 1 , 2 , . . . , m .
B.1 Diferencia de medias muestrales con varianzas conocidas
X
n
Y
m
N 2
x
2
y
,
8
x
2
n
+
8
y
2
m
|
\

|
.
|
Un caso particular seria la diIerencia de proporciones
P
1
P
2
N p
1
p
2
,
p
1
q
1
n
+
p
2
q
2
m
|
\

|
.
|
B.2 Diferencia de medias muestrales con varianzas desconocidas pero iguales
X
n
Y
m
( )
2
x
2
y
( )
ns
x
2
+ ms
y
2
n + m 2
1
n
+
1
m
|
\

|
.
|
t
n + m 2
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
B.3 Cociente de varianzas muestrales
No conocemos la distribucion de
s
x
2
s
y
2
exactamente, solo:
n s
x
2
8
x
2
( n 1 )
m s
y
2
8
y
2
( m 1 )
F
( n 1 ) , ( m 1 )
C. DOS MUESTRAS RELACIONADAS
Supongamos ahora que queremos comparar dos variables pero que las dos muestras que se
toman no son independientes (los datos estan apareados). Ejemplo: Por ejemplo si queremos
comparar la produccion de Irambuesas un mismo ensayo se toman muestras antes y despues de
aplicar el nuevo metodo de Iertirrigacion.
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria de variables aleatorias tales que
X
i
N 2
x
, 8
x
2
( )
i = 1 , 2 , . . . , n e Y
1
, Y
2
, . . . , Y
n
una muestra aleatoria de variables
aleatorias tales que Y
j
N 2
y
, 8
y
2
( )
j = 1 , 2 , . . . , n . Las muestras estan relacionadas. Notar
que en este caso n m.
C.3 Diferencia de medias muestrales
Sea D
i
= X
i
Y
i
y sea s
d
su desviacion tipica muestral. podemos usar el siguiente resultado:
n 1
X Y ( 2
x
2
y
)
s
d
t
n 1
BIBLIOGRAFIA
Mendenhall, W., Terry, Sincich. Introduccion a la Probabilidad y la Estadistica. Grupo Editorial
Iberoamerica. Mexico, D.E. (1995).
Mora / Cid /Valenzuela. Probabilidades y estadistica. Universidad de Concepcion (1996).
Pea Sanchez de Rivera, Daniel. Estadistica Modelos y Metodos. Vol 1. Alianza Editorial,
Madrid Espaa. 1995.
En internet
|llp://|ore.uoa|l.edu/rlsoars|/8us|ress-slal/opre5013.|lr#rslal

Вам также может понравиться