Академический Документы
Профессиональный Документы
Культура Документы
Departamento de Estadı́stica
Facultad de Ciencias Fı́sicas y Matemáticas
Curso: 2010
Índice general
1. Introducción 5
2. Distribuciones Muestrales 15
2.2. Distribución χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2
ÍNDICE GENERAL Página 3
3.2.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2. Intervalo de confianza para µ, con σ 2 conocida y desconocida en v.a. con dis-
tribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.1. Prueba para muestras pareadas: Prueba de Rangos con Signo de Wilcoxon 97
Introducción
1. Muestreo sistemático
2. Muestreo estratificado
3. Muestreo de racimo
Muestreo sistemático
5
CAPÍTULO 1. INTRODUCCIÓN Página 6
El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento de
la población tiene igual probabilidad de ser seleccionado, pero cada muestra no tiene una
probabilidad igual de ser seleccionada. Suponga que hay 100 empleados en una compañı́a y se
desea entrevistar una muestra de 10 de ellos seleccionando cada décimo número. Si se hubiera
seleccionado en forma aleatoria el valor inicial 5, entonces las muestras estarı́a compuestas
por el valor empleado numerado con el 5, 15, 25, 35, etc, entonces, por ejemplo, los empleados
numerados con 6, 7, 8 y 9 no tendrı́an ninguna probabilidad de ser seleccionado juntos, con lo
cual no todas las muestras posibles tienen la misma probabilidad de ocurrencia.
Muestreo estratificado
Muestreo de racimo
El muestreo aleatorio simple (m.a.) selecciona muestras mediante métodos que permiten
que cada posible muestra tenga igual probabilidad de ser seleccionada y que cada elemento
de la población tenga una oportunidad igual de ser incluida en la muestra. Ilustremos esta
idea con un ejemplo. Supongamos que tenemos 4 alumnos {A, B, C, D}, y se quieren tomar
muestras de a dos, vemos que hay 6 posibles muestras de los 4 elementos de la población
tomados de a 2,
Muestra 1 AB
Muestra 2 AC
Muestra 3 AD
Muestra 4 BC
Muestra 5 BD
Muestra 6 CD
entonces, si asignamos la probabilidad 1/6 a cada una de las muestras, entonces estamos ante
una m.a. Además, asignando igual probabilidad a cada muestra queda determinada la proba-
bilidad de que cada elemento en la población sea seleccionado. En particular, la probabilidad
de que un elemento sea seleccionado es igual para todos e igual a
1 1
P (A) = P (AB) + P (AC) + P (AD) = 3 × =
6 2
1 1
P (B) = P (AB) + P (BC) + P (BD) = 3 × =
6 2
1 1
P (C) = P (AC) + P (BC) + P (CD) = 3 × =
6 2
1 1
P (D) = P (AD) + P (BD) + P (CD) = 3 × =
6 2
Desde ahora en adelante cuando se diga que se ha seleccionado una o más muestras de
una población se tomará en referencia el muestreo aleatorio simple. Esto es necesario porque
los principios del muestreo aleatorio simple son la base de la inferencia estadı́stica, es decir,
del proceso de hacer inferencia acerca de poblaciones a partir de información contenida en la
muestra.
Una distribución de frecuencia es una tabla en la que organizamos los datos en clases,
en decir, en grupos de valores que describen una caracterı́stica de los datos. Por ejemplo,
supongamos que tenemos las existencias promedios (en dı́as) para 20 tiendas de autoservicio,
la siguiente tabla resume la información.
Frecuencias
Clases
Absoluta Relativa Acumulada Acumulada relativa
2,0 a 2,5 1 0,05 1 0,05
2,6 a 3,1 0 0,00 1 0,05
3,2 a 3,7 2 0,10 3 0,15
3,8 a 4,3 8 0,40 11 0,55
4,4 a 4,9 5 0,25 16 0,80
5,0 a 5,5 4 0,20 20 1
Total 20 1
Si X es una variable aleatoria con función de distribución f (x), entonces cualquier función
de X, digamos g(X), es también una variable aleatoria. Muchas veces g(X) es en sı́ misma
de interés, digamos que la definimos Y ≡ g(X). Puesto que Y es una función de X, podemos
describir el comportamiento de la probabilidad de Y en términos del comportamiento de X.
Formalmente, si se escribe y = g(x), la función g(x) define un mapa del espacio original de
X, X , a un nuevo espacio, Y, el espacio de la variable aleatoria Y . Es decir
g(x) : X → Y.
lada de Y será
FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P [{x ∈ X : g(x) ≤ y}]
Z
= fX (x)dx
{x∈X :g(x)≤y}
Z
= fX (x)dx
{x∈X :x≤g −1 (y)}
Z g −1 (y)
= fX (x)dx
−∞
= FX [g −1 (y)]
FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P [{x ∈ X : g(x) ≤ y}]
Z
= fX (x)dx
{x∈X :g(x)≤y}
Z
= fX (x)dx
{x∈X :x≥g −1 (y)}
Z ∞
= fX (x)dx
g −1 (y)
= 1 − FX [g −1 (y)]
Teorema 1.3.1 Sea X una v.a. continua con función de distribución FX (x), sea Y = g(X)
y sean
X = {x : fX (x) > 0}
y
Y = {y : y = g(x) para algunos x ∈ X }.
Ejemplo 1.3.1 Suponga X ∼ fX (x) = 1 si 0 < x < 1 y 0 en cualquier otro caso, una
distribución uniforme, U (0, 1), por lo tanto FX (x) = x si 0 < x < 1. Se quiere obtener la
función de distribución de la transformación Y = g(X) = − log(X). Puesto que
∂ ∂ 1
g(x) = [− log(x)] = − < 0, para 0 < x < 1,
∂x ∂x x
g(x) es una función decreciente. Como X tiene rango entre 0 y 1, − log(x) tendrá entre 0 y ∞,
es decir que Y = (0, ∞). Luego, para y > 0, y = − log(x) ⇒ x = e−y , por lo que g −1 (y) = e−y .
En consecuencia
Teorema 1.3.2 Sea X una v.a. continua con función de densidad fX (x), sea Y = g(X),
donde g es una función monotónica. Sean
X = {x : fX (x) > 0}
y
Y = {y : y = g(x) para algunos x ∈ X }.
Suponga que fX (x) es continua en X y que g −1 (y) tiene derivada continua en Y. Entonces la
función de densidad de Y está determinada por
f [g −1 (y)] ∂ g −1 (y) y∈Y
X ∂y
fY (y) =
0 en cualquier otro punto
donde α y β son constantes positivas. Suponga que se quiere encontrar la función de densidad
de la transformación g(X) = 1/X. Note que los conjunto soportes X e Y son el intervalo
Teorema 1.3.3 Sea X una v.a. continua con función de densidad fX (x), sea Y = g(X),
y
X = {x : fX (x) > 0}.
ii gi (x) es continua en Ai ,
Entonces,
Pk f [g −1 (y)] ∂ g −1 (y) y∈Y
i=1 X i ∂y i
fY (y) =
0 en cualquier otro punto
A0 = {0};
√
A1 = (−∞, 0), g1 (x) = x2 , g1−1 (y) = − y;
√
A2 = (0, ∞), g2 (x) = x2 , g2−1 (y) = y;
La función de densidad de Y es
1 −(−√y)2 /2 1 1 −(√y)2 /2 1
fY (y) = √ e − 2√y + √2π e 2√y
2π
1 1
= √ √ e−y/2 I(0,∞) (y)
2π y
La función de densidad de Y es una de las que vamos a ver muy seguido a lo largo de este
curso, esta es la de una variable aleatoria chi-cuadrado con 1 grado de libertad, χ21 .
Suponga, ahora, que X1 y X2 son dos variables aleatorias continuas con función de densidad
conjunta fX1 ,X2 (x1 , x2 ), y que se quiere determinar la función de densidad conjunta de un par
de transformaciones dadas por
U1 = h1 (X1 , X2 ) y U2 = h2 (X1 , X2 )
X1 = h−1 −1
1 (U1 , U2 ) y X2 = h2 (U1 , U2 ).
Si h−1 −1
1 (u1 , u2 ) y h2 (u1 , u2 ) tienen derivadas parciales continuas respecto de u1 y u2 , y el
determinante del jacobiano
∂h−1 ∂h−1
" #
1 1
∂h−1 −1
1 ∂h2 ∂h−1 ∂h−1
J = det ∂u1
∂h−1
∂u2
∂h−1
= − 2 1
6= 0
2 2 ∂u1 ∂u2 ∂u1 ∂u2
∂u1 ∂u2
Ejemplo 1.3.4 Sean X1 y X2 dos v.a. normales estándares independientes, además, sean
U1 = X1 + X2 y U2 = X1 − X2 dos transformaciones. ¿Cuál es la densidad conjunta de U1 y
U2 ?
Las funciones de densidad de X1 y X2 son
1 1 2 1 1 2
fX1 (x1 ) = √ e− 2 x1 I(−∞,∞) (x1 ) y fX2 (x2 ) = √ e− 2 x2 I(−∞,∞) (x2 ).
2π 2π
Además, el hecho de que X1 y X2 son independientes implica que su densidad conjunta es
1 − 1 x21 − 1 x22
fX1 ,X2 (x1 , x2 ) = e 2 2 I(−∞,∞) (x1 )I(−∞,∞) (x2 ).
2π
u1 = h1 (x1 , x2 ) = x1 + x2 y u2 = h2 (x1 , x2 ) = x1 − x2 ,
Distribuciones Muestrales
Existe dos razones fundamentales por las cuales la distribución normal ocupa un lugar
tan importante en la estadı́stica. Primero, tiene algunas propiedades que la hacen aplicable
a un gran número de situaciones en las que es necesario hacer inferencia mediante la toma
de muestra. Segundo, la distribución norma casi se ajusta a las distribuciones de frecuencias
reales observadas en muchos fenómenos, incluyendo caracterı́sticas humanas (peso, altura,
coeficiente intelectual, etc.), resultados de procesos fı́sicos, y muchos otras medidas de interés
para los administradores, tanto en el sector público como en el privado.
15
CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 16
2. Para definir una distribución normal necesitamos definir sólo dos parámetros: la media
(µ) y la varianza (σ 2 ). Cualquier momento superior está definido como función de estos
dos parámetros.
5. Las dos colas de la distribución se extienden infinitamente y nunca tocan el eje horizontal.
Para poder demostrar la última de las propiedades tenemos, primero, que mencionar y
demostrar un teorema.
Prueba:
Tenemos que
Pn
mU (t) = E et i=1 Xi
= E etX1 · · · etXn
= E etX1 · · · E etXn
Yn
E etXi
=
i=1
Yn
= mXi (t)
i=1
Luego,
Teorema 2.1.2 Sean X1 , . . . , Xn v.a. independientes que tienen distribución normal con
medias y varianzas dadas por µi y σi2 , para i = 1, . . . , n, sean a1 , . . . , an constantes. Si
n
X
U= ai X i ,
i=1
y
n
X
V(U ) = a2i σi2 .
i=1
Prueba:
Como Xi adopta una distribución normal con media µi y varianza σi2 , Xi tiene una función
generadora de momentos dada por
t2 σi2
mXi (t) = exp tµi + .
2
t2 a2i σi2
tai Xi
mai Xi (t) = E e = exp tai µi + .
2
normal. Sólo resta determinar su media y varianza, pero sabemos por propiedades de las v.a.
1
que E(Z) = E(Y ) − µ = 0, y que V(Z) = σ2
V(Y ) = 1.
P (X ≤ 8,29) = P (X − 5 ≤ 8,29 − 5)
X −5 8,29 − 5
= P ≤
2 2
= P (Z ≤ 1,645),
entonces, sólo hay que buscar en la tabla de la distribución normal estándar esta probabilidad,
la cual es P (Z ≤ 1,645) = 0,95.
2.2. Distribución χ2
Esta distribución fue desarrollada por Karl Pearson. Suponga que hay v variables aleatorias
independientes, X1 , . . . , Xv , todas con distribución N (µi , σi2 ). Luego, estandarizamos estas
Xi −µi
variables como sigue Zi = σi
, con lo cual, tenemos v v.a. Zi ∼ N (0, 1). Ahora, definimos
Y como
v
X
Y = Z12 + Z22 + ··· + Zv2 = Zi2 . (2.4)
i=1
La v.a. Y ası́ generada sólo toma valores no negativos y sigue una distribución que se
denomina chi-cuadrado con v grados de libertad, cuya función de densidad está determinada
por
x(v−2)/2 e−x/2
f (x) = v/2 , (2.5)
2 Γ(v/2)
R∞
donde Γ(α) = 0
xα−1 e−x dx, es la función gamma, pero si α es un número entero, entonces,
definida por Γ(α) = (α − 1)!. La distribución chi-cuadrado sólo depende de un parámetro,
v, sus grados de libertad. En otras palabras, esto significa que el único parámetro de una
distribución chi-cuadrado es v. Una vez, que se conoce este parámetro, se pueden obtener los
momentos de la distribución.
E(Y ) = v, V(Y ) = 2v.
La figure 2.3 muestra la función de densidad de tres v.a. con distribución chi-cuadrado con 3,
6 y 15 grados de libertad (gl).
Para el cálculo de probabilidades con una v.a. que tiene distribución χ2 se tienen dos
alternativas; una es mediante la aplicaciones informáticas, que devuelvan la probabilidad de
para diferentes valores de la v.a. y gl o que permitan integrar, generalmente en forma numérica,
y obtener la probabilidad buscada. La segunda opción, es la que más vamos a utilizar en este
curso, y es utilizar tablas impresas con tabulaciones de la distribución χ2 con varios gl. Cómo
hemos mencionado, esta distribución sólo depende del número de grados de libertad, por
lo que conocido este parámetro podemos dirigirnos a la tabla y buscar la probabilidad que
necesitamos.
se denomina t de Student.
Se observa que la densidad es simétrica respecto de cero. Además, para v > 1 su media es
v
E(T ) = 0 y para v > 2 su varianza es V(T ) = v−2
, la v.a. T tiene mayor dispersión que la
distribución Normal.
Teorema 2.3.1 Sea X1 , . . . , Xn una m.a. de una v.a. N (µ, σ2 ) y sean X̄, S 2 la media,
varianza muestral. Entonces, se verifica que
X̄ − µ
T = √ ∼ tn−1
S/ n
Prueba:
Sabemos que
X̄ − µ
√ ∼ N (0, 1), (2.7)
σ/ n
además que
(n − 1)S 2
∼ χ2n−1 (2.8)
σ2
y que son independientes. Entonces dividiendo (2.7) por la raı́z cuadrada de (2.8) dividido por
los grados de libertad tenemos
√ X̄−µ √ X̄−µ
n σ n σ X̄ − µ
T =r = S
= √ ∼ tn−1 ,
(n−1)S 2
σ
S/ n
σ2
n−1
Ejemplo 2.3.1 La resistencia a la tensión para cierto tipo de alambre se distribuye N (µ, σ2 ),
ambas desconocidas. Se seleccionaron al azar seis segmentos de alambre de un rollo grande
6 segmentos y se midió Xi la resistencia. La media de la población µ y la varianza σ 2 se
pueden estimar por X̄ y S 2 , respectivamente. Encuentre la probabilidad aproximada de que X̄
√
esté como máximo a 2S/ n de la media verdadera.
Teorema 2.4.1 Sea X1 , . . . , Xn1 una m.a. de una v.a. N (µ1 , σ12 ) y sea S12 la cuasi-varianza
muestral. Sea Y1 , . . . , Yn2 otra m.a. de una v.a. N (µ2 , σ22 ) y sea S22 la cuasi-varianza muestral
independiente de la anterior. Entonces
S12
σ12
F = S22
∼ Fn1 −1,n2 −1
σ22
Prueba:
La prueba es directa. Se basa en la independencia de las dos muestras, la distribución de
(n−1)S 2
σ2
∼ χ2n−1 y la definición de F.
2
(n1 −1)S1
2
σ1 (n1 −1)S12
n1 −1 (n1 −1)σ12 S12 /σ12
F = 2 = (n2 −1)S22
= ∼ Fn1 −1,n2 −1 ,
(n2 −1)S2
2
S22 /σ22
σ2 (n2 −1)σ22
n2 −1
Usualmente en las tablas de la distribución F de Snedecor sólo aparecen los valores crı́ticos
de la distribución, para probabilidades α pequeñas. Sin embargo, sabemos que si tenemos una
v.a. F ∼ Fn1 ,n2 , entonces F 0 = 1/F ∼ Fn2 ,n1 . Ası́, supongamos que c es el valor crı́tico α de
la distribución Fn1 ,n2 , es decir, si F ∼ Fn1 ,n2 , entonces
donde F 0 ∼ Fn2 ,n1 . Esto significa que 1/c = Fn2 ,n1 ;1−α o equivalentemente
Definición 2.5.1 Las v.a. X1 , . . . , Xn son llamadas una muestra aleatoria (m.a.) de tamaño
n tomada de una población f (x) si X1 , . . . , Xn son v.a. mutuamente independientes y la fun-
ción de densidad o de probabilidad marginal de cada Xi , i = 1, . . . , n, es la misma función f (x).
Alternativamente, X1 , . . . , Xn son llamadas v.a. independientes e idénticamente distribuidas
(iid) con función de densidad o probabilidad f (x).
Una muestra aleatoria describe una situación experimental en la que la variable de interés
tienen función de densidad o probabilidad descripta por f (x). Bajo una m.a. cada Xi es una
observación de la misma variable. Además, las observaciones son tomada de forma que el
valor de una observación no tiene efecto alguno o relación sobre las otras observaciones, esto
es X1 , . . . , Xn son mutuamente independientes. Finalmente, la función conjunta de densidad
o probabilidad viene dada por
n
Y
f (x1 , . . . , xn ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = f (xi ). (2.11)
i=1
En particular, si la funciones de densidad o probabilidad pertenecen a una familia paramétrica,
es decir que están determinadas por un vector de parámetros θ, entonces, la función conjunta
de densidad o probabilidad viene dada por
n
Y
f (x1 , . . . , xn |θ) = f (xi |θ), (2.12)
i=1
donde el mismo parámetro θ es usado en cada una de las funciones de densidad o probabilidad
marginales.
Definición 2.5.2 Sea X1 , . . . , Xn una m.a. tomada de una población y sea T (X1 , . . . , Xn )
una función real o una función real-vectorial cuyo dominio es el espacio muestral de (X1 , . . . , Xn ).
Entonces, la variable aleatoria o vector aleatorio Y = T (X1 , . . . , Xn ) es llamado estadı́stico.
La distribución del estadı́stico Y es la distribución muestral de Y .
Tres estadı́sticos que usualmente vamos a utilizar y que dan un buen resumen de la infor-
mación que posee la muestra vamos a definir.
Usaremos los valores observados de estos estadı́sticos con letras minúsculas, es decir x̄, s y s2
refiriéndose a los valores observados de las v.a. X̄, S y S 2 , respectivamente.
Pn Pn
a. mı́n i=1 (xi − a)2 = i=1 (xi − x̄)2
a
Pn Pn
b. (n − 1)s2 = i=1 (xi − x̄)2 = i=1 x2i − nx̄2 .
Prueba:
Vamos a probar a. Para ellos sumamos y restamos x̄ como sigue
n
X n
X
(xi − a)2 = (xi − x̄ + x̄ − a)2
i=1 i=1
n
X n
X n
X
2
= (xi − x̄) + 2 (xi − x̄)(xi − a) + (xi − a)2
i=1 i=1 i=1
n
X n
X
2
= (xi − x̄) + (xi − a)2 , el término cruzado es cero (2.14)
i=1 i=1
Ahora, el segundo 2.14 es siempre mayor o igual a cero, por lo tanto el valor que lo minimiza
es cuando a = x̄.
Prueba:
Como X1 , . . . , Xn es una m.a de una v.a. con distribución normal, se verifica que
E(Xi ) = µ, para i = 1, . . . , n,
y
V(Xi ) = σ 2 , para i = 1, . . . , n.
Luego, vemos que X̄ es una combinación lineal de v.a., es decir
n
1 1 1 X
X̄ = X 1 + X2 + · · · + X n = ai X i ,
n n n i=1
donde ai = n1 . La combinación lineal de v.a. normales, por el teorema 2.1.2 también será nor-
mal, es decir que la media muestral tiene distribución normal con media
" n # n
1X 1X 1
E(X̄) = E E(Xi ) = µ = nµ = µ.
n i=1 n i=1 n
y varianza
n
! n
! n n
1X 1 X 1 X 1 X 2 1 σ2
V(X̄) = V Xi = 2V Xi = 2 V(Xi ) = 2 σ = 2 nσ 2 = .
n i=1 n i=1
n i=1 n i=1 n n
| {z }
Por independencia de las Xi
De acuerdo con el teorema anterior, X̄ tiene distribución normal con media µ y varianza
σ 2 /n. Por lo tanto,
X̄ − µ √ X̄ − µ
Z=p = n
σ 2 /n σ
tiene una distribución normal estándar.
Sea X1 , . . . , Xn una m.a de una v.a. con distribución N (µ, σ 2 ), entonces, la varianza mues-
tral viene dada por
n n
2 1 X 2 1X 2
S = Xi − X̄ = X − X̄ 2 , (2.15)
n − 1 i=1 n 1=1 i
donde X̄ es la media muestral.
Por otro lado, la varianza muestral sesgada, que también tendrá una papel fundamental
en inferencia, como se comprobará más adelante. Ésta viene dada por
n n
021X 2 n−1 X 2 n − 1 2
S = Xi − X̄ = Xi − X̄ = S , (2.16)
n i=1 n(n − 1) i=1 n
Teorema 2.6.1 Si X1 , . . . , Xn una m.a de una v.a. con distribución N (µ, σ2 ), entonces
S 2 y X̄ son independientes y
0
nS 2 (n − 1)S 2
2
= 2
∼ χ2n−1 .
σ σ
para probar este teorema necesitamos dos lemas importantes que no vamos probar,
Lema 2.6.2 Sea X = {X1 , . . . , Xn } un vector de v.a. independientes, y sea gi (Xi ), para
i = 1, . . . , n, una función que sólo depende de Xi , entonces las v.a. definidas por Ui = gi (Xi ),
para i = 1, . . . , n, son mutuamente independientes.
Prueba: Vamos hacer la prueba en dos partes, por una lado se demostrará la independencia
(n−1)S 2
entre S 2 y X̄, y después que σ2
se distribuye como una variable chi-cuadrado.
0
Independencia entre S 2 y X̄
Sean X1 , . . . , Xn una m.a. de una v.a. X ∼ N (µ, σ 2 ). Se define X̄ y D1 = X1 − X̄, luego vamos
a demostrar que X̄ y D1 son v.a. independientes. Vemos que X̄ se puede escribir como
n
X 1
X̄ = ai Xi , con ai = , para i = 1, . . . , n,
i=1
n
y D1 como sigue
n
X n−1 1
D1 = bi Xi , con b1 = y bi = − , para i = 2, . . . , n.
i=1
n n
Entonces,
Cov = E D1 (X̄ − µ) , puesto que E(D1 ) = 0,
= E(D1 X̄)
= E (X1 − X̄)X̄
= E X1 X̄ − E X̄ 2
| {z }
σ2
n
+µ2
n
!
X12 1 σ2
X
2
= E + X1− Xi+µ
n n i=2
n
n 2
1 2
1 X σ 2
= E X + E(X1 ) E(Xi ) − +µ
n | {z 1 } n i=2
n
σ 2 +µ2
2
σ2
σ 1 (n − 1) 2
= + µ2 + µ − + µ2
n n n n
σ2 n 2 σ2
= + µ − − µ2 = 0
n n n
De esta forma probamos que las v.a. X̄ y D1 no están correlacionadas, además, como las
variables son normales, entonces, también son independientes. Luego, por un procedimiento
similar se puede probar que X̄ es independiente de Di = Xi − X̄ para i = 2, . . . , n. Ahora, ten-
emos X̄, D1 , . . . , Dn v.a. independientes, por el lema 2.6.1 sabemos que X̄ y U = ni=1 Di2 =
P
Pn 2 2 U
i=1 (Xi − X̄) son independientes, finalmente por el lema 2.6.2 X̄ y S = n−1 son indepen-
dientes.
(n−1)S 2
Distribución de σ2
Vamos a usar un argumento inductivo para establecer la distribución de S 2 . Para ello usamos
la notación X̄k y Sk2 para definir la media muestral y la varianza muestral sobre las primeras
k observaciones. Se puede mostrar que
2
(n − 1)Sn2 (n − 2)Sn−1 n−1
2
= 2
+ 2
(Xn − X̄n−1 )2 , (2.17)
σ σ nσ
2
donde X̄n−1 es la media muestral construida con las n − 1 primeras observaciones y Sn−1 es
la varianza muestral calculada con las primeras n − 1 observaciones.
n n Pn−1 !2
2 n−1X 2
X Xn + i=1 Xi
(n − 1)S = (Xi − X̄n ) = Xi −
n − 1 i=1 i=1
n
n 2
X Xn n − 1
= Xi − − X̄n−1
i=1
n n
n 2 X n 2
X Xn X̄n−1 Xn − X̄n−1
= Xi − X̄n−1 − + = (Xi − X̄n−1 ) −
i=1
n n i=1
n
n
" 2 #
X (X n − X̄ n−1 ) X n − X̄ n−1
= (Xi − X̄n−1 )2 − 2(Xi − X̄n−1 ) +
i=1
n n
n−1 n−1
X
2 2Xn − X̄n−1 X
= (Xi − X̄n−1 ) + (Xn − X̄n−1 ) − 2 (Xi − X̄n−1 ) −
i=1
n i=1
n 2
Xn − X̄n−1 X Xn − X̄n−1
2 (Xn − X̄n−1 ) +
n i=1
n
n−1
X (Xn − X̄n−1 )2 (Xn − X̄n−1 )2
= (Xi − X̄n−1 )2 + (Xn − X̄n−1 )2 − 2 +
i=1
n n
n−1
X (Xn − X̄n−1 )2
= (Xi − X̄n−1 )2 + (Xn − X̄n−1 )2 −
i=1
n
2 n−1
= (n − 2)Sn−1 + (Xn − X̄n−1 )2
n
q
3 2
, entonces 3σ2 2 (X3 − X̄2 ) es N (0, 1), por lo
Pero la distribución de (X3 − X̄2 ) es N 0, 2
σ
2
tanto 3σ 2
(X2 − X1 )2 ∼ χ21 . Además vimos que S22 y X̄2 son independientes, y sumado a la
propiedad aditiva de la distribución χ2 , tenemos que 2S32 ∼ χ22 .
(k−1)Sk2
Siguiendo con la inducción, suponga que n = k, σ2
∼ χ2k−1 .
Para n = k + 1 tenemos que
02
kSk+1 (k − 1)Sk2 k
2
= 2
+ 2
(Xk+1 − X̄k )2 (2.18)
σ σ σ (k + 1)
(k−1)Sk2 k
De acuerdo a la hipótesis de inducción σ2
∼ χ2k−1 . Sólo falta demostrar que σ2 (k+1) (Xk+1 −
X̄k )2 ∼ χ21 y que es independiente de Sk2 . Pero como demostrado que X̄ es independiente de
S 2 , ahora (Xk+1 − X̄k ) ∼ N (0, σ 2 k+1
k
k
), entonces σ2 (k+1) (Xk+1 − X̄k )2 ∼ χ21 , con lo que queda
demostrado el teorema.
Ejemplo 2.6.1 En unas determinadas posiciones del control operativo, se conoce que la
cantidad de lı́quido con que una máquina embotelladora llena las botellas presenta una dis-
tribución normal con media µ y desviación tı́pica de σ = 1 decilitros. Se toma una m.a. de
tamaño 10 y se calcula la varianza muestral. Encuentre un par de valores b1 y b2 de manera
que
P b1 ≤ S 2 ≤ b2 = 0,9
(n − 1)S 2
∼ χ2n−1 ,
σ2
por lo que
(n − 1)S 2
2 (n − 1)b1 (n − 1)b2
= P 9b1 ≤ χ29 ≤ 9b2 ,
P b1 ≤ S ≤ b2 = P 2
≤ 2
≤
σ σ σ2
buscando los valores b1 y b2 tales que la probabilidad a la izquierda del menor sea 0,05 y la
probabilidad a la derecha del mayor sea 0,05, de la tabla surgen
3,33
9b1 = 3,33 → b1 = = 0,37,
9
y
16,92
9b2 = 16,92 → b2 = = 1,88.
9
Este teorema habla sobre la distribución lı́mite de v.a. cuando el tamaño de muestra
con el que se trabaja tiende a infinito, es decir que habla sobre convergencia de v.a.. Antes de
presentar y demostrar el TCL, vamos a introducir algunos conceptos útiles sobre convergencia.
o, en forma equivalente,
lı́m P (|Xn − X| < ) = 1 (2.20)
n→∞
Teorema 2.7.1 (La Ley Débil de los Grandes Números) Sean X1 , X2 , . . . , v.a.
independientes e idénticamente distribuidas con E(Xi ) = µ, y V(Xi ) = σ 2 < ∞. Definimos
X̄n = 1/n ni=1 Xi . Entonces, para todo > 0
P
Prueba:
La prueba se basa en la desigualdad de Markov. Ésta postula que
E (X 2 )
P (|X| > k) ≤ ,
k2
donde E(X) = µ.
Nota 1 Prueba del teorema de Markov Supongamos que X es una v.a. continua y sea
f (x) la función de densidad de X. Calculamos el momento centrado de segundo orden,
Z ∞ Z −k Z k Z ∞
2 2 2 2
x2 f (x)dx,
E X = x f (x)dx = x f (x)dx + x f (x)dx +
−∞ −∞ −k k
Z −k Z∞ Z −k Z ∞
2 2 2 2
≥ x f (x)dx + x f (x)dx ≥ k f (x)dx + k f (x)dx,
−∞ k −∞ k
= k [P (X ≤ −k) + P (X ≥ k)] = k 2 P (|X| ≥ k),
2
lo que equivale a
E (X 2 )
P (|X| ≥ k) ≤ .
k2
Ası́ queda demostrado el teorema de Markov.
E(X̄n − µ)2 σ2
P (|X̄n − µ| ≥ ) ≤ = .
4 n4
Entonces,
σ2
P (|X̄n − µ| < ) = 1 − P [(X̄n − µ)2 ≥ 2 ] > 1 − −→ 1 cuando n −→ ∞,
n4
ası́ queda probado el teorema.
Esta ley sostiene que, bajo condiciones generales, la media muestral se aproxima a la
poblacional cuando n −→ ∞.
Note que la similitud de las definiciones 2.20 y 2.21. Aunque ellas lucen similar, son defini-
ciones diferentes, de hecho la definición 2.21 es mucho más fuerte. Recuerde la definición de
variable aleatoria, es una función valuada en los reales sobre el espacio muestral S. Si un
espacio muestral S tiene elementos s, entonces Xn (s) y X(s) son todas las funciones definidas
sobre S. La definición 2.21 expone que Xn converge a X casi seguro si las funciones Xn (s)
convergen a X(s) para todos los s ∈ S excepto, quizá, para s ∈ N , con N ⊂ S y P (N ) = 0.
Veamos unos ejemplos para ver la diferencia.
etc. Definimos, también, X(s) = s. Es fácil ver que Xn converge en probabilidad a X. Mientras
n → ∞, P (|Xn − X| > ) es igual a la probabilidad de un intervalo de s valores cuyo largo se
va hacia cero. Sin embargo, Xn no converge casi seguro a X. En efecto, no hay ningún valor
de s ∈ S para el que Xn (s) → s = X(s). Para todo s, el valor de Xn (s) alterna entre s y s + 1
infinitamente. Por ejemplo, si s = 83 , X1 (s) = 1 83 , X2 (s) = 1 83 , X3 (s) = 83 , X4 (s) = 83 , X5 (s) =
1 83 , X6 (s) = 38 , etc. No hay punto para el cual haya convergencia.
Teorema 2.7.2 (La Ley Fuerte de los Grandes Números) Sean X1 , X2 , . . . , v.a.
independientes e idénticamente distribuidas con E(Xi ) = µ, y V(Xi ) = σ 2 < ∞. Definimos
X̄n = 1/n ni=1 Xi . Entonces, para todo > 0
P
P lı́m |X̄n − µ| < = 1,
n→∞
que es, la v.a. n 1 − X(n) converge en distribución a una v.a. exponencial.
Teorema 2.7.3 (Teorema central del Lı́mite) Sea X1 , . . . , Xn una secuencia de v.a.
independientes e idénticamente distribuidas cuya función generatriz de momentos (fgm), E etX ,
existe en un entorno de cero. Sea E[Xi ] = µ y V[Xi ] = σ 2 > 0, y ambos µ y σ 2 son finitos.
Definimos X̄n = (1/n) ni=1 Xi . Entonces, para cualquier −∞ < x < ∞,
P
√ X̄n − µ d
lı́mn −→ N (0, 1)
n→∞ σ
Prueba:
√ X̄n −µ
La demostración se hará mostrando que la fgm de n σ converge a la fgm de una v.a. con
t2
distribución N (0, 1), e 2 . En primer lugar definimos Yi = (Xi − µ)/σ, y MY (t) la fgm de Yi .
Tenemos n n
X Y 1 X (Xi − µ) √ (X̄n − µ)
√i = √ = n ,
i=1
n n i=1
σ σ
luego,
"
n
( )#
X Y t
√ P √
M n(X̄n −µ)/σ (t) = M ni=1 Yi / n (t) = E exp t √i =MPn
Yi √ ,
i=1
n i=1
n
por la independencia de las v.a. Además, dado el hecho de que las v.a. son idénticamente
distribuidas se tiene que
n n
Y t t
M√n(X̄n −µ)/σ (t) = E exp √ Yi = MY √ .
i=1
n n
h in
Ahora, vamos aproximar la fgm MY √tn por medio de un desarrollo de Taylor alrede-
dor de cero,
∞ √
n)k
t X (k) (t/
MY √ = MY (0)
n k=0
k!
(k)
donde MY (0) = (dk /dtk )MY (t)|t=0 .
h t i
(0) √ Y (1) (2)
Usando el hecho que MY = MY √t |t=0 = E e n |t=0 = 1, My = 0 and My = 1
n
(por construcción, la media y la varianza de Y son cero y uno), tenemos
√
(t/ n)2
t t
MY √ =1+ + RY √ ,
n 2! n
donde RY es el término residual en la expansión de Taylor,
∞ √
X (k) (t/ n)k
MY (0)
k=3
k!
Una aplicación del teorema de Taylor muestra que para t 6= 0 y fijo tenemos
√
RY (t/ n)
lı́m √ = 0.
n→∞ (t/ n)2
xi ∼ Ber(p). Sabemos que E(Xi ) = p, y que V(Xi ) = p(1 − p). Aplicando el TCL obtenemos
√ X̄ − p d
np −→ N (0, 1)
p(1 − p)
o
Y ∼ p(1 − p)
X̄ = = N p, ,
n n
lo que implica que
Y = nX̄ ∼
= N [np, np(1 − p)] .
Ejemplo 2.7.5 El candidato A considera que puede ganar una elección en una ciudad si
obtiene al menos 55 % de los votos en el distrito I. Además, suponga que alrededor del 50 % de
los votantes en la ciudad están a su favor. Si n = 100 votantes vienen a votar en el distrito I,
considerando a éstos como una m.a. de votantes de la ciudad, ¿cuál es la probabilidad de que
el candidato A reciba al menos 55 % de los votos? Sea Y el número de votantes en el distrito
I que está a favor del candidato A. Tenemos que calcular el valor de la probabilidad
P (Y /n ≥ 0,55).
Cuando p, la probabilidad de que un votante seleccionado al azar, esté a favor del candidato
A, sea p = 0,5. Entonces Y tiene una distribución B(100, 0,5). Sabemos que Y = ni=1 Xi ,
P
donde Xi es la variable que vale uno si el votante está a favor de A, o cero en caso contrario.
Por otro lado, usando el TCL, podemos aproximar esta probabilidad usando
P (Y /n ≥ 0,55) = P (Y ≥ 55) =
Y − 50 55 − 50
= P √ ≥√ ≈ P (Z ≥ 1) = 0,1587.
100 × 0,5 × 0,5 100,5 × 0,5
Pero como vemos hay una diferencia importante entre la aproximación y la probabilidad
real. Esto se debe a que con la distribución binomial estamos calculando la probabilidad 1 −
P (Y < 55), en particular P (Y < 55) en escala discreta significa menor o igual que 54,
mientras que en escala continua significa menor que 54.5. Por lo que la aproximación Normal
será mejor la siguiente
Y − 50 54,5 − 50
P √ ≥√ ≈ 1 − P (Z ≤ 0,9) = 1 − 0,8159 = 0,1841.
100 × 0,5 × 0,5 100 × 0,5 × 0,5
Figura 2.6
P (Y ≤ a) ≈ P (Y ≤ a + 0,5),
P (Y ≥ b) ≈ P (Y ≥ b − 0,5),
P (Y = c) ≈ P (c − 0,5 ≤ Y ≤ c + 0,5),
Ejemplo 2.7.6 Suponga X1 , . . . , Xn una m.a. de una v.a. Binomial Negativa (BN ) de
parámetros BN (r, p). Esta distribución mide número de experimentos de Bernoulli de parámetro
p independientes realizados hasta la consecución del k-ésimo éxito. Además
!
x−1
f (x|p, r) = pr (1 − p)(x−r)
r−1
y
r(1 − p) r(1 − p)
E[X] = , y V[X] = ,
p p2
y el TCL nos dice que
√
n X̄ − r(1 − p)/p
p
r(1 − p)/p2
que es una proceso de cálculo largo. Sin embargo, si utilizamos la aproximación via TCL
tenemos
p p !
30(X̄ − 10) 30(11 − 10)
P (X̄ ≤ 11) = P √ ≤ √ ,
20 20
≈ P (Z ≤ 1,2247) = 0,8888.
d
a) Xn Yn −→ aX,
d
b) Xn + Yn −→ X + a.
lı́m Sn2 /σ 2 = 1.
n→∞
Prueba:
La expansión de Taylor alrededor de Yn = θ es
El teorema de Taylor (no lo demostraremos, pero lo usaremos) dice que el término residual
p
converge a cero cuando Yn −→ θ. De la aproximación se tiene que
√ √
n[g(Yn ) − g(θ)] ≈ g 0 (θ) n(Yn − θ).
√ d
Como n(Yn − θ) −→ N (0, σ 2 ), Entonces, por el teorema de Slutsky tenemos que
√ √
lı́m n [g(Yn − g(θ))] = lı́m g 0 (θ) n(Yn − θ),
n→∞ n→∞
con lo cual
√ d
g 0 (θ) n(Yn − θ) −→ N [0, σ 2 g 0 (θ)2 ],
parámetro Estimador
Pn
Xi
p pb = i=1
n
µ X̄
0
σ2 S 2, S 2
Cuadro 3.1
Es posible obtener muchos estimadores para un mismo parámetro, pero hay que decidir
cuáles son buenos y cuáles son los mejores. Ahora, desde qué perspectiva uno decide que un
41
CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 42
estimador es mejor que otro. Vamos a ver varias perspectiva o propiedades para determinar si
un estimador mejor que otro. Estas propiedades son las siguientes:
Insesgamiento.
Suficiencia.
Consistencia.
3.2.1. Insesgamiento
2
E(S 2 ) = n − 1 ∴
σ
0 n−1 2
E(S 2 ) = σ .
n
Sea X1 , . . . , Xn una m.a. de dicha variable aleatoria. Vamos a encontrar un estimador inses-
gado de θ.
1 1
Dado que X ∼ Exp (θ), sabemos que E(X) = θ
, con lo cual, θ = E(X)
. Por otro lado
sabemos que !
n n n
1X 1X 1X
E(X̄) = E Xi = E(Xi ) = µ = µ,
n i=1 n i=1 n i=1
es decir que X̄ es un estimador insesgado de E(X), lo cual tiene lógica tomar como estimador
de θ, el estadı́stico θb = X̄1 . Para comprobar si es insesgado, necesitamos su función de densidad.
Observemos que Xi ∼ γ 1, 1θ , tiene distribución gamma1 . Entonces, por la propiedad de
Ası́, la esperanza del estimador θb = n/T (X) = 1/X̄ viene dada por
Z ∞ Z ∞
n 1 −θt nθ 1
E(θ)
b = n n−1
θ t e dt = θn−1 t(n−1)−1 e−θt dt,
0 t (n − 1)! n − 1 0 (n − 2)!
pero Z ∞ Z ∞
1 1
θn−1 t(n−1)−1 e−θt dt = θn−1 t(n−1)−1 e−θt dt = 1,
0 (n − 2)! 0 Γ(n − 1)
1
La densidad Gamma(α, β) viene dada por
1
y α−1 e−y/β , y > 0
Γ(α)β 2 α
concluye que
n
E(θ)
b =θ ,
n−1
de lo que deducimos que θb no es un estimador insesgado de θ. Sin embargo el estimador
n−1
θe =
nX̄
3.2.2. Suficiencia
Ejemplo 3.2.3 Supongamos que un experimento con dos posibles resultados, éxito, y fra-
caso, con probabilidad de éxito igual a p, se repite n veces, de manera que X1 , . . . , Xn es una
m.a. de una v.a. Bernulli(p). Si calculamos el valor del estadı́stico Y = ni=1 Xi , que es el
P
número de éxito en las n pruebas, ¿proporciona la muestra más información sobre p aparte de
la que aporta el valor observado de Y ?
Ası́,
py (1 − p)n−y 1
P (X1 = x1 , . . . , Xn = xn |Y = y) = ! = !,
n n
py (1 − p)n−y
y y
que no depende de p, lo que significa que una vez conocido el valor del total de éxitos, no
queda más información útil en la muestra sobre la probabilidad de éxito p; por ejemplo, la
información acerca del orden en el que aparecen los éxitos en la muestra es superflua para
conocer p.
La verosimilitud
n
Y
L(p; x1 , . . . , xn ) = f (xi ; p)
i=1
n
Y
= pxi (1 − p)1−xi
i=1
Pn Pn
xi
= p i=1 (1 − p)n− i=1 xi
= g(t, p) × 1,
Pn
con t = i=1 xi y h(x1 , . . . , xn ) = 1.
Ejemplo 3.2.5 Sea X1 , . . . , Xn una m.a. de una v.a. con distribución N (µ, σ2 ). Vamos a
obtener estadı́sticos suficientes para
a) σ 2 , si µ es conocido,
b) µ, si σ 2 es conocido,
c) µ y σ 2 .
La verosimilitud de la muestra es
n n
2
Y
2
Y 1 1 2
L(µ, σ ; x1 , . . . , xn ) = f (xi ; µ, σ ) = √ exp − 2 (xi − µ)
i=1 i=1 2πσ 2 2σ
( n
)
1 1 X
= √ n exp − 2 (xi − µ)2 I(−∞,inf ty) (xi ).
2πσ 2 2σ i=1
Aquı́ ya tenemos una factorización adecuada para el caso a), tomando h(x1 , . . . , xn ) = I(−∞,inf ty) (xi ).
Por tanto, T = ni=1 (xi − µ)2 es suficiente para σ 2 .
P
ya que el término cruzado se anula. Por tanto, la verosimilitud se puede factorizar de la forma
( n
)
2 1 1 X 2
n n
2
o
L(µ, σ ; x1 , . . . , xn ) = √
n exp − (xi − x̄) exp − 2 (x̄ − µ) .
2πσ 2 2σ 2 i=1 2σ
3.2.3. Consistencia
Suponga que se tira una moneda n veces; la probabilidad que salga cara es p. Si los lanza-
mientos son independientes, entonces Y , el número de caras que salen en los n lanzamientos,
tiene una distribución binomial. Si se desconoce el valor real de p, la razón muestral Y /n
constituye un estimador de p. ¿Qué efecto tiene en este cociente muestral el incremento del
número de lanzamientos, n? Nuestra intuición sugiere que conforme n crece, Y /n se aproxime
al valor verdadero de p. Es decir, nuestro estimador se aproximarı́a a la cantidad que se desea
estimar a medida que aumenta la cantidad de información de la muestra.
Definición 3.2.4 Se dice que θb es un estimador consistente de θ si, para cualquier número
positivo ,
lı́m P (|θbn − θ| ≤ ) = 1,
n→∞
o
lı́m P (|θbn − θ| > ) = 0.
n→∞
= b 2 + lı́m V(θ).
lı́m [B(θ)] b
n→∞ n→∞
Ejemplo 3.2.6 Sea X1 , . . . , Xn una m.a. de una v.a. con media µ y varianza σ2 < ∞, se
Pn
puede demostrar que X̄n = i=1 Xi es un estimador consistente de µ.
Anteriormente vimos que E(X̄n ) = µ y que V(X̄n ) = σ 2 /n. Como X̄n es insesgado para µ
sólo resta ver qué pasa con V(X̄n ) cuando n −→ ∞. Pero
σ2
lı́m V(X̄n ) = lı́m = 0.
n→∞ n→∞ n
Entonces, podemos concluir según el teorema 3.2.2 que X̄n es un estimador consistente µ.
Teorema 3.2.3 Suponga que θb1n es estimador consistente de θ1 y que θb2n es estimador
consistente de θ2 , entonces
p
a) θb1n + θb2n −→ θ1 + θ2 ,
p
b) θb1n θb2n −→ θ1 θ2 ,
p
c) θb1n /θb2n −→ θ1 /θ2 , siempre que θ2 6= 0,
p
d) Si g(.) es una función de valores reales continua en θ, entonces g(θbn ) −→ g(θ).
Ejemplo 3.2.7 Sea X1 , . . . , Xn una m.a. de una v.a. tal que E(Xi ) = µ, E(Xi2 ) = µ02 y
E(Xi4 ) = µ04 son finitas. Se puede demostrar que
n
1 X
Sn2 = (Xi − X̄n )2
n − 1 i=1
es un estimador consistente de σ 2 .
otro lado vimos en el ejemplo 3.2.6 que X̄ es un estimador consistente de µ. Como la función
p
g(.) = x2 es continua para todo x, implica que X̄ 2 −→ µ2 . Por lo tanto,
n
1X 2 p
Xi − X̄n2 −→ µ02 − µ2 = σ 2 .
n i=1
Ya que n/(n − 1) es una serie de constantes que convergen a 1 cuando n −→ ∞, podemos
concluir que Sn2 converge en probabilidad a σ 2 . De esta manera queda demostrado que Sn2 es
un estimador consistente para σ 2 .
0 1
P2
Sin otros cálculos adicionales ¿Cómo demostrarı́a que S 2 = n i=1 (Xi − X̄n )2 ? es un
también un estimador consistente para σ 2 .
0 0
Para el caso de S 2 , su sesgo es B(S 2 ) = − n1 σ 2 , sólo resta calcular su varianza, pero
0 n−1 2
sabemos que S 2 = n
S , con lo cuál
2
2(σ 2 )2
02 n−1 n−1
V(S ) = = 2(σ 2 )2 2 ,
n n−1 n
para todo θ. Es decir que φ(T ) es un mejor estimador insesgado para τ (θ).
Ejemplo 3.2.9 Sea X1 y X2 una muestra de una v.a. X ∼ N (θ, 1). El estadı́stico X̄ =
1
2
(X1 + X2 ) tiene
1
E X̄ = θ y V X̄ = .
2
Considere condicionar sobre X1 , el cuál no es un estadı́stico suficiente. Sea φ(X1 ) = E X̄|X1 ,
se puede probar que E [φ(X1 )] = φ y V [φ(X1 )] ≤ V X̄ , por lo que φ(X1 ) serı́a un mejor
estadı́stico que X̄. Sin embargo,
φ(X1 ) = E X̄|X1
1 1
= E(X1 |X1 ) + E(X2 |X1 )
2 2
1 1
= X1 + θ,
2 2
pero como se aprecia, φ(X1 ) no es un estimador.
Pero, ¿cómo sabemos si el estimador que tenemos es mejor estimador insesgado? la respues-
ta a esta pregunta se podrı́a obtener mediante el siguiente ejemplo. Suponga que W satisface
E(W ) = τ (θ), y que tenemos otro estimador, U , que satisface E(U ) = 0 para todo θ, por lo
que U es un estimador insesgado de 0. Suponga el estimador
φa = W + aU,
donde a es una constante que satisface E(φa ) = θ y por lo tanto es un estimador insesgado de
τ (θ). Luego, la varianza de φa está dada por
Ahora, si para algún valor θ = θ0 , Cov(W, U ) < 0, entonces podemos hacer 2aCov(W, U ) +
a2 V(U ) < 0 eligiendo a ∈ [0, −2aCov(W, U )/V(U )]. Entonces, φa será un mejor estimador
insesgado que W para θ = θ0 . En forma similar, si Cov(W, U ) < 0 para algún θ = θ0 , W
tampoco será el mejor estimador insesgado. Por tanto, la relación de W con el estimador de
0 (cero) es crucial en la evaluación de W como el mejor estimador insesgado.
Finalmente, la forma más fácil para ver si un estimador W es el mejor estimador insesgado,
es viendo si la varianza de este alcanza la cota de Frechet-Crámer-Rao. Antes de determinar
esta cota, vamos a definir un concepto importante en inferencia estadı́stica, la matriz de
información de Fisher .
Definición 3.2.5 Sea X una v.a. con función de densidad continua y dependiente de un
parámetro θ. Se define la cantidad de información de Fisher de X sobre θ como
( 2 ) 2
∂ log f (x; θ) ∂
I(θ) = E = −E log f (x; θ)
∂θ (∂θ)2
λx e−λ
p(x; λ) = , x = 0, 1, 2, . . .
x!
el logaritmo natural es
log p(x; λ) = x log λ − λ − log x!,
y su derivada
∂ log p(x; λ) x x−λ
= −1= ,
∂λ λ λ
elevando al cuadrado y tomando esperanza tenemos
" 2 #
x−λ V(X) 1
E = 2
= .
λ λ λ
b ≥ I −1 (θ).
V(θ) n
Ejemplo 3.2.11 Se puede demostrar que para una v.a. P oisson(λ), el estimador θb = X̄
es eficiente.
n
!
b = 1V nλ λ
X
V(θ) Xi = = .
n2 i=1
n 2 n
Hemos visto las diferentes propiedades que un estimador debe tener para considerarlo como
una buena aproximación del verdadero valor del parámetro. En esta parte del curso vamos a
ver diferentes métodos para encontrar estimadores puntuales de un parámetro desconocido θ.
En esta sección analizaremos uno de los métodos más antiguos para obtener estimadores
puntuales: el método de los momentos.
µ0k = E(X k )
54
CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 55
µ0k = g(θ),
Ejemplo 4.1.1 Supongamos que tenemos una población con distribución N (µ, σ2 ), de la
que se obtiene una m.a. de tamaño n, X1 , . . . , Xn . Se desea obtener estimadores de µ y σ 2 ,
0
por el método de los momentos. Tenemos θ1 = µ01 = µ y θ2 = σ 2 , y sabemos que σ 2 = µ02 − µ12 .
También, conocemos que m1 = X̄ y m2 = n1 ni=1 Xi2 , por lo tanto hay que resolver
P
X̄ = µ,
n
1 X
Xi2 = µ2 + σ 2 .
n i=1
y
n n
1X 2 1X
σb2 = Xi − X̄ 2 = (Xi − X̄)2 .
n i=1 n i=1
Ejemplo 4.1.2 Sea X1 , . . . , Xn una m.a. de una variable aleatoria con distribución U (0, θ),
de la que se desconoce el valor de θ. Aplique el método de momentos para obtener un estimador
del parámetro θ.
Además, sabemos que el primer momento muestral es la media muestral X̄. Igualando el
momento muestral con poblacional tenemos
θ b
X̄ = ∴ θ = 2X̄.
2
Ejemplo 4.1.3 Sea X1 , . . . , Xn una m.a. de una v.a. con función de densidad dada por
Γ(2θ) θ−1
f (x|θ) = 2y (1 − y)θ−1 , 0 ≤ x ≤ 1.
[Γ(θ)]
Determinar el estimador del método de momentos para θ.
La variable X tiene distribución β(θ, θ). Recuerde que una v.a. con distribución β(α, δ)
tiene densidad dada por
Γ(α + δ) α−1
f (x|α, δ) = x (1 − x)δ−1 , 0 ≤ x ≤ 1,
Γ(α)Γ(δ)
y que E(X) = α
α+δ
y σ2 = αδ
(α+δ)2 (α+δ+1)
= µ02 − (µ01 )2 . para nuestro caso tenemos que
θ 1
m01 = X̄ ∴ X̄ =∴ X̄ = ,
2θ 2
n
para los momentos de orden 2 tenemos m02 = n i=1 Xi2 , y
1
P
θ2
σ2 = ,
4θ2 (2θ + 1)
reemplazando e igualando por el momento muestral tenemos,
θ2 θ2 1 1 1
m02 = 2
+ (m0 2
1 ) ∴ m 0
2 = 3 2
− ∴ m02 − =
4θ (2θ + 1) 8θ + 4θ 4 4 8θ + 4
reordenando un poco tenemos
4m02 − 1 1 1 1 1
= ∴ 0
= 2θ + 1 ∴ 2θ = 0
−1
4 4 2θ + 1 4m2 − 1 4m2 − 1
1 − 2m02
2θ = 2 ∴
4m02 − 1
1 − 2m02
θb = .
4m02 − 1
Ejemplo 4.1.4 Sea X1 , . . . , Xn una m.a de una v.a. X ∼ γ(α, β). Determinar por el
método de momentos los estimadores para α y β.
µ01 = αβ = m01 = X̄
n
1X 2
µ02 2
= αβ + α β = 2 2
m02 = X
n i=1 i
X̄ 2 nX̄ 2
α
b = Pn = n .
( i=1 Xi2 /n) − X̄ 2
P 2
i=1 (Xi − X̄)
Si sustituimos α
b en la primera ecuación, obtenemos
Pn
X̄ i=1 (Xi− X̄)2
βb = = .
α
b nX̄
De teorema de factorización 3.2.1 vemos que los estadı́sticos suficientes son ni=1 Xi y ni=1 Xi .
P Q
Como los estimadores del método de momentos α b y βb no son funciones de estos estadı́sticos
suficientes, estos estimadores no son eficientes, o de varianza mı́nima.
Ejemplo 4.2.1 Consideremos el experimento de lanzar una moneda dos veces de forma
independiente. Sea la v.a. X : Número de caras obtenidas en los dos lanzamientos. Entonces,
X ∼ Bin(2, θ), donde θ = P (cara) ∈ {0,2; 0,8}. Es decir, la función de cuantı́a es
!
2
p(x|θ) = θx (2 − θ)1−x , x = 0, 1, 2.
x
Ası́, la función de cuantı́a de X según los posibles valores de θ viene dada en la tabla siguiente
Ası́, la idea del método de máxima verosimilitud consiste en estimar el parámetro descono-
cido θ, con el valor para el cual la probabilidad de que ocurra lo que hemos observado sea
máxima, es decir, seleccionar el valor de θ más creı́ble, o en otras palabras, más verosı́mil. Es
decir, tomar el valor de θ para el cual la probabilidad de la muestra observada sea máxima.
Sin embargo, en el caso continuo, la probabilidad de un valor concreto de la muestra es cero.
En este caso, se generaliza el método, tomando el valor de θ para el cual la densidad de la
muestra observada sea máxima.
Definición 4.2.1 Sea x1 , . . . , xn una realización de una m.a proveniente de una población
cuya distribución pertenece a la familia F = {Fθ : θ ∈ Θ}, donde θ ∈ RL . El estimador
máximo verosı́mil (EMV) de θ es la cantidad que verifica
θb = máxL(θ; x1 , . . . , xn )
θ∈Θ
o
∂
l(θ; x1 , . . . , xn ) = 0, i = 1, 2, . . . , L.
∂θi
Como la función logaritmo es monótona creciente, entonces los valores máximos de las fun-
ciones l(θ; x1 , . . . , xn ) y l(θ; x1 , . . . , xn ) se alcanzan en el mismo punto θb1 , . . . , θbL .
Ejemplo 4.2.2 Sea X1 , . . . , Xn una m.a de una v.a. X ∼ N (µ, σ2 ). Obtenga los EMV de
µ y σ2.
y su logaritmo
n
n 2 1 X
(xi − µ)2 .
l(θ; xn , . . . , xn ) = − log 2πσ − 2
2 2σ i=1
Las derivadas con respecto a µ y σ 2 son
n
∂ 1 X
=0 ∴ (xi − µ) = 0,
∂µ σ 2 i=1
Pn 2
∂ n i=1 (xi − µ)
= 0 ∴ − + = 0.
∂σ 2 2σ 2 2σ 4
Resolviendo este sistema de ecuaciones tenemos que
1 0
µ b2 =
b = X̄ y σ (Xi − X̄)2 = S 2 .
n
0
Con lo que vemos que la media muestral X̄ y la varianza sesgada muestral S 2 son los EMV
de µ y σ 2 para una v.a. X ∼ N (µ, σ 2 ).
ahora, el EMV de ω es
Un ejemplo puede ser el siguiente: El estimador EMV de θ2 puede ser X̄ 2 . Otro, el EMV
p p
de p(1 − p) de una variable binomial puede ser pb(1 − pb), donde pb es el EMV de p.