Infer en CIA

INFERENCIA ESTADISTICA
Departamento de Estadı́stica
Facultad de Ciencias Fı́sicas y Matemáticas
Curso: 2010
Índice general
1. Introducción 5
1.1. Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . 9
1.3.1. Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2. Caso Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Distribuciones Muestrales 15
2.1. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Distribución χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5. Distribución relativa a la media muestral . . . . . . . . . . . . . . . . . . . . . 24
2.6. Distribución en el muestreo de la varianza muestral . . . . . . . . . . . . . . . 28
2.7. El Teorema Central del Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . 32
3. Propiedades de los Estimadores 41
3.1. Estimadores y estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2
ÍNDICE GENERAL Página 3
3.2.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.4. Estimadores de varianza mı́nima . . . . . . . . . . . . . . . . . . . . . . 50
4. Métodos de Estimación Puntual de Parámetros 54
4.1. Método de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2. El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 57
5. Estimación por Intervalos 61
5.1. Método del Pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.1. Método de la cantidad pivotal . . . . . . . . . . . . . . . . . . . . . . . 63
5.2. Intervalo de confianza para µ, con σ 2 conocida y desconocida en v.a. con dis-
tribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.3. Intervalo de confianza para σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.4. Intervalo de confianza para la diferencia de medias con varianzas conocidas . . 67
5.5. Intervalo de confianza para µ1 − µ2 , con varianzas desconocidas pero iguales . 69
5.6. Intervalo de confianza para el cociente de varianzas . . . . . . . . . . . . . . . 71
5.7. Intervalos de confianza para muestras grandes . . . . . . . . . . . . . . . . . . 73
5.8. Intervalo de confianza asintótico para una proporción . . . . . . . . . . . . . . 74
6. Pruebas de Hipótesis Paramétricas 76
6.1. Elementos de una prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 76
6.2. Error tipo I y II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.3. Potencia de una prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.4. Cálculo de probabilidades de significación . . . . . . . . . . . . . . . . . . . . . 84
6.5. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Prof. Dr. A. Rodriguez Inferencia Estadı́stica

ÍNDICE GENERAL Página 4
6.6. Pruebas Uniformemente Más Potentes (UMP) . . . . . . . . . . . . . . . . . . 89
6.7. Prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 91
7. Pruebas de hipótesis no Paramétricas 95
7.1. Modelo General de Desplazamiento de dos Muestras . . . . . . . . . . . . . . 95
7.2. Prueba de Rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2.1. Prueba para muestras pareadas: Prueba de Rangos con Signo de Wilcoxon 97
7.2.2. Prueba para muestras independientes . . . . . . . . . . . . . . . . . . . 100
7.3. Prueba de Kruskal-Wallis para un modelo de un factor . . . . . . . . . . . . . 104
8. Ajuste de Distribuciones 107
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2. Pruebas χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2.1. Prueba χ2 de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . 107
8.2.2. Prueba χ2 para independencia . . . . . . . . . . . . . . . . . . . . . . . 109
8.2.3. Prueba χ2 para homogeneidad . . . . . . . . . . . . . . . . . . . . . . . 111
8.3. Prueba Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Capı́tulo 1
Introducción
1.1. Muestra aleatoria
En una muestra aleatoria o de probabilidad conocemos las posibilidades de que un elemento

de la población se incluya o no en la muestra. Con este criterio de selección, se puede describir
matemáticamente qué tan objetivas son las estimaciones y la inferencia que se realiza con la
muestra. Hay cuatro métodos de muestreo aleatorio:
1. Muestreo sistemático
2. Muestreo estratificado
3. Muestreo de racimo
4. Muestreo aleatorio simple
Muestreo sistemático
En el muestreo sistemático, los elementos son seleccionados de la población dentro de un

intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. Si se tuviera
que entrevistar a cada vigésimo estudiante de una universidad, escogerı́a un punto de inicio
aleatorio entre los primeros 20 nombres del directorio estudiantil y luego se seleccionarı́a cada
veintavo nombre de ahı́ en adelante.
5
CAPÍTULO 1. INTRODUCCIÓN Página 6
El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento de
la población tiene igual probabilidad de ser seleccionado, pero cada muestra no tiene una
probabilidad igual de ser seleccionada. Suponga que hay 100 empleados en una compañı́a y se
desea entrevistar una muestra de 10 de ellos seleccionando cada décimo número. Si se hubiera
seleccionado en forma aleatoria el valor inicial 5, entonces las muestras estarı́a compuestas
por el valor empleado numerado con el 5, 15, 25, 35, etc, entonces, por ejemplo, los empleados
numerados con 6, 7, 8 y 9 no tendrı́an ninguna probabilidad de ser seleccionado juntos, con lo
cual no todas las muestras posibles tienen la misma probabilidad de ocurrencia.
Muestreo estratificado
Para utilizar el muestreo estratificado, se divide a la población en grupos relativamente

homogéneos, llamados estratos. Después se utiliza uno de los siguientes planteamientos:
1. Se selecciona en forma aleatoria elementos de cada estrato. La cantidad de elementos

seleccionados será proporcional al tamaño del estrato en la población, es decir que el
estrato representará en la muestra el mismo tamaño proporcional que representa en la
población.
2. Se seleccionan en forma aleatoria igual cantidad de elementos en cada estrato y luego

se ponderan los resultados según la importancia relativa de cada estrato en la población
total.
La ventaja de este procedimiento de muestreo, es que si es diseñado correctamente, representa

mejor las caracterı́sticas de la población de referencia que los otros procedimientos.
Muestreo de racimo
En el muestreo de racimo se divide la población en grupos, o racimos, y luego se selecciona

uno de estos racimos en forma aleatoria, asumiendo que cada uno de ellos es representativo de
la población. La ventaja de este procedimiento de muestreo es que si es diseñado correctamente,
puede representar la población muy bien a un costo menor que el de otros procedimientos.

Muestreo aleatorio simple
El muestreo aleatorio simple (m.a.) selecciona muestras mediante métodos que permiten
que cada posible muestra tenga igual probabilidad de ser seleccionada y que cada elemento
de la población tenga una oportunidad igual de ser incluida en la muestra. Ilustremos esta
idea con un ejemplo. Supongamos que tenemos 4 alumnos {A, B, C, D}, y se quieren tomar
muestras de a dos, vemos que hay 6 posibles muestras de los 4 elementos de la población
tomados de a 2,
Muestra 1 AB
Muestra 2 AC
Muestra 3 AD
Muestra 4 BC
Muestra 5 BD
Muestra 6 CD
entonces, si asignamos la probabilidad 1/6 a cada una de las muestras, entonces estamos ante
una m.a. Además, asignando igual probabilidad a cada muestra queda determinada la proba-
bilidad de que cada elemento en la población sea seleccionado. En particular, la probabilidad
de que un elemento sea seleccionado es igual para todos e igual a
1 1
P (A) = P (AB) + P (AC) + P (AD) = 3 × =
6 2
1 1
P (B) = P (AB) + P (BC) + P (BD) = 3 × =
6 2
1 1
P (C) = P (AC) + P (BC) + P (CD) = 3 × =
6 2
1 1
P (D) = P (AD) + P (BD) + P (CD) = 3 × =
6 2
Desde ahora en adelante cuando se diga que se ha seleccionado una o más muestras de
una población se tomará en referencia el muestreo aleatorio simple. Esto es necesario porque
los principios del muestreo aleatorio simple son la base de la inferencia estadı́stica, es decir,
del proceso de hacer inferencia acerca de poblaciones a partir de información contenida en la
muestra.

1.2. Distribución de frecuencias
Para la obtención de las distribuciones de frecuencias de diferentes variables es necesario

contar con los datos, estos son colecciones de cualquier cantidad de observaciones relacionadas.
Podemos recopilar el número de teléfonos que diferentes empleados instalan en un dı́a determi-
nado o el número de teléfonos que instala un trabajador durante un dı́a en un perı́odo de varios
dı́as. Si la colección de datos ha sido obtenida mediante la selección aleatoria del trabajador,
entonces, estamos ante una m.a. de la variable X = número de teléfonos instalados.
Una distribución de frecuencia es una tabla en la que organizamos los datos en clases,
en decir, en grupos de valores que describen una caracterı́stica de los datos. Por ejemplo,
supongamos que tenemos las existencias promedios (en dı́as) para 20 tiendas de autoservicio,
la siguiente tabla resume la información.
Ordenamiento de datos para 2,0 3,8 4,1 4,7 5,5

las existencias promedio (en 3,4 4,0 4,2 4,8 5,5
dı́as) de 20 tiendas de 3,4 4,1 4,3 4,9 5,5
autoservicio 3,8 4,1 4,7 4,9 5,5
El inventario promedio es una caracterı́stica de las 20 tiendas de autoservicio.
Frecuencias
Clases
Absoluta Relativa Acumulada Acumulada relativa
2,0 a 2,5 1 0,05 1 0,05
2,6 a 3,1 0 0,00 1 0,05
3,2 a 3,7 2 0,10 3 0,15
3,8 a 4,3 8 0,40 11 0,55
4,4 a 4,9 5 0,25 16 0,80
5,0 a 5,5 4 0,20 20 1
Total 20 1
La distribución de frecuencias muestra el número de observaciones del conjunto de datos que

caen en cada una de las clases, además muestra la frecuencia relativa, acumulada y relativa
acumulada. La frecuencia relativa se define como la proporción de observaciones que repre-
senta cada clase; por ejemplo, en la columna frecuencia relativa de la tabla anterior, vemos
que el valor 0,4 muestra que el 40 % de las observaciones caen en la clase 3,8 - 4,3. La fre-
cuencia relativa es la primera aproximación a la función de densidad de una variable aleatoria.

La frecuencia acumulada muestra el número de observaciones que se acumulan hasta el valor

de la variable dado por lı́mite superior de la clase en la que se define; por ejemplo, en la
columna de frecuencia acumulada de la tabla anterior vemos que el valor 11 muestra la can-
tidad de observaciones acumuladas hasta el valores de la variable 4,3 (el lı́mite superior de la
clase). Finalmente, la frecuencia relativa acumulada muestra la proporción de observaciones
acumuladas hasta el valor superior de la clase en la que se define; por ejemplo, en la columna
frecuencia relativa acumulada vemos que el valor 0,55 muestra que el 55 % de las observaciones
se acumulan hasta el valor de la variable 4,3.
1.3. Transformaciones de variables aleatorias
1.3.1. Caso Univariado
La distribución de funciones de variables aleatorias es un elemento muy importante en la

inferencia estadı́stica ya que cuando se estiman parámetros poblacionales, la inferencia sobre
ellos es en base al conocimiento de la distribución del estimador, que casi en la mayorı́a de los
casos, es una transformación, función, de variables aleatorias.
Si X es una variable aleatoria con función de distribución f (x), entonces cualquier función
de X, digamos g(X), es también una variable aleatoria. Muchas veces g(X) es en sı́ misma
de interés, digamos que la definimos Y ≡ g(X). Puesto que Y es una función de X, podemos
describir el comportamiento de la probabilidad de Y en términos del comportamiento de X.
Formalmente, si se escribe y = g(x), la función g(x) define un mapa del espacio original de
X, X , a un nuevo espacio, Y, el espacio de la variable aleatoria Y . Es decir
g(x) : X → Y.
En nuestro caso, vamos a trabajar con transformaciones monotónicas o monotónicas por

tramos, es decir
u > v ⇒ g(u) > g(v) ó u > v ⇒ g(u) < g(v)
Si g(x) es monotónica creciente y Y es una v.a. continua, entonces la distribución acumu-

lada de Y será
FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P [{x ∈ X : g(x) ≤ y}]
Z
= fX (x)dx
{x∈X :g(x)≤y}
Z
= fX (x)dx
{x∈X :x≤g −1 (y)}
Z g −1 (y)
= fX (x)dx
−∞
= FX [g −1 (y)]
Si g(x) es monotónica decreciente y Y es una v.a. continua, entonces la distribución acumulada

de Y será
FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P [{x ∈ X : g(x) ≤ y}]
Z
= fX (x)dx
{x∈X :g(x)≤y}
Z
= fX (x)dx
{x∈X :x≥g −1 (y)}
Z ∞
= fX (x)dx
g −1 (y)
= 1 − FX [g −1 (y)]
El siguiente teorema resume la idea.
Teorema 1.3.1 Sea X una v.a. continua con función de distribución FX (x), sea Y = g(X)
y sean
X = {x : fX (x) > 0}
y
Y = {y : y = g(x) para algunos x ∈ X }.
1. Si g es una función creciente en X , FY (y) = FX [g −1 (y)] para y ∈ Y.

2. Si g es una función decreciente en X , FY (y) = 1 − FX [g −1 (y)] para y ∈ Y.
Ejemplo 1.3.1 Suponga X ∼ fX (x) = 1 si 0 < x < 1 y 0 en cualquier otro caso, una
distribución uniforme, U (0, 1), por lo tanto FX (x) = x si 0 < x < 1. Se quiere obtener la
función de distribución de la transformación Y = g(X) = − log(X). Puesto que
∂ ∂ 1
g(x) = [− log(x)] = − < 0, para 0 < x < 1,
∂x ∂x x
g(x) es una función decreciente. Como X tiene rango entre 0 y 1, − log(x) tendrá entre 0 y ∞,
es decir que Y = (0, ∞). Luego, para y > 0, y = − log(x) ⇒ x = e−y , por lo que g −1 (y) = e−y .
En consecuencia
FY (y) = 1 − FX [g −1 (y)] = 1 − FX (e−y ) = 1 − e−y , para y > 0.
Si quisiéramos la función de densidad el siguiente teorema nos muestra como obtenerla.
Teorema 1.3.2 Sea X una v.a. continua con función de densidad fX (x), sea Y = g(X),
donde g es una función monotónica. Sean
X = {x : fX (x) > 0}
y
Y = {y : y = g(x) para algunos x ∈ X }.
Suponga que fX (x) es continua en X y que g −1 (y) tiene derivada continua en Y. Entonces la
función de densidad de Y está determinada por

 f [g −1 (y)] ∂ g −1 (y) y∈Y
X ∂y
fY (y) =
 0 en cualquier otro punto
Ejemplo 1.3.2 Sea X ∼ Gamma(α, β), cuya función de densidad es

1
fX (x) = xα−1 e−x/β I(0,∞) (x),
(α − 1)!β α
donde α y β son constantes positivas. Suponga que se quiere encontrar la función de densidad
de la transformación g(X) = 1/X. Note que los conjunto soportes X e Y son el intervalo

(0, ∞). Si se define y = g(x), entonces g −1 (y) = 1/y, y ∂ −1

∂y
g (y) = −1/y 2 . Entonces, aplicando
el teorema 1.3.2 para y ∈ (0, ∞) tenemos

−1
∂ −1
fY (y) = fX [g (y)] g (y)
∂y
α−1
1 1 1
= α
e−1/(βy) 2
(α − 1)!β y y
α+1
1 1
= α
e−1/(βy)
(α − 1)!β y
Un caso especial conocida como función de densidad Gamma Inversa.
En muchas aplicaciones la función g puede no ser una función creciente ni decreciente. En

estos casos los resultados presentados no se pueden aplicar. Sine embargo, hay casos en los que
g es monotónica en algunos tramos y que permite obtener la densidad para la transformación
Y = g(X). El siguiente teorema resume la idea.
Teorema 1.3.3 Sea X una v.a. continua con función de densidad fX (x), sea Y = g(X),
y
X = {x : fX (x) > 0}.
Suponga que hay una partición A0 , A1 , . . . , Ak de X tal que P (X ∈ A0 ) = 0 y fX (x) es continua

en cada Ai . Además, suponga que existen funciones g1 (x), . . . , gk (x), definidas en A1 , . . . , Ak ,
que satisfacen
i g(x) = gi (x) para x ∈ Ai ,
ii gi (x) es continua en Ai ,
iii el conjunto Y = {y : y = gi (x) para algún x ∈ Ai } es el mismo para todo i = 1, . . . , k, y
iv gi−1 (x) tiene derivada continua en Y para todo i = 1, . . . , k.
Entonces,

 Pk f [g −1 (y)] ∂ g −1 (y) y∈Y
i=1 X i ∂y i
fY (y) =
 0 en cualquier otro punto

Ejemplo 1.3.3 Sea X ∼ N (0, 1) cuya función de densidad es

1 2
fX (x) = √ e−x /2 I(−∞,∞) (x).
2π
Considere Y = X 2 . La función g(x) = x2 es monotónica en (−∞, 0) y en (0, ∞). En conjunto
Y es (0, ∞). Aplicando el teorema 1.3.3 tenemos
A0 = {0};
√
A1 = (−∞, 0), g1 (x) = x2 , g1−1 (y) = − y;
√
A2 = (0, ∞), g2 (x) = x2 , g2−1 (y) = y;
La función de densidad de Y es

1 −(−√y)2 /2 1 1 −(√y)2 /2 1
fY (y) = √ e − 2√y + √2π e 2√y
2π
1 1
= √ √ e−y/2 I(0,∞) (y)
2π y
La función de densidad de Y es una de las que vamos a ver muy seguido a lo largo de este
curso, esta es la de una variable aleatoria chi-cuadrado con 1 grado de libertad, χ21 .
1.3.2. Caso Bivariable
Suponga, ahora, que X1 y X2 son dos variables aleatorias continuas con función de densidad
conjunta fX1 ,X2 (x1 , x2 ), y que se quiere determinar la función de densidad conjunta de un par
de transformaciones dadas por
U1 = h1 (X1 , X2 ) y U2 = h2 (X1 , X2 )
cuyas función inversas son
X1 = h−1 −1
1 (U1 , U2 ) y X2 = h2 (U1 , U2 ).
Si h−1 −1
1 (u1 , u2 ) y h2 (u1 , u2 ) tienen derivadas parciales continuas respecto de u1 y u2 , y el
determinante del jacobiano
∂h−1 ∂h−1
" #
1 1
∂h−1 −1
1 ∂h2 ∂h−1 ∂h−1
J = det ∂u1
∂h−1
∂u2
∂h−1
= − 2 1
6= 0
2 2 ∂u1 ∂u2 ∂u1 ∂u2
∂u1 ∂u2
entonces, la densidad conjunta de U1 y U2 es
fU1 ,U2 (u1 , u2 ) = fX1 ,X2 h−1 −1

1 (u1 , u2 ), h2 (u1 , u2 ) |J|
donde |J| es el valor absoluto del determinante del jacobiano.

Ejemplo 1.3.4 Sean X1 y X2 dos v.a. normales estándares independientes, además, sean
U1 = X1 + X2 y U2 = X1 − X2 dos transformaciones. ¿Cuál es la densidad conjunta de U1 y
U2 ?
Las funciones de densidad de X1 y X2 son
1 1 2 1 1 2
fX1 (x1 ) = √ e− 2 x1 I(−∞,∞) (x1 ) y fX2 (x2 ) = √ e− 2 x2 I(−∞,∞) (x2 ).
2π 2π
Además, el hecho de que X1 y X2 son independientes implica que su densidad conjunta es
1 − 1 x21 − 1 x22
fX1 ,X2 (x1 , x2 ) = e 2 2 I(−∞,∞) (x1 )I(−∞,∞) (x2 ).
2π
La transformación está definida por las siguientes funciones
u1 = h1 (x1 , x2 ) = x1 + x2 y u2 = h2 (x1 , x2 ) = x1 − x2 ,
con sus respectivas transformaciones inversa

u1 + u2 u1 − u2
x1 = h−1
1 (u1 , u2 ) = y x2 = h−1
2 (u1 , u2 ) = .
2 2
∂h−1 ∂h−1 ∂h−1 ∂h−1
Como 1
∂u1
= 21 , 1
∂u2
= 12 , ∂u21 = 12 y 2
∂u2
= − 12 , el jacobiano de esta transformación es
" #
1/2 1/2
J = det = (1/2) × (−1/2) − (1/2) × (1/2) = −1/2,
1/2 −1/2
y la densidad conjunta U1 y U2 es
h 2 i
u1 −u2 2
exp − 21 u1 +u 1

2
−
− I(−∞,∞) u1 + u2 I(−∞,∞) u1 − u2 .
2 2 2 1
fU1 ,U1 (u1 , u2 ) =
2π 2 2 2
Unos cuantos cálculos algebraicos dan como resultado
2 2
1 u1 + u2 1 u1 − u2 1 1
− − = − u21 − u22 ,
2 2 2 2 4 4
y
u1 + u2 u1 − u2
(u1 , u2 ) : −∞ < < ∞, − ∞ < <∞ ⇒
2 2
{(u1 , u2 ) : −∞ < u1 < ∞, − ∞ < u2 < ∞}.
Finalmente,
2 2
e−u1 /4 e−u2 /4
fU1 ,U1 (u1 , u2 ) = √ √ √ √ I(−∞,∞) (u1 )I(−∞,∞) (u2 ).
2 2π 2 2π
Observe que al expresar la función de densidad conjunta de U1 y U2 como el producto de las
densidades marginales, estas v.a. son independientes, además de tener distribución normal con
media acero y varianza 2.

Capı́tulo 2
Distribuciones Muestrales
2.1. Distribución normal
Existe dos razones fundamentales por las cuales la distribución normal ocupa un lugar
tan importante en la estadı́stica. Primero, tiene algunas propiedades que la hacen aplicable
a un gran número de situaciones en las que es necesario hacer inferencia mediante la toma
de muestra. Segundo, la distribución norma casi se ajusta a las distribuciones de frecuencias
reales observadas en muchos fenómenos, incluyendo caracterı́sticas humanas (peso, altura,
coeficiente intelectual, etc.), resultados de procesos fı́sicos, y muchos otras medidas de interés
para los administradores, tanto en el sector público como en el privado.
Figura 2.1: Función de densidad de la distribución Normal, µ = 0 y σ = 1, 1,5 y 2
15
CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 16
Figura 2.2: Función de densidad de la distribución Normal, σ = 1 y µ = 0, 1 y −1
La función de densidad de una v.a. con distribución normal es

1 1 (x−µ)
2
f (x) = √ e− 2 σ2 I(−∞,∞) (x). (2.1)
2π
La función de distribución está definida por
Z x
1 1 (x−µ)
2
F (x) = √ e− 2 σ2 dx (2.2)
−∞ 2π
La función generatriz de momentos es
σ 2 t2
MX (t) = eµt+ 2 (2.3)
Podemos mencionar algunas de sus principales caracterı́sticas.
1. La curva tiene sólo un pico, esto significa que es unimodal.
2. Para definir una distribución normal necesitamos definir sólo dos parámetros: la media
(µ) y la varianza (σ 2 ). Cualquier momento superior está definido como función de estos
dos parámetros.
3. La media de una población distribuida en forma normal cae en el centro de la distribu-

ción.
4. Debido a la simetrı́a de la distribución, la media, media y la moda tienen el mismo valor.
5. Las dos colas de la distribución se extienden infinitamente y nunca tocan el eje horizontal.

6. Una propiedad de la distribución normal que vamos a utilizar muy a menudo en el

curso es saber que la combinación lineal de v.a. que tienen distribución normal, será una
nueva v.a. con distribución normal. Es decir que si X ∼ N (µ1 , σ12 ) y Y ∼ N (µ2 , σ22 ), y
Z = aX + bY con a y b dos constantes, entonces Z ∼ N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).
Para poder demostrar la última de las propiedades tenemos, primero, que mencionar y
demostrar un teorema.
Teorema 2.1.1 Sean X1 , . . . , Xn v.a. independientes con función generadoras de momen-

Pn
tos dada por mX1 (t), . . . , mXn (t), respectivamente. Si se define U = i=1 Xi , entonces, la
función generadora de momentos de de U viene dada por
n
Y
mU = mXi (t).
i=1
Prueba:
Tenemos que
Pn
mU (t) = E et i=1 Xi
= E etX1 · · · etXn

= E etX1 · · · E etXn

Yn
E etXi

=
i=1
Yn
= mXi (t)
i=1
Luego,
Teorema 2.1.2 Sean X1 , . . . , Xn v.a. independientes que tienen distribución normal con
medias y varianzas dadas por µi y σi2 , para i = 1, . . . , n, sean a1 , . . . , an constantes. Si
n
X
U= ai X i ,
i=1
entonces, U es una v.a. que tiene una distribución normal con

n
X
E(U ) = ai µ i
i=1

y
n
X
V(U ) = a2i σi2 .
i=1
Prueba:
Como Xi adopta una distribución normal con media µi y varianza σi2 , Xi tiene una función
generadora de momentos dada por
t2 σi2

mXi (t) = exp tµi + .
2
Por otro lado, ai Xi , donde ai , i = 1, . . . , n, es constante, tiene una función generadora de

momentos dada por
t2 a2i σi2

tai Xi

mai Xi (t) = E e = exp tai µi + .
2
Como las v.a. X1 , . . . , Xn son independientes, las variables aleatorias a1 X1 , . . . , an Xn también

lo son. Además, por el teorema 2.1.1 tenemos que
n
Y
mU (t) = mai Xi (t)
i=1
n
t2 a2i σi2
Y
= exp tai µi +
i=1
2
n
!
t2 ni=1 a2i σi2
X P
= exp t ai µ i + .
i=1
2
Pn Pn
Por consiguiente, U tiene una distribución normal con media i=1 ai µi y varianza i=1 a2i σi2 .
El cálculo de probabilidades en una distribución normal, no es un tema menor, ya que

implica la solución de una integral muy compleja. Sin embargo, existe una solución práctica
muy buena. Existen tabulaciones de una variable aleatoria Z que tiene distribución normal con
media µ = 0 y varianza σ 2 = 1 que se llama distribución normal estándar, entonces, cuando
uno quiere obtener probabilidades de una v.a. con media y varianza que difieren de cero y
uno, respectivamente, sólo tiene que utilizar las propiedades que tienen las v.a., por ejemplo,
suponga que se tiene una v.a. X ∼ N (µ = 5, σ 2 = 4) y se quiere calcular probabilidades de
esta v.a., entonces, sólo hay que realizar una operación de estandarización. La estandarización
es una operación muy simple, suponga que Y ∼ (µ, σ 2 ), entonces si definimos la variable
Y −µ
Z= σ
. Ésta tendrá distribución normal, ya que es una combinación lineal de una variable

normal. Sólo resta determinar su media y varianza, pero sabemos por propiedades de las v.a.
1
que E(Z) = E(Y ) − µ = 0, y que V(Z) = σ2
V(Y ) = 1.
P (X ≤ 8,29) = P (X − 5 ≤ 8,29 − 5)

X −5 8,29 − 5
= P ≤
2 2
= P (Z ≤ 1,645),
entonces, sólo hay que buscar en la tabla de la distribución normal estándar esta probabilidad,
la cual es P (Z ≤ 1,645) = 0,95.
2.2. Distribución χ2
Esta distribución fue desarrollada por Karl Pearson. Suponga que hay v variables aleatorias
independientes, X1 , . . . , Xv , todas con distribución N (µi , σi2 ). Luego, estandarizamos estas
Xi −µi
variables como sigue Zi = σi
, con lo cual, tenemos v v.a. Zi ∼ N (0, 1). Ahora, definimos
Y como
v
X
Y = Z12 + Z22 + ··· + Zv2 = Zi2 . (2.4)
i=1
La v.a. Y ası́ generada sólo toma valores no negativos y sigue una distribución que se
denomina chi-cuadrado con v grados de libertad, cuya función de densidad está determinada
por
x(v−2)/2 e−x/2
f (x) = v/2 , (2.5)
2 Γ(v/2)
R∞
donde Γ(α) = 0
xα−1 e−x dx, es la función gamma, pero si α es un número entero, entonces,
definida por Γ(α) = (α − 1)!. La distribución chi-cuadrado sólo depende de un parámetro,
v, sus grados de libertad. En otras palabras, esto significa que el único parámetro de una
distribución chi-cuadrado es v. Una vez, que se conoce este parámetro, se pueden obtener los
momentos de la distribución.
E(Y ) = v, V(Y ) = 2v.
La figure 2.3 muestra la función de densidad de tres v.a. con distribución chi-cuadrado con 3,
6 y 15 grados de libertad (gl).
Para el cálculo de probabilidades con una v.a. que tiene distribución χ2 se tienen dos
alternativas; una es mediante la aplicaciones informáticas, que devuelvan la probabilidad de

Figura 2.3: Función de densidad de la distribución χ2v , v = 3, 6 y 15
para diferentes valores de la v.a. y gl o que permitan integrar, generalmente en forma numérica,
y obtener la probabilidad buscada. La segunda opción, es la que más vamos a utilizar en este
curso, y es utilizar tablas impresas con tabulaciones de la distribución χ2 con varios gl. Cómo
hemos mencionado, esta distribución sólo depende del número de grados de libertad, por
lo que conocido este parámetro podemos dirigirnos a la tabla y buscar la probabilidad que
necesitamos.
La distribución chi-cuadrado posee la propiedad reproductiva o aditiva. Suponga que se

tienen Y1 , . . . , Yq v.a. con distribución χ2vi , con i = 1, 2, . . . , q, independientes. Luego se define
la v.a.
q
X
X= Yi ,
i=1
Pq
entonces, X ∼ χ2v , con v = i=1 vi .
2.3. Distribución t de Student
Definición 2.3.1 Sean Z ∼ N (0, 1) y Y ∼ χ2v independientes, entonces la distribución de

Z
T =p (2.6)
Y /v
se denomina t de Student.
Se observa que la densidad es simétrica respecto de cero. Además, para v > 1 su media es

v
E(T ) = 0 y para v > 2 su varianza es V(T ) = v−2
, la v.a. T tiene mayor dispersión que la
distribución Normal.
Figura 2.4: Funciones de densidades de las Distribuciones tv , v = 1, 3, 10 y Z ∼

N (0, 1)
Teorema 2.3.1 Sea X1 , . . . , Xn una m.a. de una v.a. N (µ, σ2 ) y sean X̄, S 2 la media,
varianza muestral. Entonces, se verifica que
X̄ − µ
T = √ ∼ tn−1
S/ n
Prueba:
Sabemos que
X̄ − µ
√ ∼ N (0, 1), (2.7)
σ/ n
además que
(n − 1)S 2
∼ χ2n−1 (2.8)
σ2
y que son independientes. Entonces dividiendo (2.7) por la raı́z cuadrada de (2.8) dividido por
los grados de libertad tenemos
√ X̄−µ √ X̄−µ
n σ n σ X̄ − µ
T =r = S
= √ ∼ tn−1 ,
(n−1)S 2
σ
S/ n
σ2
n−1

con lo que queda demostrado el teorema.
La función de densidad está dada por

− v+1
x2

1 2
f (x) = √ 1+ I(−∞,∞) (x) (2.9)
vβ(1/2, v/2) v
donde Z 1
Γ(p)Γ(q)
β(p, q) = xp−1 (1 − x)q−1 dx = .
0 Γ(p + q)
La media y varianza están definidas por
v
E(X) = 0, V(X) = , v > 2.
v−2
Para valores de gl menores que dos, la varianza no está definida.
Ejemplo 2.3.1 La resistencia a la tensión para cierto tipo de alambre se distribuye N (µ, σ2 ),
ambas desconocidas. Se seleccionaron al azar seis segmentos de alambre de un rollo grande
6 segmentos y se midió Xi la resistencia. La media de la población µ y la varianza σ 2 se
pueden estimar por X̄ y S 2 , respectivamente. Encuentre la probabilidad aproximada de que X̄
√
esté como máximo a 2S/ n de la media verdadera.
Se desea calcular la probabilidad

√ X̄ − µ

2S 2S
P − √ ≤ X̄ − µ ≤ √ = P −2 ≤ n ≤ 2 = P (−2 ≤ T ≤ 2) = P (|T | ≤ 2),
n n S
por el teorema 2.3.1 sabemos que T ∼ t5 . Mirando la table encontramos que
P (−2,015 ≤ T ≤ 2,015) = 0,9,

√
luego la probabilidad aproximada de que X̄ esté como máximo a 2S/ n de la media verdadera
0,9.
2.4. Distribución F de Snedecor
Definición 2.4.1 Sean X ∼ χ2v1 y Y ∼ χ2v2 independientes, entonces la distribución de la

v.a.
X
v1
F = Y
(2.10)
v2
se distribuye F con v1 grados de libertad en el denominador y v2 grados de libertad en el
denominador.

Teorema 2.4.1 Sea X1 , . . . , Xn1 una m.a. de una v.a. N (µ1 , σ12 ) y sea S12 la cuasi-varianza
muestral. Sea Y1 , . . . , Yn2 otra m.a. de una v.a. N (µ2 , σ22 ) y sea S22 la cuasi-varianza muestral
independiente de la anterior. Entonces
S12
σ12
F = S22
∼ Fn1 −1,n2 −1
σ22
Prueba:
La prueba es directa. Se basa en la independencia de las dos muestras, la distribución de
(n−1)S 2
σ2
∼ χ2n−1 y la definición de F.
2
(n1 −1)S1
2
σ1 (n1 −1)S12
n1 −1 (n1 −1)σ12 S12 /σ12
F = 2 = (n2 −1)S22
= ∼ Fn1 −1,n2 −1 ,
(n2 −1)S2
2
S22 /σ22
σ2 (n2 −1)σ22
n2 −1
La curva de la distribución F depende no sólo de los grados de libertad v1 y v2 sino también

del orden en el que se establecen.
Figura 2.5: Función de densidad de la distribución Fv1 ,v2
Ejemplo 2.4.1 Si se toma una m.a de tamaño n1 = 6 y otra independiente de tamaño

n2 = 10 de dos poblaciones normales con la misma varianza poblacional, encuentre el número
b tal que
S12

P ≤b = 0,95.
S22

Por el teorema 2.4.1 sabemos que

S12 /σ 2
∼ F5,9 ,
S22 /σ 2
por lo que buscando en la tabla tenemos que b = 3,48.
Ejemplo 2.4.2 Si X ∼ Fp,q ⇒ 1/X ∼ Fq,p .

χ2p /p
X = 2 ∼ Fp,q ,
χq /q
ahora
1 χ2q /q
= 2 ∼ Fq,p ,
X χp /p
Si X ∼ tq entonces X 2 ∼ F1,q . Sabemos que X = rZ ∼ tq , donde Z es una v.a. N (0, 1),

χ2q
q
entonces
2 Z2 χ21 /1
X = 2 = 2 ∼ F1,q .
χq /q χq /q
Usualmente en las tablas de la distribución F de Snedecor sólo aparecen los valores crı́ticos
de la distribución, para probabilidades α pequeñas. Sin embargo, sabemos que si tenemos una
v.a. F ∼ Fn1 ,n2 , entonces F 0 = 1/F ∼ Fn2 ,n1 . Ası́, supongamos que c es el valor crı́tico α de
la distribución Fn1 ,n2 , es decir, si F ∼ Fn1 ,n2 , entonces
P (F ≤ c) = α ⇔ P (F 0 ≥ 1/c) = α ⇔ P (F 0 < 1/c) = 1 − α,
donde F 0 ∼ Fn2 ,n1 . Esto significa que 1/c = Fn2 ,n1 ;1−α o equivalentemente
Fn2 ,n1 ;1−α = 1/Fn1 ,n2 ;α .
2.5. Distribución relativa a la media muestral
A menudo, los datos en un experimento consisten en observaciones de una variable de

interés. Esta colección de datos es, generalmente, obtenida mediante una muestra aleatoria
simple (m.a.).
Definición 2.5.1 Las v.a. X1 , . . . , Xn son llamadas una muestra aleatoria (m.a.) de tamaño
n tomada de una población f (x) si X1 , . . . , Xn son v.a. mutuamente independientes y la fun-
ción de densidad o de probabilidad marginal de cada Xi , i = 1, . . . , n, es la misma función f (x).
Alternativamente, X1 , . . . , Xn son llamadas v.a. independientes e idénticamente distribuidas
(iid) con función de densidad o probabilidad f (x).

Una muestra aleatoria describe una situación experimental en la que la variable de interés
tienen función de densidad o probabilidad descripta por f (x). Bajo una m.a. cada Xi es una
observación de la misma variable. Además, las observaciones son tomada de forma que el
valor de una observación no tiene efecto alguno o relación sobre las otras observaciones, esto
es X1 , . . . , Xn son mutuamente independientes. Finalmente, la función conjunta de densidad
o probabilidad viene dada por
n
Y
f (x1 , . . . , xn ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = f (xi ). (2.11)
i=1
En particular, si la funciones de densidad o probabilidad pertenecen a una familia paramétrica,
es decir que están determinadas por un vector de parámetros θ, entonces, la función conjunta
de densidad o probabilidad viene dada por
n
Y
f (x1 , . . . , xn |θ) = f (xi |θ), (2.12)
i=1
donde el mismo parámetro θ es usado en cada una de las funciones de densidad o probabilidad
marginales.
Cuando una m.a. X1 , . . . , Xn es tomada, algún resumen de los valores es usualmente

obtenido. Cualquier buen resumen deberı́a expresarse matemáticamente como una función
T (X1 , . . . , Xn ) cuyo dominio incluye el espacio muestral. La función T (.) puede ser un valor
real o un vector de valores reales, por lo tanto esta función también es aleatoria. Puesto que
X1 , . . . , Xn tiene una estructura probabilı́stica simple (iid), la distribución de Y = T (X1 , . . . , Xn )
es particularmente manejable. Puesto que la distribución de Y es usualmente derivable de la
distribución de las variables en la muestra, es llamada distribución muestral de Y .
Definición 2.5.2 Sea X1 , . . . , Xn una m.a. tomada de una población y sea T (X1 , . . . , Xn )
una función real o una función real-vectorial cuyo dominio es el espacio muestral de (X1 , . . . , Xn ).
Entonces, la variable aleatoria o vector aleatorio Y = T (X1 , . . . , Xn ) es llamado estadı́stico.
La distribución del estadı́stico Y es la distribución muestral de Y .
Tres estadı́sticos que usualmente vamos a utilizar y que dan un buen resumen de la infor-
mación que posee la muestra vamos a definir.
Definición 2.5.3 La media muestral es el promedio aritmético de los valores en una

muestra aleatoria. Esta la llamaremos X̄ y se define como
n
X1 + · · · + Xn 1X
X̄ = = Xi .
n n i=1

Definición 2.5.4 La varianza muestral es el promedio aritmético de los valores en una

muestra aleatoria desviados con respecto a la media muestral y elevados al cuadrado. Esta la
llamaremos S 2 y se define como
n
1 X
S= (Xi − X̄)2 .
n − 1 i=1
Finalmente, la desviación estándar muestral se define como la raı́z cuadrada de la varianza

muestra v
n
√
u
2
u 1 X
S= S =t (Xi − X̄)2 . (2.13)
n − 1 i=1
Usaremos los valores observados de estos estadı́sticos con letras minúsculas, es decir x̄, s y s2
refiriéndose a los valores observados de las v.a. X̄, S y S 2 , respectivamente.
La media muestral es un concepto familiar, y refiere a un estadı́stico de localización. La

varianza y la desviación estándar son medidas de la variabilidad en la muestra que están
relacionadas con la varianza y desviación estándar poblacionales.
Teorema 2.5.1 Sea x1 , . . . , xn valores y x̄ = (x1 + · · · + xn )/n. Entonces,
Pn Pn
a. mı́n i=1 (xi − a)2 = i=1 (xi − x̄)2
a
Pn Pn
b. (n − 1)s2 = i=1 (xi − x̄)2 = i=1 x2i − nx̄2 .
Prueba:
Vamos a probar a. Para ellos sumamos y restamos x̄ como sigue
n
X n
X
(xi − a)2 = (xi − x̄ + x̄ − a)2
i=1 i=1
n
X n
X n
X
2
= (xi − x̄) + 2 (xi − x̄)(xi − a) + (xi − a)2
i=1 i=1 i=1
n
X n
X
2
= (xi − x̄) + (xi − a)2 , el término cruzado es cero (2.14)
i=1 i=1
Ahora, el segundo 2.14 es siempre mayor o igual a cero, por lo tanto el valor que lo minimiza
es cuando a = x̄.

Vamos a probar b. Para ello vamos a desarrollar el cuadrado como sigue

n
X n
X
2
(xi − x̄) = (x2i + x̄2 − 2x̄xi )
i=1 i=1
n
X n
X n
X
= x2i + 2
x̄ − 2x̄ xi
i=1 i=1 i=1
n n
X 1 X
= x2i + nx̄2 − 2nx̄ xi
i=1
n i=1
Xn
= x2i + nx̄2 − 2nx̄2
i=1
n
X
= x2i − nx̄2 .
i=1
Ahora, vamos a describir la distribución muestral de la media muestral cuando ésta se

obtiene de una muestra aleatoria, X1 , . . . , Xn , de una población con distribución normal.
Teorema 2.5.2 Sea X1 , . . . , Xn de una v.a. X ∼ N (µ, σ2 ), entonces X̄ ∼ N µ, n1 σ2

Prueba:
Como X1 , . . . , Xn es una m.a de una v.a. con distribución normal, se verifica que
E(Xi ) = µ, para i = 1, . . . , n,
y
V(Xi ) = σ 2 , para i = 1, . . . , n.
Luego, vemos que X̄ es una combinación lineal de v.a., es decir
n
1 1 1 X
X̄ = X 1 + X2 + · · · + X n = ai X i ,
n n n i=1
donde ai = n1 . La combinación lineal de v.a. normales, por el teorema 2.1.2 también será nor-
mal, es decir que la media muestral tiene distribución normal con media
" n # n
1X 1X 1
E(X̄) = E E(Xi ) = µ = nµ = µ.
n i=1 n i=1 n
y varianza
n
! n
! n n
1X 1 X 1 X 1 X 2 1 σ2
V(X̄) = V Xi = 2V Xi = 2 V(Xi ) = 2 σ = 2 nσ 2 = .
n i=1 n i=1
n i=1 n i=1 n n
| {z }
Por independencia de las Xi

De acuerdo con el teorema anterior, X̄ tiene distribución normal con media µ y varianza
σ 2 /n. Por lo tanto,
X̄ − µ √ X̄ − µ
Z=p = n
σ 2 /n σ
tiene una distribución normal estándar.
2.6. Distribución en el muestreo de la varianza muestral
Sea X1 , . . . , Xn una m.a de una v.a. con distribución N (µ, σ 2 ), entonces, la varianza mues-
tral viene dada por
n n
2 1 X 2 1X 2
S = Xi − X̄ = X − X̄ 2 , (2.15)
n − 1 i=1 n 1=1 i
donde X̄ es la media muestral.
Por otro lado, la varianza muestral sesgada, que también tendrá una papel fundamental
en inferencia, como se comprobará más adelante. Ésta viene dada por
n n
021X 2 n−1 X 2 n − 1 2
S = Xi − X̄ = Xi − X̄ = S , (2.16)
n i=1 n(n − 1) i=1 n
Teorema 2.6.1 Si X1 , . . . , Xn una m.a de una v.a. con distribución N (µ, σ2 ), entonces
S 2 y X̄ son independientes y
0
nS 2 (n − 1)S 2
2
= 2
∼ χ2n−1 .
σ σ
para probar este teorema necesitamos dos lemas importantes que no vamos probar,
Lema 2.6.1 Sea X = {X1 , . . . , Xn } un vector de v.a. independientes, y sean

U1 = g1 (X1 , . . . , Xr ), U2 = g2 (Xr+1 , . . . , Xp ), . . . , Um = gm (Xp+1 , . . . , Xn ), donde Uj , para
j = 1, . . . , m, son funciones de subconjuntos mutuamente excluyentes de X1 , . . . , Xn , entonces
U1 , . . . , Um son mutuamente independientes.
Lema 2.6.2 Sea X = {X1 , . . . , Xn } un vector de v.a. independientes, y sea gi (Xi ), para
i = 1, . . . , n, una función que sólo depende de Xi , entonces las v.a. definidas por Ui = gi (Xi ),
para i = 1, . . . , n, son mutuamente independientes.

Prueba: Vamos hacer la prueba en dos partes, por una lado se demostrará la independencia
(n−1)S 2
entre S 2 y X̄, y después que σ2
se distribuye como una variable chi-cuadrado.
0
Independencia entre S 2 y X̄
Sean X1 , . . . , Xn una m.a. de una v.a. X ∼ N (µ, σ 2 ). Se define X̄ y D1 = X1 − X̄, luego vamos
a demostrar que X̄ y D1 son v.a. independientes. Vemos que X̄ se puede escribir como
n
X 1
X̄ = ai Xi , con ai = , para i = 1, . . . , n,
i=1
n
y D1 como sigue
n
X n−1 1
D1 = bi Xi , con b1 = y bi = − , para i = 2, . . . , n.
i=1
n n
Entonces,

Cov = E D1 (X̄ − µ) , puesto que E(D1 ) = 0,
= E(D1 X̄)

= E (X1 − X̄)X̄
= E X1 X̄ − E X̄ 2

| {z }
σ2
n
+µ2
n
!
X12 1 σ2
X
2
= E + X1− Xi+µ
n n i=2
n
n 2
1 2
1 X σ 2
= E X + E(X1 ) E(Xi ) − +µ
n | {z 1 } n i=2
n
σ 2 +µ2
2
σ2

σ 1 (n − 1) 2
= + µ2 + µ − + µ2
n n n n
σ2 n 2 σ2
= + µ − − µ2 = 0
n n n
De esta forma probamos que las v.a. X̄ y D1 no están correlacionadas, además, como las
variables son normales, entonces, también son independientes. Luego, por un procedimiento
similar se puede probar que X̄ es independiente de Di = Xi − X̄ para i = 2, . . . , n. Ahora, ten-
emos X̄, D1 , . . . , Dn v.a. independientes, por el lema 2.6.1 sabemos que X̄ y U = ni=1 Di2 =
P
Pn 2 2 U
i=1 (Xi − X̄) son independientes, finalmente por el lema 2.6.2 X̄ y S = n−1 son indepen-
dientes.
(n−1)S 2
Distribución de σ2
Vamos a usar un argumento inductivo para establecer la distribución de S 2 . Para ello usamos

la notación X̄k y Sk2 para definir la media muestral y la varianza muestral sobre las primeras
k observaciones. Se puede mostrar que
2
(n − 1)Sn2 (n − 2)Sn−1 n−1
2
= 2
+ 2
(Xn − X̄n−1 )2 , (2.17)
σ σ nσ
2
donde X̄n−1 es la media muestral construida con las n − 1 primeras observaciones y Sn−1 es
la varianza muestral calculada con las primeras n − 1 observaciones.
n n Pn−1 !2
2 n−1X 2
X Xn + i=1 Xi
(n − 1)S = (Xi − X̄n ) = Xi −
n − 1 i=1 i=1
n
n 2
X Xn n − 1
= Xi − − X̄n−1
i=1
n n
n 2 X n 2
X Xn X̄n−1 Xn − X̄n−1
= Xi − X̄n−1 − + = (Xi − X̄n−1 ) −
i=1
n n i=1
n
n
" 2 #
X (X n − X̄ n−1 ) X n − X̄ n−1
= (Xi − X̄n−1 )2 − 2(Xi − X̄n−1 ) +
i=1
n n
n−1 n−1
X
2 2Xn − X̄n−1 X
= (Xi − X̄n−1 ) + (Xn − X̄n−1 ) − 2 (Xi − X̄n−1 ) −
i=1
n i=1
n 2
Xn − X̄n−1 X Xn − X̄n−1
2 (Xn − X̄n−1 ) +
n i=1
n
n−1
X (Xn − X̄n−1 )2 (Xn − X̄n−1 )2
= (Xi − X̄n−1 )2 + (Xn − X̄n−1 )2 − 2 +
i=1
n n
n−1
X (Xn − X̄n−1 )2
= (Xi − X̄n−1 )2 + (Xn − X̄n−1 )2 −
i=1
n
2 n−1
= (n − 2)Sn−1 + (Xn − X̄n−1 )2
n
Ahora, para n = 2. De (2.17) tenemos

S22 (2 − 2)S12 (2 − 1) 1
2
= 2
− 2
(X2 − X1 )2 = 2 (X2 − X1 )2
σ σ 2σ 2σ
Pero la distribución de (X2 − X1 ) es N (0, 2σ 2 ), entonces √ 1 (X2 − X1 ) es N (0, 1), por lo
2σ 2
1
tanto 2σ 2
(X2 − X1 )2 ∼ χ21 .
Para n = 3. Nuevamente, de (2.17) tenemos
2S32 S22 2
= + (X3 − X̄2 )2
σ2 σ 2 3σ 2

q
3 2
, entonces 3σ2 2 (X3 − X̄2 ) es N (0, 1), por lo

Pero la distribución de (X3 − X̄2 ) es N 0, 2
σ
2
tanto 3σ 2
(X2 − X1 )2 ∼ χ21 . Además vimos que S22 y X̄2 son independientes, y sumado a la
propiedad aditiva de la distribución χ2 , tenemos que 2S32 ∼ χ22 .
(k−1)Sk2
Siguiendo con la inducción, suponga que n = k, σ2
∼ χ2k−1 .
Para n = k + 1 tenemos que
02
kSk+1 (k − 1)Sk2 k
2
= 2
+ 2
(Xk+1 − X̄k )2 (2.18)
σ σ σ (k + 1)
(k−1)Sk2 k
De acuerdo a la hipótesis de inducción σ2
∼ χ2k−1 . Sólo falta demostrar que σ2 (k+1) (Xk+1 −
X̄k )2 ∼ χ21 y que es independiente de Sk2 . Pero como demostrado que X̄ es independiente de
S 2 , ahora (Xk+1 − X̄k ) ∼ N (0, σ 2 k+1
k
k
), entonces σ2 (k+1) (Xk+1 − X̄k )2 ∼ χ21 , con lo que queda
demostrado el teorema.
Ejemplo 2.6.1 En unas determinadas posiciones del control operativo, se conoce que la
cantidad de lı́quido con que una máquina embotelladora llena las botellas presenta una dis-
tribución normal con media µ y desviación tı́pica de σ = 1 decilitros. Se toma una m.a. de
tamaño 10 y se calcula la varianza muestral. Encuentre un par de valores b1 y b2 de manera
que
P b1 ≤ S 2 ≤ b2 = 0,9

Por el teorema 2.6.1 sabemos que
(n − 1)S 2
∼ χ2n−1 ,
σ2
por lo que
(n − 1)S 2

2 (n − 1)b1 (n − 1)b2
= P 9b1 ≤ χ29 ≤ 9b2 ,

P b1 ≤ S ≤ b2 = P 2
≤ 2
≤
σ σ σ2
buscando los valores b1 y b2 tales que la probabilidad a la izquierda del menor sea 0,05 y la
probabilidad a la derecha del mayor sea 0,05, de la tabla surgen
3,33
9b1 = 3,33 → b1 = = 0,37,
9
y
16,92
9b2 = 16,92 → b2 = = 1,88.
9

2.7. El Teorema Central del Limite (TCL)
Este teorema habla sobre la distribución lı́mite de v.a. cuando el tamaño de muestra
con el que se trabaja tiende a infinito, es decir que habla sobre convergencia de v.a.. Antes de
presentar y demostrar el TCL, vamos a introducir algunos conceptos útiles sobre convergencia.
Definición 2.7.1 (Convergencia en Probabilidad)

Una secuencia de v.a. X1 , X2 , . . . , converge en probabilidad a una v.a. X si, para todo > 0,
lı́m P (|Xn − X| ≥ ) = 0 (2.19)

n→∞
o, en forma equivalente,
lı́m P (|Xn − X| < ) = 1 (2.20)
n→∞
Teorema 2.7.1 (La Ley Débil de los Grandes Números) Sean X1 , X2 , . . . , v.a.
independientes e idénticamente distribuidas con E(Xi ) = µ, y V(Xi ) = σ 2 < ∞. Definimos
X̄n = 1/n ni=1 Xi . Entonces, para todo > 0
P
lı́m P (|X̄n − µ| < ) = 1,

n→∞
esto es, X̄n converge en probabilidad a µ.
Prueba:
La prueba se basa en la desigualdad de Markov. Ésta postula que
E (X 2 )
P (|X| > k) ≤ ,
k2
donde E(X) = µ.
Nota 1 Prueba del teorema de Markov Supongamos que X es una v.a. continua y sea
f (x) la función de densidad de X. Calculamos el momento centrado de segundo orden,
Z ∞ Z −k Z k Z ∞
2 2 2 2
x2 f (x)dx,

E X = x f (x)dx = x f (x)dx + x f (x)dx +
−∞ −∞ −k k
Z −k Z∞ Z −k Z ∞
2 2 2 2
≥ x f (x)dx + x f (x)dx ≥ k f (x)dx + k f (x)dx,
−∞ k −∞ k
= k [P (X ≤ −k) + P (X ≥ k)] = k 2 P (|X| ≥ k),
2
lo que equivale a
E (X 2 )
P (|X| ≥ k) ≤ .
k2
Ası́ queda demostrado el teorema de Markov.

Utilizando la desigualdad de Markov tenemos que
E(X̄n − µ)2 σ2
P (|X̄n − µ| ≥ ) ≤ = .
4 n4
Entonces,
σ2
P (|X̄n − µ| < ) = 1 − P [(X̄n − µ)2 ≥ 2 ] > 1 − −→ 1 cuando n −→ ∞,
n4
ası́ queda probado el teorema.
Esta ley sostiene que, bajo condiciones generales, la media muestral se aproxima a la
poblacional cuando n −→ ∞.
Definición 2.7.2 (Convergencia Casi Segura)

Una secuencia de v.a. X1 , X2 , . . . , converge casi seguro a una v.a. X si, para todo > 0,

P lı́m |Xn − X| < = 1 (2.21)
n→∞
Note que la similitud de las definiciones 2.20 y 2.21. Aunque ellas lucen similar, son defini-
ciones diferentes, de hecho la definición 2.21 es mucho más fuerte. Recuerde la definición de
variable aleatoria, es una función valuada en los reales sobre el espacio muestral S. Si un
espacio muestral S tiene elementos s, entonces Xn (s) y X(s) son todas las funciones definidas
sobre S. La definición 2.21 expone que Xn converge a X casi seguro si las funciones Xn (s)
convergen a X(s) para todos los s ∈ S excepto, quizá, para s ∈ N , con N ⊂ S y P (N ) = 0.
Veamos unos ejemplos para ver la diferencia.
Ejemplo 2.7.1 (Convergencia casi segura) Sea S un espacio muestral en el intervalo

cerrado [0, 1] con la distribución de probabilidad uniforme. Se definen las variables aleatorias
Xn (s) = s + sn y X(s) = s. Para todo s ∈ [0, 1), sn → 0 cuando n → ∞ y Xn (s) → s = X(s).
Sin embargo, Xn (1) = 2 para todo n, por lo que Xn (1) no converge a 1 = X(1). Pero como la
convergencia ocurre en el conjunto [0, 1) y P ([0, 1)) = 1, Xn converge a X casi seguro.
Ejemplo 2.7.2 (Convergencia en probabilidad, pero no casi segura) Sea S un

espacio muestral en el intervalo cerrado [0, 1] con la distribución de probabilidad uniforme. Se
define la secuencia X1 , X2 , . . . , como sigue,
X1 (s) = s + I[0,1] (s), X2 (s) = s + I[0, 1 ] (s), X3 (s) = s + I[ 1 ,1] (s),

2 2

X4 (s) = s + I[0, 1 ] (s), X5 (s) = s + I[ 1 , 2 ] (s), X6 (s) = s + I[ 2 ,1] (s),

3 3 3 3
etc. Definimos, también, X(s) = s. Es fácil ver que Xn converge en probabilidad a X. Mientras
n → ∞, P (|Xn − X| > ) es igual a la probabilidad de un intervalo de s valores cuyo largo se
va hacia cero. Sin embargo, Xn no converge casi seguro a X. En efecto, no hay ningún valor
de s ∈ S para el que Xn (s) → s = X(s). Para todo s, el valor de Xn (s) alterna entre s y s + 1
infinitamente. Por ejemplo, si s = 83 , X1 (s) = 1 83 , X2 (s) = 1 83 , X3 (s) = 83 , X4 (s) = 83 , X5 (s) =
1 83 , X6 (s) = 38 , etc. No hay punto para el cual haya convergencia.
Teorema 2.7.2 (La Ley Fuerte de los Grandes Números) Sean X1 , X2 , . . . , v.a.
independientes e idénticamente distribuidas con E(Xi ) = µ, y V(Xi ) = σ 2 < ∞. Definimos
X̄n = 1/n ni=1 Xi . Entonces, para todo > 0
P

P lı́m |X̄n − µ| < = 1,
n→∞
es decir que X̄n converge casi seguro a µ.
Definición 2.7.3 (Convergencia en Distribución)

Una secuencia de v.a. X1 , X2 , . . . , converge en distribución a una v.a X si
lı́m FXn (x) = FX (x) (2.22)

n→∞
pata todos los puntos x donde FX (x) es continua.
Ejemplo 2.7.3 Si X1 , X2 , . . . , Xn son v.a. independientes e idénticamente distribuidas

U (0, 1) y Xn = max1≤i≤n Xi , veamos si X(n) converge en distribución a algo. Cuando n → ∞
se espera que X(n) se hace más cercano a 1 y, como X(n) tiene que ser menor que 1, se tiene
que para todo > 0,
P (|X(n) − 1| ≥ ) = P (X(n) ≥ 1 + ) + P (X(n) ≤ 1 − ) = 0 + P (X(n) ≤ 1 − ).
Ahora, usando el hecho que tenemos una m.a., podemos escribir
P (X(n) ≤ 1 − ) = P (Xi ≤ 1 − , i = 1, . . . , n) = (1 − )n ,
que se va a cero. Por lo que X(n) converge en probabilidad a 1.
Nota 2 Sea a1 , a2 , . . . , una secuencia de números que convergen a a, es decir n→∞

lı́m an = a.
Entonces, an n
lı́m 1+ = ea
n→∞ n


Sin embargo, si hacemos = t/n, entonces tenemos
P X(n) ≤ 1 − t/n = (1 − t/n)n → e−t ,

que, reordenando resulta

P n 1 − X(n) ≤ t → 1 − et ,

que es, la v.a. n 1 − X(n) converge en distribución a una v.a. exponencial.
Teorema 2.7.3 (Teorema central del Lı́mite) Sea X1 , . . . , Xn una secuencia de v.a.

independientes e idénticamente distribuidas cuya función generatriz de momentos (fgm), E etX ,
existe en un entorno de cero. Sea E[Xi ] = µ y V[Xi ] = σ 2 > 0, y ambos µ y σ 2 son finitos.
Definimos X̄n = (1/n) ni=1 Xi . Entonces, para cualquier −∞ < x < ∞,
P
√ X̄n − µ d
lı́mn −→ N (0, 1)
n→∞ σ
Prueba:
√ X̄n −µ
La demostración se hará mostrando que la fgm de n σ converge a la fgm de una v.a. con
t2
distribución N (0, 1), e 2 . En primer lugar definimos Yi = (Xi − µ)/σ, y MY (t) la fgm de Yi .
Tenemos n n
X Y 1 X (Xi − µ) √ (X̄n − µ)
√i = √ = n ,
i=1
n n i=1
σ σ
luego,
"
n
( )#
X Y t
√ P √
M n(X̄n −µ)/σ (t) = M ni=1 Yi / n (t) = E exp t √i =MPn
Yi √ ,
i=1
n i=1
n
por la independencia de las v.a. Además, dado el hecho de que las v.a. son idénticamente
distribuidas se tiene que
n n
Y t t
M√n(X̄n −µ)/σ (t) = E exp √ Yi = MY √ .
i=1
n n
h in
Ahora, vamos aproximar la fgm MY √tn por medio de un desarrollo de Taylor alrede-
dor de cero,
∞ √
n)k

t X (k) (t/
MY √ = MY (0)
n k=0
k!
(k)
donde MY (0) = (dk /dtk )MY (t)|t=0 .

h t i
(0) √ Y (1) (2)
Usando el hecho que MY = MY √t |t=0 = E e n |t=0 = 1, My = 0 and My = 1
n
(por construcción, la media y la varianza de Y son cero y uno), tenemos
√
(t/ n)2

t t
MY √ =1+ + RY √ ,
n 2! n
donde RY es el término residual en la expansión de Taylor,
∞ √
X (k) (t/ n)k
MY (0)
k=3
k!
Una aplicación del teorema de Taylor muestra que para t 6= 0 y fijo tenemos
√
RY (t/ n)
lı́m √ = 0.
n→∞ (t/ n)2
Puesto que t es fijo, también se verifica

√
RY (t/ n) t
lı́m √ = nRY √ = 0,
n→∞ (1/ n)2 n

y, esto último, es también verdadero para t = 0, puesto que RY √0 = 0. Entonces, por un
n
valor fijo t, tenemos
n √ n
(t/ n)2

t t
lı́m MY √ = lı́m 1 + + RY √ ,
n→∞ n n→∞ 2! n
n
1 t2

t
= lı́m 1 + + nRY √ ,
n→∞ n 2 n
2 /2
= et

2 /2
esto es ası́ ya que según la nota 2, an = (t2 /2) + nRY √t . Puesto que at es la fgm de una
n
v.a. con distribución N (0, 1), el teorema queda demostrado.
Ejemplo 2.7.4 (Aproximación Normal de la Distribución Binomial)

Sea Y una v.a. con distribución B(n, p). Esta v.a. cuenta el número de éxitos en n repeticiones
de un experimento, con probabilidad de éxito igual a p. Ası́, se verifica que Y = ni=1 Xi , donde
P
xi ∼ Ber(p). Sabemos que E(Xi ) = p, y que V(Xi ) = p(1 − p). Aplicando el TCL obtenemos
√ X̄ − p d
np −→ N (0, 1)
p(1 − p)
o
Y ∼ p(1 − p)
X̄ = = N p, ,
n n
lo que implica que
Y = nX̄ ∼
= N [np, np(1 − p)] .

Ejemplo 2.7.5 El candidato A considera que puede ganar una elección en una ciudad si
obtiene al menos 55 % de los votos en el distrito I. Además, suponga que alrededor del 50 % de
los votantes en la ciudad están a su favor. Si n = 100 votantes vienen a votar en el distrito I,
considerando a éstos como una m.a. de votantes de la ciudad, ¿cuál es la probabilidad de que
el candidato A reciba al menos 55 % de los votos? Sea Y el número de votantes en el distrito
I que está a favor del candidato A. Tenemos que calcular el valor de la probabilidad
P (Y /n ≥ 0,55).
Cuando p, la probabilidad de que un votante seleccionado al azar, esté a favor del candidato
A, sea p = 0,5. Entonces Y tiene una distribución B(100, 0,5). Sabemos que Y = ni=1 Xi ,
P
donde Xi es la variable que vale uno si el votante está a favor de A, o cero en caso contrario.
La probabilidad exacta será

54
!
X n
P (Y ≥ 55) = 1 − P (Y < 55) = 1 − pi (1 − p)(n−i)
i=0 i
= 1 − 0,8159 = 0,1841
Por otro lado, usando el TCL, podemos aproximar esta probabilidad usando
P (Y /n ≥ 0,55) = P (Y ≥ 55) =

Y − 50 55 − 50
= P √ ≥√ ≈ P (Z ≥ 1) = 0,1587.
100 × 0,5 × 0,5 100,5 × 0,5
Pero como vemos hay una diferencia importante entre la aproximación y la probabilidad
real. Esto se debe a que con la distribución binomial estamos calculando la probabilidad 1 −
P (Y < 55), en particular P (Y < 55) en escala discreta significa menor o igual que 54,
mientras que en escala continua significa menor que 54.5. Por lo que la aproximación Normal
será mejor la siguiente

Y − 50 54,5 − 50
P √ ≥√ ≈ 1 − P (Z ≤ 0,9) = 1 − 0,8159 = 0,1841.
100 × 0,5 × 0,5 100 × 0,5 × 0,5
Suponga que X ∼ B(n, p), si queremos obtener la P (X ≤ 2) mediante una aproximación

a la distribución Y ∼ N (np, np(1 − p)), uno pensarı́a en calcular P (Y ≤ 2). Pero veamos la
Figura 2.6, si hacemos esto, estamos subestimando dicha probabilidad, por lo que tenemos
que calcular P (Y ≤ 2,5). De la misma forma, si queremos aproximar P (X ≥ 3), aproximando
mediante P (Y ≥ 3) estamos subestimando la probabilidad, en realidad, observando la Figura
2.6, tendrı́amos que calcular P (Y ≥ 2,5).

Figura 2.6
En resumen, a la hora de calcular probabilidades para una v.a. Binomial utilizando la

distribución normal, la aproximación se puede mejorar ajustando los lı́mites de las probabil-
idades. Ası́, si Y denota la v.a. Binomial, e Y denota la v.a. Normal que aproxima a Y , se
obtienen mejores aproximaciones de la forma,
P (Y ≤ a) ≈ P (Y ≤ a + 0,5),
P (Y ≥ b) ≈ P (Y ≥ b − 0,5),
P (Y = c) ≈ P (c − 0,5 ≤ Y ≤ c + 0,5),
Ejemplo 2.7.6 Suponga X1 , . . . , Xn una m.a. de una v.a. Binomial Negativa (BN ) de
parámetros BN (r, p). Esta distribución mide número de experimentos de Bernoulli de parámetro
p independientes realizados hasta la consecución del k-ésimo éxito. Además
!
x−1
f (x|p, r) = pr (1 − p)(x−r)
r−1
y
r(1 − p) r(1 − p)
E[X] = , y V[X] = ,
p p2
y el TCL nos dice que
√
n X̄ − r(1 − p)/p
p
r(1 − p)/p2
es aproximadamente N (0, 1).

Por ejemplo, si r = 10, p = 1/2, y n = 30, el cálculo exacto de la probabilidad serı́a

30
! 30
X X
P (X̄ ≤ 11) = P Xi ≤ 330 , Xi ∼ BN (nr, p)
i=1 i=1
330
!
300 x
X 300 + x − 1 1 1
= ,
i=0 x 2 2
= 0,8916
que es una proceso de cálculo largo. Sin embargo, si utilizamos la aproximación via TCL
tenemos
p p !
30(X̄ − 10) 30(11 − 10)
P (X̄ ≤ 11) = P √ ≤ √ ,
20 20
≈ P (Z ≤ 1,2247) = 0,8888.
Otro teorema importante que se usa con el TCL es el siguiente,
Teorema 2.7.4 Slutsky

d p
Si Xn −→ X y Yn −→ a, donde a es una constante, entonces,
d
a) Xn Yn −→ aX,
d
b) Xn + Yn −→ X + a.
La prueba de este teorema escapa al curso.
Ejemplo 2.7.7 Aproximación Normal con varianza estimada

Suponga que √
n(X̄ − µ) d
−→ N (0, 1),
σ
p
pero el valor de σ es desconocido. Utilizando el teorema de Slutsky y el hecho que S 2 −→ σ 2
(que demostraremos más adelante en el curso) tenemos que
lı́m Sn2 /σ 2 = 1.
n→∞
Entonces, usando nuevamente el teorema de Slutsky y el TCL se tiene

√ √
n(X̄ − µ) σ n(X̄ − µ) d
= −→ N (0, 1).
Sn Sn σ

Teorema 2.7.5 El Método Delta

√ d
Sea Yn una secuencia de v.a que satisfacen n(Yn − θ) −→ N (0, σ 2 ). Para una función g y
una valor especı́fico de θ, suponga que g 0 (θ) existe y no es cero. Entonces,
√ d
n[g(Yn ) − g(θ)] −→ N [0, σ 2 g 0 (θ)2 ]
Prueba:
La expansión de Taylor alrededor de Yn = θ es
g(Yn ) = g(θ) + g 0 (θ)(Yn − θ) + residual.
El teorema de Taylor (no lo demostraremos, pero lo usaremos) dice que el término residual
p
converge a cero cuando Yn −→ θ. De la aproximación se tiene que
√ √
n[g(Yn ) − g(θ)] ≈ g 0 (θ) n(Yn − θ).
√ d
Como n(Yn − θ) −→ N (0, σ 2 ), Entonces, por el teorema de Slutsky tenemos que
√ √
lı́m n [g(Yn − g(θ))] = lı́m g 0 (θ) n(Yn − θ),
n→∞ n→∞
con lo cual
√ d
g 0 (θ) n(Yn − θ) −→ N [0, σ 2 g 0 (θ)2 ],

Capı́tulo 3
Propiedades de los Estimadores
3.1. Estimadores y estadı́sticos
El investigador o experimentador usa información de una muestra X1 , . . . , Xn para hacer

inferencia sobre un parámetro desconocido de la población θ. Generalmente el investigador
resumen la información de la muestra mediante estadı́sticos, T (X). Estos son funciones los
datos para resumir su información. Luego un estimador de θ, θb es un estadı́stico con rango en
el espacio paramétrico Θ.
Ejemplo 3.1.1 En la siguiente tabla aparecen parámetros y sus estimadores habituales
parámetro Estimador
Pn
Xi
p pb = i=1
n
µ X̄
0
σ2 S 2, S 2
Cuadro 3.1
3.2. Propiedades de los estimadores
Es posible obtener muchos estimadores para un mismo parámetro, pero hay que decidir
cuáles son buenos y cuáles son los mejores. Ahora, desde qué perspectiva uno decide que un
41
CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 42
estimador es mejor que otro. Vamos a ver varias perspectiva o propiedades para determinar si
un estimador mejor que otro. Estas propiedades son las siguientes:
Insesgamiento.
Suficiencia.
Consistencia.
Estimadores de varianza mı́nima.
3.2.1. Insesgamiento
Definición 3.2.1 Un estimador θb de un parámetro θ es insesgado si E[θ]

b = θ. La cantidad
B(θ) b − θ se denomina sesgo del estimador θ.
b = E(θ) b
Ejemplo 3.2.1 Varianza muestral

Hemos demostrado que si tenemos X1 , . . . , Xn una m.a. proveniente de una v.a. X ∼ N (µ, σ 2 ),
entonces
(n − 1)S 2
∼ χ2n−1 .
σ2
Además, sabemos que una variable que se distribuye chi-cuadrado tiene media igual al número
de grados de libertad, por lo que
(n − 1)S 2

E = n−1∴
σ2
n−1
2
E(S 2 ) = n − 1 ∴
σ
E(S 2 ) = σ 2 .
En forma similar, sabemos que

0
(n)S 2
∼ χ2n−1 .
σ2
Pn
0 (X −X̄)
Con lo cual podrı́amos ver el caso de S 2 = i=1 n i
0
(n)S 2

E = n−1∴
σ2
n 0
2
E(S 2 ) = n − 1 ∴
σ
0 n−1 2
E(S 2 ) = σ .
n

Es decir que es sesgada, cuyo sesgo viene dado por

02
n−1 2 1
B S = σ − σ2 = − σ2.
n n
Ejemplo 3.2.2 Sea X una v.a. con función de densidad
fX (x) = θe−θx , x > 0, θ > 0.
Sea X1 , . . . , Xn una m.a. de dicha variable aleatoria. Vamos a encontrar un estimador inses-
gado de θ.
1 1
Dado que X ∼ Exp (θ), sabemos que E(X) = θ
, con lo cual, θ = E(X)
. Por otro lado
sabemos que !
n n n
1X 1X 1X
E(X̄) = E Xi = E(Xi ) = µ = µ,
n i=1 n i=1 n i=1
es decir que X̄ es un estimador insesgado de E(X), lo cual tiene lógica tomar como estimador
de θ, el estadı́stico θb = X̄1 . Para comprobar si es insesgado, necesitamos su función de densidad.
Observemos que Xi ∼ γ 1, 1θ , tiene distribución gamma1 . Entonces, por la propiedad de

aditividad de las variables aleatorias gamma, tenemos que

n
X 1
T (X) = Xi ∼ γ n, ,
i=1
θ
con función de densidad

1 n n−1 −θt 1
fT (t) = θ t e = θn tn−1 e−θt , t > 0.
Γ(n) (n − 1)!
Ası́, la esperanza del estimador θb = n/T (X) = 1/X̄ viene dada por
Z ∞ Z ∞
n 1 −θt nθ 1
E(θ)
b = n n−1
θ t e dt = θn−1 t(n−1)−1 e−θt dt,
0 t (n − 1)! n − 1 0 (n − 2)!
pero Z ∞ Z ∞
1 1
θn−1 t(n−1)−1 e−θt dt = θn−1 t(n−1)−1 e−θt dt = 1,
0 (n − 2)! 0 Γ(n − 1)
1
La densidad Gamma(α, β) viene dada por

1
y α−1 e−y/β , y > 0
Γ(α)β 2 α

ya que es la integral de una función de densidad γ n − 1, 1θ en todo su rango, con lo que se

concluye que
n
E(θ)
b =θ ,
n−1
de lo que deducimos que θb no es un estimador insesgado de θ. Sin embargo el estimador
n−1
θe =
nX̄
sı́ es un estimador insesgado de θ.
3.2.2. Suficiencia
Un estadı́stico suficiente es el que cumple con la siguiente definición.
Definición 3.2.2 Un estadı́stico T (X) = (X1 , . . . , Xn ) es suficiente para θ si la distribu-

ción condicional de la muestral X1 , . . . , Xn dado el valor de T (X) no depende de θ. Es decir
que
f [x1 , . . . , xn |T (x)] no depende de θ.
La noción de un estadı́stico suficiente para un parámetro θ es que recoja toda la información

de la muestra sobre el parámetro; es decir, si para una muestra determinada, se conoce el valor
del estadı́stico, entonces la muestra no aporta ninguna información extra sobre θ.
Nota 3 Observe que de la definición anterior se deduce directamente que si T es un es-

tadı́stico suficiente para un parámetro θ, entonces también lo es para cualquier función de θ,
g(θ).
El siguiente ejemplo motiva adecuadamente la definición de suficiencia.
Ejemplo 3.2.3 Supongamos que un experimento con dos posibles resultados, éxito, y fra-
caso, con probabilidad de éxito igual a p, se repite n veces, de manera que X1 , . . . , Xn es una
m.a. de una v.a. Bernulli(p). Si calculamos el valor del estadı́stico Y = ni=1 Xi , que es el
P
número de éxito en las n pruebas, ¿proporciona la muestra más información sobre p aparte de
la que aporta el valor observado de Y ?

Esto se puede comprobar calculando la probabilidad de la muestra, condicionada al valor

observado del estadı́stico,
( P (X1 =x1 ,...,Xn =xn ) Pn
P (Y =y)
si i=1 xi = y,
P (X1 = x1 , . . . , Xn = xn |Y = y) = Pn
0 si i=1 xi 6= y.
Ası́,
py (1 − p)n−y 1
P (X1 = x1 , . . . , Xn = xn |Y = y) = ! = !,
n n
py (1 − p)n−y
y y
que no depende de p, lo que significa que una vez conocido el valor del total de éxitos, no
queda más información útil en la muestra sobre la probabilidad de éxito p; por ejemplo, la
información acerca del orden en el que aparecen los éxitos en la muestra es superflua para
conocer p.
Definición 3.2.3 Función de Verosimilitud

Sean X1 , . . . , Xn un conjunto de variables aleatorias con distribución dependiente de un parámetro
θ, y sea x1 , . . . , xn un conjunto de realizaciones de dichas variables aleatorias. Si las variables
son discretas, se define la verosimilitud de θ para x1 , . . . , xn , como la función de cuantı́a con-
junta, es decir,
L(θ; X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; θ) = P(X1 ,...,Xn ) (x1 , . . . , xn ; θ).
Si las variables son continuas, entonces se define como
L(θ; X1 = x1 , . . . , Xn = xn ) = f(X1 ,...,Xn ) (x1 , . . . , xn ; θ)
L(θ; X1 = x1 , . . . , Xn = xn ) se considera como una función del parámetro, ya que la muestra

x1 , . . . , xn es fija. Observe que en el caso de que las variables sean independientes, la verosimil-
itud es ( Q
n
i=1 PXi (xi ; θ) si las v.a. son discretas
L(θ; x1 , . . . , xn ) = Qn
i=1 fXi (xi ; θ) si las v.a. son continuas
El siguiente teorema nos proporciona en ciertos casos un método sencillo para comprobar si
un estadı́stico es suficiente.
Teorema 3.2.1 Teorema de factorización

Sea X1 , . . . , Xn una m.a. de una v.a. con distribución dependiente de un parámetro desconocido

θ. El estadı́stico T = T (X1 , . . . , Xn ) es suficiente para θ si y solo si la verosimilitud se puede

factorizar en dos funciones no negativas de la forma
L(θ; x1 , . . . , xn ) = g(t; θ)h(x1 , . . . , xn ),
donde g(t; θ) depende de la muestra solo a través de t, h(x1 , . . . , xn ) no depende de θ.
Ejemplo 3.2.4 Para el Ejemplo 3.2.3 se demuestra que T =

P
i=1 Xi es suficiente uti-
lizando el Teorema 3.2.1.
La verosimilitud
n
Y
L(p; x1 , . . . , xn ) = f (xi ; p)
i=1
n
Y
= pxi (1 − p)1−xi
i=1
Pn Pn
xi
= p i=1 (1 − p)n− i=1 xi
= g(t, p) × 1,
Pn
con t = i=1 xi y h(x1 , . . . , xn ) = 1.
Ejemplo 3.2.5 Sea X1 , . . . , Xn una m.a. de una v.a. con distribución N (µ, σ2 ). Vamos a
obtener estadı́sticos suficientes para
a) σ 2 , si µ es conocido,
b) µ, si σ 2 es conocido,
c) µ y σ 2 .
La verosimilitud de la muestra es
n n
2
Y
2
Y 1 1 2
L(µ, σ ; x1 , . . . , xn ) = f (xi ; µ, σ ) = √ exp − 2 (xi − µ)
i=1 i=1 2πσ 2 2σ
( n
)
1 1 X
= √ n exp − 2 (xi − µ)2 I(−∞,inf ty) (xi ).
2πσ 2 2σ i=1
Aquı́ ya tenemos una factorización adecuada para el caso a), tomando h(x1 , . . . , xn ) = I(−∞,inf ty) (xi ).
Por tanto, T = ni=1 (xi − µ)2 es suficiente para σ 2 .
P

Para el apartado b), sumando y restando x̄ dentro de la exponencial, obtenemos

n
X n
X n
X
2 2
(xi − µ) = (xi − x̄ + x̄ − µ) = (xi − x̄)2 + n(x̄ − µ)2 ,
i=1 i=1 i=1
ya que el término cruzado se anula. Por tanto, la verosimilitud se puede factorizar de la forma
( n
)
2 1 1 X 2
n n
2
o
L(µ, σ ; x1 , . . . , xn ) = √
n exp − (xi − x̄) exp − 2 (x̄ − µ) .
2πσ 2 2σ 2 i=1 2σ
Por tanto, en este caso T = X̄ es suficiente para µ.
Finalmente, para c), un estadı́stico suficiente de (µ, σ 2 ) se obtiene de la misma factor-

ización, " #
n
X
T = X̄, (Xi − X̄)2 ,
i=1
o equivalentemente, multiplicando y dividiendo por n dentro de la primera exponencial, se
obtiene que
0
T = X̄, S 2
es suficiente de (µ, σ 2 ).
3.2.3. Consistencia
Suponga que se tira una moneda n veces; la probabilidad que salga cara es p. Si los lanza-
mientos son independientes, entonces Y , el número de caras que salen en los n lanzamientos,
tiene una distribución binomial. Si se desconoce el valor real de p, la razón muestral Y /n
constituye un estimador de p. ¿Qué efecto tiene en este cociente muestral el incremento del
número de lanzamientos, n? Nuestra intuición sugiere que conforme n crece, Y /n se aproxime
al valor verdadero de p. Es decir, nuestro estimador se aproximarı́a a la cantidad que se desea
estimar a medida que aumenta la cantidad de información de la muestra.
Como Y /n es una variable aleatoria, podemos expresar la proximidad de Y /n a p en

términos de probabilı́sticos; en particular, analizando la probabilidad la distancia entre el
estimador y el parámetro objetivo, |Y /n − p|. Si estamos en lo cierto, conforme n aumente, la
probabilidad
Y
P − n ≤ , para > 0,

n
deberı́a aproximarse a 1. Si, en efecto, esta probabilidad tiende a 1 cuando n −→ ∞, entonces
decimos que Y /n es un estimador consistente de p, o que Y /n converge en probabilidad a p.

Definición 3.2.4 Se dice que θb es un estimador consistente de θ si, para cualquier número
positivo ,
lı́m P (|θbn − θ| ≤ ) = 1,
n→∞
o
lı́m P (|θbn − θ| > ) = 0.
n→∞
También, es posible determinar la consistencia de un estimador observando qué es lo que

sucede con el error cuadrático medio cuando n tiende a infinito,
lı́m ECM (θ)

b = lı́m E[(θb − θ)2 ] = lı́m E(θb2 + θ2 − 2θθ)
b
n→∞ n→∞ n→∞
h i
= lı́m E(θb2 ) − E(θ) b 2 + E(θ)
b 2 + θ2 − 2θE(θ)
b
n→∞
= b 2 + lı́m V(θ).
lı́m [B(θ)] b
n→∞ n→∞
Teorema 3.2.2 Un estimador θbn de θ constituye un estimador consistente de θ si

n o
lı́m ECM (θ)
b = lı́m b 2 + V(θ)
[B(θ)] b =0
n→∞ n→∞
Ejemplo 3.2.6 Sea X1 , . . . , Xn una m.a. de una v.a. con media µ y varianza σ2 < ∞, se
Pn
puede demostrar que X̄n = i=1 Xi es un estimador consistente de µ.
Anteriormente vimos que E(X̄n ) = µ y que V(X̄n ) = σ 2 /n. Como X̄n es insesgado para µ
sólo resta ver qué pasa con V(X̄n ) cuando n −→ ∞. Pero
σ2
lı́m V(X̄n ) = lı́m = 0.
n→∞ n→∞ n
Entonces, podemos concluir según el teorema 3.2.2 que X̄n es un estimador consistente µ.
Teorema 3.2.3 Suponga que θb1n es estimador consistente de θ1 y que θb2n es estimador
consistente de θ2 , entonces
p
a) θb1n + θb2n −→ θ1 + θ2 ,
p
b) θb1n θb2n −→ θ1 θ2 ,
p
c) θb1n /θb2n −→ θ1 /θ2 , siempre que θ2 6= 0,
p
d) Si g(.) es una función de valores reales continua en θ, entonces g(θbn ) −→ g(θ).

Ejemplo 3.2.7 Sea X1 , . . . , Xn una m.a. de una v.a. tal que E(Xi ) = µ, E(Xi2 ) = µ02 y
E(Xi4 ) = µ04 son finitas. Se puede demostrar que
n
1 X
Sn2 = (Xi − X̄n )2
n − 1 i=1
es un estimador consistente de σ 2 .
Anteriormente hemos visto que Sn2 es igual a

n
! n
!
2 1 X
2 2 n 1X 2
Sn = X − nX̄n = X − X̄n2 .
n − 1 i=1 i n−1 n i=1 i
Pn
El estadı́stico (1/n) i=1 Xi2 es el promedio de n variables aleatorias independientes con
idéntica distribución, en las cuales E(Xi2 ) = µ02 y V(yi2 ) = µ04 − (µ02 )2 < ∞. De acuerdo a la
ley de los grandes números, sabemos que (1/n) ni=1 Xi2 converge en probabilidad a µ02 . Por
P
otro lado vimos en el ejemplo 3.2.6 que X̄ es un estimador consistente de µ. Como la función
p
g(.) = x2 es continua para todo x, implica que X̄ 2 −→ µ2 . Por lo tanto,
n
1X 2 p
Xi − X̄n2 −→ µ02 − µ2 = σ 2 .
n i=1
Ya que n/(n − 1) es una serie de constantes que convergen a 1 cuando n −→ ∞, podemos
concluir que Sn2 converge en probabilidad a σ 2 . De esta manera queda demostrado que Sn2 es
un estimador consistente para σ 2 .
0 1
P2
Sin otros cálculos adicionales ¿Cómo demostrarı́a que S 2 = n i=1 (Xi − X̄n )2 ? es un
también un estimador consistente para σ 2 .
Ejemplo 3.2.8 Vamos a calcular el ECM de S 0 2 = 1

Pn
n i=1 (Xi − X̄)2 . Supongamos que
tenemos X1 , . . . , Xn una m.a. de una v.a. X ∼ N (µ, σ 2 ), entonces, por propiedades que hemos
visto, es posible comprobar que
(n − 1)S 2

2

V = V χ n−1 = 2(n − 1) ∴
σ2
(n − 1)2
2 2
V(S 2 ) = 2(n − 1) ∴
(σ )
2(σ 2 )2
V(S 2 ) = .
n−1
Entonces el ECM de S 2 la suma del sesgo y su varianza, pero como este es un estimador
insesgado de σ 2 el ECM es sólo la varianza del estimador, es decir
2
ECM (S 2 ) = V(S 2 ) = (σ 2 )2 .
n−1

0 0
Para el caso de S 2 , su sesgo es B(S 2 ) = − n1 σ 2 , sólo resta calcular su varianza, pero
0 n−1 2
sabemos que S 2 = n
S , con lo cuál
2
2(σ 2 )2

02 n−1 n−1
V(S ) = = 2(σ 2 )2 2 ,
n n−1 n
por lo que el ECM queda

0 1 n−1 2n − 1 2 2
ECM (S 2 ) = (σ 2 )2 2
+ 2(σ 2 )2 2 = (σ )
n n n2
Si suponemos que n > 1, entonces

0
ECM (S 2 ) < ECM (S 2 ),
además, a medida que n crece el
3.2.4. Estimadores de varianza mı́nima
Los estimadores suficientes desempeñan un papel importante en la determinación de los

buenos estimadores de parámetros. Si se busca estimadores con varianza pequeñas, entonces
estos tienen que ser suficientes.
Teorema 3.2.4 Teorema de Rao-Blackwell

Sea W un estimador insesgado de τ (θ), y sea T un estadı́stico suficiente de θ. Definimos
φ(T ) = E(W |T ). Entonces,
E [φ(T )] = τ (θ), y V [φ(T )] ≤ V(W ),
para todo θ. Es decir que φ(T ) es un mejor estimador insesgado para τ (θ).
Si comenzamos con un estimador insesgado para un parámetro θ o una función de este, y

con el criterio de factorización obtenemos un estadı́stico suficiente, la aplicación del teorema
3.2.4 permite obtener un estimador insesgado de menor varianza. El cálculo directo de los
valores condicionales podrı́a resultar difı́cil, no obstante, T es el estadı́stico suficiente que
resume mejor los datos y serı́a posible determinar una función de T , digamos h(T ), tal que
E[h(T )] = θ, la cual genera que h(T ) es el un estimador insesgado de varianza menor para θ.
Debe quedar claro que debe ser resultado de aplicar una función a un estadı́stico suficiente.

Ejemplo 3.2.9 Sea X1 y X2 una muestra de una v.a. X ∼ N (θ, 1). El estadı́stico X̄ =
1
2
(X1 + X2 ) tiene
1
E X̄ = θ y V X̄ = .
2

Considere condicionar sobre X1 , el cuál no es un estadı́stico suficiente. Sea φ(X1 ) = E X̄|X1 ,

se puede probar que E [φ(X1 )] = φ y V [φ(X1 )] ≤ V X̄ , por lo que φ(X1 ) serı́a un mejor
estadı́stico que X̄. Sin embargo,

φ(X1 ) = E X̄|X1
1 1
= E(X1 |X1 ) + E(X2 |X1 )
2 2
1 1
= X1 + θ,
2 2
pero como se aprecia, φ(X1 ) no es un estimador.
Pero, ¿cómo sabemos si es posible mejorar el estimador que tenemos?
Teorema 3.2.5 Si W es un estimador insesgado mejor para τ (θ), entonces W es único.
Pero, ¿cómo sabemos si el estimador que tenemos es mejor estimador insesgado? la respues-
ta a esta pregunta se podrı́a obtener mediante el siguiente ejemplo. Suponga que W satisface
E(W ) = τ (θ), y que tenemos otro estimador, U , que satisface E(U ) = 0 para todo θ, por lo
que U es un estimador insesgado de 0. Suponga el estimador
φa = W + aU,
donde a es una constante que satisface E(φa ) = θ y por lo tanto es un estimador insesgado de
τ (θ). Luego, la varianza de φa está dada por
V(φa ) = V(W + aU ) = V(W ) + 2aCov(W, U ) + a2 V(U ).
Ahora, si para algún valor θ = θ0 , Cov(W, U ) < 0, entonces podemos hacer 2aCov(W, U ) +
a2 V(U ) < 0 eligiendo a ∈ [0, −2aCov(W, U )/V(U )]. Entonces, φa será un mejor estimador
insesgado que W para θ = θ0 . En forma similar, si Cov(W, U ) < 0 para algún θ = θ0 , W
tampoco será el mejor estimador insesgado. Por tanto, la relación de W con el estimador de
0 (cero) es crucial en la evaluación de W como el mejor estimador insesgado.
Teorema 3.2.6 Si E(W ) = τ (θ), W es el mejor estimador insesgado de τ (θ) si y solo si

W es incorrelado con todos los estimadores insesgado de cero.

Finalmente, la forma más fácil para ver si un estimador W es el mejor estimador insesgado,
es viendo si la varianza de este alcanza la cota de Frechet-Crámer-Rao. Antes de determinar
esta cota, vamos a definir un concepto importante en inferencia estadı́stica, la matriz de
información de Fisher .
Definición 3.2.5 Sea X una v.a. con función de densidad continua y dependiente de un
parámetro θ. Se define la cantidad de información de Fisher de X sobre θ como
( 2 ) 2
∂ log f (x; θ) ∂
I(θ) = E = −E log f (x; θ)
∂θ (∂θ)2
Ejemplo 3.2.10 Calcular la cantidad de información de Fisher de una v.a. X ∼ P oisson(λ).

La función de cuantı́a viene dada por
λx e−λ
p(x; λ) = , x = 0, 1, 2, . . .
x!
el logaritmo natural es
log p(x; λ) = x log λ − λ − log x!,
y su derivada
∂ log p(x; λ) x x−λ
= −1= ,
∂λ λ λ
elevando al cuadrado y tomando esperanza tenemos
" 2 #
x−λ V(X) 1
E = 2
= .
λ λ λ
Teorema 3.2.7 Desigualdad de Frechet-Crámer-Rao

Sea X1 , . . . , Xn una m.a. de una v.a. con función de densidad f (x; θ), y sea In (θ) la cantidad
de información de Fisher de la muestra X1 , . . . , Xn sobre θ. Si θb = T (X1 , . . . , Xn ) es un
estimador insesgado de θ, entonces bajo ciertas condiciones generales, se verifica
b ≥ I −1 (θ).
V(θ) n
b = I −1 (θ) se llama eficiente.

Luego, un estimador que verifica V(θ) n
Ejemplo 3.2.11 Se puede demostrar que para una v.a. P oisson(λ), el estimador θb = X̄
es eficiente.

En primer lugar calculamos la cantidad de información de Fisher In (θ) para la muestra

X1 , . . . , Xn . El logaritmo natural de la función de cuantı́a conjunta de X1 , . . . , Xn es
" n #
Y λxi e−λ
log p(x1 , . . . , xn ; λ) = log
i=1
xi !
n
X n
X
= xi log λ − nλ − log xi .
i=1 i=1
Derivando con respecto a λ, obtenemos

Pn
∂ i=1 xi
log p(x1 , . . . , xn ; λ) = − n.
∂λ λ
Por consiguiente " P
n 2 #
i=1 xi − nλ nV(X) n
In (λ) = E = 2
= .
λ λ λ
También podrı́a ser, Pn
∂2 i=1 xi
log p(x1 , . . . , xn ; λ) = − ,
(∂λ)2 λ2
entones, !
n
∂2

1 X n
In (λ) = −E log p(x 1 , . . . , x n ; λ) = E x i =
(∂λ)2 λ2 i=1
λ
Por otro lado la V(θ)

b = V(X̄) es
n
!
b = 1V nλ λ
X
V(θ) Xi = = .
n2 i=1
n 2 n
Con lo que se concluye que θb = X̄ es eficiente.

Capı́tulo 4
Métodos de Estimación Puntual de

Parámetros
Hemos visto las diferentes propiedades que un estimador debe tener para considerarlo como
una buena aproximación del verdadero valor del parámetro. En esta parte del curso vamos a
ver diferentes métodos para encontrar estimadores puntuales de un parámetro desconocido θ.
Definición 4.0.6 Un estimador puntual es una función T (X1 , . . . , Xn ) de una muestra,

es decir que cualquier estadı́stico es un estimador puntual.
Nota 4 Vamos la diferencias lo que es un estimador de una estimación. Un estimador es

una función de la muestra, mientras que una estimación es el valor realizado del estimador,
es decir la función evaluada en la realización de la muestra T (x1 , . . . , x2 ).
4.1. Método de Momentos
En esta sección analizaremos uno de los métodos más antiguos para obtener estimadores
puntuales: el método de los momentos.
El método de los momentos es un procedimiento muy sencillo para determinar un estimador

cuando se dispone de uno o más parámetros poblaciones. Recordemos que el k-ésimo momento
de una variable aleatoria X, tomada respecto al origen, es
µ0k = E(X k )
54
CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 55
En general, estos momentos serán funciones de los parámetros poblacionales, es decir
µ0k = g(θ),
donde θ = {θ1 , . . . , θL } para L = 1, 2, 3, . . ..
El momento muestral k-ésimo correspondiente es el promedio

n
1X k
m0k = X .
n i=1 i
Definición 4.1.1 Método de momentos

El método de los momentos para estimar θ1 , . . . , θL mediante una muestra de tamaño n,
X1 , . . . , Xn , consiste en construir L ecuaciones, igualando L momentos poblacionales a sus
correspondientes L momentos muestrales, y despejar de dichas ecuaciones los parámetros en
función de los momentos muestrales.
Ejemplo 4.1.1 Supongamos que tenemos una población con distribución N (µ, σ2 ), de la
que se obtiene una m.a. de tamaño n, X1 , . . . , Xn . Se desea obtener estimadores de µ y σ 2 ,
0
por el método de los momentos. Tenemos θ1 = µ01 = µ y θ2 = σ 2 , y sabemos que σ 2 = µ02 − µ12 .
También, conocemos que m1 = X̄ y m2 = n1 ni=1 Xi2 , por lo tanto hay que resolver
P
X̄ = µ,
n
1 X
Xi2 = µ2 + σ 2 .
n i=1
Resolviendo para µ y σ 2 tenemos que

µ
b = X̄
y
n n
1X 2 1X
σb2 = Xi − X̄ 2 = (Xi − X̄)2 .
n i=1 n i=1
Ejemplo 4.1.2 Sea X1 , . . . , Xn una m.a. de una variable aleatoria con distribución U (0, θ),
de la que se desconoce el valor de θ. Aplique el método de momentos para obtener un estimador
del parámetro θ.
El valor de µ01 para una v.a. uniforme es

θ
µ01 = µ = .
2

Además, sabemos que el primer momento muestral es la media muestral X̄. Igualando el
momento muestral con poblacional tenemos
θ b
X̄ = ∴ θ = 2X̄.
2
Ejemplo 4.1.3 Sea X1 , . . . , Xn una m.a. de una v.a. con función de densidad dada por
Γ(2θ) θ−1
f (x|θ) = 2y (1 − y)θ−1 , 0 ≤ x ≤ 1.
[Γ(θ)]
Determinar el estimador del método de momentos para θ.
La variable X tiene distribución β(θ, θ). Recuerde que una v.a. con distribución β(α, δ)
tiene densidad dada por
Γ(α + δ) α−1
f (x|α, δ) = x (1 − x)δ−1 , 0 ≤ x ≤ 1,
Γ(α)Γ(δ)
y que E(X) = α
α+δ
y σ2 = αδ
(α+δ)2 (α+δ+1)
= µ02 − (µ01 )2 . para nuestro caso tenemos que
θ 1
m01 = X̄ ∴ X̄ =∴ X̄ = ,
2θ 2
n
para los momentos de orden 2 tenemos m02 = n i=1 Xi2 , y
1
P
θ2
σ2 = ,
4θ2 (2θ + 1)
reemplazando e igualando por el momento muestral tenemos,
θ2 θ2 1 1 1
m02 = 2
+ (m0 2
1 ) ∴ m 0
2 = 3 2
− ∴ m02 − =
4θ (2θ + 1) 8θ + 4θ 4 4 8θ + 4
reordenando un poco tenemos
4m02 − 1 1 1 1 1
= ∴ 0
= 2θ + 1 ∴ 2θ = 0
−1
4 4 2θ + 1 4m2 − 1 4m2 − 1
1 − 2m02
2θ = 2 ∴
4m02 − 1
1 − 2m02
θb = .
4m02 − 1
El método de momentos permite obtener estimadores de parámetros desconocidos igualan-

do los momentos muestrales y de la población correspondientes. El método es fácil de aplicar y
proporciona estimadores consistentes. Sin embargo, los estimadores que se obtienen mediante
este método a menudo no son funciones de estadı́sticos suficientes. En consecuencia, éstos
tampoco serán de varianza mı́nima.

Ejemplo 4.1.4 Sea X1 , . . . , Xn una m.a de una v.a. X ∼ γ(α, β). Determinar por el
método de momentos los estimadores para α y β.
Los primeros momentos de esta distribución son
µ01 = µ = αβ, y µ02 = σ 2 + µ2 = αβ 2 + α2 β 2 .
Ahora igualando estas cantidades a sus momentos muestrales correspondientes y despejamos

α
b y β,
b
µ01 = αβ = m01 = X̄
n
1X 2
µ02 2
= αβ + α β = 2 2
m02 = X
n i=1 i
De la primera ecuación obtenemos βb = X̄/b

α. Al sustituir esa expresión en la segunda ecuación
y despejar α
b generamos
X̄ 2 nX̄ 2
α
b = Pn = n .
( i=1 Xi2 /n) − X̄ 2
P 2
i=1 (Xi − X̄)
Si sustituimos α
b en la primera ecuación, obtenemos
Pn
X̄ i=1 (Xi− X̄)2
βb = = .
α
b nX̄
Veamos la verosimilitud de esta distribución

1 Pn
n
e− β
Qn xi
Y xα−1 e−xi /β
i i=1 xα−1
i
i=1
L(α, β; x1 , . . . , xn ) = = .
i=1
Γ(α)β α [Γ(α)β α ]n
De teorema de factorización 3.2.1 vemos que los estadı́sticos suficientes son ni=1 Xi y ni=1 Xi .
P Q
Como los estimadores del método de momentos α b y βb no son funciones de estos estadı́sticos
suficientes, estos estimadores no son eficientes, o de varianza mı́nima.
4.2. El método de máxima verosimilitud
En esta sección analizaremos el método de máxima verosimilitud, el cual a menudo pro-

porciona estimadores insesgados de varianza mı́nima.

Ejemplo 4.2.1 Consideremos el experimento de lanzar una moneda dos veces de forma
independiente. Sea la v.a. X : Número de caras obtenidas en los dos lanzamientos. Entonces,
X ∼ Bin(2, θ), donde θ = P (cara) ∈ {0,2; 0,8}. Es decir, la función de cuantı́a es
!
2
p(x|θ) = θx (2 − θ)1−x , x = 0, 1, 2.
x
Ası́, la función de cuantı́a de X según los posibles valores de θ viene dada en la tabla siguiente
θ x=0 x=1 x=2

0,2 0,64 0,32 0,04
0,8 0,04 0,32 0,64
A la luz de esta tabla, parece lógico estimar θ de la siguiente manera: si en el experimento

hemos obtenido x = 0 caras, entonces elegirı́amos θb = 0,2, y si hemos obtenido x = 2 caras,
seleccionarı́amos como estimador θb = 0,8. Si obtuviésemos x = 1 cara, entonces podemos
elegir uno de los dos valores de forma arbitraria, puesto que no tenemos más información.
Ası́, la idea del método de máxima verosimilitud consiste en estimar el parámetro descono-
cido θ, con el valor para el cual la probabilidad de que ocurra lo que hemos observado sea
máxima, es decir, seleccionar el valor de θ más creı́ble, o en otras palabras, más verosı́mil. Es
decir, tomar el valor de θ para el cual la probabilidad de la muestra observada sea máxima.
Sin embargo, en el caso continuo, la probabilidad de un valor concreto de la muestra es cero.
En este caso, se generaliza el método, tomando el valor de θ para el cual la densidad de la
muestra observada sea máxima.
Definición 4.2.1 Sea x1 , . . . , xn una realización de una m.a proveniente de una población
cuya distribución pertenece a la familia F = {Fθ : θ ∈ Θ}, donde θ ∈ RL . El estimador
máximo verosı́mil (EMV) de θ es la cantidad que verifica
θb = máxL(θ; x1 , . . . , xn )
θ∈Θ
Muchas veces el logaritmo natural de la verosimilitud, l(θ; x1 , . . . , xn ) = log L(θ; x1 , . . . , xn ),

es más fácil de manejar que la verosimilitud. Además, si la función de verosimilitud es difer-
enciable (en θi ), posibles candidatos para ser EMV son los valores de θ1 , . . . , θL que resuelven
∂
L(θ; x1 , . . . , xn ) = 0, i = 1, 2, . . . , L.
∂θi

o
∂
l(θ; x1 , . . . , xn ) = 0, i = 1, 2, . . . , L.
∂θi
Como la función logaritmo es monótona creciente, entonces los valores máximos de las fun-
ciones l(θ; x1 , . . . , xn ) y l(θ; x1 , . . . , xn ) se alcanzan en el mismo punto θb1 , . . . , θbL .
Ejemplo 4.2.2 Sea X1 , . . . , Xn una m.a de una v.a. X ∼ N (µ, σ2 ). Obtenga los EMV de
µ y σ2.
La verosimilitud está dada por

( n
)
1 1 X
L(θ; xn , . . . , xn ) = exp − 2 (xi − µ)2 ,
(2πσ 2 )n/2 2σ i=1
y su logaritmo
n
n 2 1 X
(xi − µ)2 .

l(θ; xn , . . . , xn ) = − log 2πσ − 2
2 2σ i=1
Las derivadas con respecto a µ y σ 2 son
n
∂ 1 X
=0 ∴ (xi − µ) = 0,
∂µ σ 2 i=1
Pn 2
∂ n i=1 (xi − µ)
= 0 ∴ − + = 0.
∂σ 2 2σ 2 2σ 4
Resolviendo este sistema de ecuaciones tenemos que
1 0
µ b2 =
b = X̄ y σ (Xi − X̄)2 = S 2 .
n
0
Con lo que vemos que la media muestral X̄ y la varianza sesgada muestral S 2 son los EMV
de µ y σ 2 para una v.a. X ∼ N (µ, σ 2 ).
Ejemplo 4.2.3 Sea X ∼ U (0, θ), con función de densidad

1
f (x|θ) = I(0,θ) (x), θ > 0.
θ
donde θ es desconocido. Sea X1 , . . . , Xn una m.a. de X. Calcular el EMV de θ.
La verosimilitud viene dada por

1
L(θ; x1 , . . . , xn ) = I{x ≥0} (x(1) )I{x(n) ≤θ} (x(n) ).
θn (1)
Podemos observar que para θ ≥ x(n) , L disminuye a medida que θ aumenta; es decir, L es
decreciente en θ a partir de θ = x(n) . Sin embargo, para θ < x(n) , la verosimilitud es cero. Por
tanto, el máximo se encuentra en θb = x(n) , y por tanto, éste es el EMV de θ.

Teorema 4.2.1 Invarianza del EMV

El EMV es invariante respecto de transformaciones monotónicas del parámetro. Es decir, si
ω = h(θ), donde h es biyectiva y θb es el EMV de θ, entonces ω
b = h(θ)
b es el EMV de ω.
Prueba: Sea ω b el EMV de L∗ (ω; x1 , . . . , xn ). Debemos demostrar que L∗ (b

ω ; x1 , . . . , x n ) =
L(h(θ);
b x1 , . . . , xn ). Ahora, la verosimilitud de ω viene dada por
n
Y
∗
L (ω; x1 , . . . , xn ) = f (xi |h−1 (ω)) = L(h−1 (ω); x1 , . . . , xn ),
i=1
ahora, el EMV de ω es
b = supL∗ (ω; x1 , . . . , xn ) = supL(h−1 (ω); x1 , . . . , xn ) = supL(θ; x1 , . . . , xn ) = θ,

ω b
ω ω θ
Por lo que el máximo de L∗ (ω; x1 , . . . , xn ) es logrado en ω = h(θ) = h(θ),

b mostrando que el
EMV de ω es h(θ).
b Lo que verifica el teorema.
Un ejemplo puede ser el siguiente: El estimador EMV de θ2 puede ser X̄ 2 . Otro, el EMV
p p
de p(1 − p) de una variable binomial puede ser pb(1 − pb), donde pb es el EMV de p.

Infer en CIA

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Infer en CIA

Загружено:

Авторское право:

Доступные форматы

INFERENCIA ESTADISTICA

1.1. Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . 9

1.3.1. Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.2. Caso Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.5. Distribución relativa a la media muestral . . . . . . . . . . . . . . . . . . . . . 24

2.6. Distribución en el muestreo de la varianza muestral . . . . . . . . . . . . . . . 28

2.7. El Teorema Central del Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . 32

3. Propiedades de los Estimadores 41

3.1. Estimadores y estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2.4. Estimadores de varianza mı́nima . . . . . . . . . . . . . . . . . . . . . . 50

4. Métodos de Estimación Puntual de Parámetros 54

4.1. Método de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2. El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 57

5. Estimación por Intervalos 61

5.1. Método del Pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.1.1. Método de la cantidad pivotal . . . . . . . . . . . . . . . . . . . . . . . 63

5.3. Intervalo de confianza para σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.4. Intervalo de confianza para la diferencia de medias con varianzas conocidas . . 67

5.5. Intervalo de confianza para µ1 − µ2 , con varianzas desconocidas pero iguales . 69

5.6. Intervalo de confianza para el cociente de varianzas . . . . . . . . . . . . . . . 71

5.7. Intervalos de confianza para muestras grandes . . . . . . . . . . . . . . . . . . 73

5.8. Intervalo de confianza asintótico para una proporción . . . . . . . . . . . . . . 74

6. Pruebas de Hipótesis Paramétricas 76

6.1. Elementos de una prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 76

6.2. Error tipo I y II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.3. Potencia de una prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.4. Cálculo de probabilidades de significación . . . . . . . . . . . . . . . . . . . . . 84

6.5. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Prof. Dr. A. Rodriguez Inferencia Estadı́stica

6.6. Pruebas Uniformemente Más Potentes (UMP) . . . . . . . . . . . . . . . . . . 89

6.7. Prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 91

7. Pruebas de hipótesis no Paramétricas 95

7.1. Modelo General de Desplazamiento de dos Muestras . . . . . . . . . . . . . . 95

7.2. Prueba de Rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.2.2. Prueba para muestras independientes . . . . . . . . . . . . . . . . . . . 100

7.3. Prueba de Kruskal-Wallis para un modelo de un factor . . . . . . . . . . . . . 104

8. Ajuste de Distribuciones 107

8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

8.2. Pruebas χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

8.2.1. Prueba χ2 de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . 107

8.2.2. Prueba χ2 para independencia . . . . . . . . . . . . . . . . . . . . . . . 109

8.2.3. Prueba χ2 para homogeneidad . . . . . . . . . . . . . . . . . . . . . . . 111

8.3. Prueba Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Prof. Dr. A. Rodriguez Inferencia Estadı́stica

1.1. Muestra aleatoria

En una muestra aleatoria o de probabilidad conocemos las posibilidades de que un elemento

4. Muestreo aleatorio simple

En el muestreo sistemático, los elementos son seleccionados de la población dentro de un

Para utilizar el muestreo estratificado, se divide a la población en grupos relativamente

1. Se selecciona en forma aleatoria elementos de cada estrato. La cantidad de elementos

2. Se seleccionan en forma aleatoria igual cantidad de elementos en cada estrato y luego

La ventaja de este procedimiento de muestreo, es que si es diseñado correctamente, representa

En el muestreo de racimo se divide la población en grupos, o racimos, y luego se selecciona

Prof. Dr. A. Rodriguez Inferencia Estadı́stica

Muestreo aleatorio simple

Prof. Dr. A. Rodriguez Inferencia Estadı́stica

1.2. Distribución de frecuencias

Para la obtención de las distribuciones de frecuencias de diferentes variables es necesario