Вы находитесь на странице: 1из 60

INFERENCIA ESTADISTICA

Departamento de Estadı́stica
Facultad de Ciencias Fı́sicas y Matemáticas
Curso: 2010
Índice general

1. Introducción 5

1.1. Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . 9

1.3.1. Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.2. Caso Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2. Distribuciones Muestrales 15

2.1. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2. Distribución χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.5. Distribución relativa a la media muestral . . . . . . . . . . . . . . . . . . . . . 24

2.6. Distribución en el muestreo de la varianza muestral . . . . . . . . . . . . . . . 28

2.7. El Teorema Central del Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . 32

3. Propiedades de los Estimadores 41

3.1. Estimadores y estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2
ÍNDICE GENERAL Página 3

3.2.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.4. Estimadores de varianza mı́nima . . . . . . . . . . . . . . . . . . . . . . 50

4. Métodos de Estimación Puntual de Parámetros 54

4.1. Método de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2. El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 57

5. Estimación por Intervalos 61

5.1. Método del Pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.1.1. Método de la cantidad pivotal . . . . . . . . . . . . . . . . . . . . . . . 63

5.2. Intervalo de confianza para µ, con σ 2 conocida y desconocida en v.a. con dis-
tribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.3. Intervalo de confianza para σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.4. Intervalo de confianza para la diferencia de medias con varianzas conocidas . . 67

5.5. Intervalo de confianza para µ1 − µ2 , con varianzas desconocidas pero iguales . 69

5.6. Intervalo de confianza para el cociente de varianzas . . . . . . . . . . . . . . . 71

5.7. Intervalos de confianza para muestras grandes . . . . . . . . . . . . . . . . . . 73

5.8. Intervalo de confianza asintótico para una proporción . . . . . . . . . . . . . . 74

6. Pruebas de Hipótesis Paramétricas 76

6.1. Elementos de una prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 76

6.2. Error tipo I y II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.3. Potencia de una prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.4. Cálculo de probabilidades de significación . . . . . . . . . . . . . . . . . . . . . 84

6.5. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


ÍNDICE GENERAL Página 4

6.6. Pruebas Uniformemente Más Potentes (UMP) . . . . . . . . . . . . . . . . . . 89

6.7. Prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 91

7. Pruebas de hipótesis no Paramétricas 95

7.1. Modelo General de Desplazamiento de dos Muestras . . . . . . . . . . . . . . 95

7.2. Prueba de Rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.2.1. Prueba para muestras pareadas: Prueba de Rangos con Signo de Wilcoxon 97

7.2.2. Prueba para muestras independientes . . . . . . . . . . . . . . . . . . . 100

7.3. Prueba de Kruskal-Wallis para un modelo de un factor . . . . . . . . . . . . . 104

8. Ajuste de Distribuciones 107

8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

8.2. Pruebas χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

8.2.1. Prueba χ2 de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . 107

8.2.2. Prueba χ2 para independencia . . . . . . . . . . . . . . . . . . . . . . . 109

8.2.3. Prueba χ2 para homogeneidad . . . . . . . . . . . . . . . . . . . . . . . 111

8.3. Prueba Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


Capı́tulo 1

Introducción

1.1. Muestra aleatoria

En una muestra aleatoria o de probabilidad conocemos las posibilidades de que un elemento


de la población se incluya o no en la muestra. Con este criterio de selección, se puede describir
matemáticamente qué tan objetivas son las estimaciones y la inferencia que se realiza con la
muestra. Hay cuatro métodos de muestreo aleatorio:

1. Muestreo sistemático

2. Muestreo estratificado

3. Muestreo de racimo

4. Muestreo aleatorio simple

Muestreo sistemático

En el muestreo sistemático, los elementos son seleccionados de la población dentro de un


intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. Si se tuviera
que entrevistar a cada vigésimo estudiante de una universidad, escogerı́a un punto de inicio
aleatorio entre los primeros 20 nombres del directorio estudiantil y luego se seleccionarı́a cada
veintavo nombre de ahı́ en adelante.

5
CAPÍTULO 1. INTRODUCCIÓN Página 6

El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento de
la población tiene igual probabilidad de ser seleccionado, pero cada muestra no tiene una
probabilidad igual de ser seleccionada. Suponga que hay 100 empleados en una compañı́a y se
desea entrevistar una muestra de 10 de ellos seleccionando cada décimo número. Si se hubiera
seleccionado en forma aleatoria el valor inicial 5, entonces las muestras estarı́a compuestas
por el valor empleado numerado con el 5, 15, 25, 35, etc, entonces, por ejemplo, los empleados
numerados con 6, 7, 8 y 9 no tendrı́an ninguna probabilidad de ser seleccionado juntos, con lo
cual no todas las muestras posibles tienen la misma probabilidad de ocurrencia.

Muestreo estratificado

Para utilizar el muestreo estratificado, se divide a la población en grupos relativamente


homogéneos, llamados estratos. Después se utiliza uno de los siguientes planteamientos:

1. Se selecciona en forma aleatoria elementos de cada estrato. La cantidad de elementos


seleccionados será proporcional al tamaño del estrato en la población, es decir que el
estrato representará en la muestra el mismo tamaño proporcional que representa en la
población.

2. Se seleccionan en forma aleatoria igual cantidad de elementos en cada estrato y luego


se ponderan los resultados según la importancia relativa de cada estrato en la población
total.

La ventaja de este procedimiento de muestreo, es que si es diseñado correctamente, representa


mejor las caracterı́sticas de la población de referencia que los otros procedimientos.

Muestreo de racimo

En el muestreo de racimo se divide la población en grupos, o racimos, y luego se selecciona


uno de estos racimos en forma aleatoria, asumiendo que cada uno de ellos es representativo de
la población. La ventaja de este procedimiento de muestreo es que si es diseñado correctamente,
puede representar la población muy bien a un costo menor que el de otros procedimientos.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 7

Muestreo aleatorio simple

El muestreo aleatorio simple (m.a.) selecciona muestras mediante métodos que permiten
que cada posible muestra tenga igual probabilidad de ser seleccionada y que cada elemento
de la población tenga una oportunidad igual de ser incluida en la muestra. Ilustremos esta
idea con un ejemplo. Supongamos que tenemos 4 alumnos {A, B, C, D}, y se quieren tomar
muestras de a dos, vemos que hay 6 posibles muestras de los 4 elementos de la población
tomados de a 2,

Muestra 1 AB
Muestra 2 AC
Muestra 3 AD
Muestra 4 BC
Muestra 5 BD
Muestra 6 CD

entonces, si asignamos la probabilidad 1/6 a cada una de las muestras, entonces estamos ante
una m.a. Además, asignando igual probabilidad a cada muestra queda determinada la proba-
bilidad de que cada elemento en la población sea seleccionado. En particular, la probabilidad
de que un elemento sea seleccionado es igual para todos e igual a

1 1
P (A) = P (AB) + P (AC) + P (AD) = 3 × =
6 2
1 1
P (B) = P (AB) + P (BC) + P (BD) = 3 × =
6 2
1 1
P (C) = P (AC) + P (BC) + P (CD) = 3 × =
6 2
1 1
P (D) = P (AD) + P (BD) + P (CD) = 3 × =
6 2

Desde ahora en adelante cuando se diga que se ha seleccionado una o más muestras de
una población se tomará en referencia el muestreo aleatorio simple. Esto es necesario porque
los principios del muestreo aleatorio simple son la base de la inferencia estadı́stica, es decir,
del proceso de hacer inferencia acerca de poblaciones a partir de información contenida en la
muestra.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 8

1.2. Distribución de frecuencias

Para la obtención de las distribuciones de frecuencias de diferentes variables es necesario


contar con los datos, estos son colecciones de cualquier cantidad de observaciones relacionadas.
Podemos recopilar el número de teléfonos que diferentes empleados instalan en un dı́a determi-
nado o el número de teléfonos que instala un trabajador durante un dı́a en un perı́odo de varios
dı́as. Si la colección de datos ha sido obtenida mediante la selección aleatoria del trabajador,
entonces, estamos ante una m.a. de la variable X = número de teléfonos instalados.

Una distribución de frecuencia es una tabla en la que organizamos los datos en clases,
en decir, en grupos de valores que describen una caracterı́stica de los datos. Por ejemplo,
supongamos que tenemos las existencias promedios (en dı́as) para 20 tiendas de autoservicio,
la siguiente tabla resume la información.

Ordenamiento de datos para 2,0 3,8 4,1 4,7 5,5


las existencias promedio (en 3,4 4,0 4,2 4,8 5,5
dı́as) de 20 tiendas de 3,4 4,1 4,3 4,9 5,5
autoservicio 3,8 4,1 4,7 4,9 5,5

El inventario promedio es una caracterı́stica de las 20 tiendas de autoservicio.

Frecuencias
Clases
Absoluta Relativa Acumulada Acumulada relativa
2,0 a 2,5 1 0,05 1 0,05
2,6 a 3,1 0 0,00 1 0,05
3,2 a 3,7 2 0,10 3 0,15
3,8 a 4,3 8 0,40 11 0,55
4,4 a 4,9 5 0,25 16 0,80
5,0 a 5,5 4 0,20 20 1
Total 20 1

La distribución de frecuencias muestra el número de observaciones del conjunto de datos que


caen en cada una de las clases, además muestra la frecuencia relativa, acumulada y relativa
acumulada. La frecuencia relativa se define como la proporción de observaciones que repre-
senta cada clase; por ejemplo, en la columna frecuencia relativa de la tabla anterior, vemos
que el valor 0,4 muestra que el 40 % de las observaciones caen en la clase 3,8 - 4,3. La fre-
cuencia relativa es la primera aproximación a la función de densidad de una variable aleatoria.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 9

La frecuencia acumulada muestra el número de observaciones que se acumulan hasta el valor


de la variable dado por lı́mite superior de la clase en la que se define; por ejemplo, en la
columna de frecuencia acumulada de la tabla anterior vemos que el valor 11 muestra la can-
tidad de observaciones acumuladas hasta el valores de la variable 4,3 (el lı́mite superior de la
clase). Finalmente, la frecuencia relativa acumulada muestra la proporción de observaciones
acumuladas hasta el valor superior de la clase en la que se define; por ejemplo, en la columna
frecuencia relativa acumulada vemos que el valor 0,55 muestra que el 55 % de las observaciones
se acumulan hasta el valor de la variable 4,3.

1.3. Transformaciones de variables aleatorias

1.3.1. Caso Univariado

La distribución de funciones de variables aleatorias es un elemento muy importante en la


inferencia estadı́stica ya que cuando se estiman parámetros poblacionales, la inferencia sobre
ellos es en base al conocimiento de la distribución del estimador, que casi en la mayorı́a de los
casos, es una transformación, función, de variables aleatorias.

Si X es una variable aleatoria con función de distribución f (x), entonces cualquier función
de X, digamos g(X), es también una variable aleatoria. Muchas veces g(X) es en sı́ misma
de interés, digamos que la definimos Y ≡ g(X). Puesto que Y es una función de X, podemos
describir el comportamiento de la probabilidad de Y en términos del comportamiento de X.
Formalmente, si se escribe y = g(x), la función g(x) define un mapa del espacio original de
X, X , a un nuevo espacio, Y, el espacio de la variable aleatoria Y . Es decir

g(x) : X → Y.

En nuestro caso, vamos a trabajar con transformaciones monotónicas o monotónicas por


tramos, es decir

u > v ⇒ g(u) > g(v) ó u > v ⇒ g(u) < g(v)

Si g(x) es monotónica creciente y Y es una v.a. continua, entonces la distribución acumu-

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 10

lada de Y será

FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P [{x ∈ X : g(x) ≤ y}]
Z
= fX (x)dx
{x∈X :g(x)≤y}
Z
= fX (x)dx
{x∈X :x≤g −1 (y)}
Z g −1 (y)
= fX (x)dx
−∞
= FX [g −1 (y)]

Si g(x) es monotónica decreciente y Y es una v.a. continua, entonces la distribución acumulada


de Y será

FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P [{x ∈ X : g(x) ≤ y}]
Z
= fX (x)dx
{x∈X :g(x)≤y}
Z
= fX (x)dx
{x∈X :x≥g −1 (y)}
Z ∞
= fX (x)dx
g −1 (y)

= 1 − FX [g −1 (y)]

El siguiente teorema resume la idea.

Teorema 1.3.1 Sea X una v.a. continua con función de distribución FX (x), sea Y = g(X)
y sean
X = {x : fX (x) > 0}

y
Y = {y : y = g(x) para algunos x ∈ X }.

1. Si g es una función creciente en X , FY (y) = FX [g −1 (y)] para y ∈ Y.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 11

2. Si g es una función decreciente en X , FY (y) = 1 − FX [g −1 (y)] para y ∈ Y.

Ejemplo 1.3.1 Suponga X ∼ fX (x) = 1 si 0 < x < 1 y 0 en cualquier otro caso, una
distribución uniforme, U (0, 1), por lo tanto FX (x) = x si 0 < x < 1. Se quiere obtener la
función de distribución de la transformación Y = g(X) = − log(X). Puesto que

∂ ∂ 1
g(x) = [− log(x)] = − < 0, para 0 < x < 1,
∂x ∂x x

g(x) es una función decreciente. Como X tiene rango entre 0 y 1, − log(x) tendrá entre 0 y ∞,
es decir que Y = (0, ∞). Luego, para y > 0, y = − log(x) ⇒ x = e−y , por lo que g −1 (y) = e−y .
En consecuencia

FY (y) = 1 − FX [g −1 (y)] = 1 − FX (e−y ) = 1 − e−y , para y > 0.

Si quisiéramos la función de densidad el siguiente teorema nos muestra como obtenerla.

Teorema 1.3.2 Sea X una v.a. continua con función de densidad fX (x), sea Y = g(X),
donde g es una función monotónica. Sean

X = {x : fX (x) > 0}

y
Y = {y : y = g(x) para algunos x ∈ X }.

Suponga que fX (x) es continua en X y que g −1 (y) tiene derivada continua en Y. Entonces la
función de densidad de Y está determinada por

 f [g −1 (y)] ∂ g −1 (y) y∈Y
X ∂y
fY (y) =
 0 en cualquier otro punto

Ejemplo 1.3.2 Sea X ∼ Gamma(α, β), cuya función de densidad es


1
fX (x) = xα−1 e−x/β I(0,∞) (x),
(α − 1)!β α

donde α y β son constantes positivas. Suponga que se quiere encontrar la función de densidad
de la transformación g(X) = 1/X. Note que los conjunto soportes X e Y son el intervalo

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 12

(0, ∞). Si se define y = g(x), entonces g −1 (y) = 1/y, y ∂ −1


∂y
g (y) = −1/y 2 . Entonces, aplicando
el teorema 1.3.2 para y ∈ (0, ∞) tenemos

−1
∂ −1
fY (y) = fX [g (y)] g (y)
∂y
 α−1
1 1 1
= α
e−1/(βy) 2
(α − 1)!β y y
 α+1
1 1
= α
e−1/(βy)
(α − 1)!β y

Un caso especial conocida como función de densidad Gamma Inversa.

En muchas aplicaciones la función g puede no ser una función creciente ni decreciente. En


estos casos los resultados presentados no se pueden aplicar. Sine embargo, hay casos en los que
g es monotónica en algunos tramos y que permite obtener la densidad para la transformación
Y = g(X). El siguiente teorema resume la idea.

Teorema 1.3.3 Sea X una v.a. continua con función de densidad fX (x), sea Y = g(X),
y
X = {x : fX (x) > 0}.

Suponga que hay una partición A0 , A1 , . . . , Ak de X tal que P (X ∈ A0 ) = 0 y fX (x) es continua


en cada Ai . Además, suponga que existen funciones g1 (x), . . . , gk (x), definidas en A1 , . . . , Ak ,
que satisfacen

i g(x) = gi (x) para x ∈ Ai ,

ii gi (x) es continua en Ai ,

iii el conjunto Y = {y : y = gi (x) para algún x ∈ Ai } es el mismo para todo i = 1, . . . , k, y

iv gi−1 (x) tiene derivada continua en Y para todo i = 1, . . . , k.

Entonces,

 Pk f [g −1 (y)] ∂ g −1 (y) y∈Y
i=1 X i ∂y i
fY (y) =
 0 en cualquier otro punto

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 13

Ejemplo 1.3.3 Sea X ∼ N (0, 1) cuya función de densidad es


1 2
fX (x) = √ e−x /2 I(−∞,∞) (x).

Considere Y = X 2 . La función g(x) = x2 es monotónica en (−∞, 0) y en (0, ∞). En conjunto
Y es (0, ∞). Aplicando el teorema 1.3.3 tenemos

A0 = {0};

A1 = (−∞, 0), g1 (x) = x2 , g1−1 (y) = − y;

A2 = (0, ∞), g2 (x) = x2 , g2−1 (y) = y;
La función de densidad de Y es

1 −(−√y)2 /2 1 1 −(√y)2 /2 1
fY (y) = √ e − 2√y + √2π e 2√y

1 1
= √ √ e−y/2 I(0,∞) (y)
2π y
La función de densidad de Y es una de las que vamos a ver muy seguido a lo largo de este
curso, esta es la de una variable aleatoria chi-cuadrado con 1 grado de libertad, χ21 .

1.3.2. Caso Bivariable

Suponga, ahora, que X1 y X2 son dos variables aleatorias continuas con función de densidad
conjunta fX1 ,X2 (x1 , x2 ), y que se quiere determinar la función de densidad conjunta de un par
de transformaciones dadas por

U1 = h1 (X1 , X2 ) y U2 = h2 (X1 , X2 )

cuyas función inversas son

X1 = h−1 −1
1 (U1 , U2 ) y X2 = h2 (U1 , U2 ).

Si h−1 −1
1 (u1 , u2 ) y h2 (u1 , u2 ) tienen derivadas parciales continuas respecto de u1 y u2 , y el
determinante del jacobiano
∂h−1 ∂h−1
" #
1 1
∂h−1 −1
1 ∂h2 ∂h−1 ∂h−1
J = det ∂u1
∂h−1
∂u2
∂h−1
= − 2 1
6= 0
2 2 ∂u1 ∂u2 ∂u1 ∂u2
∂u1 ∂u2

entonces, la densidad conjunta de U1 y U2 es

fU1 ,U2 (u1 , u2 ) = fX1 ,X2 h−1 −1


 
1 (u1 , u2 ), h2 (u1 , u2 ) |J|

donde |J| es el valor absoluto del determinante del jacobiano.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 1. INTRODUCCIÓN Página 14

Ejemplo 1.3.4 Sean X1 y X2 dos v.a. normales estándares independientes, además, sean
U1 = X1 + X2 y U2 = X1 − X2 dos transformaciones. ¿Cuál es la densidad conjunta de U1 y
U2 ?
Las funciones de densidad de X1 y X2 son
1 1 2 1 1 2
fX1 (x1 ) = √ e− 2 x1 I(−∞,∞) (x1 ) y fX2 (x2 ) = √ e− 2 x2 I(−∞,∞) (x2 ).
2π 2π
Además, el hecho de que X1 y X2 son independientes implica que su densidad conjunta es
1 − 1 x21 − 1 x22
fX1 ,X2 (x1 , x2 ) = e 2 2 I(−∞,∞) (x1 )I(−∞,∞) (x2 ).

La transformación está definida por las siguientes funciones

u1 = h1 (x1 , x2 ) = x1 + x2 y u2 = h2 (x1 , x2 ) = x1 − x2 ,

con sus respectivas transformaciones inversa


u1 + u2 u1 − u2
x1 = h−1
1 (u1 , u2 ) = y x2 = h−1
2 (u1 , u2 ) = .
2 2
∂h−1 ∂h−1 ∂h−1 ∂h−1
Como 1
∂u1
= 21 , 1
∂u2
= 12 , ∂u21 = 12 y 2
∂u2
= − 12 , el jacobiano de esta transformación es
" #
1/2 1/2
J = det = (1/2) × (−1/2) − (1/2) × (1/2) = −1/2,
1/2 −1/2
y la densidad conjunta U1 y U2 es
h 2 i
u1 −u2 2
exp − 21 u1 +u 1

2
−    
− I(−∞,∞) u1 + u2 I(−∞,∞) u1 − u2 .
2 2 2 1
fU1 ,U1 (u1 , u2 ) =
2π 2 2 2
Unos cuantos cálculos algebraicos dan como resultado
 2  2
1 u1 + u2 1 u1 − u2 1 1
− − = − u21 − u22 ,
2 2 2 2 4 4
y  
u1 + u2 u1 − u2
(u1 , u2 ) : −∞ < < ∞, − ∞ < <∞ ⇒
2 2
{(u1 , u2 ) : −∞ < u1 < ∞, − ∞ < u2 < ∞}.
Finalmente,
2 2
e−u1 /4 e−u2 /4
fU1 ,U1 (u1 , u2 ) = √ √ √ √ I(−∞,∞) (u1 )I(−∞,∞) (u2 ).
2 2π 2 2π
Observe que al expresar la función de densidad conjunta de U1 y U2 como el producto de las
densidades marginales, estas v.a. son independientes, además de tener distribución normal con
media acero y varianza 2.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


Capı́tulo 2

Distribuciones Muestrales

2.1. Distribución normal

Existe dos razones fundamentales por las cuales la distribución normal ocupa un lugar
tan importante en la estadı́stica. Primero, tiene algunas propiedades que la hacen aplicable
a un gran número de situaciones en las que es necesario hacer inferencia mediante la toma
de muestra. Segundo, la distribución norma casi se ajusta a las distribuciones de frecuencias
reales observadas en muchos fenómenos, incluyendo caracterı́sticas humanas (peso, altura,
coeficiente intelectual, etc.), resultados de procesos fı́sicos, y muchos otras medidas de interés
para los administradores, tanto en el sector público como en el privado.

Figura 2.1: Función de densidad de la distribución Normal, µ = 0 y σ = 1, 1,5 y 2

15
CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 16

Figura 2.2: Función de densidad de la distribución Normal, σ = 1 y µ = 0, 1 y −1

La función de densidad de una v.a. con distribución normal es


1 1 (x−µ)
2
f (x) = √ e− 2 σ2 I(−∞,∞) (x). (2.1)

La función de distribución está definida por
Z x
1 1 (x−µ)
2
F (x) = √ e− 2 σ2 dx (2.2)
−∞ 2π
La función generatriz de momentos es
σ 2 t2
MX (t) = eµt+ 2 (2.3)

Podemos mencionar algunas de sus principales caracterı́sticas.

1. La curva tiene sólo un pico, esto significa que es unimodal.

2. Para definir una distribución normal necesitamos definir sólo dos parámetros: la media
(µ) y la varianza (σ 2 ). Cualquier momento superior está definido como función de estos
dos parámetros.

3. La media de una población distribuida en forma normal cae en el centro de la distribu-


ción.

4. Debido a la simetrı́a de la distribución, la media, media y la moda tienen el mismo valor.

5. Las dos colas de la distribución se extienden infinitamente y nunca tocan el eje horizontal.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 17

6. Una propiedad de la distribución normal que vamos a utilizar muy a menudo en el


curso es saber que la combinación lineal de v.a. que tienen distribución normal, será una
nueva v.a. con distribución normal. Es decir que si X ∼ N (µ1 , σ12 ) y Y ∼ N (µ2 , σ22 ), y
Z = aX + bY con a y b dos constantes, entonces Z ∼ N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).

Para poder demostrar la última de las propiedades tenemos, primero, que mencionar y
demostrar un teorema.

Teorema 2.1.1 Sean X1 , . . . , Xn v.a. independientes con función generadoras de momen-


Pn
tos dada por mX1 (t), . . . , mXn (t), respectivamente. Si se define U = i=1 Xi , entonces, la
función generadora de momentos de de U viene dada por
n
Y
mU = mXi (t).
i=1

Prueba:
Tenemos que
 Pn 
mU (t) = E et i=1 Xi
= E etX1 · · · etXn


= E etX1 · · · E etXn
 

Yn
E etXi

=
i=1
Yn
= mXi (t)
i=1

Luego,

Teorema 2.1.2 Sean X1 , . . . , Xn v.a. independientes que tienen distribución normal con
medias y varianzas dadas por µi y σi2 , para i = 1, . . . , n, sean a1 , . . . , an constantes. Si
n
X
U= ai X i ,
i=1

entonces, U es una v.a. que tiene una distribución normal con


n
X
E(U ) = ai µ i
i=1

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 18

y
n
X
V(U ) = a2i σi2 .
i=1

Prueba:
Como Xi adopta una distribución normal con media µi y varianza σi2 , Xi tiene una función
generadora de momentos dada por

t2 σi2
 
mXi (t) = exp tµi + .
2

Por otro lado, ai Xi , donde ai , i = 1, . . . , n, es constante, tiene una función generadora de


momentos dada por

t2 a2i σi2
 
tai Xi

mai Xi (t) = E e = exp tai µi + .
2

Como las v.a. X1 , . . . , Xn son independientes, las variables aleatorias a1 X1 , . . . , an Xn también


lo son. Además, por el teorema 2.1.1 tenemos que
n
Y
mU (t) = mai Xi (t)
i=1
n
t2 a2i σi2
Y  
= exp tai µi +
i=1
2
n
!
t2 ni=1 a2i σi2
X P
= exp t ai µ i + .
i=1
2
Pn Pn
Por consiguiente, U tiene una distribución normal con media i=1 ai µi y varianza i=1 a2i σi2 .


El cálculo de probabilidades en una distribución normal, no es un tema menor, ya que


implica la solución de una integral muy compleja. Sin embargo, existe una solución práctica
muy buena. Existen tabulaciones de una variable aleatoria Z que tiene distribución normal con
media µ = 0 y varianza σ 2 = 1 que se llama distribución normal estándar, entonces, cuando
uno quiere obtener probabilidades de una v.a. con media y varianza que difieren de cero y
uno, respectivamente, sólo tiene que utilizar las propiedades que tienen las v.a., por ejemplo,
suponga que se tiene una v.a. X ∼ N (µ = 5, σ 2 = 4) y se quiere calcular probabilidades de
esta v.a., entonces, sólo hay que realizar una operación de estandarización. La estandarización
es una operación muy simple, suponga que Y ∼ (µ, σ 2 ), entonces si definimos la variable
Y −µ
Z= σ
. Ésta tendrá distribución normal, ya que es una combinación lineal de una variable

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 19

normal. Sólo resta determinar su media y varianza, pero sabemos por propiedades de las v.a.
1
que E(Z) = E(Y ) − µ = 0, y que V(Z) = σ2
V(Y ) = 1.

P (X ≤ 8,29) = P (X − 5 ≤ 8,29 − 5)
 
X −5 8,29 − 5
= P ≤
2 2
= P (Z ≤ 1,645),

entonces, sólo hay que buscar en la tabla de la distribución normal estándar esta probabilidad,
la cual es P (Z ≤ 1,645) = 0,95.

2.2. Distribución χ2

Esta distribución fue desarrollada por Karl Pearson. Suponga que hay v variables aleatorias
independientes, X1 , . . . , Xv , todas con distribución N (µi , σi2 ). Luego, estandarizamos estas
Xi −µi
variables como sigue Zi = σi
, con lo cual, tenemos v v.a. Zi ∼ N (0, 1). Ahora, definimos
Y como
v
X
Y = Z12 + Z22 + ··· + Zv2 = Zi2 . (2.4)
i=1

La v.a. Y ası́ generada sólo toma valores no negativos y sigue una distribución que se
denomina chi-cuadrado con v grados de libertad, cuya función de densidad está determinada
por
x(v−2)/2 e−x/2
f (x) = v/2 , (2.5)
2 Γ(v/2)
R∞
donde Γ(α) = 0
xα−1 e−x dx, es la función gamma, pero si α es un número entero, entonces,
definida por Γ(α) = (α − 1)!. La distribución chi-cuadrado sólo depende de un parámetro,
v, sus grados de libertad. En otras palabras, esto significa que el único parámetro de una
distribución chi-cuadrado es v. Una vez, que se conoce este parámetro, se pueden obtener los
momentos de la distribución.
E(Y ) = v, V(Y ) = 2v.

La figure 2.3 muestra la función de densidad de tres v.a. con distribución chi-cuadrado con 3,
6 y 15 grados de libertad (gl).

Para el cálculo de probabilidades con una v.a. que tiene distribución χ2 se tienen dos
alternativas; una es mediante la aplicaciones informáticas, que devuelvan la probabilidad de

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 20

Figura 2.3: Función de densidad de la distribución χ2v , v = 3, 6 y 15

para diferentes valores de la v.a. y gl o que permitan integrar, generalmente en forma numérica,
y obtener la probabilidad buscada. La segunda opción, es la que más vamos a utilizar en este
curso, y es utilizar tablas impresas con tabulaciones de la distribución χ2 con varios gl. Cómo
hemos mencionado, esta distribución sólo depende del número de grados de libertad, por
lo que conocido este parámetro podemos dirigirnos a la tabla y buscar la probabilidad que
necesitamos.

La distribución chi-cuadrado posee la propiedad reproductiva o aditiva. Suponga que se


tienen Y1 , . . . , Yq v.a. con distribución χ2vi , con i = 1, 2, . . . , q, independientes. Luego se define
la v.a.
q
X
X= Yi ,
i=1
Pq
entonces, X ∼ χ2v , con v = i=1 vi .

2.3. Distribución t de Student

Definición 2.3.1 Sean Z ∼ N (0, 1) y Y ∼ χ2v independientes, entonces la distribución de


Z
T =p (2.6)
Y /v

se denomina t de Student.

Se observa que la densidad es simétrica respecto de cero. Además, para v > 1 su media es

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 21

v
E(T ) = 0 y para v > 2 su varianza es V(T ) = v−2
, la v.a. T tiene mayor dispersión que la
distribución Normal.

Figura 2.4: Funciones de densidades de las Distribuciones tv , v = 1, 3, 10 y Z ∼


N (0, 1)

Teorema 2.3.1 Sea X1 , . . . , Xn una m.a. de una v.a. N (µ, σ2 ) y sean X̄, S 2 la media,
varianza muestral. Entonces, se verifica que

X̄ − µ
T = √ ∼ tn−1
S/ n

Prueba:
Sabemos que
X̄ − µ
√ ∼ N (0, 1), (2.7)
σ/ n
además que
(n − 1)S 2
∼ χ2n−1 (2.8)
σ2
y que son independientes. Entonces dividiendo (2.7) por la raı́z cuadrada de (2.8) dividido por
los grados de libertad tenemos
√ X̄−µ √ X̄−µ
n σ n σ X̄ − µ
T =r = S
= √ ∼ tn−1 ,
(n−1)S 2
σ
S/ n
σ2
n−1

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 22

con lo que queda demostrado el teorema. 

La función de densidad está dada por


− v+1
x2

1 2
f (x) = √ 1+ I(−∞,∞) (x) (2.9)
vβ(1/2, v/2) v
donde Z 1
Γ(p)Γ(q)
β(p, q) = xp−1 (1 − x)q−1 dx = .
0 Γ(p + q)
La media y varianza están definidas por
v
E(X) = 0, V(X) = , v > 2.
v−2
Para valores de gl menores que dos, la varianza no está definida.

Ejemplo 2.3.1 La resistencia a la tensión para cierto tipo de alambre se distribuye N (µ, σ2 ),
ambas desconocidas. Se seleccionaron al azar seis segmentos de alambre de un rollo grande
6 segmentos y se midió Xi la resistencia. La media de la población µ y la varianza σ 2 se
pueden estimar por X̄ y S 2 , respectivamente. Encuentre la probabilidad aproximada de que X̄

esté como máximo a 2S/ n de la media verdadera.

Se desea calcular la probabilidad


√ X̄ − µ
   
2S 2S
P − √ ≤ X̄ − µ ≤ √ = P −2 ≤ n ≤ 2 = P (−2 ≤ T ≤ 2) = P (|T | ≤ 2),
n n S
por el teorema 2.3.1 sabemos que T ∼ t5 . Mirando la table encontramos que

P (−2,015 ≤ T ≤ 2,015) = 0,9,



luego la probabilidad aproximada de que X̄ esté como máximo a 2S/ n de la media verdadera
0,9.

2.4. Distribución F de Snedecor

Definición 2.4.1 Sean X ∼ χ2v1 y Y ∼ χ2v2 independientes, entonces la distribución de la


v.a.
X
v1
F = Y
(2.10)
v2
se distribuye F con v1 grados de libertad en el denominador y v2 grados de libertad en el
denominador.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 23

Teorema 2.4.1 Sea X1 , . . . , Xn1 una m.a. de una v.a. N (µ1 , σ12 ) y sea S12 la cuasi-varianza
muestral. Sea Y1 , . . . , Yn2 otra m.a. de una v.a. N (µ2 , σ22 ) y sea S22 la cuasi-varianza muestral
independiente de la anterior. Entonces
S12
σ12
F = S22
∼ Fn1 −1,n2 −1
σ22

Prueba:
La prueba es directa. Se basa en la independencia de las dos muestras, la distribución de
(n−1)S 2
σ2
∼ χ2n−1 y la definición de F.
2
(n1 −1)S1
2
σ1 (n1 −1)S12
n1 −1 (n1 −1)σ12 S12 /σ12
F = 2 = (n2 −1)S22
= ∼ Fn1 −1,n2 −1 ,
(n2 −1)S2
2
S22 /σ22
σ2 (n2 −1)σ22
n2 −1

con lo que queda demostrado el teorema. 

La curva de la distribución F depende no sólo de los grados de libertad v1 y v2 sino también


del orden en el que se establecen.

Figura 2.5: Función de densidad de la distribución Fv1 ,v2

Ejemplo 2.4.1 Si se toma una m.a de tamaño n1 = 6 y otra independiente de tamaño


n2 = 10 de dos poblaciones normales con la misma varianza poblacional, encuentre el número
b tal que
S12
 
P ≤b = 0,95.
S22

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 24

Por el teorema 2.4.1 sabemos que


S12 /σ 2
∼ F5,9 ,
S22 /σ 2
por lo que buscando en la tabla tenemos que b = 3,48.

Ejemplo 2.4.2 Si X ∼ Fp,q ⇒ 1/X ∼ Fq,p .


χ2p /p
X = 2 ∼ Fp,q ,
χq /q
ahora
1 χ2q /q
= 2 ∼ Fq,p ,
X χp /p

Si X ∼ tq entonces X 2 ∼ F1,q . Sabemos que X = rZ ∼ tq , donde Z es una v.a. N (0, 1),


χ2q
q
entonces
2 Z2 χ21 /1
X = 2 = 2 ∼ F1,q .
χq /q χq /q

Usualmente en las tablas de la distribución F de Snedecor sólo aparecen los valores crı́ticos
de la distribución, para probabilidades α pequeñas. Sin embargo, sabemos que si tenemos una
v.a. F ∼ Fn1 ,n2 , entonces F 0 = 1/F ∼ Fn2 ,n1 . Ası́, supongamos que c es el valor crı́tico α de
la distribución Fn1 ,n2 , es decir, si F ∼ Fn1 ,n2 , entonces

P (F ≤ c) = α ⇔ P (F 0 ≥ 1/c) = α ⇔ P (F 0 < 1/c) = 1 − α,

donde F 0 ∼ Fn2 ,n1 . Esto significa que 1/c = Fn2 ,n1 ;1−α o equivalentemente

Fn2 ,n1 ;1−α = 1/Fn1 ,n2 ;α .

2.5. Distribución relativa a la media muestral

A menudo, los datos en un experimento consisten en observaciones de una variable de


interés. Esta colección de datos es, generalmente, obtenida mediante una muestra aleatoria
simple (m.a.).

Definición 2.5.1 Las v.a. X1 , . . . , Xn son llamadas una muestra aleatoria (m.a.) de tamaño
n tomada de una población f (x) si X1 , . . . , Xn son v.a. mutuamente independientes y la fun-
ción de densidad o de probabilidad marginal de cada Xi , i = 1, . . . , n, es la misma función f (x).
Alternativamente, X1 , . . . , Xn son llamadas v.a. independientes e idénticamente distribuidas
(iid) con función de densidad o probabilidad f (x).

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 25

Una muestra aleatoria describe una situación experimental en la que la variable de interés
tienen función de densidad o probabilidad descripta por f (x). Bajo una m.a. cada Xi es una
observación de la misma variable. Además, las observaciones son tomada de forma que el
valor de una observación no tiene efecto alguno o relación sobre las otras observaciones, esto
es X1 , . . . , Xn son mutuamente independientes. Finalmente, la función conjunta de densidad
o probabilidad viene dada por
n
Y
f (x1 , . . . , xn ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = f (xi ). (2.11)
i=1
En particular, si la funciones de densidad o probabilidad pertenecen a una familia paramétrica,
es decir que están determinadas por un vector de parámetros θ, entonces, la función conjunta
de densidad o probabilidad viene dada por
n
Y
f (x1 , . . . , xn |θ) = f (xi |θ), (2.12)
i=1
donde el mismo parámetro θ es usado en cada una de las funciones de densidad o probabilidad
marginales.

Cuando una m.a. X1 , . . . , Xn es tomada, algún resumen de los valores es usualmente


obtenido. Cualquier buen resumen deberı́a expresarse matemáticamente como una función
T (X1 , . . . , Xn ) cuyo dominio incluye el espacio muestral. La función T (.) puede ser un valor
real o un vector de valores reales, por lo tanto esta función también es aleatoria. Puesto que
X1 , . . . , Xn tiene una estructura probabilı́stica simple (iid), la distribución de Y = T (X1 , . . . , Xn )
es particularmente manejable. Puesto que la distribución de Y es usualmente derivable de la
distribución de las variables en la muestra, es llamada distribución muestral de Y .

Definición 2.5.2 Sea X1 , . . . , Xn una m.a. tomada de una población y sea T (X1 , . . . , Xn )
una función real o una función real-vectorial cuyo dominio es el espacio muestral de (X1 , . . . , Xn ).
Entonces, la variable aleatoria o vector aleatorio Y = T (X1 , . . . , Xn ) es llamado estadı́stico.
La distribución del estadı́stico Y es la distribución muestral de Y .

Tres estadı́sticos que usualmente vamos a utilizar y que dan un buen resumen de la infor-
mación que posee la muestra vamos a definir.

Definición 2.5.3 La media muestral es el promedio aritmético de los valores en una


muestra aleatoria. Esta la llamaremos X̄ y se define como
n
X1 + · · · + Xn 1X
X̄ = = Xi .
n n i=1

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 26

Definición 2.5.4 La varianza muestral es el promedio aritmético de los valores en una


muestra aleatoria desviados con respecto a la media muestral y elevados al cuadrado. Esta la
llamaremos S 2 y se define como
n
1 X
S= (Xi − X̄)2 .
n − 1 i=1

Finalmente, la desviación estándar muestral se define como la raı́z cuadrada de la varianza


muestra v
n

u
2
u 1 X
S= S =t (Xi − X̄)2 . (2.13)
n − 1 i=1

Usaremos los valores observados de estos estadı́sticos con letras minúsculas, es decir x̄, s y s2
refiriéndose a los valores observados de las v.a. X̄, S y S 2 , respectivamente.

La media muestral es un concepto familiar, y refiere a un estadı́stico de localización. La


varianza y la desviación estándar son medidas de la variabilidad en la muestra que están
relacionadas con la varianza y desviación estándar poblacionales.

Teorema 2.5.1 Sea x1 , . . . , xn valores y x̄ = (x1 + · · · + xn )/n. Entonces,

Pn Pn
a. mı́n i=1 (xi − a)2 = i=1 (xi − x̄)2
a
Pn Pn
b. (n − 1)s2 = i=1 (xi − x̄)2 = i=1 x2i − nx̄2 .

Prueba:
Vamos a probar a. Para ellos sumamos y restamos x̄ como sigue
n
X n
X
(xi − a)2 = (xi − x̄ + x̄ − a)2
i=1 i=1
n
X n
X n
X
2
= (xi − x̄) + 2 (xi − x̄)(xi − a) + (xi − a)2
i=1 i=1 i=1
n
X n
X
2
= (xi − x̄) + (xi − a)2 , el término cruzado es cero (2.14)
i=1 i=1

Ahora, el segundo 2.14 es siempre mayor o igual a cero, por lo tanto el valor que lo minimiza
es cuando a = x̄.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 27

Vamos a probar b. Para ello vamos a desarrollar el cuadrado como sigue


n
X n
X
2
(xi − x̄) = (x2i + x̄2 − 2x̄xi )
i=1 i=1
n
X n
X n
X
= x2i + 2
x̄ − 2x̄ xi
i=1 i=1 i=1
n n
X 1 X
= x2i + nx̄2 − 2nx̄ xi
i=1
n i=1
Xn
= x2i + nx̄2 − 2nx̄2
i=1
n
X
= x2i − nx̄2 .
i=1

Ahora, vamos a describir la distribución muestral de la media muestral cuando ésta se


obtiene de una muestra aleatoria, X1 , . . . , Xn , de una población con distribución normal.

Teorema 2.5.2 Sea X1 , . . . , Xn de una v.a. X ∼ N (µ, σ2 ), entonces X̄ ∼ N µ, n1 σ2




Prueba:
Como X1 , . . . , Xn es una m.a de una v.a. con distribución normal, se verifica que

E(Xi ) = µ, para i = 1, . . . , n,

y
V(Xi ) = σ 2 , para i = 1, . . . , n.
Luego, vemos que X̄ es una combinación lineal de v.a., es decir
n
1 1 1 X
X̄ = X 1 + X2 + · · · + X n = ai X i ,
n n n i=1

donde ai = n1 . La combinación lineal de v.a. normales, por el teorema 2.1.2 también será nor-
mal, es decir que la media muestral tiene distribución normal con media
" n # n
1X 1X 1
E(X̄) = E E(Xi ) = µ = nµ = µ.
n i=1 n i=1 n
y varianza
n
! n
! n n
1X 1 X 1 X 1 X 2 1 σ2
V(X̄) = V Xi = 2V Xi = 2 V(Xi ) = 2 σ = 2 nσ 2 = .
n i=1 n i=1
n i=1 n i=1 n n
| {z }
Por independencia de las Xi

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 28

De acuerdo con el teorema anterior, X̄ tiene distribución normal con media µ y varianza
σ 2 /n. Por lo tanto,
X̄ − µ √ X̄ − µ
Z=p = n
σ 2 /n σ
tiene una distribución normal estándar.

2.6. Distribución en el muestreo de la varianza muestral

Sea X1 , . . . , Xn una m.a de una v.a. con distribución N (µ, σ 2 ), entonces, la varianza mues-
tral viene dada por
n n
2 1 X 2 1X 2
S = Xi − X̄ = X − X̄ 2 , (2.15)
n − 1 i=1 n 1=1 i
donde X̄ es la media muestral.

Por otro lado, la varianza muestral sesgada, que también tendrá una papel fundamental
en inferencia, como se comprobará más adelante. Ésta viene dada por
n n
021X 2 n−1 X 2 n − 1 2
S = Xi − X̄ = Xi − X̄ = S , (2.16)
n i=1 n(n − 1) i=1 n

Teorema 2.6.1 Si X1 , . . . , Xn una m.a de una v.a. con distribución N (µ, σ2 ), entonces
S 2 y X̄ son independientes y
0
nS 2 (n − 1)S 2
2
= 2
∼ χ2n−1 .
σ σ

para probar este teorema necesitamos dos lemas importantes que no vamos probar,

Lema 2.6.1 Sea X = {X1 , . . . , Xn } un vector de v.a. independientes, y sean


U1 = g1 (X1 , . . . , Xr ), U2 = g2 (Xr+1 , . . . , Xp ), . . . , Um = gm (Xp+1 , . . . , Xn ), donde Uj , para
j = 1, . . . , m, son funciones de subconjuntos mutuamente excluyentes de X1 , . . . , Xn , entonces
U1 , . . . , Um son mutuamente independientes.

Lema 2.6.2 Sea X = {X1 , . . . , Xn } un vector de v.a. independientes, y sea gi (Xi ), para
i = 1, . . . , n, una función que sólo depende de Xi , entonces las v.a. definidas por Ui = gi (Xi ),
para i = 1, . . . , n, son mutuamente independientes.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 29

Prueba: Vamos hacer la prueba en dos partes, por una lado se demostrará la independencia
(n−1)S 2
entre S 2 y X̄, y después que σ2
se distribuye como una variable chi-cuadrado.
0
Independencia entre S 2 y X̄
Sean X1 , . . . , Xn una m.a. de una v.a. X ∼ N (µ, σ 2 ). Se define X̄ y D1 = X1 − X̄, luego vamos
a demostrar que X̄ y D1 son v.a. independientes. Vemos que X̄ se puede escribir como
n
X 1
X̄ = ai Xi , con ai = , para i = 1, . . . , n,
i=1
n

y D1 como sigue
n
X n−1 1
D1 = bi Xi , con b1 = y bi = − , para i = 2, . . . , n.
i=1
n n

Entonces,
 
Cov = E D1 (X̄ − µ) , puesto que E(D1 ) = 0,
= E(D1 X̄)
 
= E (X1 − X̄)X̄
= E X1 X̄ − E X̄ 2
 
| {z }
σ2
n
+µ2
n
!
X12 1 σ2
X  
2
= E + X1− Xi+µ
n n i=2
n
n  2 
1 2
 1 X σ 2
= E X + E(X1 ) E(Xi ) − +µ
n | {z 1 } n i=2
n
σ 2 +µ2
2
σ2
 
σ 1 (n − 1) 2
= + µ2 + µ − + µ2
n n n n
σ2 n 2 σ2
= + µ − − µ2 = 0
n n n
De esta forma probamos que las v.a. X̄ y D1 no están correlacionadas, además, como las
variables son normales, entonces, también son independientes. Luego, por un procedimiento
similar se puede probar que X̄ es independiente de Di = Xi − X̄ para i = 2, . . . , n. Ahora, ten-
emos X̄, D1 , . . . , Dn v.a. independientes, por el lema 2.6.1 sabemos que X̄ y U = ni=1 Di2 =
P
Pn 2 2 U
i=1 (Xi − X̄) son independientes, finalmente por el lema 2.6.2 X̄ y S = n−1 son indepen-
dientes.
(n−1)S 2
Distribución de σ2
Vamos a usar un argumento inductivo para establecer la distribución de S 2 . Para ello usamos

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 30

la notación X̄k y Sk2 para definir la media muestral y la varianza muestral sobre las primeras
k observaciones. Se puede mostrar que
2
(n − 1)Sn2 (n − 2)Sn−1 n−1
2
= 2
+ 2
(Xn − X̄n−1 )2 , (2.17)
σ σ nσ
2
donde X̄n−1 es la media muestral construida con las n − 1 primeras observaciones y Sn−1 es
la varianza muestral calculada con las primeras n − 1 observaciones.

n n Pn−1 !2
2 n−1X 2
X Xn + i=1 Xi
(n − 1)S = (Xi − X̄n ) = Xi −
n − 1 i=1 i=1
n
n  2
X Xn n − 1
= Xi − − X̄n−1
i=1
n n
n  2 X n   2
X Xn X̄n−1 Xn − X̄n−1
= Xi − X̄n−1 − + = (Xi − X̄n−1 ) −
i=1
n n i=1
n
n
"  2 #
X (X n − X̄ n−1 ) X n − X̄ n−1
= (Xi − X̄n−1 )2 − 2(Xi − X̄n−1 ) +
i=1
n n
n−1 n−1
X
2 2Xn − X̄n−1 X
= (Xi − X̄n−1 ) + (Xn − X̄n−1 ) − 2 (Xi − X̄n−1 ) −
i=1
n i=1
n  2
Xn − X̄n−1 X Xn − X̄n−1
2 (Xn − X̄n−1 ) +
n i=1
n
n−1
X (Xn − X̄n−1 )2 (Xn − X̄n−1 )2
= (Xi − X̄n−1 )2 + (Xn − X̄n−1 )2 − 2 +
i=1
n n
n−1
X (Xn − X̄n−1 )2
= (Xi − X̄n−1 )2 + (Xn − X̄n−1 )2 −
i=1
n
2 n−1
= (n − 2)Sn−1 + (Xn − X̄n−1 )2
n

Ahora, para n = 2. De (2.17) tenemos


S22 (2 − 2)S12 (2 − 1) 1
2
= 2
− 2
(X2 − X1 )2 = 2 (X2 − X1 )2
σ σ 2σ 2σ
Pero la distribución de (X2 − X1 ) es N (0, 2σ 2 ), entonces √ 1 (X2 − X1 ) es N (0, 1), por lo
2σ 2
1
tanto 2σ 2
(X2 − X1 )2 ∼ χ21 .
Para n = 3. Nuevamente, de (2.17) tenemos
2S32 S22 2
= + (X3 − X̄2 )2
σ2 σ 2 3σ 2

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 31

q
3 2
, entonces 3σ2 2 (X3 − X̄2 ) es N (0, 1), por lo

Pero la distribución de (X3 − X̄2 ) es N 0, 2
σ
2
tanto 3σ 2
(X2 − X1 )2 ∼ χ21 . Además vimos que S22 y X̄2 son independientes, y sumado a la
propiedad aditiva de la distribución χ2 , tenemos que 2S32 ∼ χ22 .
(k−1)Sk2
Siguiendo con la inducción, suponga que n = k, σ2
∼ χ2k−1 .
Para n = k + 1 tenemos que
02
kSk+1 (k − 1)Sk2 k
2
= 2
+ 2
(Xk+1 − X̄k )2 (2.18)
σ σ σ (k + 1)

(k−1)Sk2 k
De acuerdo a la hipótesis de inducción σ2
∼ χ2k−1 . Sólo falta demostrar que σ2 (k+1) (Xk+1 −
X̄k )2 ∼ χ21 y que es independiente de Sk2 . Pero como demostrado que X̄ es independiente de
S 2 , ahora (Xk+1 − X̄k ) ∼ N (0, σ 2 k+1
k
k
), entonces σ2 (k+1) (Xk+1 − X̄k )2 ∼ χ21 , con lo que queda
demostrado el teorema.

Ejemplo 2.6.1 En unas determinadas posiciones del control operativo, se conoce que la
cantidad de lı́quido con que una máquina embotelladora llena las botellas presenta una dis-
tribución normal con media µ y desviación tı́pica de σ = 1 decilitros. Se toma una m.a. de
tamaño 10 y se calcula la varianza muestral. Encuentre un par de valores b1 y b2 de manera
que
P b1 ≤ S 2 ≤ b2 = 0,9


Por el teorema 2.6.1 sabemos que

(n − 1)S 2
∼ χ2n−1 ,
σ2

por lo que

(n − 1)S 2
 
2 (n − 1)b1 (n − 1)b2
= P 9b1 ≤ χ29 ≤ 9b2 ,
 
P b1 ≤ S ≤ b2 = P 2
≤ 2

σ σ σ2

buscando los valores b1 y b2 tales que la probabilidad a la izquierda del menor sea 0,05 y la
probabilidad a la derecha del mayor sea 0,05, de la tabla surgen

3,33
9b1 = 3,33 → b1 = = 0,37,
9

y
16,92
9b2 = 16,92 → b2 = = 1,88.
9

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 32

2.7. El Teorema Central del Limite (TCL)

Este teorema habla sobre la distribución lı́mite de v.a. cuando el tamaño de muestra
con el que se trabaja tiende a infinito, es decir que habla sobre convergencia de v.a.. Antes de
presentar y demostrar el TCL, vamos a introducir algunos conceptos útiles sobre convergencia.

Definición 2.7.1 (Convergencia en Probabilidad)


Una secuencia de v.a. X1 , X2 , . . . , converge en probabilidad a una v.a. X si, para todo  > 0,

lı́m P (|Xn − X| ≥ ) = 0 (2.19)


n→∞

o, en forma equivalente,
lı́m P (|Xn − X| < ) = 1 (2.20)
n→∞

Teorema 2.7.1 (La Ley Débil de los Grandes Números) Sean X1 , X2 , . . . , v.a.
independientes e idénticamente distribuidas con E(Xi ) = µ, y V(Xi ) = σ 2 < ∞. Definimos
X̄n = 1/n ni=1 Xi . Entonces, para todo  > 0
P

lı́m P (|X̄n − µ| < ) = 1,


n→∞

esto es, X̄n converge en probabilidad a µ.

Prueba:
La prueba se basa en la desigualdad de Markov. Ésta postula que
E (X 2 )
P (|X| > k) ≤ ,
k2
donde E(X) = µ.

Nota 1 Prueba del teorema de Markov Supongamos que X es una v.a. continua y sea
f (x) la función de densidad de X. Calculamos el momento centrado de segundo orden,
Z ∞ Z −k Z k Z ∞
2 2 2 2
x2 f (x)dx,

E X = x f (x)dx = x f (x)dx + x f (x)dx +
−∞ −∞ −k k
Z −k Z∞ Z −k Z ∞
2 2 2 2
≥ x f (x)dx + x f (x)dx ≥ k f (x)dx + k f (x)dx,
−∞ k −∞ k
= k [P (X ≤ −k) + P (X ≥ k)] = k 2 P (|X| ≥ k),
2

lo que equivale a
E (X 2 )
P (|X| ≥ k) ≤ .
k2
Ası́ queda demostrado el teorema de Markov. 

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 33

Utilizando la desigualdad de Markov tenemos que

E(X̄n − µ)2 σ2
P (|X̄n − µ| ≥ ) ≤ = .
4 n4
Entonces,

σ2
P (|X̄n − µ| < ) = 1 − P [(X̄n − µ)2 ≥ 2 ] > 1 − −→ 1 cuando n −→ ∞,
n4
ası́ queda probado el teorema. 

Esta ley sostiene que, bajo condiciones generales, la media muestral se aproxima a la
poblacional cuando n −→ ∞.

Definición 2.7.2 (Convergencia Casi Segura)


Una secuencia de v.a. X1 , X2 , . . . , converge casi seguro a una v.a. X si, para todo  > 0,
 
P lı́m |Xn − X| <  = 1 (2.21)
n→∞

Note que la similitud de las definiciones 2.20 y 2.21. Aunque ellas lucen similar, son defini-
ciones diferentes, de hecho la definición 2.21 es mucho más fuerte. Recuerde la definición de
variable aleatoria, es una función valuada en los reales sobre el espacio muestral S. Si un
espacio muestral S tiene elementos s, entonces Xn (s) y X(s) son todas las funciones definidas
sobre S. La definición 2.21 expone que Xn converge a X casi seguro si las funciones Xn (s)
convergen a X(s) para todos los s ∈ S excepto, quizá, para s ∈ N , con N ⊂ S y P (N ) = 0.
Veamos unos ejemplos para ver la diferencia.

Ejemplo 2.7.1 (Convergencia casi segura) Sea S un espacio muestral en el intervalo


cerrado [0, 1] con la distribución de probabilidad uniforme. Se definen las variables aleatorias
Xn (s) = s + sn y X(s) = s. Para todo s ∈ [0, 1), sn → 0 cuando n → ∞ y Xn (s) → s = X(s).
Sin embargo, Xn (1) = 2 para todo n, por lo que Xn (1) no converge a 1 = X(1). Pero como la
convergencia ocurre en el conjunto [0, 1) y P ([0, 1)) = 1, Xn converge a X casi seguro.

Ejemplo 2.7.2 (Convergencia en probabilidad, pero no casi segura) Sea S un


espacio muestral en el intervalo cerrado [0, 1] con la distribución de probabilidad uniforme. Se
define la secuencia X1 , X2 , . . . , como sigue,

X1 (s) = s + I[0,1] (s), X2 (s) = s + I[0, 1 ] (s), X3 (s) = s + I[ 1 ,1] (s),


2 2

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 34

X4 (s) = s + I[0, 1 ] (s), X5 (s) = s + I[ 1 , 2 ] (s), X6 (s) = s + I[ 2 ,1] (s),


3 3 3 3

etc. Definimos, también, X(s) = s. Es fácil ver que Xn converge en probabilidad a X. Mientras
n → ∞, P (|Xn − X| > ) es igual a la probabilidad de un intervalo de s valores cuyo largo se
va hacia cero. Sin embargo, Xn no converge casi seguro a X. En efecto, no hay ningún valor
de s ∈ S para el que Xn (s) → s = X(s). Para todo s, el valor de Xn (s) alterna entre s y s + 1
infinitamente. Por ejemplo, si s = 83 , X1 (s) = 1 83 , X2 (s) = 1 83 , X3 (s) = 83 , X4 (s) = 83 , X5 (s) =
1 83 , X6 (s) = 38 , etc. No hay punto para el cual haya convergencia.

Teorema 2.7.2 (La Ley Fuerte de los Grandes Números) Sean X1 , X2 , . . . , v.a.
independientes e idénticamente distribuidas con E(Xi ) = µ, y V(Xi ) = σ 2 < ∞. Definimos
X̄n = 1/n ni=1 Xi . Entonces, para todo  > 0
P
 
P lı́m |X̄n − µ| <  = 1,
n→∞

es decir que X̄n converge casi seguro a µ.

Definición 2.7.3 (Convergencia en Distribución)


Una secuencia de v.a. X1 , X2 , . . . , converge en distribución a una v.a X si

lı́m FXn (x) = FX (x) (2.22)


n→∞

pata todos los puntos x donde FX (x) es continua.

Ejemplo 2.7.3 Si X1 , X2 , . . . , Xn son v.a. independientes e idénticamente distribuidas


U (0, 1) y Xn = max1≤i≤n Xi , veamos si X(n) converge en distribución a algo. Cuando n → ∞
se espera que X(n) se hace más cercano a 1 y, como X(n) tiene que ser menor que 1, se tiene
que para todo  > 0,

P (|X(n) − 1| ≥ ) = P (X(n) ≥ 1 + ) + P (X(n) ≤ 1 − ) = 0 + P (X(n) ≤ 1 − ).

Ahora, usando el hecho que tenemos una m.a., podemos escribir

P (X(n) ≤ 1 − ) = P (Xi ≤ 1 − , i = 1, . . . , n) = (1 − )n ,

que se va a cero. Por lo que X(n) converge en probabilidad a 1.

Nota 2 Sea a1 , a2 , . . . , una secuencia de números que convergen a a, es decir n→∞


lı́m an = a.
Entonces,  an  n
lı́m 1+ = ea
n→∞ n


Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 35

Sin embargo, si hacemos  = t/n, entonces tenemos

P X(n) ≤ 1 − t/n = (1 − t/n)n → e−t ,


 

que, reordenando resulta


P n 1 − X(n) ≤ t → 1 − et ,
  


que es, la v.a. n 1 − X(n) converge en distribución a una v.a. exponencial.

Teorema 2.7.3 (Teorema central del Lı́mite) Sea X1 , . . . , Xn una secuencia de v.a.

independientes e idénticamente distribuidas cuya función generatriz de momentos (fgm), E etX ,
existe en un entorno de cero. Sea E[Xi ] = µ y V[Xi ] = σ 2 > 0, y ambos µ y σ 2 son finitos.
Definimos X̄n = (1/n) ni=1 Xi . Entonces, para cualquier −∞ < x < ∞,
P

√ X̄n − µ d
lı́mn −→ N (0, 1)
n→∞ σ

Prueba:
√ X̄n −µ
La demostración se hará mostrando que la fgm de n σ converge a la fgm de una v.a. con
t2
distribución N (0, 1), e 2 . En primer lugar definimos Yi = (Xi − µ)/σ, y MY (t) la fgm de Yi .
Tenemos n n
X Y 1 X (Xi − µ) √ (X̄n − µ)
√i = √ = n ,
i=1
n n i=1
σ σ
luego,
"
n
( )#  
X Y t
√ P √
M n(X̄n −µ)/σ (t) = M ni=1 Yi / n (t) = E exp t √i =MPn
Yi √ ,
i=1
n i=1
n

por la independencia de las v.a. Además, dado el hecho de que las v.a. son idénticamente
distribuidas se tiene que
n      n
Y t t
M√n(X̄n −µ)/σ (t) = E exp √ Yi = MY √ .
i=1
n n

h  in
Ahora, vamos aproximar la fgm MY √tn por medio de un desarrollo de Taylor alrede-
dor de cero,
∞ √
n)k
 
t X (k) (t/
MY √ = MY (0)
n k=0
k!
(k)
donde MY (0) = (dk /dtk )MY (t)|t=0 .

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 36

  h t i
(0) √ Y (1) (2)
Usando el hecho que MY = MY √t |t=0 = E e n |t=0 = 1, My = 0 and My = 1
n
(por construcción, la media y la varianza de Y son cero y uno), tenemos

(t/ n)2
   
t t
MY √ =1+ + RY √ ,
n 2! n
donde RY es el término residual en la expansión de Taylor,
∞ √
X (k) (t/ n)k
MY (0)
k=3
k!

Una aplicación del teorema de Taylor muestra que para t 6= 0 y fijo tenemos

RY (t/ n)
lı́m √ = 0.
n→∞ (t/ n)2

Puesto que t es fijo, también se verifica


√  
RY (t/ n) t
lı́m √ = nRY √ = 0,
n→∞ (1/ n)2 n
 
y, esto último, es también verdadero para t = 0, puesto que RY √0 = 0. Entonces, por un
n
valor fijo t, tenemos
n √ n
(t/ n)2
   
t t
lı́m MY √ = lı́m 1 + + RY √ ,
n→∞ n n→∞ 2! n
n
1 t2
  
t
= lı́m 1 + + nRY √ ,
n→∞ n 2 n
2 /2
= et
 
2 /2
esto es ası́ ya que según la nota 2, an = (t2 /2) + nRY √t . Puesto que at es la fgm de una
n
v.a. con distribución N (0, 1), el teorema queda demostrado. 

Ejemplo 2.7.4 (Aproximación Normal de la Distribución Binomial)


Sea Y una v.a. con distribución B(n, p). Esta v.a. cuenta el número de éxitos en n repeticiones
de un experimento, con probabilidad de éxito igual a p. Ası́, se verifica que Y = ni=1 Xi , donde
P

xi ∼ Ber(p). Sabemos que E(Xi ) = p, y que V(Xi ) = p(1 − p). Aplicando el TCL obtenemos
√ X̄ − p d
np −→ N (0, 1)
p(1 − p)
o  
Y ∼ p(1 − p)
X̄ = = N p, ,
n n
lo que implica que
Y = nX̄ ∼
= N [np, np(1 − p)] .

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 37

Ejemplo 2.7.5 El candidato A considera que puede ganar una elección en una ciudad si
obtiene al menos 55 % de los votos en el distrito I. Además, suponga que alrededor del 50 % de
los votantes en la ciudad están a su favor. Si n = 100 votantes vienen a votar en el distrito I,
considerando a éstos como una m.a. de votantes de la ciudad, ¿cuál es la probabilidad de que
el candidato A reciba al menos 55 % de los votos? Sea Y el número de votantes en el distrito
I que está a favor del candidato A. Tenemos que calcular el valor de la probabilidad

P (Y /n ≥ 0,55).

Cuando p, la probabilidad de que un votante seleccionado al azar, esté a favor del candidato
A, sea p = 0,5. Entonces Y tiene una distribución B(100, 0,5). Sabemos que Y = ni=1 Xi ,
P

donde Xi es la variable que vale uno si el votante está a favor de A, o cero en caso contrario.

La probabilidad exacta será


54
!
X n
P (Y ≥ 55) = 1 − P (Y < 55) = 1 − pi (1 − p)(n−i)
i=0 i
= 1 − 0,8159 = 0,1841

Por otro lado, usando el TCL, podemos aproximar esta probabilidad usando

P (Y /n ≥ 0,55) = P (Y ≥ 55) =
 
Y − 50 55 − 50
= P √ ≥√ ≈ P (Z ≥ 1) = 0,1587.
100 × 0,5 × 0,5 100,5 × 0,5

Pero como vemos hay una diferencia importante entre la aproximación y la probabilidad
real. Esto se debe a que con la distribución binomial estamos calculando la probabilidad 1 −
P (Y < 55), en particular P (Y < 55) en escala discreta significa menor o igual que 54,
mientras que en escala continua significa menor que 54.5. Por lo que la aproximación Normal
será mejor la siguiente
 
Y − 50 54,5 − 50
P √ ≥√ ≈ 1 − P (Z ≤ 0,9) = 1 − 0,8159 = 0,1841.
100 × 0,5 × 0,5 100 × 0,5 × 0,5

Suponga que X ∼ B(n, p), si queremos obtener la P (X ≤ 2) mediante una aproximación


a la distribución Y ∼ N (np, np(1 − p)), uno pensarı́a en calcular P (Y ≤ 2). Pero veamos la
Figura 2.6, si hacemos esto, estamos subestimando dicha probabilidad, por lo que tenemos
que calcular P (Y ≤ 2,5). De la misma forma, si queremos aproximar P (X ≥ 3), aproximando
mediante P (Y ≥ 3) estamos subestimando la probabilidad, en realidad, observando la Figura
2.6, tendrı́amos que calcular P (Y ≥ 2,5).

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 38

Figura 2.6

En resumen, a la hora de calcular probabilidades para una v.a. Binomial utilizando la


distribución normal, la aproximación se puede mejorar ajustando los lı́mites de las probabil-
idades. Ası́, si Y denota la v.a. Binomial, e Y denota la v.a. Normal que aproxima a Y , se
obtienen mejores aproximaciones de la forma,

P (Y ≤ a) ≈ P (Y ≤ a + 0,5),
P (Y ≥ b) ≈ P (Y ≥ b − 0,5),
P (Y = c) ≈ P (c − 0,5 ≤ Y ≤ c + 0,5),

Ejemplo 2.7.6 Suponga X1 , . . . , Xn una m.a. de una v.a. Binomial Negativa (BN ) de
parámetros BN (r, p). Esta distribución mide número de experimentos de Bernoulli de parámetro
p independientes realizados hasta la consecución del k-ésimo éxito. Además
!
x−1
f (x|p, r) = pr (1 − p)(x−r)
r−1

y
r(1 − p) r(1 − p)
E[X] = , y V[X] = ,
p p2
y el TCL nos dice que
√ 
n X̄ − r(1 − p)/p
p
r(1 − p)/p2

es aproximadamente N (0, 1).

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 39

Por ejemplo, si r = 10, p = 1/2, y n = 30, el cálculo exacto de la probabilidad serı́a


30
! 30
X X
P (X̄ ≤ 11) = P Xi ≤ 330 , Xi ∼ BN (nr, p)
i=1 i=1
330
!   
300 x
X 300 + x − 1 1 1
= ,
i=0 x 2 2
= 0,8916

que es una proceso de cálculo largo. Sin embargo, si utilizamos la aproximación via TCL
tenemos
p p !
30(X̄ − 10) 30(11 − 10)
P (X̄ ≤ 11) = P √ ≤ √ ,
20 20
≈ P (Z ≤ 1,2247) = 0,8888.

Otro teorema importante que se usa con el TCL es el siguiente,

Teorema 2.7.4 Slutsky


d p
Si Xn −→ X y Yn −→ a, donde a es una constante, entonces,

d
a) Xn Yn −→ aX,
d
b) Xn + Yn −→ X + a.

La prueba de este teorema escapa al curso.

Ejemplo 2.7.7 Aproximación Normal con varianza estimada


Suponga que √
n(X̄ − µ) d
−→ N (0, 1),
σ
p
pero el valor de σ es desconocido. Utilizando el teorema de Slutsky y el hecho que S 2 −→ σ 2
(que demostraremos más adelante en el curso) tenemos que

lı́m Sn2 /σ 2 = 1.
n→∞

Entonces, usando nuevamente el teorema de Slutsky y el TCL se tiene


√ √
n(X̄ − µ) σ n(X̄ − µ) d
= −→ N (0, 1).
Sn Sn σ

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 2. DISTRIBUCIONES MUESTRALES Página 40

Teorema 2.7.5 El Método Delta


√ d
Sea Yn una secuencia de v.a que satisfacen n(Yn − θ) −→ N (0, σ 2 ). Para una función g y
una valor especı́fico de θ, suponga que g 0 (θ) existe y no es cero. Entonces,
√ d
n[g(Yn ) − g(θ)] −→ N [0, σ 2 g 0 (θ)2 ]

Prueba:
La expansión de Taylor alrededor de Yn = θ es

g(Yn ) = g(θ) + g 0 (θ)(Yn − θ) + residual.

El teorema de Taylor (no lo demostraremos, pero lo usaremos) dice que el término residual
p
converge a cero cuando Yn −→ θ. De la aproximación se tiene que
√ √
n[g(Yn ) − g(θ)] ≈ g 0 (θ) n(Yn − θ).
√ d
Como n(Yn − θ) −→ N (0, σ 2 ), Entonces, por el teorema de Slutsky tenemos que
√ √
lı́m n [g(Yn − g(θ))] = lı́m g 0 (θ) n(Yn − θ),
n→∞ n→∞

con lo cual
√ d
g 0 (θ) n(Yn − θ) −→ N [0, σ 2 g 0 (θ)2 ],

con lo que queda demostrado el teorema. 

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


Capı́tulo 3

Propiedades de los Estimadores

3.1. Estimadores y estadı́sticos

El investigador o experimentador usa información de una muestra X1 , . . . , Xn para hacer


inferencia sobre un parámetro desconocido de la población θ. Generalmente el investigador
resumen la información de la muestra mediante estadı́sticos, T (X). Estos son funciones los
datos para resumir su información. Luego un estimador de θ, θb es un estadı́stico con rango en
el espacio paramétrico Θ.

Ejemplo 3.1.1 En la siguiente tabla aparecen parámetros y sus estimadores habituales

parámetro Estimador
Pn
Xi
p pb = i=1
n
µ X̄
0
σ2 S 2, S 2

Cuadro 3.1

3.2. Propiedades de los estimadores

Es posible obtener muchos estimadores para un mismo parámetro, pero hay que decidir
cuáles son buenos y cuáles son los mejores. Ahora, desde qué perspectiva uno decide que un

41
CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 42

estimador es mejor que otro. Vamos a ver varias perspectiva o propiedades para determinar si
un estimador mejor que otro. Estas propiedades son las siguientes:

Insesgamiento.

Suficiencia.

Consistencia.

Estimadores de varianza mı́nima.

3.2.1. Insesgamiento

Definición 3.2.1 Un estimador θb de un parámetro θ es insesgado si E[θ]


b = θ. La cantidad
B(θ) b − θ se denomina sesgo del estimador θ.
b = E(θ) b

Ejemplo 3.2.1 Varianza muestral


Hemos demostrado que si tenemos X1 , . . . , Xn una m.a. proveniente de una v.a. X ∼ N (µ, σ 2 ),
entonces
(n − 1)S 2
∼ χ2n−1 .
σ2
Además, sabemos que una variable que se distribuye chi-cuadrado tiene media igual al número
de grados de libertad, por lo que
(n − 1)S 2
 
E = n−1∴
σ2
n−1
2
E(S 2 ) = n − 1 ∴
σ
E(S 2 ) = σ 2 .

En forma similar, sabemos que


0
(n)S 2
∼ χ2n−1 .
σ2
Pn
0 (X −X̄)
Con lo cual podrı́amos ver el caso de S 2 = i=1 n i
0 
(n)S 2

E = n−1∴
σ2
n 0

2
E(S 2 ) = n − 1 ∴
σ
0 n−1 2
E(S 2 ) = σ .
n

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 43

Es decir que es sesgada, cuyo sesgo viene dado por


 02
 n−1 2 1
B S = σ − σ2 = − σ2.
n n

Ejemplo 3.2.2 Sea X una v.a. con función de densidad

fX (x) = θe−θx , x > 0, θ > 0.

Sea X1 , . . . , Xn una m.a. de dicha variable aleatoria. Vamos a encontrar un estimador inses-
gado de θ.
1 1
Dado que X ∼ Exp (θ), sabemos que E(X) = θ
, con lo cual, θ = E(X)
. Por otro lado
sabemos que !
n n n
1X 1X 1X
E(X̄) = E Xi = E(Xi ) = µ = µ,
n i=1 n i=1 n i=1

es decir que X̄ es un estimador insesgado de E(X), lo cual tiene lógica tomar como estimador
de θ, el estadı́stico θb = X̄1 . Para comprobar si es insesgado, necesitamos su función de densidad.
Observemos que Xi ∼ γ 1, 1θ , tiene distribución gamma1 . Entonces, por la propiedad de


aditividad de las variables aleatorias gamma, tenemos que


n  
X 1
T (X) = Xi ∼ γ n, ,
i=1
θ

con función de densidad


1 n n−1 −θt 1
fT (t) = θ t e = θn tn−1 e−θt , t > 0.
Γ(n) (n − 1)!

Ası́, la esperanza del estimador θb = n/T (X) = 1/X̄ viene dada por
Z ∞ Z ∞
n 1 −θt nθ 1
E(θ)
b = n n−1
θ t e dt = θn−1 t(n−1)−1 e−θt dt,
0 t (n − 1)! n − 1 0 (n − 2)!
pero Z ∞ Z ∞
1 1
θn−1 t(n−1)−1 e−θt dt = θn−1 t(n−1)−1 e−θt dt = 1,
0 (n − 2)! 0 Γ(n − 1)

1
La densidad Gamma(α, β) viene dada por
 
1
y α−1 e−y/β , y > 0
Γ(α)β 2 α

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 44

ya que es la integral de una función de densidad γ n − 1, 1θ en todo su rango, con lo que se




concluye que
n
E(θ)
b =θ ,
n−1
de lo que deducimos que θb no es un estimador insesgado de θ. Sin embargo el estimador

n−1
θe =
nX̄

sı́ es un estimador insesgado de θ.

3.2.2. Suficiencia

Un estadı́stico suficiente es el que cumple con la siguiente definición.

Definición 3.2.2 Un estadı́stico T (X) = (X1 , . . . , Xn ) es suficiente para θ si la distribu-


ción condicional de la muestral X1 , . . . , Xn dado el valor de T (X) no depende de θ. Es decir
que
f [x1 , . . . , xn |T (x)] no depende de θ.

La noción de un estadı́stico suficiente para un parámetro θ es que recoja toda la información


de la muestra sobre el parámetro; es decir, si para una muestra determinada, se conoce el valor
del estadı́stico, entonces la muestra no aporta ninguna información extra sobre θ.

Nota 3 Observe que de la definición anterior se deduce directamente que si T es un es-


tadı́stico suficiente para un parámetro θ, entonces también lo es para cualquier función de θ,
g(θ).

El siguiente ejemplo motiva adecuadamente la definición de suficiencia.

Ejemplo 3.2.3 Supongamos que un experimento con dos posibles resultados, éxito, y fra-
caso, con probabilidad de éxito igual a p, se repite n veces, de manera que X1 , . . . , Xn es una
m.a. de una v.a. Bernulli(p). Si calculamos el valor del estadı́stico Y = ni=1 Xi , que es el
P

número de éxito en las n pruebas, ¿proporciona la muestra más información sobre p aparte de
la que aporta el valor observado de Y ?

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 45

Esto se puede comprobar calculando la probabilidad de la muestra, condicionada al valor


observado del estadı́stico,
( P (X1 =x1 ,...,Xn =xn ) Pn
P (Y =y)
si i=1 xi = y,
P (X1 = x1 , . . . , Xn = xn |Y = y) = Pn
0 si i=1 xi 6= y.

Ası́,
py (1 − p)n−y 1
P (X1 = x1 , . . . , Xn = xn |Y = y) = ! = !,
n n
py (1 − p)n−y
y y
que no depende de p, lo que significa que una vez conocido el valor del total de éxitos, no
queda más información útil en la muestra sobre la probabilidad de éxito p; por ejemplo, la
información acerca del orden en el que aparecen los éxitos en la muestra es superflua para
conocer p.

Definición 3.2.3 Función de Verosimilitud


Sean X1 , . . . , Xn un conjunto de variables aleatorias con distribución dependiente de un parámetro
θ, y sea x1 , . . . , xn un conjunto de realizaciones de dichas variables aleatorias. Si las variables
son discretas, se define la verosimilitud de θ para x1 , . . . , xn , como la función de cuantı́a con-
junta, es decir,

L(θ; X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; θ) = P(X1 ,...,Xn ) (x1 , . . . , xn ; θ).

Si las variables son continuas, entonces se define como

L(θ; X1 = x1 , . . . , Xn = xn ) = f(X1 ,...,Xn ) (x1 , . . . , xn ; θ)

L(θ; X1 = x1 , . . . , Xn = xn ) se considera como una función del parámetro, ya que la muestra


x1 , . . . , xn es fija. Observe que en el caso de que las variables sean independientes, la verosimil-
itud es ( Q
n
i=1 PXi (xi ; θ) si las v.a. son discretas
L(θ; x1 , . . . , xn ) = Qn
i=1 fXi (xi ; θ) si las v.a. son continuas
El siguiente teorema nos proporciona en ciertos casos un método sencillo para comprobar si
un estadı́stico es suficiente.

Teorema 3.2.1 Teorema de factorización


Sea X1 , . . . , Xn una m.a. de una v.a. con distribución dependiente de un parámetro desconocido

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 46

θ. El estadı́stico T = T (X1 , . . . , Xn ) es suficiente para θ si y solo si la verosimilitud se puede


factorizar en dos funciones no negativas de la forma

L(θ; x1 , . . . , xn ) = g(t; θ)h(x1 , . . . , xn ),

donde g(t; θ) depende de la muestra solo a través de t, h(x1 , . . . , xn ) no depende de θ.

Ejemplo 3.2.4 Para el Ejemplo 3.2.3 se demuestra que T =


P
i=1 Xi es suficiente uti-
lizando el Teorema 3.2.1.

La verosimilitud
n
Y
L(p; x1 , . . . , xn ) = f (xi ; p)
i=1
n
Y
= pxi (1 − p)1−xi
i=1
Pn Pn
xi
= p i=1 (1 − p)n− i=1 xi

= g(t, p) × 1,
Pn
con t = i=1 xi y h(x1 , . . . , xn ) = 1.

Ejemplo 3.2.5 Sea X1 , . . . , Xn una m.a. de una v.a. con distribución N (µ, σ2 ). Vamos a
obtener estadı́sticos suficientes para

a) σ 2 , si µ es conocido,

b) µ, si σ 2 es conocido,

c) µ y σ 2 .

La verosimilitud de la muestra es
n n  
2
Y
2
Y 1 1 2
L(µ, σ ; x1 , . . . , xn ) = f (xi ; µ, σ ) = √ exp − 2 (xi − µ)
i=1 i=1 2πσ 2 2σ
( n
)
1 1 X
= √ n exp − 2 (xi − µ)2 I(−∞,inf ty) (xi ).
2πσ 2 2σ i=1

Aquı́ ya tenemos una factorización adecuada para el caso a), tomando h(x1 , . . . , xn ) = I(−∞,inf ty) (xi ).
Por tanto, T = ni=1 (xi − µ)2 es suficiente para σ 2 .
P

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 47

Para el apartado b), sumando y restando x̄ dentro de la exponencial, obtenemos


n
X n
X n
X
2 2
(xi − µ) = (xi − x̄ + x̄ − µ) = (xi − x̄)2 + n(x̄ − µ)2 ,
i=1 i=1 i=1

ya que el término cruzado se anula. Por tanto, la verosimilitud se puede factorizar de la forma
( n
)
2 1 1 X 2
n n
2
o
L(µ, σ ; x1 , . . . , xn ) = √
  n exp − (xi − x̄) exp − 2 (x̄ − µ) .
2πσ 2 2σ 2 i=1 2σ

Por tanto, en este caso T = X̄ es suficiente para µ.

Finalmente, para c), un estadı́stico suficiente de (µ, σ 2 ) se obtiene de la misma factor-


ización, " #
n
X
T = X̄, (Xi − X̄)2 ,
i=1
o equivalentemente, multiplicando y dividiendo por n dentro de la primera exponencial, se
obtiene que  
0
T = X̄, S 2
es suficiente de (µ, σ 2 ).

3.2.3. Consistencia

Suponga que se tira una moneda n veces; la probabilidad que salga cara es p. Si los lanza-
mientos son independientes, entonces Y , el número de caras que salen en los n lanzamientos,
tiene una distribución binomial. Si se desconoce el valor real de p, la razón muestral Y /n
constituye un estimador de p. ¿Qué efecto tiene en este cociente muestral el incremento del
número de lanzamientos, n? Nuestra intuición sugiere que conforme n crece, Y /n se aproxime
al valor verdadero de p. Es decir, nuestro estimador se aproximarı́a a la cantidad que se desea
estimar a medida que aumenta la cantidad de información de la muestra.

Como Y /n es una variable aleatoria, podemos expresar la proximidad de Y /n a p en


términos de probabilı́sticos; en particular, analizando la probabilidad la distancia entre el
estimador y el parámetro objetivo, |Y /n − p|. Si estamos en lo cierto, conforme n aumente, la
probabilidad  
Y
P − n ≤  , para  > 0,

n
deberı́a aproximarse a 1. Si, en efecto, esta probabilidad tiende a 1 cuando n −→ ∞, entonces
decimos que Y /n es un estimador consistente de p, o que Y /n converge en probabilidad a p.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 48

Definición 3.2.4 Se dice que θb es un estimador consistente de θ si, para cualquier número
positivo ,
lı́m P (|θbn − θ| ≤ ) = 1,
n→∞

o
lı́m P (|θbn − θ| > ) = 0.
n→∞

También, es posible determinar la consistencia de un estimador observando qué es lo que


sucede con el error cuadrático medio cuando n tiende a infinito,

lı́m ECM (θ)


b = lı́m E[(θb − θ)2 ] = lı́m E(θb2 + θ2 − 2θθ)
b
n→∞ n→∞ n→∞
h i
= lı́m E(θb2 ) − E(θ) b 2 + E(θ)
b 2 + θ2 − 2θE(θ)
b
n→∞

= b 2 + lı́m V(θ).
lı́m [B(θ)] b
n→∞ n→∞

Teorema 3.2.2 Un estimador θbn de θ constituye un estimador consistente de θ si


n o
lı́m ECM (θ)
b = lı́m b 2 + V(θ)
[B(θ)] b =0
n→∞ n→∞

Ejemplo 3.2.6 Sea X1 , . . . , Xn una m.a. de una v.a. con media µ y varianza σ2 < ∞, se
Pn
puede demostrar que X̄n = i=1 Xi es un estimador consistente de µ.

Anteriormente vimos que E(X̄n ) = µ y que V(X̄n ) = σ 2 /n. Como X̄n es insesgado para µ
sólo resta ver qué pasa con V(X̄n ) cuando n −→ ∞. Pero

σ2
lı́m V(X̄n ) = lı́m = 0.
n→∞ n→∞ n

Entonces, podemos concluir según el teorema 3.2.2 que X̄n es un estimador consistente µ.

Teorema 3.2.3 Suponga que θb1n es estimador consistente de θ1 y que θb2n es estimador
consistente de θ2 , entonces

p
a) θb1n + θb2n −→ θ1 + θ2 ,
p
b) θb1n θb2n −→ θ1 θ2 ,
p
c) θb1n /θb2n −→ θ1 /θ2 , siempre que θ2 6= 0,
p
d) Si g(.) es una función de valores reales continua en θ, entonces g(θbn ) −→ g(θ).

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 49

Ejemplo 3.2.7 Sea X1 , . . . , Xn una m.a. de una v.a. tal que E(Xi ) = µ, E(Xi2 ) = µ02 y
E(Xi4 ) = µ04 son finitas. Se puede demostrar que
n
1 X
Sn2 = (Xi − X̄n )2
n − 1 i=1
es un estimador consistente de σ 2 .

Anteriormente hemos visto que Sn2 es igual a


n
!   n
!
2 1 X
2 2 n 1X 2
Sn = X − nX̄n = X − X̄n2 .
n − 1 i=1 i n−1 n i=1 i
Pn
El estadı́stico (1/n) i=1 Xi2 es el promedio de n variables aleatorias independientes con
idéntica distribución, en las cuales E(Xi2 ) = µ02 y V(yi2 ) = µ04 − (µ02 )2 < ∞. De acuerdo a la
ley de los grandes números, sabemos que (1/n) ni=1 Xi2 converge en probabilidad a µ02 . Por
P

otro lado vimos en el ejemplo 3.2.6 que X̄ es un estimador consistente de µ. Como la función
p
g(.) = x2 es continua para todo x, implica que X̄ 2 −→ µ2 . Por lo tanto,
n
1X 2 p
Xi − X̄n2 −→ µ02 − µ2 = σ 2 .
n i=1
Ya que n/(n − 1) es una serie de constantes que convergen a 1 cuando n −→ ∞, podemos
concluir que Sn2 converge en probabilidad a σ 2 . De esta manera queda demostrado que Sn2 es
un estimador consistente para σ 2 .
0 1
P2
Sin otros cálculos adicionales ¿Cómo demostrarı́a que S 2 = n i=1 (Xi − X̄n )2 ? es un
también un estimador consistente para σ 2 .

Ejemplo 3.2.8 Vamos a calcular el ECM de S 0 2 = 1


Pn
n i=1 (Xi − X̄)2 . Supongamos que
tenemos X1 , . . . , Xn una m.a. de una v.a. X ∼ N (µ, σ 2 ), entonces, por propiedades que hemos
visto, es posible comprobar que
(n − 1)S 2
 
2

V = V χ n−1 = 2(n − 1) ∴
σ2
(n − 1)2
2 2
V(S 2 ) = 2(n − 1) ∴
(σ )
2(σ 2 )2
V(S 2 ) = .
n−1
Entonces el ECM de S 2 la suma del sesgo y su varianza, pero como este es un estimador
insesgado de σ 2 el ECM es sólo la varianza del estimador, es decir
2
ECM (S 2 ) = V(S 2 ) = (σ 2 )2 .
n−1

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 50

0 0
Para el caso de S 2 , su sesgo es B(S 2 ) = − n1 σ 2 , sólo resta calcular su varianza, pero
0 n−1 2
sabemos que S 2 = n
S , con lo cuál
2
2(σ 2 )2

02 n−1 n−1
V(S ) = = 2(σ 2 )2 2 ,
n n−1 n

por lo que el ECM queda


0 1 n−1 2n − 1 2 2
ECM (S 2 ) = (σ 2 )2 2
+ 2(σ 2 )2 2 = (σ )
n n n2

Si suponemos que n > 1, entonces


0
ECM (S 2 ) < ECM (S 2 ),

además, a medida que n crece el

3.2.4. Estimadores de varianza mı́nima

Los estimadores suficientes desempeñan un papel importante en la determinación de los


buenos estimadores de parámetros. Si se busca estimadores con varianza pequeñas, entonces
estos tienen que ser suficientes.

Teorema 3.2.4 Teorema de Rao-Blackwell


Sea W un estimador insesgado de τ (θ), y sea T un estadı́stico suficiente de θ. Definimos
φ(T ) = E(W |T ). Entonces,

E [φ(T )] = τ (θ), y V [φ(T )] ≤ V(W ),

para todo θ. Es decir que φ(T ) es un mejor estimador insesgado para τ (θ).

Si comenzamos con un estimador insesgado para un parámetro θ o una función de este, y


con el criterio de factorización obtenemos un estadı́stico suficiente, la aplicación del teorema
3.2.4 permite obtener un estimador insesgado de menor varianza. El cálculo directo de los
valores condicionales podrı́a resultar difı́cil, no obstante, T es el estadı́stico suficiente que
resume mejor los datos y serı́a posible determinar una función de T , digamos h(T ), tal que
E[h(T )] = θ, la cual genera que h(T ) es el un estimador insesgado de varianza menor para θ.
Debe quedar claro que debe ser resultado de aplicar una función a un estadı́stico suficiente.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 51

Ejemplo 3.2.9 Sea X1 y X2 una muestra de una v.a. X ∼ N (θ, 1). El estadı́stico X̄ =
1
2
(X1 + X2 ) tiene
  1
E X̄ = θ y V X̄ = .
2

Considere condicionar sobre X1 , el cuál no es un estadı́stico suficiente. Sea φ(X1 ) = E X̄|X1 ,

se puede probar que E [φ(X1 )] = φ y V [φ(X1 )] ≤ V X̄ , por lo que φ(X1 ) serı́a un mejor
estadı́stico que X̄. Sin embargo,

φ(X1 ) = E X̄|X1
1 1
= E(X1 |X1 ) + E(X2 |X1 )
2 2
1 1
= X1 + θ,
2 2
pero como se aprecia, φ(X1 ) no es un estimador.

Pero, ¿cómo sabemos si es posible mejorar el estimador que tenemos?

Teorema 3.2.5 Si W es un estimador insesgado mejor para τ (θ), entonces W es único.

Pero, ¿cómo sabemos si el estimador que tenemos es mejor estimador insesgado? la respues-
ta a esta pregunta se podrı́a obtener mediante el siguiente ejemplo. Suponga que W satisface
E(W ) = τ (θ), y que tenemos otro estimador, U , que satisface E(U ) = 0 para todo θ, por lo
que U es un estimador insesgado de 0. Suponga el estimador

φa = W + aU,

donde a es una constante que satisface E(φa ) = θ y por lo tanto es un estimador insesgado de
τ (θ). Luego, la varianza de φa está dada por

V(φa ) = V(W + aU ) = V(W ) + 2aCov(W, U ) + a2 V(U ).

Ahora, si para algún valor θ = θ0 , Cov(W, U ) < 0, entonces podemos hacer 2aCov(W, U ) +
a2 V(U ) < 0 eligiendo a ∈ [0, −2aCov(W, U )/V(U )]. Entonces, φa será un mejor estimador
insesgado que W para θ = θ0 . En forma similar, si Cov(W, U ) < 0 para algún θ = θ0 , W
tampoco será el mejor estimador insesgado. Por tanto, la relación de W con el estimador de
0 (cero) es crucial en la evaluación de W como el mejor estimador insesgado.

Teorema 3.2.6 Si E(W ) = τ (θ), W es el mejor estimador insesgado de τ (θ) si y solo si


W es incorrelado con todos los estimadores insesgado de cero.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 52

Finalmente, la forma más fácil para ver si un estimador W es el mejor estimador insesgado,
es viendo si la varianza de este alcanza la cota de Frechet-Crámer-Rao. Antes de determinar
esta cota, vamos a definir un concepto importante en inferencia estadı́stica, la matriz de
información de Fisher .

Definición 3.2.5 Sea X una v.a. con función de densidad continua y dependiente de un
parámetro θ. Se define la cantidad de información de Fisher de X sobre θ como
( 2 )  2 
∂ log f (x; θ) ∂
I(θ) = E = −E log f (x; θ)
∂θ (∂θ)2

Ejemplo 3.2.10 Calcular la cantidad de información de Fisher de una v.a. X ∼ P oisson(λ).


La función de cuantı́a viene dada por

λx e−λ
p(x; λ) = , x = 0, 1, 2, . . .
x!
el logaritmo natural es
log p(x; λ) = x log λ − λ − log x!,

y su derivada
∂ log p(x; λ) x x−λ
= −1= ,
∂λ λ λ
elevando al cuadrado y tomando esperanza tenemos
" 2 #
x−λ V(X) 1
E = 2
= .
λ λ λ

Teorema 3.2.7 Desigualdad de Frechet-Crámer-Rao


Sea X1 , . . . , Xn una m.a. de una v.a. con función de densidad f (x; θ), y sea In (θ) la cantidad
de información de Fisher de la muestra X1 , . . . , Xn sobre θ. Si θb = T (X1 , . . . , Xn ) es un
estimador insesgado de θ, entonces bajo ciertas condiciones generales, se verifica

b ≥ I −1 (θ).
V(θ) n

b = I −1 (θ) se llama eficiente.


Luego, un estimador que verifica V(θ) n

Ejemplo 3.2.11 Se puede demostrar que para una v.a. P oisson(λ), el estimador θb = X̄
es eficiente.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 3. PROPIEDADES DE LOS ESTIMADORES Página 53

En primer lugar calculamos la cantidad de información de Fisher In (θ) para la muestra


X1 , . . . , Xn . El logaritmo natural de la función de cuantı́a conjunta de X1 , . . . , Xn es
" n #
Y λxi e−λ
log p(x1 , . . . , xn ; λ) = log
i=1
xi !
n
X n
X
= xi log λ − nλ − log xi .
i=1 i=1

Derivando con respecto a λ, obtenemos


Pn
∂ i=1 xi
log p(x1 , . . . , xn ; λ) = − n.
∂λ λ
Por consiguiente " P
n 2 #
i=1 xi − nλ nV(X) n
In (λ) = E = 2
= .
λ λ λ
También podrı́a ser, Pn
∂2 i=1 xi
log p(x1 , . . . , xn ; λ) = − ,
(∂λ)2 λ2
entones, !
n
∂2
 
1 X n
In (λ) = −E log p(x 1 , . . . , x n ; λ) = E x i =
(∂λ)2 λ2 i=1
λ

Por otro lado la V(θ)


b = V(X̄) es

n
!
b = 1V nλ λ
X
V(θ) Xi = = .
n2 i=1
n 2 n

Con lo que se concluye que θb = X̄ es eficiente.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


Capı́tulo 4

Métodos de Estimación Puntual de


Parámetros

Hemos visto las diferentes propiedades que un estimador debe tener para considerarlo como
una buena aproximación del verdadero valor del parámetro. En esta parte del curso vamos a
ver diferentes métodos para encontrar estimadores puntuales de un parámetro desconocido θ.

Definición 4.0.6 Un estimador puntual es una función T (X1 , . . . , Xn ) de una muestra,


es decir que cualquier estadı́stico es un estimador puntual.

Nota 4 Vamos la diferencias lo que es un estimador de una estimación. Un estimador es


una función de la muestra, mientras que una estimación es el valor realizado del estimador,
es decir la función evaluada en la realización de la muestra T (x1 , . . . , x2 ).

4.1. Método de Momentos

En esta sección analizaremos uno de los métodos más antiguos para obtener estimadores
puntuales: el método de los momentos.

El método de los momentos es un procedimiento muy sencillo para determinar un estimador


cuando se dispone de uno o más parámetros poblaciones. Recordemos que el k-ésimo momento
de una variable aleatoria X, tomada respecto al origen, es

µ0k = E(X k )

54
CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 55

En general, estos momentos serán funciones de los parámetros poblacionales, es decir

µ0k = g(θ),

donde θ = {θ1 , . . . , θL } para L = 1, 2, 3, . . ..

El momento muestral k-ésimo correspondiente es el promedio


n
1X k
m0k = X .
n i=1 i

Definición 4.1.1 Método de momentos


El método de los momentos para estimar θ1 , . . . , θL mediante una muestra de tamaño n,
X1 , . . . , Xn , consiste en construir L ecuaciones, igualando L momentos poblacionales a sus
correspondientes L momentos muestrales, y despejar de dichas ecuaciones los parámetros en
función de los momentos muestrales.

Ejemplo 4.1.1 Supongamos que tenemos una población con distribución N (µ, σ2 ), de la
que se obtiene una m.a. de tamaño n, X1 , . . . , Xn . Se desea obtener estimadores de µ y σ 2 ,
0
por el método de los momentos. Tenemos θ1 = µ01 = µ y θ2 = σ 2 , y sabemos que σ 2 = µ02 − µ12 .
También, conocemos que m1 = X̄ y m2 = n1 ni=1 Xi2 , por lo tanto hay que resolver
P

X̄ = µ,
n
1 X
Xi2 = µ2 + σ 2 .
n i=1

Resolviendo para µ y σ 2 tenemos que


µ
b = X̄

y
n n
1X 2 1X
σb2 = Xi − X̄ 2 = (Xi − X̄)2 .
n i=1 n i=1

Ejemplo 4.1.2 Sea X1 , . . . , Xn una m.a. de una variable aleatoria con distribución U (0, θ),
de la que se desconoce el valor de θ. Aplique el método de momentos para obtener un estimador
del parámetro θ.

El valor de µ01 para una v.a. uniforme es


θ
µ01 = µ = .
2

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 56

Además, sabemos que el primer momento muestral es la media muestral X̄. Igualando el
momento muestral con poblacional tenemos
θ b
X̄ = ∴ θ = 2X̄.
2

Ejemplo 4.1.3 Sea X1 , . . . , Xn una m.a. de una v.a. con función de densidad dada por
Γ(2θ) θ−1
f (x|θ) = 2y (1 − y)θ−1 , 0 ≤ x ≤ 1.
[Γ(θ)]
Determinar el estimador del método de momentos para θ.

La variable X tiene distribución β(θ, θ). Recuerde que una v.a. con distribución β(α, δ)
tiene densidad dada por
Γ(α + δ) α−1
f (x|α, δ) = x (1 − x)δ−1 , 0 ≤ x ≤ 1,
Γ(α)Γ(δ)
y que E(X) = α
α+δ
y σ2 = αδ
(α+δ)2 (α+δ+1)
= µ02 − (µ01 )2 . para nuestro caso tenemos que
θ 1
m01 = X̄ ∴ X̄ =∴ X̄ = ,
2θ 2
n
para los momentos de orden 2 tenemos m02 = n i=1 Xi2 , y
1
P

θ2
σ2 = ,
4θ2 (2θ + 1)
reemplazando e igualando por el momento muestral tenemos,
θ2 θ2 1 1 1
m02 = 2
+ (m0 2
1 ) ∴ m 0
2 = 3 2
− ∴ m02 − =
4θ (2θ + 1) 8θ + 4θ 4 4 8θ + 4
reordenando un poco tenemos
4m02 − 1 1 1 1 1
= ∴ 0
= 2θ + 1 ∴ 2θ = 0
−1
4 4 2θ + 1 4m2 − 1 4m2 − 1
1 − 2m02
2θ = 2 ∴
4m02 − 1
1 − 2m02
θb = .
4m02 − 1

El método de momentos permite obtener estimadores de parámetros desconocidos igualan-


do los momentos muestrales y de la población correspondientes. El método es fácil de aplicar y
proporciona estimadores consistentes. Sin embargo, los estimadores que se obtienen mediante
este método a menudo no son funciones de estadı́sticos suficientes. En consecuencia, éstos
tampoco serán de varianza mı́nima.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 57

Ejemplo 4.1.4 Sea X1 , . . . , Xn una m.a de una v.a. X ∼ γ(α, β). Determinar por el
método de momentos los estimadores para α y β.

Los primeros momentos de esta distribución son

µ01 = µ = αβ, y µ02 = σ 2 + µ2 = αβ 2 + α2 β 2 .

Ahora igualando estas cantidades a sus momentos muestrales correspondientes y despejamos


α
b y β,
b

µ01 = αβ = m01 = X̄
n
1X 2
µ02 2
= αβ + α β = 2 2
m02 = X
n i=1 i

De la primera ecuación obtenemos βb = X̄/b


α. Al sustituir esa expresión en la segunda ecuación
y despejar α
b generamos

X̄ 2 nX̄ 2
α
b = Pn = n .
( i=1 Xi2 /n) − X̄ 2
P 2
i=1 (Xi − X̄)

Si sustituimos α
b en la primera ecuación, obtenemos
Pn
X̄ i=1 (Xi− X̄)2
βb = = .
α
b nX̄

Veamos la verosimilitud de esta distribución


1 Pn
n
e− β
Qn xi
Y xα−1 e−xi /β
i i=1 xα−1
i
i=1
L(α, β; x1 , . . . , xn ) = = .
i=1
Γ(α)β α [Γ(α)β α ]n

De teorema de factorización 3.2.1 vemos que los estadı́sticos suficientes son ni=1 Xi y ni=1 Xi .
P Q

Como los estimadores del método de momentos α b y βb no son funciones de estos estadı́sticos
suficientes, estos estimadores no son eficientes, o de varianza mı́nima.

4.2. El método de máxima verosimilitud

En esta sección analizaremos el método de máxima verosimilitud, el cual a menudo pro-


porciona estimadores insesgados de varianza mı́nima.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 58

Ejemplo 4.2.1 Consideremos el experimento de lanzar una moneda dos veces de forma
independiente. Sea la v.a. X : Número de caras obtenidas en los dos lanzamientos. Entonces,
X ∼ Bin(2, θ), donde θ = P (cara) ∈ {0,2; 0,8}. Es decir, la función de cuantı́a es
!
2
p(x|θ) = θx (2 − θ)1−x , x = 0, 1, 2.
x

Ası́, la función de cuantı́a de X según los posibles valores de θ viene dada en la tabla siguiente

θ x=0 x=1 x=2


0,2 0,64 0,32 0,04
0,8 0,04 0,32 0,64

A la luz de esta tabla, parece lógico estimar θ de la siguiente manera: si en el experimento


hemos obtenido x = 0 caras, entonces elegirı́amos θb = 0,2, y si hemos obtenido x = 2 caras,
seleccionarı́amos como estimador θb = 0,8. Si obtuviésemos x = 1 cara, entonces podemos
elegir uno de los dos valores de forma arbitraria, puesto que no tenemos más información.

Ası́, la idea del método de máxima verosimilitud consiste en estimar el parámetro descono-
cido θ, con el valor para el cual la probabilidad de que ocurra lo que hemos observado sea
máxima, es decir, seleccionar el valor de θ más creı́ble, o en otras palabras, más verosı́mil. Es
decir, tomar el valor de θ para el cual la probabilidad de la muestra observada sea máxima.
Sin embargo, en el caso continuo, la probabilidad de un valor concreto de la muestra es cero.
En este caso, se generaliza el método, tomando el valor de θ para el cual la densidad de la
muestra observada sea máxima.

Definición 4.2.1 Sea x1 , . . . , xn una realización de una m.a proveniente de una población
cuya distribución pertenece a la familia F = {Fθ : θ ∈ Θ}, donde θ ∈ RL . El estimador
máximo verosı́mil (EMV) de θ es la cantidad que verifica

θb = máxL(θ; x1 , . . . , xn )
θ∈Θ

Muchas veces el logaritmo natural de la verosimilitud, l(θ; x1 , . . . , xn ) = log L(θ; x1 , . . . , xn ),


es más fácil de manejar que la verosimilitud. Además, si la función de verosimilitud es difer-
enciable (en θi ), posibles candidatos para ser EMV son los valores de θ1 , . . . , θL que resuelven

L(θ; x1 , . . . , xn ) = 0, i = 1, 2, . . . , L.
∂θi

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 59

o

l(θ; x1 , . . . , xn ) = 0, i = 1, 2, . . . , L.
∂θi
Como la función logaritmo es monótona creciente, entonces los valores máximos de las fun-
ciones l(θ; x1 , . . . , xn ) y l(θ; x1 , . . . , xn ) se alcanzan en el mismo punto θb1 , . . . , θbL .

Ejemplo 4.2.2 Sea X1 , . . . , Xn una m.a de una v.a. X ∼ N (µ, σ2 ). Obtenga los EMV de
µ y σ2.

La verosimilitud está dada por


( n
)
1 1 X
L(θ; xn , . . . , xn ) = exp − 2 (xi − µ)2 ,
(2πσ 2 )n/2 2σ i=1

y su logaritmo
n
n 2 1 X
(xi − µ)2 .

l(θ; xn , . . . , xn ) = − log 2πσ − 2
2 2σ i=1
Las derivadas con respecto a µ y σ 2 son
n
∂ 1 X
=0 ∴ (xi − µ) = 0,
∂µ σ 2 i=1
Pn 2
∂ n i=1 (xi − µ)
= 0 ∴ − + = 0.
∂σ 2 2σ 2 2σ 4
Resolviendo este sistema de ecuaciones tenemos que
1 0
µ b2 =
b = X̄ y σ (Xi − X̄)2 = S 2 .
n
0
Con lo que vemos que la media muestral X̄ y la varianza sesgada muestral S 2 son los EMV
de µ y σ 2 para una v.a. X ∼ N (µ, σ 2 ).

Ejemplo 4.2.3 Sea X ∼ U (0, θ), con función de densidad


1
f (x|θ) = I(0,θ) (x), θ > 0.
θ
donde θ es desconocido. Sea X1 , . . . , Xn una m.a. de X. Calcular el EMV de θ.

La verosimilitud viene dada por


1
L(θ; x1 , . . . , xn ) = I{x ≥0} (x(1) )I{x(n) ≤θ} (x(n) ).
θn (1)
Podemos observar que para θ ≥ x(n) , L disminuye a medida que θ aumenta; es decir, L es
decreciente en θ a partir de θ = x(n) . Sin embargo, para θ < x(n) , la verosimilitud es cero. Por
tanto, el máximo se encuentra en θb = x(n) , y por tanto, éste es el EMV de θ.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica


CAPÍTULO 4. MÉTODOS DE ESTIMACIÓN PUNTUAL DE PARÁMETROS Página 60

Teorema 4.2.1 Invarianza del EMV


El EMV es invariante respecto de transformaciones monotónicas del parámetro. Es decir, si
ω = h(θ), donde h es biyectiva y θb es el EMV de θ, entonces ω
b = h(θ)
b es el EMV de ω.

Prueba: Sea ω b el EMV de L∗ (ω; x1 , . . . , xn ). Debemos demostrar que L∗ (b


ω ; x1 , . . . , x n ) =
L(h(θ);
b x1 , . . . , xn ). Ahora, la verosimilitud de ω viene dada por
n
Y

L (ω; x1 , . . . , xn ) = f (xi |h−1 (ω)) = L(h−1 (ω); x1 , . . . , xn ),
i=1

ahora, el EMV de ω es

b = supL∗ (ω; x1 , . . . , xn ) = supL(h−1 (ω); x1 , . . . , xn ) = supL(θ; x1 , . . . , xn ) = θ,


ω b
ω ω θ

Por lo que el máximo de L∗ (ω; x1 , . . . , xn ) es logrado en ω = h(θ) = h(θ),


b mostrando que el
EMV de ω es h(θ).
b Lo que verifica el teorema. 

Un ejemplo puede ser el siguiente: El estimador EMV de θ2 puede ser X̄ 2 . Otro, el EMV
p p
de p(1 − p) de una variable binomial puede ser pb(1 − pb), donde pb es el EMV de p.

Prof. Dr. A. Rodriguez Inferencia Estadı́stica

Вам также может понравиться