Tema 2 Boo Pres

Métodos de Remuestreo
Tema 2. Conceptos relacionados con la

Distribución Empı́rica
basado en
B. Efron, R. Tibshirani (1993). An Introduction to the bootstrap.
O. Kirchkamp (2017). Resampling methods.
Curso 2017/18
1/29
Parámetros, distribuciones y el principio de plug-in
I El mejor modo de visualizar una muestra aleatoria es en términos de

una población finita: un universo U de unidades individuales
U1 , U2 , . . . , UN cada una de las cuales tiene la misma probabilidad
de ser seleccionada.
I En cada unidad Ui se mide una variable de interés Xi de modo que
se obtiene un censo X1 , X2 , . . . , XN , es decir, X.
I Una muestra aleatoria de tamaño n es una colección de n unidades
u1 , u2 , . . . , un seleccionadas al azar del universo U.
I En cada unidad seleccionada ui se toma una medida de interés xi de
modo que una muestra se denota como x.
I Los problemas en estadı́stica en general se refieren a estimar algún
aspecto de la distribución de probabilidad F en base a una muestra.
2/29
Ejemplo sobre el principio de plug-in
I Se toma el ejemplo de las universidades con máster en leyes que está

incluido en el libro de Efron y Tibshirani.
I Se trata de una población compuesta por 82 universidades so un

máster en leyes (está en la librerı́a bootstrap de R con el nombre
law82).
I La muestra contiene 15 observaciones.

library ( bootstrap )
with ( law82 , plot (100 * GPA ∼ LSAT , ylab = " GPA " ))
with ( law , points (100 * GPA ∼ LSAT , pch =3))
legend ( " bottomright " , c ( " poblacion " , " muestra " ) ,
pch = c (1 ,3))
3/29
4/29
Ejemplo sobre el principio de plug-in
I Interesa calcular la correlación entre GPA (la puntuación media en

los cursos de grado) y LSAT (calificación de admisión).
I Con la verdadera puntuación poblacional:

with ( law82 , cor ( GPA , LSAT ))
[1] 0 .7599979
I El estimador plug-in es
with ( law , cor ( GPA , LSAT ))
[1] 0 .7763745
5/29
Función de distribución empı́rica
I La distribución empı́rica denominada Fb es un estimador simple de la

función de distribución teórica F .
I El principio de plug-in consiste en estimar algún aspecto de F como

la media, mediana etc. mediante Fb .
I El bootstrap es una aplicación directa de este principio.
I Supongamos que se observa una muestra aleatoria de tamaño n con

función de distribución F
F → (x1 , x2 , . . . , xn )
6/29
I La función de distribución empı́rica Fb se define como la distribución

discreta que asigna probabilidad n1 a cada valor xi tal que
i = 1, 2, . . . , n
I De este modo Fb asigna a un conjunto A del espacio muestral de x la

probabilidad empı́rica
# {xi ∈ A}
P(A)
b =
n
I Esa es la proporción de la muestra observada x que ocurre en A.
7/29
# Simulo datos de cali ficacione s
mu = 6 .5
sigma = 0 .5
y = rnorm ( n =20 , mean = mu , sd = sigma )

y = round (y ,3)
t = mean ( y )
cat ( " La muestra ordenada es " , sort ( y ) ,

" \ n y se obtiene una media muestral igual a " ,
t, "\n")
La muestra ordenada es 5 .72 5 .738 5 .948 6 .163 6 .171 6 .357 6 .498

6 .576 6 .607 6 .613 6 .615 6 .686 6 .7 6 .749 6 .847 6 .908 6 .926
7 .2 7 .22 7 .306
y se obtiene una media muestral igual a 6 .5774
8/29
Se puede dibujar la correspondiente función de distribución empı́rica
# EDF
plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE ,

main = " EDF de Califica ciones " , lwd =2 ,
panel.first = grid ( col = " gray " , lty = " dotted " ) ,
ylab = " Empirical F " )
9/29
Se puede dibujar la correspondiente función de distribución empı́rica

junto con la curva de la función de distribución real.
plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE ,

main = " Empirical vs Real F " , lwd =2 , xlab = " x " ,
panel.first = grid ( nx = NULL , ny = NULL ,
col = " gray " , lty = " dotted " ) , ylab = " EDF " )
curve ( expr = pnorm (x , mean = mu , sd = sigma ) , col = " red " ,

add = TRUE , lw =3)
11/29
I Se define la función de distribución empı́rica como
n
Número de elementos de la muestra ≤ x 1X
Fbn (x ) = = I {xi ≤ x }
n n i=1
donde I {A} es la función indicatriz del suceso A.
I En general, Fbn (x ) se puede considerar como una función de

distribución discreta que asigna probabilidad igual a n1 a cada uno de
los n valores x1 , . . . , xn .
1
I Ası́ Fbn (x ) es una función escalón con un salto de tamaño n en cada
punto xi para i = 1, . . . , n.
13/29
I Si se ordenan los valores de la muestra de menor a mayor

x(1) < x(2) < · · · < x(n) entonces then Fbn (x ) = 0 para x < x(1)
I Fbn (x ) salta al valor 1/n en x = x(1) y se mantiene igual a 1/n para

x(1) ≤ x < x(2)
I Fbn (x ) salta al valor 2/n en x = x(2) y se mantiene igual a 2/n para

x(2) ≤ x < x(3) y ası́ sucesivamente
I Si se fija el valor de x entonces la variable aleatoria I {xi ≤ x } es una

v.a. Bernoulli de parámetro p = F (x )
I Entonces nFbn (x ) es una v.a binomial de media nF (x ) y varianza

nF (x )(1 − F (x )).
14/29
Propiedades de la función de distribución empı́rica
I Ası́,
h i h i
b (x ) = nF (x ) ⇒ E Fb (x ) = F (x )
E nF
1
h i h i
b (x ) = nF (x )(1 − F (x )) ⇒ Var Fb (x ) =
Var nF F (x )(1 − F (x ))
n
de modo que Fb (x ) es un estimador insesgado de F (x ).

I Si se denota como F (x ) la función de distribución de la v.a. de la
que procede la muestra entonces, para todo número
(−∞ < x < ∞), la probabilidad de que una observación dada Xi sea
menor o igual que x es F (x ).
I Por tanto, por la ley de los grandes números, cuando n → ∞, la
proporción Fbn (x ) de observaciones en la muestra que son menores o
iguales que x convergen en probabilidad a F (x ).
p
Fbn (x ) → F (x ) −∞ < x < ∞
15/29
I Pero se tiene un resultado más potente: Fbn (x ) converge a F (x ) de
manera uniforme para todos los valores de x
I Lema de Glivenko-Cantelli Sea Fbn (x ) una función de distribución

empı́rica de una m.a.s X1 , . . . , Xn de una función de distribución F
entonces,

p
Dn = Sup Fbn (x ) − F (x ) → 0

−∞<x <∞
I Nota: Antes de que los valores X1 , . . . , Xn hayan sido observados Dn

es una v.a.
I Cuando el tamaño muestral n es grande la función de distribución

empı́rica Fbn (x ) está muy próxima a F (x ) sobre la recta real.
I Ası́, cuando se desconoce la función de distribución F (x ) se puede

considerar que Fbn (x ) es un estimador muy eficiente de F (x ).
16/29
Simulaciones de la función de distribución empı́rica
I Se define una función para calcular la función de distribución
empı́rica en cada punto:
x = rpois (20 ,3) # ej. tomas una m.a.s de una Poisson
P = ecdf ( x )
P (3)
[1] 0 .5
acumula.dist = function ( muestra , z ){

cuento = 0
for ( t in muestra ){ if (t <= z ) cuento = cuento +1 }
return ( cuento / length ( muestra ))
}
acumula.dist (x , 3)
I Para simular de la función de distribución empı́rica una vez

observado vector x , se puede usar la función sample.
sample (x , size =20 , replace = TRUE )
17/29
I Supongamos que se tiene un conjunto de observaciones X1 , . . . , Xn

procedente de una m.a.s. de una población con función de
distribución F .
I Dado un un estadı́stico de interés Tn = Tn (X1 , . . . , Xn ), se trata de

estimar la distribución de una función de F y Tn , digamos
Rn (Tn , F ):
Hn (x ) = P {Rn ≤ x } ,
I Por ejemplo, Rn podrı́a ser la cantidad pivotal que se usa para

construir los intervalos para la media asumiendo normalidad:
Xn − µ
Rn = √
σ0 / n
18/29
I Entonces, se obtienen muestras bootstrap X1∗ , . . . , Xn∗ de la

distribución empı́rica basada en X1 , . . . , Xn de modo que se puede
definir Tn∗ = Tn (X1∗ , . . . , Xn∗ ) y Rn∗ = Rn (Tn∗ , Fn ) , donde Fn es la
función de distribución empı́rica.
I El estimador bootstrap de Hn se calcula como
b n (x ) = P∗ {R ∗ ≤ x } ,
H n
donde P∗ es la distribución basada en las muestras bootstrap.
I Se observa que H b n (x ) depende de la distribución empı́rica Fn .

Ası́, Hn (x ) cambia cuando los datos {x1 , . . . , xn } varı́an.
b
19/29
I Supongamos que se trata de estimar la varianza de un estimador

θb = θ(x1 , . . . , xn ).
I La varianza teórica viene dada por
Z Z n o2
Var (θ)
b = ··· θ(x1 , . . . , xn ) − E (θ)
b dF (x1 ) · · · dF (xn )
donde
Z Z
E (θ)
b = ··· θ(x1 , . . . , xn )dF (x1 ) · · · dF (xn )
20/29
I La solución natural es usar como estimador plug-in la distribución

empı́rica Fb
Z Z n o2
Var
d (θ)b = ··· θ(x1 , . . . , xn ) − E
b (θ)
b d Fb (x1 ) · · · d Fb (xn )
I es decir, al ser Fb una distribución discreta

o2
b = 1
Xn j
j
Var
d (θ) θ(x 1 , . . . , xn ) − E
b (θ)
b
nn j
donde (x1j , . . . , xnj ) varı́a entre todas las posibles combinaciones de

los datos muestrales.
21/29
I A no ser que n sea pequeño, los cálculos anteriores pueden llevar

bastante tiempo computacional.
I Sin embargo, se pueden aproximar las expresiones mediante

integración Monte Carlo.
I Se aproxima la integral tomando muestras aleatorias de tamaño n de

la función Fb y calculando la media muestral del integrando.
I Por la Ley de los Grandes Números esta aproximación converge al

verdadero valor de la integral cuando n → ∞.
22/29
I ¿A qué se parece una muestra aleatoria tomada de Fb ?
I Como Fb asigna igual masa de probabilidad a cada valor observado

xi , el hecho de tomar una muestra aleatoria de Fb es equivalente a
tomar n valores con reemplazamiento de x1 , . . . , xn .
I De hecho, a la técnica de tomar nuevas muestras a partir de la

muestra original es a lo que realmente se denomina remuestreo.
23/29
Intervalos de confianza basados en la función de
distribución empı́rica
I Teorema de Dvoretzky-Kiefer-Wolfowitz (DKW):
Sea X1 , . . . , Xn una muestra aleatoria de una v.a. con función de

distribución F . Entonces, para todo ε > 0

2
P sup F (x ) − Fbn (x ) > ε ≤ 2e −2nε

x
I Se pueden construir ası́ los intervalos de confianza para Fb .
24/29
I Se define
n o
L(x ) = máx Fbn (x ) − εn , 0
n o
U(x ) = mı́n Fbn (x ) + εn , 1
q
1 2

donde εn = 2n log α
I de este modo, para toda función de distribución F y para todo x se

tiene que
P (L(x ) ≤ F (x ) ≤ U(x )) ≥ 1 − α
25/29
library ( sfsmisc )
# Simulas datos de una v.a. chi cuadrado con 3 g.l.

x = rchisq (50 ,3)
X11 ()
ecdf.ksCI (x , ci.col = " blue " , lwd =2)
Se pueden programar fácilmente las cotas, pero los intervalos son amplios
para tamaños muestrales pequeños.
26/29
dkw _ cota = function ( datos , x , alfa ){
P = ecdf ( datos )
F _ boina = P ( x )
epsilon = sqrt ( log (2 / alfa ) / (2 * length ( datos )))
inf _ cota = pmax ( F _ boina - epsilon , 0)
sup _ cota = pmin ( F _ boina + epsilon , 1)
return ( c ( inf _ cota , sup _ cota ))
}
datos = rt (20 ,3) # Simulas de una t de Student
dkw _ cota ( datos , -0 .5 , 0 .05 )
0 .04631927 0 .65368073
ecdf.ksCI ( datos , ci.col = " pink " , lwd =2)
28/29
29/29

Tema 2 Boo Pres

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tema 2 Boo Pres

Загружено:

Авторское право:

Доступные форматы

Métodos de Remuestreo

Tema 2. Conceptos relacionados con la

I El mejor modo de visualizar una muestra aleatoria es en términos de

I Se toma el ejemplo de las universidades con máster en leyes que está

I Se trata de una población compuesta por 82 universidades so un

I La muestra contiene 15 observaciones.

I Interesa calcular la correlación entre GPA (la puntuación media en

I Con la verdadera puntuación poblacional:

I La distribución empı́rica denominada Fb es un estimador simple de la

I El principio de plug-in consiste en estimar algún aspecto de F como

I El bootstrap es una aplicación directa de este principio.

I Supongamos que se observa una muestra aleatoria de tamaño n con

I La función de distribución empı́rica Fb se define como la distribución

I De este modo Fb asigna a un conjunto A del espacio muestral de x la

I Esa es la proporción de la muestra observada x que ocurre en A.

# Simulo datos de cali ficacione s

y = rnorm ( n =20 , mean = mu , sd = sigma )

cat ( " La muestra ordenada es " , sort ( y ) ,

La muestra ordenada es 5 .72 5 .738 5 .948 6 .163 6 .171 6 .357 6 .498

Se puede dibujar la correspondiente función de distribución empı́rica

plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE ,

Se puede dibujar la correspondiente función de distribución empı́rica

plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE ,

curve ( expr = pnorm (x , mean = mu , sd = sigma ) , col = " red " ,

I Se define la función de distribución empı́rica como

donde I {A} es la función indicatriz del suceso A.

I En general, Fbn (x ) se puede considerar como una función de

I Si se ordenan los valores de la muestra de menor a mayor

I Fbn (x ) salta al valor 1/n en x = x(1) y se mantiene igual a 1/n para

I Fbn (x ) salta al valor 2/n en x = x(2) y se mantiene igual a 2/n para

I Si se fija el valor de x entonces la variable aleatoria I {xi ≤ x } es una

I Entonces nFbn (x ) es una v.a binomial de media nF (x ) y varianza

de modo que Fb (x ) es un estimador insesgado de F (x ).

I Lema de Glivenko-Cantelli Sea Fbn (x ) una función de distribución

I Nota: Antes de que los valores X1 , . . . , Xn hayan sido observados Dn

I Cuando el tamaño muestral n es grande la función de distribución

I Ası́, cuando se desconoce la función de distribución F (x ) se puede

acumula.dist = function ( muestra , z ){

I Para simular de la función de distribución empı́rica una vez

I Supongamos que se tiene un conjunto de observaciones X1 , . . . , Xn

I Dado un un estadı́stico de interés Tn = Tn (X1 , . . . , Xn ), se trata de

I Por ejemplo, Rn podrı́a ser la cantidad pivotal que se usa para

I Entonces, se obtienen muestras bootstrap X1∗ , . . . , Xn∗ de la

I El estimador bootstrap de Hn se calcula como

donde P∗ es la distribución basada en las muestras bootstrap.

I Se observa que H b n (x ) depende de la distribución empı́rica Fn .

I Supongamos que se trata de estimar la varianza de un estimador

I La varianza teórica viene dada por

I La solución natural es usar como estimador plug-in la distribución

I es decir, al ser Fb una distribución discreta

donde (x1j , . . . , xnj ) varı́a entre todas las posibles combinaciones de

I A no ser que n sea pequeño, los cálculos anteriores pueden llevar

I Sin embargo, se pueden aproximar las expresiones mediante

I Se aproxima la integral tomando muestras aleatorias de tamaño n de

I Por la Ley de los Grandes Números esta aproximación converge al

I ¿A qué se parece una muestra aleatoria tomada de Fb ?

I Como Fb asigna igual masa de probabilidad a cada valor observado

I De hecho, a la técnica de tomar nuevas muestras a partir de la

I Teorema de Dvoretzky-Kiefer-Wolfowitz (DKW):

Sea X1 , . . . , Xn una muestra aleatoria de una v.a. con función de

I Se pueden construir ası́ los intervalos de confianza para Fb .

I de este modo, para toda función de distribución F y para todo x se

# Simulas datos de una v.a. chi cuadrado con 3 g.l.