Академический Документы
Профессиональный Документы
Культура Документы
destadsticoa
Grup destadsticoa
Computacional
Introduccin a la
metodologa bootstrap
Jordi Ocaa
Departament destadsticoa
Secci Departamental de Biologia
Universitat de Barcelona
Puntos a tratar
Elementos de un problema de inferencia
estadsticoa
Determinacin de la distribucin muestral
(o de alguna de sus caractersticas)
Principio plug-in y bootstrap
Principio de Montecarlo y bootstrap
Necesaria correspondencia entre mundo
real y mundo bootstrap
Ejemplos
Departament
Elementos de un
problema de inferencia
estadstica
muestra
los datos
observa
da
F F
Modelo
probabilstico,
Estudio
mecanismo
experimental u
generador de
observacional
los datos
khi2(5)
0.05
0.0
Procesamient
o
Departament
0.10
0.15
t ( x) estadstic
os
de
R ( t, F , x) Medidas
precisin
8
y
10
12
14
Elementos de un
problema de I.E. Ejemplo
n
( x - m)
introductorio
-1 2
x = ( x1,K , xn )
f ( x; ms
, ) = ( s 2p ) e 2s
Medimos la presin
i
13.1,
12.2,
muestra
15.5,
...
aleatoria
simple
de
tamao
n
(x1n
x=
xi , t ( x) =
sanguinea sistlica
Normal de media
de una muestra
y varianza
aleatoria de
desconocidas
individuos de una
poblacin
m) n
s
0.2
0.1
0.0
t(20)
0.3
0.4
i =1
i =1
-4
-2
0
y
Departament
Distribucin exacta de la
media muestral
Llamemos G a la distribucin del
X , G = G(F(;,),...)
estadstico
Bajo fuerte suposicin sobre la forma
de F (normalidad), forma de G
conocida de manera exacta: N(,n),
para todo n
Dependiente de parmetros
2
vlida solamente
s
desconocidos:
.
En
la
prctica,
N
m
,
para estimar
aproximacin
n
Departament
var ( X )
Distribucin muestral
exacta del estadstico t
Llamemos H a la distribucin del
estadstico t(X), H = H(F(;,),...)
Bajo fuerte suposicin sobre la forma de
F (normalidad), conocida de forma
exacta: t de Student con n 1 g.d.ll
Gracias al carcter pivotal de t(x), no
depende de parmetros desconocidos
Pero que pasa bajo otras formas de F?
Departament
0.5
0.3
0.4
0.2
0.3
0.2
d
n
o
rm
x,
) sd = 0.75)
dnorm(x, me
a
n
=
0(
.5
0.10.1
Ajuste de los
parmetros de la
distribucin
h
muestral,
G( , ,...)
0
.0
0
.0
Determinacin previa
de la forma de la
distribucin muestral,
G(,...)=G(F(;),...)
0.4
-4
-4
-2
-2
00
xx
Departament
2 2
Principio plug-in y
bootstrap (en sentido
amplio)
Fijmonos
en el paso G = G(F(;,),...)
Si F es una buena estimacin de
F a partir de los datos, parece
G (mediante
F,K )
razonable aproximar G
Principio plug-in
Metodologia bootstrap
inferencia basada en el
Principio plug-in
Departament
Ejemplo: aplicacin
automtica del Principio
F
A menudo
es la distribucin
plug-in
*2 2
E Fn ( X - - EEFnFn( (XX) ) ) )
*
nn
1
*
(
)
EEFnFn( XX ) = xi = x ( = E Fn ( X ) ) )
n
i =1
*
1
2
(
)
EEFnFn( XX - x ) = ( xi - x )
=s
n
i =1
*
2
2
Conveniencia de notacin X* en
lugar de X: no es la misma v.a
Departament
Dificultades en la
aplicacin del Principio
No tanplug-in
(o a veces nada) clara su
aplicacin en situaciones ms
complejas:
G ( ;F
Departament
El mtodo de Montecarlo
Modelo probabilstico,
completamente
2
p.e.
n
rplicas
N
ms
,
) iid
especificado (
(gran)
x1 = ( x11,K , x1n ) a U ( x1 ) = u1
muestra
x2 = ( x21,K , x2n ) a U ( x2 ) = u2
de m
valores
M
del
Leyes de
xm = ( xm1,K , xmn ) a U ( xm ) = um estadstic
olos
grandes
m
Generacin de m
1
2 nmeros
(
u
u
)
@ varF ( U )
muestras
j
m - 1 j =1
independientes (o
@G ( ;F ) , etc.
Departament G
no) segn F
Bootstrap y Montecarlo
* *
*
p.e. P X = x = n
0
x*
*
= ( x11
,K , x*1n ) a U ( x*1 ) = u1*
x*
x*
= u*B
en caso contrario
muestra
de B
valores
del
estadstic
Leyes
de
o
los
Generacin de B
grandes
B
1
remuestras de
*
* 2 nmeros
*
(
u
u
)
@
var
U
(
)
b
F
tamao n (muestras B - 1b=1
aleatorias con reemplazoDepartamentG
* @G ( ;F ) , etc.
de los elementos de x)
Qu estimamos a partir
del Montecarlo bootstrap?
Montecarlo
bootstrap
Plug-in
"Verdadero"
valor del
funcional
G* = G ( u1*,K , uB* )
G ( ; F )
G ( ;F )
E (U * )
EF (U )
var ( U * )
varF ( U )
1
u* = ub*
B b=1
* (U * )
var
2
1
*
=
u
u
( b *)
B - 1b
=1
# { ub* U ( x) }
(
)
P*
U U x =
B
*
Error de
aproximacin de
*
(
)
@ P
U
U ( x)
@ PF [U U x ]
F
Problema clsico
Departament
de precisin
Validez de la aproximacin
bootstrap
Resultado general (pero no muy til):
Caractersticas generales
de los ejemplos
Modelo probabilstico subyacente
conocido
Departament
Caractersticas generales
de los ejemplos
estadsticos: media muestral y t
aproximaciones: normal, bootstrap no
paramtrico y bootstrap paramtrico
aproximaciones bootstrap: estima
kernel a partir de B = 1000 valores del
estadstico (media o t, segn el caso)
Cada uno de estos valores calculado
sobre una remuestra de tamao n = 10
Departament
0.3
0.2
0.1
0.0
dend
s
d
e
.b
e
n
d
n
o
s
e
s
o
.b
.n
n
ts
s
o
o
tra
.v
o
rm
ts
e
p
rita
tra
A
.p
p
a
p
ro
tra
$
x
y
m$y
0.4
0.5
12
13
13
14
14
15
15
16
16
dens.bootstrap$x
rang.xBarra
dens.bootstrap.param$x
Departament
17
17
18
*
no paramtrico: cada xib
elegido con probabilidad
1/ n entre los de la muestra original
*
paramtrico: xib
generados como Exp( 1/ 15.71)
Departament
0.06
0.04
0.02
0.0
dend
s
d
e
.b
e
n
d
n
o
s
e
s
o
.b
.n
n
ts
s
o
o
tra
.v
o
rm
ts
e
p
rita
A
tra
.p
p
a
p
ro
tra
$
x
y
m$y
0.08
0.10
10
15
20
dens.bootstrap.param$x
dens.bootstrap$x
rang.xBarra
Departament
25
25
= E ( X *, Fn )
x =m
m= E ( X , F )
Fn
x* = ( x1*,K , xn* )
x = ( x1,K , xn )
x * = X ( x* )
x = X ( x)
s = S ( x) =
t=
n
1
(xi - x )2
n - 1i = 1
s = S ( x
*
t* =
n ( x - m)
s
Departament
n
1
(xi* - x * )2
n - 1i = 1
n ( x* - x )
s*
Estadstico t, normal:
0.2
0.1
0.0
dend
s
d
e
.b
e
n
d
n
o
s
e
s
o
.b
.n
n
ts
s
o
o
tra
.v
o
rm
ts
e
p
rita
A
tra
.p
p
a
p
ro
tra
$
x
y
m$y
0.3
0.4
-4
-2
0
dens.bootstrap.param$x
dens.bootstrap$x
rang.t
Departament
Estadstico t, exponencial:
n = 10, = 1/ = 1/15
Verdadera distribucin:
estimada por simulacin
Aproximacin normal: t N ( 0,1)
Bootstrap: 1000 valores t* = t ( x* )
para remuestras x* = ( x1*,K , x*n )
Estadstico t, exponencial:
0.2
0.1
0.0
dend
s
d
e
.b
d
e
n
n
e
o
s
s
n
o
.b
.n
s
ts
.v
o
o
tra
o
e
rm
ts
rita
p
A
tra
.p
p
t$
a
p
ro
ra
y
$
x
y
m$y
0.3
0.4
-4
-2
0
dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t
Departament
0.2
0.1
0.0
dend
s
d
e
.b
e
d
n
n
e
o
s
n
s
o
.b
.n
s
ts
.v
o
o
tra
o
e
rm
ts
rita
p
A
tra
.p
p
t$
a
p
ro
ra
y
$
x
y
m$y
0.3
0.4
Caso exponencial, t, n =
40
-4
-2
0
dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t
Departament