Вы находитесь на странице: 1из 18

Jackknife, Bootstrap e outros

mtodos de reamostragem

Camilo Daleles Renn


camilo@dpi.inpe.br
Referata Biodiversa (http://www.dpi.inpe.br/referata/index.html)
So Jos dos Campos, 8 de dezembro de 2011
Inferncia Estatstica

inferir certas caractersticas


da populao
n indivduos (ou objetos) da populao
ex: sortear n pixels de uma imagem
(com ou sem reposio)
amostra
n realizaes da v.a.
ex: medir a reflectncia de um objeto
n vezes
S

distribuio desconhecida a amostra constitui um conjunto de n v.a.
e/ou X1, X2, ..., Xn com mesma distribuio (desconhecida)
parmetros desconhecidos

Amostra Aleatria
Estimao de Parmetros

Populao Amostra

Distribuio de Probabilidade (ou FDP) Distribuio Amostral (Frequncias)


estimar
Parmetros Estatsticas
(valor fixo) (varivel aleatria)

pontual (estatsticas)
Estimao
por intervalo (intervalos de confiana)

Como as estatsticas so usadas para estimar o parmetro, elas tambm so


chamadas estimadores
Estimao Pontual
Caracterstica ideal de um estimador
no tendencioso exatido/acurcia
varincia mnima preciso/incerteza

Exato Inexato
Impreciso Preciso
Tiro ao alvo
Avaliao da Incerteza de um Estimador
Exemplo: Seja X uma v.a. com distribuio desconhecida, com a mdia () e a
varincia (2) tambm desconhecidas. Retira-se uma amostra de tamanho n
com a finalidade de se estimar .
n

x i N
2
= X = i =1
= x j FR ( X = x j ) Var ( ) = Var ( X ) =
n j =1 n

dados agrupados

Como X uma v.a., qual sua distribuio?

2 X
X ~ N , ~ ?N (0,1) (Normal Padro)
n
n

se X tiver distribuio normal X (t de student)


ou
~ ?tn 1
s
n for grande (TLC)
n desvio padro amostral
Desvantagens da Estatstica Clssica
nem todos os estimadores tm sua distribuio amostral facilmente
definida, mesmo quando se conhece a distribuio original da varivel
aleatria estudada

exemplo: mediana, coeficientes de regresses no lineares, etc

quando a amostra pequena, certas suposies podem no ser vlidas,


dificultando a obteno da distribuio amostral de um estimador
qualquer.

exemplo: mdia amostral pode no ter distribuio normal (amostra


pequena = TLC invlido)
Suposies de algumas Estatsticas Clssicas
ANOVA (comparao entre r mdias)
r populaes normalmente distribudas com varincias iguais

regresso
Yi = 0 + 1 X i + i i ~ N (0, 2 )

Yi = 0 X i1 i log i ~ N (0, 2 )

proporo
p(1 p) p (1 p )
=
Var (p) amostras grandes
n n
ndice de concordncia Kappa

1 1 (1 1 ) 2 (1 1 )( 21 2 3 ) (1 1 ) ( 4 4 2 )
2 2
= + +
= 1 2 Var ()
1 2 n (1 2 )2 (1 2 )
3
(1 2 )
4



~ N (0,1) ( 1 2 ) ( 1 2 ) ~ N (0,1) amostras grandes
Var ( ) Var ( 1 ) + Var ( 2 ) e independentes
Reamostragem
Testes paramtricos clssicos comparam estatsticas calculadas a
partir de uma amostra distribuies amostrais tericas.

A reamostragem o nome que se d a um conjunto de tcnicas ou


mtodos que se baseiam em calcular estimativas a partir de repetidas
amostragens dentro da mesma amostra (nica).

Tipos de reamostragem:

Testes de Aleatorizao (Testes de Permutao)


Validao Cruzada
Jackknife
Bootstrap
Testes de Aleatorizao
Testes de aleatorizao (ou testes de permutao ou testes exatos)
so tpicos testes de significncia onde a distribuio da estatstica
testada obtida calculando-se todos os possveis valores desta
estatstica rearranjando-se os valores da amostra considerando uma
hiptese nula verdadeira.
Pode-se usar a simulao Monte Carlo quando nmero exato de
permutaes muito grande.

rea corretamente Dif mdia = 14,25


Regio classificada Dif
1 imagem 2 imagens Qual valor esperado caso no houvesse
1 70 117 47 diferena entre o nmero de imagens
2 51 48 -3
utilizadas?
3 60 63 3
Quo raro seria encontrar o valor 14,25
4 57 90 33
nesse caso?
5 43 41 -2
6 15 21 6 (ver exemplos.xls)
7 25 36 11
8 103 122 19
Validao Cruzada
Tipicamente, na validao cruzada, a amostra dividida aleatoriamente
em dois subconjuntos: um de treinamento e outro de teste (validao).

Num estudo de regresso, por exemplo, um conjunto pode ser usado para
calcular os coeficientes da equao e o outro para comparar com os
valores estimados por esta regresso.

Esta anlise pode ficar comprometida quando a amostra muito pequena.


50,0
X Y X Y
45,0 y = 2,1261x + 10,898
1,2 16,4 11,1 34,0 40,0 R = 0,9073

1,9 13,3 13,7 44,2 35,0


30,0
2,8 18,4 14,7 41,0
25,0
Y

4,3 21,4 2,5 12,8 20,0


5,5 27,7 3,6 22,1 15,0
10,0
6,0 19,6 5,6 23,3
5,0
7,2 23,0 7,8 24,7 0,0
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0
7,8 27,2 10,1 31,9
X
9,1 25,8 12,0 38,0
10,3 32,1 12,4 39,2 (ver exemplos.xls)
Jackknife

Tambm chamado leave-one-out

Usado para estimar a varincia e a tendncia de um estimador qualquer.

Baseia-se na remoo de 1 amostra (podendo ser mais) do conjunto


total observado, recalculando-se o estimador a partir dos valores
restantes.

de fcil implementao e possui nmero fixo de iteraes (n caso se


retire apenas 1 amostra por vez).
Jackknife

Populao,

amostragem Estimado
por

X1, X2, ..., Xn inferncia


reamostragem
n vezes

X2, X3, ..., Xn X1, X3, ..., Xn X1, X2, ..., Xn-1

estatsticas ( ) ( ) ( )
Varincia de Jackknife

Suponha que um determinado parmetro pode ser estimado a partir


de uma amostra de n valores, ou seja,

= f ( x1 , x2 ,..., xn )

Ento a i-sima replicao Jackknife corresponde ao valor estimado


sem a amostra i:

(i ) = f ( x1 , x2 ,...xi 1 , xi +1 ,..., xn )

Define-se o i-simo pseudovalor como:

x(*i ) = N ( N 1)(i )
Varincia de Jackknife

Com base nos pseudovalores, pode-se calcular ento:

1 n * 1 n
jk = x(i ) = N ( N 1)(.)
onde (.) = (i )

n i =1 n i =1

() n 1 n
( )
2
Varjk


n i =1
(i ) (.)

X
1 2,2
2 3,5 Qual a mdia geomtrica?
3 3,4
4 6,7 Qual a incerteza associada a esta estimativa?
5 6,2
6 8,2
7 9,2
(ver exemplos.xls)
8 7,9
9 9,0
10 10,1
Bootstrap

Pode ser considerado uma estratgia mais abrangente que o Jackknife


por permitir uma maior nmero de replicaes. Tambm usado para
estimar a varincia e a tendncia de um estimador qualquer.

Baseia-se na gerao de uma nova amostra de mesmo tamanho da


amostra original, a partir do sorteio aleatrio com reposio de seus
elementos.
Bootstrap

Populao,

amostragem Estimado
por

X1, X2, ..., Xn inferncia


reamostragem
B vezes

Y2, Y3, ..., Yn Y1, Y3, ..., Yn Y1, Y2, ..., Yn-1

estatsticas ( ) ( ) ( )
Varincia de Bootstrap

Suponha que um determinado parmetro pode ser estimado a partir


de uma amostra de n valores, ou seja,

= f ( x1 , x2 ,..., xn )

Ento a cada iterao j o valor estimado a partir da amostra ser:

( j ) = f ( y1 , y2 ,... yn ) onde yi um dos valores da amostra (com reposio)


Varincia de Bootstrap

Com base nas estimativas, pode-se calcular ento:

1 n
b = ( j )

n j =1

() 1 m
( )
2
Varb
m 1 j =1
( j ) (.)

X
1 2,2
2 3,5 Qual a mdia geomtrica?
3 3,4
4 6,7 Qual a incerteza associada a esta estimativa?
5 6,2
6 8,2
7 9,2
(ver exemplos.xls)
8 7,9
9 9,0
10 10,1

Вам также может понравиться