Академический Документы
Профессиональный Документы
Культура Документы
A Metodologia Bootstrap
O metodologia bootstrap foi introduzida em 1979 por Efron, como uma técnica não
paramétrica que procura substituir complicadas ou duvidosas análises estatı́sticas teóricas por
métodos de computação intensiva. Genericamente, é utilizada para estimar caracterı́sticas de
interesse como: viés, variância, quantis ou a distribuição de amostragem do estimador. Pode
ainda ser usada na obtenção de estimadores alternativos ou ainda na procura de solução para
problemas associados à existência de parâmetros perturbadores, i.e, parâmetros que surgem no
processo estatı́stico de definição dos estimadores. Esta metodologia pode ser considerada quer
numa abordagem não paramétrica, quer numa abordagem paramétrica.
Nesta breve introdução trataremos apenas o caso não paramétrico, que é o mais
vulgarmente usado.
A ideia básica do bootstrap não paramétrico é a seguinte: dada uma amostra
aleatória de tamanho 𝑛, 𝑿𝒏 = (𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ 𝑋𝑛 ), de uma população com função de distribuição
desconhecida 𝐹 , seja 𝑇𝑛 o estimador de 𝜃(𝐹 ), parâmetro desconhecido, função de 𝐹 . A ideia
é considerar este estimador aproximado pelo mesmo funcional da amostra bootstrap 𝑿𝒏∗ =
(𝑋1∗ , 𝑋2∗ , ⋅ ⋅ ⋅ 𝑋𝑛∗ ), em que 𝑋1∗ , 𝑋2∗ , ⋅ ⋅ ⋅ 𝑋𝑛∗ são as estatı́sticas reamostradas de 𝑿𝒏 de acordo com
a função de distribuição empı́rica,
# {𝑖 : 𝑋𝑖 ≤ 𝑥, 1 ≤ 𝑖 ≤ 𝑛}
𝐹ˆ𝑛 (𝑥) = .
𝑛
Isto significa que 𝑿𝒏 é tratada como uma população com função de distribuição 𝐹ˆ𝑛 da
qual se extrai uma amostra de dimensão 𝑛, 𝒙∗𝒏 = (𝑥∗1 , 𝑥∗2 , ⋅ ⋅ ⋅ , 𝑥∗𝑛 ). Refira-se que esta extracção
é feita com reposição. Na outra metodologia que iremos tratar, o jackknife, faz-se extracções
de amostras de dimensão 𝑛 − 1, sem reposição.
Para a amostra aleatória 𝑿𝒏∗ , então tem-se a seguinte distribuição de probabilidade
1
𝑃 (𝑋𝑖∗ = 𝑋𝑗 ∣𝒙𝒏 ) = , 𝑖, 𝑗 = 1, ⋅ ⋅ ⋅ 𝑛.
𝑛
( )
Designa-se por 𝑇𝑛∗ = 𝑇𝑛 𝑿𝒏∗ a versão bootstrap do estimador 𝑇𝑛 . O comportamento da versão
bootstrap deverá simular o comportamento de 𝑇𝑛 , portanto a distribuição de 𝑇𝑛∗ , obtida a partir
dos dados, é usada para aproximar a distribuição de amostragem, desconhecida, de 𝑇𝑛 .
Trata-se de uma ideia conceptualmente muito simples mas as aplicações práticas desta
metodologia têm-se revelado de grande importância quando se usa estatı́sticas para as quais a
distribuição de amostragem é ou desconhecida ou intratável. Efron (1979) desde logo mostrou
que esta metodologia generaliza a metodologia jackknife.
sendo 𝜃(𝐹ˆ𝑛 ) um estimador do parâmetro 𝜃, definido através de uma estatı́stica funcional, que
pode mesmo diferir de 𝑇𝑛 .
Quanto à estimação da variância de 𝑇𝑛 ou desvio padrão de 𝑇𝑛 , representado por
𝜎(𝑇𝑛 ) = 𝜎(𝑇𝑛 , 𝐹 ), o estimador bootstrap do desvio padrão é
𝜎 ∗ := 𝜎(𝑇𝑛∗ , 𝐹ˆ𝑛 ) (2)
No contexto que estamos a considerar, para a maioria das estatı́sticas que surgem na
prática, a distribuição de 𝑇𝑛∗ é obtida aproximadamente recorrendo a simulações de Monte Carlo.
Pode então obter-se as estimativas para (1) e (2). Os passos do algoritmo são os seguintes:
Par ilustrar consideremos o seguinte exemplo, muito simples, em que poderia obter-se
estimativas bootstrap dos parâmetros usando cálculo directo (ponto 1.).
Uma das dificuldades da metodologia bootstrap pode residir no cálculo directo da dis-
tribuição de amostragem bootstrap. É por esta razão que é mais habitual, pelo menos em
aplicações práticas, recorrer-se ao ponto 2.
Efron e Tibshirani indicam que para a estimação da variância 𝐵 = 200 já dá resultados
bastante bons.
Quanto ao viés a convergência é mais difı́cil de atingir, havendo procedimentos que
permitem acelerar a velocidade de convergência para o verdadeiro viés bootstrap, 𝑉 𝑖𝑒𝑠∗ .
Relativamente à determinação de intervalos de confiança bootstrap, que necessitam do
conhecimento da distribuição de amostragem bootstrap, Efron e Tibshirani referem a utilização
Como outras referências pode consultar-se Davison e Hinkley (1998), Hjorth (1994),
Mooney e Duval (1993), LePage e Billard (1992)e Shao e Tu (1995).
˜
𝑇𝑛,𝑖 = 2𝑇𝑛 − 𝑇𝑛/2,𝑖 𝑖 = 1, 2,
Quenouille propôs o estimador
( ) 1[ ]
˜𝑛 = 1 𝑇˜
𝑇 ˜
𝑛,1 + 𝑇𝑛,2 = 2𝑇𝑛 − 𝑇𝑛/2,1 + 𝑇𝑛/2,2 (3)
2 2
que apresenta, para a maioria dos casos, viés inferior ao do estimador 𝑇𝑛 .
De facto, se 𝑇𝑛 for um estimador cujo viés se pode exprimir como potências de 1/𝑛 (o
que acontece com uma grande maioria de estimadores construı́dos com base numa amostra de
dimensão 𝑛 em que os momentos são funções de 1/𝑛), isto é, se
( )
𝑎1 𝑎2 1
𝐸[𝑇𝑛 ] = 𝜃 + + 2 +𝒪
𝑛 𝑛 𝑛3
com 𝑎1 , 𝑎2 ,... desconhecidas mas não dependentes de 𝑛, podendo depender de 𝜃, então
( )
𝑎1 𝑎2 1
𝐸[𝑇𝑛,𝑘 ] = 𝜃 + + +𝒪 𝑘 = 1, 2,
𝑛/2 (𝑛/2)2 (𝑛/2)3
vindo
( ) ( ) ( )
˜𝑛 ] = 𝜃 + 2 𝑎1 − 1
𝐸[𝑇
𝑎1
+
𝑎1
+𝒪
1
=𝜃+𝒪
1
.
𝑛 2 𝑛/2 𝑛/2 𝑛2 𝑛2
(1) ( 1
)
Consequentemente o viés foi reduzido de 𝒪 𝑛 para 𝒪 𝑛2 .
Definindo
˜
𝑇𝑛,𝑖 = 𝑔𝑇𝑛 − (𝑔 − 1)𝑇𝑛−ℎ,𝑖 𝑖 = 1, ..., 𝑔,
√ (𝑇˜𝑛 − 𝜃)
𝑔√ ( )2 (4)
1 ∑𝑔 ˜ ˜
𝑔−1 𝑖=1 𝑇𝑛,𝑖 − 𝑇𝑛
que podia considerar-se tendo aproximadamente distribuição 𝑡𝑔−1 , o que permitia a construção
de intervalos de confiança ou a realização de testes de hipóteses para o parâmetro 𝜃.
˜
𝑇𝑛,𝑖 = 𝑛𝑇𝑛 − (𝑛 − 1)𝑇𝑛−1,𝑖 𝑖 = 1, ..., 𝑛,
vindo o estimador jackknife proposto por Quenouille, que representaremos por 𝑇𝑛𝐽 , dado por
𝑛
∑
𝑇𝑛𝐽 = 𝑛𝑇𝑛 − (𝑛 − 1)𝑇 (.) , com 𝑇 (.) = 𝑛−1 𝑇𝑛−1,𝑖 . (5)
𝑖=1
𝑎1 𝑎2 1
𝐸 [𝑇𝑛−1,𝑖 ] = 𝐸[𝑇 (.) ] = 𝜃 + + 2 + 𝒪( ) (7)
𝑛 − 1 (𝑛 − 1) (𝑛 − 1)3
Vimos já 𝐽
( 1 que
) o estimador
( 1 ) 𝑇𝑛 , apresentado em (5), permitia reduzir o viés do estimador
inicial 𝑇𝑛 de 𝒪 𝑛 para 𝒪 𝑛2 . Quenouille em 1956 apresenta ainda um modo de eliminar
a ordem 1/𝑛2 do viés, efectuando o jackknife com pesos 𝑛2 sobre o estimador jackknife, i.e.,
considera o estimador jackknife de segunda ordem
∑
𝑛
𝑛2 𝑇𝑛𝐽 − (𝑛 − 1)2 𝐽
𝑇𝑛−1,𝑗 /𝑛
𝑗=1
𝑇𝑛𝐽2 = ,
𝑛2 − (𝑛 − 1)2
𝐽
onde 𝑇𝑛−1,𝑗 é o estimador 𝑇𝑛𝐽 aplicado à amostra de dimensão 𝑛 − 1, resultante da remoção do
𝑗.ésimo termo.
A expressão que relaciona o estimador 𝑇𝑛𝐽2 com o estimador original é a seguinte:
⎡ ⎧ ⎫⎤
1 ⎣ 3 2 ⎨ ∑ ⎬
𝑇𝑛𝐽2 = 𝑛 𝑇𝑛 − (2𝑛2 − 2𝑛 + 1)(𝑛 − 1)𝑇 (.) + (𝑛 − 1)2 (𝑛 − 2) 𝑇𝑛−2,𝑖𝑗 ⎦ (9)
𝑛−1 ⎩ 𝑛(𝑛 − 1) ⎭
𝑖<𝑗
onde 𝑇𝑛−2,𝑖𝑗 designa o estimador original aplicado a uma amostra de dimensão 𝑛 − 2, resultante
da remoção da 𝑖.ésima e 𝑗.ésima observações.
𝑎1 𝑎2 [ ] 1
E [𝑇𝑛 ] = 𝜃 + + 2 tem − se E 𝑇𝑛𝐽2 = 𝜃 + 𝒪( 3 ),
𝑛 𝑛 𝑛
mas não consegue remover o viés.
Schucany, Gray e Owen (1971) apresentaram uma sugestão de alteração dos pesos, de
modo a conseguir obter um estimador centrado no caso anterior. O estimador proposto por
estes autores, com pesos mais simples do que o anterior, foi
⎡ ⎧ ⎫⎤
1⎣ 2 ⎨ 2 ∑ ⎬
𝑇𝑛𝐽2∗ = 𝑛 𝑇𝑛 − 2(𝑛 − 1)2 𝑇 (.) + (𝑛 − 2)2 𝑇𝑛−2,𝑖𝑗 ⎦ (10)
2 ⎩ 𝑛(𝑛 − 1) ⎭
𝑖<𝑗
(1) (2)
Definição 1 Sejam 𝑇𝑛 e 𝑇𝑛 dois estimadores do parâmetro 𝜃. Para qualquer número real
(1) (2)
𝑞 ∕= 1 define-se estimador jackknife generalizado, 𝑇𝑛𝐽𝐺 , associado a 𝑇𝑛 e a 𝑇𝑛 , como
(1) (2)
𝑇𝑛 − 𝑞 𝑇𝑛
𝑇𝑛𝐽𝐺 = . (11)
1−𝑞
(1) (2)
Se lim𝑛→∞ 𝑞𝑛 existir e for diferente de 1 então, se 𝑇𝑛 e 𝑇𝑛 forem consistentes para
𝐽𝐺
𝜃, 𝑇𝑛 é também consistente para 𝜃.
É imediato verificar que o estimador 𝑇𝑛𝐽 definido em (5) é um caso particular de um
estimador jackknife generalizado, com
𝑛−1
𝑇𝑛(1) = 𝑇𝑛 , 𝑇𝑛(2) = 𝑇 (.) e 𝑞𝑛 = .
𝑛
𝑛 𝑛
1 ∑( )
¯ 2= 1
∑ 2 1 2
𝑇𝑛 = 𝑋𝑖 − 𝑋 𝑋𝑖2 − 𝑋 sendo E[𝑇𝑛 ] = 𝜎 2 − 𝜎 ,
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
1 ∑𝑛
1 [ ]
2 2
= 𝑋𝑗2 − 𝑛 𝑋 − 2𝑛𝑋𝑋𝑖 + 𝑋 2
𝑖 ;
𝑛−1
𝑗=1(𝑗∕=𝑖)
(𝑛 − 1)2
e
𝑛
1∑
𝑇 (.) = 𝑇𝑛−1,𝑖
𝑛
𝑖=1
𝑛
𝑛2 − 2𝑛 ∑ 2 𝑛2 − 2𝑛 2
= 𝑋𝑖 − 𝑋
𝑛 (𝑛 − 1)2 𝑖=1 (𝑛 − 1)2
𝑛2 − 2𝑛
= 𝑇𝑛 .
(𝑛 − 1)2
O estimador jackknife de Quenouille vem então
𝑛
𝑛 1 ∑( )
¯ 2.
𝑇𝑛𝐽 = 𝑛𝑇𝑛 − (𝑛 − 1)𝑇 (.) = 𝑇𝑛 = 𝑋𝑖 − 𝑋 (12)
𝑛−1 𝑛−1
𝑖=1
𝑇𝑛 − 𝑞𝑛 𝑇 (.) 𝑛
𝑇𝑛𝐽𝐺 = = 𝑇𝑛
1 − 𝑞𝑛 𝑛−1
que obviamente coincide com o estimador jackknife de Quenouille.
Mas, coloca-se a questão da escolha de 𝑞𝑛 , na construção do jackknife generalizado
Neste exemplo, como o estimador jackknife removia o viés, o jackknife generalizado não traria
mais vantagens quanto à redução do viés. O seguinte resultado, Gray e Schucany (1972), de
demonstração muito simples, dá uma primeira resposta à questão.
Teorema 1 Se
E[𝑇𝑛(𝑘) ] = 𝜃 + 𝑏𝑘 (𝑛, 𝜃), 𝑘 = 1, 2 e 𝑏2 (𝑛, 𝜃) ∕= 0
e
𝑏1 (𝑛, 𝜃)
𝑞𝑛 = ∕= 1,
𝑏2 (𝑛, 𝜃)
então
E[𝑇𝑛𝐽𝐺 ] = 𝜃.
𝜎2 𝜎2 𝑛−1
𝑒𝑠(𝑇𝑛 ) = −
𝑣𝑖´ e 𝑒𝑠(𝑇 (.) ) = −
𝑣𝑖´ , vindo 𝑞𝑛 = ,
𝑛 𝑛−1 𝑛
vindo então 𝑞𝑛 dado pela aplicação do jackknife de Quenouille, logo
𝑇𝑛𝐽𝐺 = 𝑇𝑛𝐽 .
Note-se que este estimador 𝑇𝑛 , podia ser considerado o estimador da variância popula-
cional numa situação não paramétrica.
Estimação da variância
𝑉 𝐴𝑅 = 𝑉 𝑎𝑟[𝑇𝑛 ]
Nesta abordagem, seguiremos de perto Efron(1982), onde poderão ser encontrados
outros exemplos além dos que aqui apresentamos.
∑
Exemplo 3 Seja 𝑇𝑛 = 𝑋 𝑛 = 𝑋𝑖 /𝑛, numa amostra de variv́eis aleatórias e identicamente
distribuı́das (𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ , 𝑋𝑛 ). Sabemos que, com base na amostra original, é fácil obter uma
estimativa de 𝑉 𝑎𝑟[𝑇𝑛 ], pois 𝑉 𝑎𝑟[𝑇𝑛 ] = 𝑉 𝑎𝑟[𝑋]/𝑛, logo uma estimativa de 𝑉 𝐴𝑅 é
∑ 𝑛
1
𝑉ˆ
𝐴𝑅 = (𝑥𝑖 − 𝑥)2 . (13)
𝑛(𝑛 − 1)
𝑖=1
𝑛𝑥𝑛 − 𝑥𝑖
𝑡𝑛 = 𝑥𝑛 ⇒ 𝑡𝑛−1,𝑖 = ⇒ 𝑡(.) = 𝑥𝑛 ,
𝑛−1
donde vem
𝑛 𝑛
( )2 1 2 𝑛 − 1 ∑( )2 1 ∑
𝑡(.) − 𝑡𝑛−1,𝑖 = (𝑥 𝑖 − 𝑥 𝑛 ) ⇒ 𝑡 (.) − 𝑡 𝑛−1,𝑖 = (𝑥𝑖 − 𝑥𝑛 )2
(𝑛 − 1)2 𝑛 𝑛(𝑛 − 1)
𝑖=1 𝑖=1
Observe-se que
𝑛 𝑛
𝑛 −1 ∑( )2 1 ∑(
˜
)2
𝑡𝑛−1,𝑖 − 𝑡(.) = 𝑡𝑛,𝑖 − 𝑡𝐽𝑛
𝑛 𝑛(𝑛 − 1)
𝑖=1 𝑖=1
Então (14) foi também considerada estimativa jackknife de 𝑉 𝑎𝑟[𝑇𝑛𝐽 ]. Esta foi a ideia
que motivou Tukey (1958) quando considerou como intervalo de confiança a (1 − 𝛼)100% para
𝜃 = 𝜃(𝐹 ) √
𝐽
𝑡𝐽𝑛 ± 𝑡1−𝛼/2,𝑛−1 𝑉ˆ
𝐴𝑅
com 𝑡1−𝛼/2,𝑛−1 é o quantil de probabilidade 1 − 𝛼/2 da distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡, com 𝑛 − 1 g.l.
Mas este I.C. só se tem revelado satisfatório assintoticamente, i.e, quando 𝑛 → ∞ e a
distribuição 𝑡 se aproxima da normal padrão.
No exemplo da média amostral vimos então que (14) fornece um bom valor como
estimativa da variância da média.
Consideremos outo exemplo, o da variância amostral.
e efectuando cálculos análogos aos que foram apresentados no exemplo 1., com
𝑛
( 𝑛
)
1 ∑ 1 [ 2 2 ] 𝑛(𝑛 − 2) 1∑ 2
𝑡𝑛−1,𝑖 = 𝑥2𝑗 − 𝑛 𝑥 − 2𝑛𝑥𝑥 𝑖 + 𝑥 2
𝑖 e 𝑡(.) = 𝑥𝑖 − 𝑥2 ,
𝑛−1
𝑗=1(𝑗∕=𝑖)
(𝑛 − 1)2 (𝑛 − 1)2 𝑛
𝑖=1
obtém-se
𝐽 𝑛2
𝑉ˆ
𝐴𝑅 = 2
(ˆ ˆ2 2 ),
𝜇4 − 𝜇
(𝑛 − 1)(𝑛 − 2)
∑𝑛
ˆ𝑘 =
com 𝜇 𝑖=1 (𝑥𝑖 − 𝑥)𝑘 /𝑛, momento empı́rico centrado de ordem 𝑘.
{
𝑥𝑚:𝑛 − 𝑥𝑚+1:𝑛 𝑥𝑚+1:𝑛 se a observação retirada 𝑥𝑖 < 𝑡 𝑛
Se 𝑡𝑛 = ⇒ 𝑡𝑛−1,𝑖 =
2 𝑥𝑚:𝑛 se a observação retirada 𝑥𝑖 > 𝑡 𝑛
𝑥𝑚:𝑛 +𝑥𝑚+1:𝑛
então 𝑡(.) = 2 , donde vem a estimativa
𝐽 𝑛−1
𝑉ˆ
𝐴𝑅 = (𝑥𝑚+1:𝑛 − 𝑥𝑚:𝑛 )2
4
Mas, resultados assintóticos, referentes a distribuições de espaçamentos, Pyke (1965),
𝐽
mostram que se tem para o estimador 𝑉ˆ 𝐴𝑅 ,
𝐽 𝑑 𝑉
𝑛𝑉ˆ
𝐴𝑅 −→ ,
4𝑓 2 (𝜒 1/2 )
onde 𝑉 = (𝑌 /2)2 , com 𝑌 ∩𝜒2(2) , é portanto uma variável aleatória com valor médio 2 e variância
20 e 𝑓 (.) é a função densidade associada a 𝐹 . Mas, para a verdadeira variância da mediana,
tem-se, Cramer (1946),
1
𝑙𝑖𝑚𝑛→∞ 𝑛𝑉 𝑎𝑟[𝑇𝑛 ] = .
4𝑓 2 (𝜒 1/2 )
𝐽
Vemos que o estimador 𝑉ˆ
𝐴𝑅 nem sequer é consistente.
Vimos então uma situação em que a expressão (14) falha redondamente como uma
estimativa jackknife da variância.
Miller (1964) apresenta as condições em que há suporte teórico para aquela conjectura.
Se 𝑋1 , 𝑋2 ⋅ ⋅ ⋅ 𝑋𝑛 é uma amostra aleatória com função de distribuição 𝐹 , 𝐸[𝑋1 ] = 𝜇 e 𝑉 𝑎𝑟[𝑋1 ] =
𝜎 2 < ∞, considerando estimadores de 𝜃 tais que 𝜃 = 𝜑(𝜇), i.e. 𝑇𝑛 = 𝜑(𝑋 𝑛 ), sendo 𝜑 uma função
real de variável real, com segunda derivada finita numa vizinhança de 𝜇, Miller mostra que
(𝑇𝑛𝐽 − 𝜃) 𝑑
√ ( ) −→ 𝑍 ∩ 𝑁 (0, 1). (16)
1 ∑𝑛 ˜
2
𝑛(𝑛−1) 𝑖=1 𝑇𝑛,𝑖 − 𝑇 (.)
Bibliografia
Davison, A.C. and Hinkley, D.V. (1997). Bootstrap methods and their application,
Cambridge University Press
Efron, B. e Tibshirani, R.J. (1993). An Introdution to the Bootstrap, Chapman & Hall.
Hjorth, J.S.U. (1994). Computer Intensive Statistical Methods. Validation, Model Se-
lection and Bootstrap, Chapman & Hall.
Manly, B.F.J. (1997). Randomization, Bootstrap, and Monte Carlo Methods in Biology,
Chapman & Hall.
Shao, J. e D. Tu, D. (1996). The Jackknife and Bootstrap, Springer-Verlag, New York.