Boot Jack Reduzido PDF

Breve Introdução às Metodologias Bootstrap e Jackknife
A Metodologia Bootstrap
O metodologia bootstrap foi introduzida em 1979 por Efron, como uma técnica não
paramétrica que procura substituir complicadas ou duvidosas análises estatı́sticas teóricas por
métodos de computação intensiva. Genericamente, é utilizada para estimar caracterı́sticas de
interesse como: viés, variância, quantis ou a distribuição de amostragem do estimador. Pode
ainda ser usada na obtenção de estimadores alternativos ou ainda na procura de solução para
problemas associados à existência de parâmetros perturbadores, i.e, parâmetros que surgem no
processo estatı́stico de definição dos estimadores. Esta metodologia pode ser considerada quer
numa abordagem não paramétrica, quer numa abordagem paramétrica.
Nesta breve introdução trataremos apenas o caso não paramétrico, que é o mais
vulgarmente usado.
A ideia básica do bootstrap não paramétrico é a seguinte: dada uma amostra
aleatória de tamanho 𝑛, 𝑿𝒏 = (𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ 𝑋𝑛 ), de uma população com função de distribuição
desconhecida 𝐹 , seja 𝑇𝑛 o estimador de 𝜃(𝐹 ), parâmetro desconhecido, função de 𝐹 . A ideia
é considerar este estimador aproximado pelo mesmo funcional da amostra bootstrap 𝑿𝒏∗ =
(𝑋1∗ , 𝑋2∗ , ⋅ ⋅ ⋅ 𝑋𝑛∗ ), em que 𝑋1∗ , 𝑋2∗ , ⋅ ⋅ ⋅ 𝑋𝑛∗ são as estatı́sticas reamostradas de 𝑿𝒏 de acordo com
a função de distribuição empı́rica,
# {𝑖 : 𝑋𝑖 ≤ 𝑥, 1 ≤ 𝑖 ≤ 𝑛}
𝐹ˆ𝑛 (𝑥) = .
𝑛
Isto significa que 𝑿𝒏 é tratada como uma população com função de distribuição 𝐹ˆ𝑛 da
qual se extrai uma amostra de dimensão 𝑛, 𝒙∗𝒏 = (𝑥∗1 , 𝑥∗2 , ⋅ ⋅ ⋅ , 𝑥∗𝑛 ). Refira-se que esta extracção
é feita com reposição. Na outra metodologia que iremos tratar, o jackknife, faz-se extracções
de amostras de dimensão 𝑛 − 1, sem reposição.
Para a amostra aleatória 𝑿𝒏∗ , então tem-se a seguinte distribuição de probabilidade
1
𝑃 (𝑋𝑖∗ = 𝑋𝑗 ∣𝒙𝒏 ) = , 𝑖, 𝑗 = 1, ⋅ ⋅ ⋅ 𝑛.
𝑛
( )
Designa-se por 𝑇𝑛∗ = 𝑇𝑛 𝑿𝒏∗ a versão bootstrap do estimador 𝑇𝑛 . O comportamento da versão
bootstrap deverá simular o comportamento de 𝑇𝑛 , portanto a distribuição de 𝑇𝑛∗ , obtida a partir
dos dados, é usada para aproximar a distribuição de amostragem, desconhecida, de 𝑇𝑛 .
Trata-se de uma ideia conceptualmente muito simples mas as aplicações práticas desta
metodologia têm-se revelado de grande importância quando se usa estatı́sticas para as quais a
distribuição de amostragem é ou desconhecida ou intratável. Efron (1979) desde logo mostrou
que esta metodologia generaliza a metodologia jackknife.
TA/ISA - Manuela Neves (2009/2010) 1

Estimação do viés, variância e distribuição de amostragem
O estimador bootstrap do viés de 𝑇𝑛 , 𝑉 𝑖𝑒𝑠∗ , é definido, Efron e Tibshirani (1993), como
𝑉 𝑖𝑒𝑠∗ := E[𝑇𝑛∗ ∣𝑿𝒏 ] − 𝜃(𝐹ˆ𝑛 ), (1)
sendo 𝜃(𝐹ˆ𝑛 ) um estimador do parâmetro 𝜃, definido através de uma estatı́stica funcional, que
pode mesmo diferir de 𝑇𝑛 .
Quanto à estimação da variância de 𝑇𝑛 ou desvio padrão de 𝑇𝑛 , representado por
𝜎(𝑇𝑛 ) = 𝜎(𝑇𝑛 , 𝐹 ), o estimador bootstrap do desvio padrão é
𝜎 ∗ := 𝜎(𝑇𝑛∗ , 𝐹ˆ𝑛 ) (2)
No contexto que estamos a considerar, para a maioria das estatı́sticas que surgem na
prática, a distribuição de 𝑇𝑛∗ é obtida aproximadamente recorrendo a simulações de Monte Carlo.
Pode então obter-se as estimativas para (1) e (2). Os passos do algoritmo são os seguintes:
∙ dada uma amostra observada 𝒙𝒏 = (𝑥1 , 𝑥2 , ⋅ ⋅ ⋅ 𝑥𝑛 ), constrói-se 𝐹ˆ𝑛 atribuindo a cada 𝑥𝑖

peso 1/𝑛;
𝑖.𝑖.𝑑.
∙ gera-se uma amostra bootstrap 𝒙∗𝒏 = (𝑥∗1 , 𝑥∗2 , ⋅ ⋅ ⋅ 𝑥∗𝑛 ), de variáveis 𝑋𝑖∗ ∼ 𝐹ˆ𝑛 e calcula-se
𝑡∗𝑛 = 𝑡𝑛 (𝑥∗1 , 𝑥∗2 , ⋅ ⋅ ⋅ , 𝑥∗𝑛 );
∙ repete-se, independentemente, 𝐵 vezes o passo anterior, obtendo assim 𝐵 réplicas
(𝑡∗,1 ∗,2 ∗,𝐵

𝑛 , 𝑡𝑛 , ⋅ ⋅ ⋅ 𝑡𝑛 )
∙ calcula-se as estimativas do viés, erro padrão e distribuição de amostragem bootstrap

𝐵
∑
𝑉ˆ
𝑖𝑒𝑠∗𝐵 = 𝑡∗,𝑖 ˆ
𝑛 /𝐵 − 𝜃(𝐹𝑛 )
𝑖=1
v
u
1 ∑ ( ∗,𝑖 )2
u 𝐵
𝜎𝐵 = ⎷
ˆ∗ 𝑡𝑛 − 𝒕 ∗ 𝑛
𝐵−1
𝑖=1
{ }
# 𝑖 : 𝑡∗,𝑖
𝑛 ≤ 𝑡, 1 ≤ 𝑖 ≤ 𝐵
𝐹ˆ∗
𝐵 (𝑡) = , −∞ < 𝑡 < +∞
𝐵
Observe-se que este procedimento permite genericamente determinar a distribuição

de amostragem de qualquer v.a. 𝑅(𝑿𝒏 , 𝐹 ), que pode ser aproximada pela distribuição de
𝑅∗ = 𝑅(𝑿𝒏∗ , 𝐹ˆ).
A distribuição de 𝑅∗ = 𝑅(𝑿𝒏∗ , 𝐹ˆ), só coincide com a distribuição de 𝑅(𝑿𝒏 , 𝐹 ) quando
𝐹 = 𝐹ˆ e a forma como se aproxima depende da forma de 𝑅(𝑿𝒏 , 𝐹 ).
A determinação da distribuição bootstrap, pode ser efectuada usando essencialmente
três procedimentos (acima apontámos o procedimento 2. da enumeração que se segue, que é o
usado na maioria das aplicações práticas):

1. Cálculo directo teórico.
2. Aproximação de Monte Carlo da distribuição bootstrap: para isso geram-se realizações

repetidas de 𝑿𝒏∗ , tomando amostras de dimensão 𝑛 de 𝐹ˆ𝑛 e obtém-se a amostra {𝑟𝑖∗ =
𝑅(𝑥∗,𝑖 , 𝐹ˆ), 𝑖 = 1, 2, ..., 𝐵}
O valor de 𝐵 deve ser razoavelmente elevado, para que a função de distribuição empı́rica
associada à amostra {𝑟𝑖∗ 𝑖 = 1, ..𝐵} seja uma boa aproximação da função de distribuição
de 𝑅∗ , i.e da verdadeira função distribuição bootstrap.
3. Utilização de desenvolvimentos em série de Taylor ( método-𝛿), para obter aproximações

do valor médio e variância da distribuição bootstrap de 𝑅∗ .
Par ilustrar consideremos o seguinte exemplo, muito simples, em que poderia obter-se
estimativas bootstrap dos parâmetros usando cálculo directo (ponto 1.).
Exemplo 1 Consideremos o estimador 𝑇𝑛 = 𝑿 𝒏 , média de uma amostra aleatória e supon-

hamos que pretendemos determinar a estimativa bootstrap da variância de 𝑇𝑛 , 𝑉 𝑎𝑟[𝑇𝑛 ] =
𝜎 2 (𝑇𝑛 , 𝐹 ) = 𝜎 2 (𝑿 𝒏 , 𝐹 ).
Como se sabe
𝑉 𝑎𝑟(𝑋1 ) 𝐸[(𝑋1 − 𝜇)2 ]
𝜎 2 (𝑿 𝒏 , 𝐹 ) = = .
𝑛 𝑛
Então o estimador bootstrap de 𝑉 𝑎𝑟[𝑇𝑛 ] = 𝜎 2 (𝑿 𝒏 , 𝐹 ) é
∑
𝑛
(𝑋𝑖 𝑿 𝒏 )2
𝑖=1
𝑉 𝑎𝑟 ∗ [𝑇𝑛 ] = 𝜎 2∗ = 𝜎 2 (𝑿 ∗ 𝒏 , 𝐹ˆ ) = .
𝑛2
Vemos que, nesta situação, obtemos como estimador bootstrap da variância, não o
estimador usual, mas um outro que de facto subestima a verdadeira variância. Efectivamente,
⎡∑ 𝑛 ⎤
(𝑋 𝑿 )2
⎢ 𝑖=1 𝑖 𝒏 ⎥ 𝑛 − 1 2 𝑛 − 1
𝐸[𝜎 2∗ ] = 𝐸 ⎢
⎣
⎥=
⎦ 𝜎 = 𝑉 𝑎𝑟[𝑿 𝒏 ].
𝑛2 𝑛2 𝑛
Uma das dificuldades da metodologia bootstrap pode residir no cálculo directo da dis-
tribuição de amostragem bootstrap. É por esta razão que é mais habitual, pelo menos em
aplicações práticas, recorrer-se ao ponto 2.
Efron e Tibshirani indicam que para a estimação da variância 𝐵 = 200 já dá resultados
bastante bons.
Quanto ao viés a convergência é mais difı́cil de atingir, havendo procedimentos que
permitem acelerar a velocidade de convergência para o verdadeiro viés bootstrap, 𝑉 𝑖𝑒𝑠∗ .
Relativamente à determinação de intervalos de confiança bootstrap, que necessitam do
conhecimento da distribuição de amostragem bootstrap, Efron e Tibshirani referem a utilização

de pelo menos 𝐵 = 1000 réplicas bootstrap. Também sobre este assunto há uma variedade
de procedimentos apresentados na literatura, que têm como objectivo a procura de melhores
intervalos de confiança.
Como outras referências pode consultar-se Davison e Hinkley (1998), Hjorth (1994),
Mooney e Duval (1993), LePage e Billard (1992)e Shao e Tu (1995).

A Metodologia Jackknife
A metodogia Jackknife remonta aos trabalhos pioneiros de Quenouille em 1949 que

introduziu um método de estimação do viés de um estimador baseado na divisão da amostra em
duas subamostras.
O método proposto consistia no seguinte: dada uma amostra de variáveis independentes
e identicamente distribuı́das, 𝑋1 , 𝑋2 , ..., 𝑋𝑛 , com função de distribuição cumulativa 𝐹 , seja 𝑇𝑛
um estimador de um funcional 𝜃(𝐹 ) ou de um parâmetro desconhecido 𝜃 (caso de 𝐹 ser conhecida
a menos de parâmetros desconhecidos).
Considerando 𝑇𝑛,1 = 𝑇𝑛 (𝑋𝑎1 , 𝑋𝑎2 , ..., 𝑋𝑎𝑚 ) e 𝑇𝑛,2 = 𝑇𝑛 (𝑋𝑏1 , 𝑋𝑏2 , ..., 𝑋𝑏𝑚 ), onde sem
perda de generalidade, se supôs 𝑛 = 2𝑚, definindo
˜
𝑇𝑛,𝑖 = 2𝑇𝑛 − 𝑇𝑛/2,𝑖 𝑖 = 1, 2,
Quenouille propôs o estimador
( ) 1[ ]
˜𝑛 = 1 𝑇˜
𝑇 ˜
𝑛,1 + 𝑇𝑛,2 = 2𝑇𝑛 − 𝑇𝑛/2,1 + 𝑇𝑛/2,2 (3)
2 2
que apresenta, para a maioria dos casos, viés inferior ao do estimador 𝑇𝑛 .
De facto, se 𝑇𝑛 for um estimador cujo viés se pode exprimir como potências de 1/𝑛 (o
que acontece com uma grande maioria de estimadores construı́dos com base numa amostra de
dimensão 𝑛 em que os momentos são funções de 1/𝑛), isto é, se
( )
𝑎1 𝑎2 1
𝐸[𝑇𝑛 ] = 𝜃 + + 2 +𝒪
𝑛 𝑛 𝑛3
com 𝑎1 , 𝑎2 ,... desconhecidas mas não dependentes de 𝑛, podendo depender de 𝜃, então
( )
𝑎1 𝑎2 1
𝐸[𝑇𝑛,𝑘 ] = 𝜃 + + +𝒪 𝑘 = 1, 2,
𝑛/2 (𝑛/2)2 (𝑛/2)3
vindo
( ) ( ) ( )
˜𝑛 ] = 𝜃 + 2 𝑎1 − 1
𝐸[𝑇
𝑎1
+
𝑎1
+𝒪
1
=𝜃+𝒪
1
.
𝑛 2 𝑛/2 𝑛/2 𝑛2 𝑛2
(1) ( 1
)
Consequentemente o viés foi reduzido de 𝒪 𝑛 para 𝒪 𝑛2 .
Quenouille (1956) generalizou esta ideia, considerando a amostra dividida em 𝑔 grupos

de dimensão ℎ, i.e., 𝑛 = 𝑔ℎ.
Sendo assim, para o estimador 𝑇𝑛 do parâmetro 𝜃, designemos por 𝑇𝑛−ℎ,𝑖 o estimador
que resulta de calcular 𝑇𝑛 sobre uma amostra de dimensão (𝑔 − 1)ℎ, obtida da original depois
de eliminado o 𝑖.ésimo grupo de dimensão ℎ, i.e., após a remoção de
𝑋(𝑖−1)ℎ+1 , 𝑋(𝑖−1)ℎ+2 , ..., 𝑋𝑖ℎ 𝑖 = 1, ..., 𝑔.
Definindo
˜
𝑇𝑛,𝑖 = 𝑔𝑇𝑛 − (𝑔 − 1)𝑇𝑛−ℎ,𝑖 𝑖 = 1, ..., 𝑔,

temos
∑ 𝑔
˜𝑛 = 1
𝑇 ˜
𝑇𝑛,𝑖 = 𝑔𝑇𝑛 − (𝑔 − 1)𝑇 (.) ,
𝑔
𝑖=1
∑
a generalização do estimador (3) a 𝑔 subamostras, onde 𝑇 (.) = 1𝑔 𝑔𝑖=1 𝑇𝑛−ℎ,𝑖 .
O método tornou-se mais popular quando, em 1958, Tukey propôs a sua utilização na
construção de estimadores da variância, atribuindo-lhe a designação jackknife, ao pensar que
esta técnica viria a ter uma multiplicidade de usos, como se tem verificado.
Tukey conjecturou que os valores 𝑇 ˜ 𝑛,𝑖 , que designou por “pseudo-valores”, podiam
ser considerados aproximadamente independentes e identicamente distribuı́dos numa grande
variedade de situações, donde, sugeriu a estatı́stica
√ (𝑇˜𝑛 − 𝜃)
𝑔√ ( )2 (4)
1 ∑𝑔 ˜ ˜
𝑔−1 𝑖=1 𝑇𝑛,𝑖 − 𝑇𝑛
que podia considerar-se tendo aproximadamente distribuição 𝑡𝑔−1 , o que permitia a construção
de intervalos de confiança ou a realização de testes de hipóteses para o parâmetro 𝜃.
Para evitar a arbitrariedade da escolha do número de grupos, Quenouille considerou

desde logo o caso 𝑔 = 𝑛, portanto ℎ = 1, de modo que o número de subamostras fica igual ao
número de elementos da amostra. Esta é, talvez, a melhor forma de realizar o jackknife para a
maioria das situações, embora Miller(1974) refira que se deve considerar a excepção no caso de
planos de amostragem complexos.
Considerando agora o caso 𝑔 = 𝑛, sintetizemos o que nos interessa para o pro-
cedimento habitual da metodologia jackknife.
Para o estimador 𝑇𝑛 = 𝑇𝑛 (𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ 𝑋𝑛 ) de 𝜃, seja 𝑇𝑛−1,𝑖 = 𝑇𝑛−1 (𝑋1 , ⋅ ⋅ ⋅ , 𝑋𝑖−1 , 𝑋𝑖+1 , ⋅ ⋅ ⋅ , 𝑋𝑛 ).

Definem-se os “pseudo-valores” como
˜
𝑇𝑛,𝑖 = 𝑛𝑇𝑛 − (𝑛 − 1)𝑇𝑛−1,𝑖 𝑖 = 1, ..., 𝑛,
vindo o estimador jackknife proposto por Quenouille, que representaremos por 𝑇𝑛𝐽 , dado por
𝑛
∑
𝑇𝑛𝐽 = 𝑛𝑇𝑛 − (𝑛 − 1)𝑇 (.) , com 𝑇 (.) = 𝑛−1 𝑇𝑛−1,𝑖 . (5)
𝑖=1
Sendo 𝑇𝑛 um estimador tal que o valor esperado se pode escrever como

∑ 𝑎𝑖
E [𝑇𝑛 ] = 𝜃 + , (6)
𝑛𝑖
𝑖≥1
em que 𝑎𝑖(𝑖≥1) são desconhecidos, mas independentes de 𝑛, podendo depender de 𝜃, também

para 𝑇𝑛−1,𝑖 , (𝑖 = 1, ⋅ ⋅ ⋅ , 𝑛), e 𝑇 (.) se verifica
𝑎1 𝑎2 1
𝐸 [𝑇𝑛−1,𝑖 ] = 𝐸[𝑇 (.) ] = 𝜃 + + 2 + 𝒪( ) (7)
𝑛 − 1 (𝑛 − 1) (𝑛 − 1)3

Portanto o viés de 𝑇𝑛𝐽 , vem
𝐸[𝑇𝑛𝐽 ] − 𝜃 = 𝑛𝐸[𝑇𝑛 ] − (𝑛 − 1)𝐸[𝑇 (.) ] − 𝜃

= 𝑛𝐸[𝑇𝑛 − 𝜃] − (𝑛 − 1)𝐸[𝑇 (.) − 𝜃]
∑ 𝑎𝑖 ∑ 𝑎𝑖
= 𝑛 𝑛 𝑖 − (𝑛 − 1) (𝑛−1)𝑖
∑𝑖≥1𝑎𝑖+1 ∑ 𝑎𝑖+1𝑖≥1
= 𝑛𝑖
− (𝑛−1)𝑖
𝑖≥1 𝑖≥1 [ ]
−𝑎2 ∑ 1 1
= 𝑛(𝑛−1) − 𝑎𝑖+1 (𝑛−1) 𝑖 − 𝑛𝑖
𝑖≥2
= 𝒪( 𝑛12 ).
O estimador jackknife , 𝑇 𝑛𝐽 , apresenta portanto um viés da ordem de 1/𝑛2 .

O estimador jackknife do viés, proposto por Quenouille, é então
𝑉 𝑖𝑒𝑠𝐽 [𝑇𝑛 ] = 𝑇𝑛 − 𝑇𝑛𝐽 = (𝑛 − 1)(𝑇 (.) − 𝑇𝑛 ). (8)
Passaremos a uma breve apresentação de alguns dos aspectos de importância da metodolo-

gia jackknife: redução do viés e estimação da variância.
Redução do viés: o Jackknife Generalizado.
Vimos já 𝐽
( 1 que
) o estimador
( 1 ) 𝑇𝑛 , apresentado em (5), permitia reduzir o viés do estimador
inicial 𝑇𝑛 de 𝒪 𝑛 para 𝒪 𝑛2 . Quenouille em 1956 apresenta ainda um modo de eliminar
a ordem 1/𝑛2 do viés, efectuando o jackknife com pesos 𝑛2 sobre o estimador jackknife, i.e.,
considera o estimador jackknife de segunda ordem
∑
𝑛
𝑛2 𝑇𝑛𝐽 − (𝑛 − 1)2 𝐽
𝑇𝑛−1,𝑗 /𝑛
𝑗=1
𝑇𝑛𝐽2 = ,
𝑛2 − (𝑛 − 1)2
𝐽
onde 𝑇𝑛−1,𝑗 é o estimador 𝑇𝑛𝐽 aplicado à amostra de dimensão 𝑛 − 1, resultante da remoção do
𝑗.ésimo termo.
A expressão que relaciona o estimador 𝑇𝑛𝐽2 com o estimador original é a seguinte:
⎡ ⎧ ⎫⎤
1 ⎣ 3 2 ⎨ ∑ ⎬
𝑇𝑛𝐽2 = 𝑛 𝑇𝑛 − (2𝑛2 − 2𝑛 + 1)(𝑛 − 1)𝑇 (.) + (𝑛 − 1)2 (𝑛 − 2) 𝑇𝑛−2,𝑖𝑗 ⎦ (9)
𝑛−1 ⎩ 𝑛(𝑛 − 1) ⎭
𝑖<𝑗
onde 𝑇𝑛−2,𝑖𝑗 designa o estimador original aplicado a uma amostra de dimensão 𝑛 − 2, resultante
da remoção da 𝑖.ésima e 𝑗.ésima observações.

Neste caso verifica-se que se
𝑎1 𝑎2 [ ] 1
E [𝑇𝑛 ] = 𝜃 + + 2 tem − se E 𝑇𝑛𝐽2 = 𝜃 + 𝒪( 3 ),
𝑛 𝑛 𝑛
mas não consegue remover o viés.
Schucany, Gray e Owen (1971) apresentaram uma sugestão de alteração dos pesos, de
modo a conseguir obter um estimador centrado no caso anterior. O estimador proposto por
estes autores, com pesos mais simples do que o anterior, foi
⎡ ⎧ ⎫⎤
1⎣ 2 ⎨ 2 ∑ ⎬
𝑇𝑛𝐽2∗ = 𝑛 𝑇𝑛 − 2(𝑛 − 1)2 𝑇 (.) + (𝑛 − 2)2 𝑇𝑛−2,𝑖𝑗 ⎦ (10)
2 ⎩ 𝑛(𝑛 − 1) ⎭
𝑖<𝑗
Naquele trabalho Schucany, Gray e Owen generalizaram a técnica de jackknife na

redução do viés de um estimador, por forma a eliminar o viés de ordem superior. A metodologia,
que designaram por Jackknife Generalizado, encontra-se bem desenvolvida em Gray e Schucany
(1972), que seguiremos de perto na explicção que se segue.
(1) (2)
Definição 1 Sejam 𝑇𝑛 e 𝑇𝑛 dois estimadores do parâmetro 𝜃. Para qualquer número real
(1) (2)
𝑞 ∕= 1 define-se estimador jackknife generalizado, 𝑇𝑛𝐽𝐺 , associado a 𝑇𝑛 e a 𝑇𝑛 , como
(1) (2)
𝑇𝑛 − 𝑞 𝑇𝑛
𝑇𝑛𝐽𝐺 = . (11)
1−𝑞
onde 𝑞 pode depender de 𝑛, i.e., 𝑞 ≡ 𝑞𝑛 .
(1) (2)
Se lim𝑛→∞ 𝑞𝑛 existir e for diferente de 1 então, se 𝑇𝑛 e 𝑇𝑛 forem consistentes para
𝐽𝐺
𝜃, 𝑇𝑛 é também consistente para 𝜃.
É imediato verificar que o estimador 𝑇𝑛𝐽 definido em (5) é um caso particular de um
estimador jackknife generalizado, com
𝑛−1
𝑇𝑛(1) = 𝑇𝑛 , 𝑇𝑛(2) = 𝑇 (.) e 𝑞𝑛 = .
𝑛
Como ilustração vejamos o seguinte exemplo
Exemplo 2 Sejam 𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ , 𝑋𝑛 variáveis i.i.d. de uma população 𝒩 (𝜇, 𝜎 2 ).

Consideremos o estimador de máxima verosimilhança de 𝜎 2 , que como se sabe é
𝑛 𝑛
1 ∑( )
¯ 2= 1
∑ 2 1 2
𝑇𝑛 = 𝑋𝑖 − 𝑋 𝑋𝑖2 − 𝑋 sendo E[𝑇𝑛 ] = 𝜎 2 − 𝜎 ,
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
portanto enviesado, com enviesamento da ordem de 1/𝑛.

O estimador 𝑇𝑛−1,𝑖 é

𝑛
∑ ( )2
1 𝑛𝑋 − 𝑋𝑖
𝑇𝑛−1,𝑖 = 𝑋𝑗2 −
𝑛−1 𝑛−1
𝑗=1(𝑗∕=𝑖)
1 ∑𝑛
1 [ ]
2 2
= 𝑋𝑗2 − 𝑛 𝑋 − 2𝑛𝑋𝑋𝑖 + 𝑋 2
𝑖 ;
𝑛−1
𝑗=1(𝑗∕=𝑖)
(𝑛 − 1)2
e
𝑛
1∑
𝑇 (.) = 𝑇𝑛−1,𝑖
𝑛
𝑖=1
𝑛
𝑛2 − 2𝑛 ∑ 2 𝑛2 − 2𝑛 2
= 𝑋𝑖 − 𝑋
𝑛 (𝑛 − 1)2 𝑖=1 (𝑛 − 1)2
𝑛2 − 2𝑛
= 𝑇𝑛 .
(𝑛 − 1)2
O estimador jackknife de Quenouille vem então
𝑛
𝑛 1 ∑( )
¯ 2.
𝑇𝑛𝐽 = 𝑛𝑇𝑛 − (𝑛 − 1)𝑇 (.) = 𝑇𝑛 = 𝑋𝑖 − 𝑋 (12)
𝑛−1 𝑛−1
𝑖=1
Como se verifica 𝑇𝑛𝐽 é um estimador centrado da variância (o viés foi completamente

removido) e como se sabe é o estimador não enviesado de variância uniformemente mı́nima
(UMVUE) de 𝜎 2 , que depende de estatı́sticas suficientes completas.
Note-se que 𝑇𝑛 é função de estatı́sticas suficientes e 𝑇𝑛𝐽 também, porém embora aconteça
em muitos casos, não constitui no entanto nenhuma regra.
Consideremos agora a estatı́stica jackknife generalizado associada aos estimadores 𝑇𝑛
e 𝑇 (.) com 𝑞𝑛 = 𝑛−1
𝑛 , tem-se
𝑇𝑛 − 𝑞𝑛 𝑇 (.) 𝑛
𝑇𝑛𝐽𝐺 = = 𝑇𝑛
1 − 𝑞𝑛 𝑛−1
que obviamente coincide com o estimador jackknife de Quenouille.
Mas, coloca-se a questão da escolha de 𝑞𝑛 , na construção do jackknife generalizado
Neste exemplo, como o estimador jackknife removia o viés, o jackknife generalizado não traria
mais vantagens quanto à redução do viés. O seguinte resultado, Gray e Schucany (1972), de
demonstração muito simples, dá uma primeira resposta à questão.
Teorema 1 Se
E[𝑇𝑛(𝑘) ] = 𝜃 + 𝑏𝑘 (𝑛, 𝜃), 𝑘 = 1, 2 e 𝑏2 (𝑛, 𝜃) ∕= 0
e
𝑏1 (𝑛, 𝜃)
𝑞𝑛 = ∕= 1,
𝑏2 (𝑛, 𝜃)
então
E[𝑇𝑛𝐽𝐺 ] = 𝜃.

Como consequência tem-se que, conhecendo o quociente dos viés de dois estimadores
não centrados de um parâmetro, é possı́vel obter um estimador centrado desse parâmetro.
Voltando ao exemplo anterior temos
𝜎2 𝜎2 𝑛−1
𝑒𝑠(𝑇𝑛 ) = −
𝑣𝑖´ e 𝑒𝑠(𝑇 (.) ) = −
𝑣𝑖´ , vindo 𝑞𝑛 = ,
𝑛 𝑛−1 𝑛
vindo então 𝑞𝑛 dado pela aplicação do jackknife de Quenouille, logo
𝑇𝑛𝐽𝐺 = 𝑇𝑛𝐽 .
Note-se que este estimador 𝑇𝑛 , podia ser considerado o estimador da variância popula-
cional numa situação não paramétrica.
Estimação da variância
Acabámos de referir algumas técnicas de redução do viés de um estimador com recurso

a jackknife, outras formas com recurso a jackknife generalizado de ordem superior, por exemplo,
podem ver-se em Gray e Schucany (1972).
Vejamos se o jackknife permite também estimar a variância de um estimador, i.e. dado
𝑇𝑛 , estimador de um funcional 𝜃(𝐹 ), se poderá ter-se uma estimativa jackknife de
𝑉 𝐴𝑅 = 𝑉 𝑎𝑟[𝑇𝑛 ]
Nesta abordagem, seguiremos de perto Efron(1982), onde poderão ser encontrados
outros exemplos além dos que aqui apresentamos.
∑
Exemplo 3 Seja 𝑇𝑛 = 𝑋 𝑛 = 𝑋𝑖 /𝑛, numa amostra de variv́eis aleatórias e identicamente
distribuı́das (𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ , 𝑋𝑛 ). Sabemos que, com base na amostra original, é fácil obter uma
estimativa de 𝑉 𝑎𝑟[𝑇𝑛 ], pois 𝑉 𝑎𝑟[𝑇𝑛 ] = 𝑉 𝑎𝑟[𝑋]/𝑛, logo uma estimativa de 𝑉 𝐴𝑅 é
∑ 𝑛
1
𝑉ˆ
𝐴𝑅 = (𝑥𝑖 − 𝑥)2 . (13)
𝑛(𝑛 − 1)
𝑖=1
Considerando as estimativas jackknife pelo método de Quenouille, tem-se
𝑛𝑥𝑛 − 𝑥𝑖
𝑡𝑛 = 𝑥𝑛 ⇒ 𝑡𝑛−1,𝑖 = ⇒ 𝑡(.) = 𝑥𝑛 ,
𝑛−1
donde vem
𝑛 𝑛
( )2 1 2 𝑛 − 1 ∑( )2 1 ∑
𝑡(.) − 𝑡𝑛−1,𝑖 = (𝑥 𝑖 − 𝑥 𝑛 ) ⇒ 𝑡 (.) − 𝑡 𝑛−1,𝑖 = (𝑥𝑖 − 𝑥𝑛 )2
(𝑛 − 1)2 𝑛 𝑛(𝑛 − 1)
𝑖=1 𝑖=1

Esta analogia levou muitos autores a considerar como estimativa jackknife de 𝑉 𝐴𝑅 =
𝑉 𝑎𝑟[𝑇𝑛 ]
𝑛
𝐽 𝑛 − 1 ∑( )2
𝑉ˆ
𝐴𝑅 = 𝑡𝑛−1,𝑖 − 𝑡(.) (14)
𝑛
𝑖=1
Observe-se que
𝑛 𝑛
𝑛 −1 ∑( )2 1 ∑(
˜
)2
𝑡𝑛−1,𝑖 − 𝑡(.) = 𝑡𝑛,𝑖 − 𝑡𝐽𝑛
𝑛 𝑛(𝑛 − 1)
𝑖=1 𝑖=1
isto é, no caso de 𝑡𝑛 ser a média da amostra, os ˜

𝑡𝑛,𝑖 (“pseudo-valores”, como Tukey os designou)
parecem estar a desempenhar o mesmo papel que os 𝑥𝑖 .
Então (14) foi também considerada estimativa jackknife de 𝑉 𝑎𝑟[𝑇𝑛𝐽 ]. Esta foi a ideia
que motivou Tukey (1958) quando considerou como intervalo de confiança a (1 − 𝛼)100% para
𝜃 = 𝜃(𝐹 ) √
𝐽
𝑡𝐽𝑛 ± 𝑡1−𝛼/2,𝑛−1 𝑉ˆ
𝐴𝑅
com 𝑡1−𝛼/2,𝑛−1 é o quantil de probabilidade 1 − 𝛼/2 da distribuição 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡, com 𝑛 − 1 g.l.
Mas este I.C. só se tem revelado satisfatório assintoticamente, i.e, quando 𝑛 → ∞ e a
distribuição 𝑡 se aproxima da normal padrão.
No exemplo da média amostral vimos então que (14) fornece um bom valor como
estimativa da variância da média.
Consideremos outo exemplo, o da variância amostral.
Exemplo 4 Seja então

𝑛
1 ∑
𝑇𝑛 = (𝑋𝑖 − 𝑋)2 .
𝑛−1
𝑖=1
A estimativa jackknife de VAR, definida em (14) vem

𝑛
𝐽 𝑛 − 1 ∑( )2
𝑉ˆ
𝐴𝑅 = 𝑡𝑛−1,𝑖 − 𝑡(.) ,
𝑛
𝑖=1
e efectuando cálculos análogos aos que foram apresentados no exemplo 1., com
𝑛
( 𝑛
)
1 ∑ 1 [ 2 2 ] 𝑛(𝑛 − 2) 1∑ 2
𝑡𝑛−1,𝑖 = 𝑥2𝑗 − 𝑛 𝑥 − 2𝑛𝑥𝑥 𝑖 + 𝑥 2
𝑖 e 𝑡(.) = 𝑥𝑖 − 𝑥2 ,
𝑛−1
𝑗=1(𝑗∕=𝑖)
(𝑛 − 1)2 (𝑛 − 1)2 𝑛
𝑖=1
obtém-se
𝐽 𝑛2
𝑉ˆ
𝐴𝑅 = 2
(ˆ ˆ2 2 ),
𝜇4 − 𝜇
(𝑛 − 1)(𝑛 − 2)
∑𝑛
ˆ𝑘 =
com 𝜇 𝑖=1 (𝑥𝑖 − 𝑥)𝑘 /𝑛, momento empı́rico centrado de ordem 𝑘.

Como se sabe, ver por exemplo Murteira (1990), para o estimador centrado da variância,
𝑇𝑛 , tem-se
𝜇4 𝑛−3 2
𝑉 𝐴𝑅 = 𝑉 𝑎𝑟[𝑇𝑛 ] = − 𝜇 ,
𝑛 𝑛(𝑛 − 1) 2
𝐽
portanto, pode dizer-se que, pelo menos para 𝑛 grande, 𝑉ˆ
𝐴𝑅 é um bom resultado como esti-
mativa de 𝑉 𝐴𝑅.
Vejamos agora um outro exemplo, o caso da mediana amostral, como estimador da

mediana populacional 𝜃 = 𝜒1/2 (𝐹 ).
Exemplo 5 O estimador 𝑇𝑛 é agora definido como

{
𝑋𝑚:𝑛 se 𝑛 = 2𝑚 − 1
𝑇𝑛 = .
(𝑋𝑚:𝑛 + 𝑋𝑚+1:𝑛 )/2 se 𝑛 = 2𝑚
Comecemos por considerar 𝑛 = 2𝑚 e calculemos a estimativa jackknife (14).
{
𝑥𝑚:𝑛 − 𝑥𝑚+1:𝑛 𝑥𝑚+1:𝑛 se a observação retirada 𝑥𝑖 < 𝑡 𝑛
Se 𝑡𝑛 = ⇒ 𝑡𝑛−1,𝑖 =
2 𝑥𝑚:𝑛 se a observação retirada 𝑥𝑖 > 𝑡 𝑛
𝑥𝑚:𝑛 +𝑥𝑚+1:𝑛
então 𝑡(.) = 2 , donde vem a estimativa
𝐽 𝑛−1
𝑉ˆ
𝐴𝑅 = (𝑥𝑚+1:𝑛 − 𝑥𝑚:𝑛 )2
4
Mas, resultados assintóticos, referentes a distribuições de espaçamentos, Pyke (1965),
𝐽
mostram que se tem para o estimador 𝑉ˆ 𝐴𝑅 ,
𝐽 𝑑 𝑉
𝑛𝑉ˆ
𝐴𝑅 −→ ,
4𝑓 2 (𝜒 1/2 )
onde 𝑉 = (𝑌 /2)2 , com 𝑌 ∩𝜒2(2) , é portanto uma variável aleatória com valor médio 2 e variância
20 e 𝑓 (.) é a função densidade associada a 𝐹 . Mas, para a verdadeira variância da mediana,
tem-se, Cramer (1946),
1
𝑙𝑖𝑚𝑛→∞ 𝑛𝑉 𝑎𝑟[𝑇𝑛 ] = .
4𝑓 2 (𝜒 1/2 )
𝐽
Vemos que o estimador 𝑉ˆ
𝐴𝑅 nem sequer é consistente.
Vimos então uma situação em que a expressão (14) falha redondamente como uma
estimativa jackknife da variância.
A utilização da expressão (14) para obtermos as estimativas da variância jackknife de

um estimador, tem por base, como se disse, a conjectura de Tukey (1958) que estabelece que
˜ 𝐽
∑
𝑛
˜
𝑇𝑛,𝑖 são aproximadamente independentes, donde 𝑇 = 𝑇
𝑛𝑛,𝑖 /𝑛 satisfaz
𝑖=1

(𝑇𝑛𝐽 − 𝜃) 𝑑
√ ( ) −→ 𝑇 ∩ 𝑡𝑛−1 . (15)
1 ∑𝑛 ˜
2
𝑛(𝑛−1) 𝑖=1 𝑇𝑛,𝑖 − 𝑇 (.)
Miller (1964) apresenta as condições em que há suporte teórico para aquela conjectura.
Se 𝑋1 , 𝑋2 ⋅ ⋅ ⋅ 𝑋𝑛 é uma amostra aleatória com função de distribuição 𝐹 , 𝐸[𝑋1 ] = 𝜇 e 𝑉 𝑎𝑟[𝑋1 ] =
𝜎 2 < ∞, considerando estimadores de 𝜃 tais que 𝜃 = 𝜑(𝜇), i.e. 𝑇𝑛 = 𝜑(𝑋 𝑛 ), sendo 𝜑 uma função
real de variável real, com segunda derivada finita numa vizinhança de 𝜇, Miller mostra que
(𝑇𝑛𝐽 − 𝜃) 𝑑
√ ( ) −→ 𝑍 ∩ 𝑁 (0, 1). (16)
1 ∑𝑛 ˜
2
𝑛(𝑛−1) 𝑖=1 𝑇𝑛,𝑖 − 𝑇 (.)
Como referência para consulta das condições de validade de aplicação da metodologia

jackknife bem como de situações onde este procedimento falha, citamos Shao e Tu (1995).
Bibliografia
Davison, A.C. and Hinkley, D.V. (1997). Bootstrap methods and their application,
Cambridge University Press
Efron, B. e Tibshirani, R.J. (1993). An Introdution to the Bootstrap, Chapman & Hall.
Hjorth, J.S.U. (1994). Computer Intensive Statistical Methods. Validation, Model Se-
lection and Bootstrap, Chapman & Hall.
Manly, B.F.J. (1997). Randomization, Bootstrap, and Monte Carlo Methods in Biology,
Chapman & Hall.
Shao, J. e D. Tu, D. (1996). The Jackknife and Bootstrap, Springer-Verlag, New York.

Boot Jack Reduzido PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Boot Jack Reduzido PDF

Загружено:

Авторское право:

Доступные форматы

Breve Introdução às Metodologias Bootstrap e Jackknife

TA/ISA - Manuela Neves (2009/2010) 1

O estimador bootstrap do viés de 𝑇𝑛 , 𝑉 𝑖𝑒𝑠∗ , é deﬁnido, Efron e Tibshirani (1993), como

𝑉 𝑖𝑒𝑠∗ := E[𝑇𝑛∗ ∣𝑿𝒏 ] − 𝜃(𝐹ˆ𝑛 ), (1)

∙ dada uma amostra observada 𝒙𝒏 = (𝑥1 , 𝑥2 , ⋅ ⋅ ⋅ 𝑥𝑛 ), constrói-se 𝐹ˆ𝑛 atribuindo a cada 𝑥𝑖

(𝑡∗,1 ∗,2 ∗,𝐵

∙ calcula-se as estimativas do viés, erro padrão e distribuição de amostragem bootstrap

Observe-se que este procedimento permite genericamente determinar a distribuição

TA/ISA - Manuela Neves (2009/2010) 2

2. Aproximação de Monte Carlo da distribuição bootstrap: para isso geram-se realizações

3. Utilização de desenvolvimentos em série de Taylor ( método-𝛿), para obter aproximações

Exemplo 1 Consideremos o estimador 𝑇𝑛 = 𝑿 𝒏 , média de uma amostra aleatória e supon-

TA/ISA - Manuela Neves (2009/2010) 3

TA/ISA - Manuela Neves (2009/2010) 4

A metodogia Jackknife remonta aos trabalhos pioneiros de Quenouille em 1949 que

Quenouille (1956) generalizou esta ideia, considerando a amostra dividida em 𝑔 grupos

𝑋(𝑖−1)ℎ+1 , 𝑋(𝑖−1)ℎ+2 , ..., 𝑋𝑖ℎ 𝑖 = 1, ..., 𝑔.

TA/ISA - Manuela Neves (2009/2010) 5

Para evitar a arbitrariedade da escolha do número de grupos, Quenouille considerou

Para o estimador 𝑇𝑛 = 𝑇𝑛 (𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ 𝑋𝑛 ) de 𝜃, seja 𝑇𝑛−1,𝑖 = 𝑇𝑛−1 (𝑋1 , ⋅ ⋅ ⋅ , 𝑋𝑖−1 , 𝑋𝑖+1 , ⋅ ⋅ ⋅ , 𝑋𝑛 ).

Sendo 𝑇𝑛 um estimador tal que o valor esperado se pode escrever como

em que 𝑎𝑖(𝑖≥1) são desconhecidos, mas independentes de 𝑛, podendo depender de 𝜃, também

TA/ISA - Manuela Neves (2009/2010) 6

𝐸[𝑇𝑛𝐽 ] − 𝜃 = 𝑛𝐸[𝑇𝑛 ] − (𝑛 − 1)𝐸[𝑇 (.) ] − 𝜃

O estimador jackknife , 𝑇 𝑛𝐽 , apresenta portanto um viés da ordem de 1/𝑛2 .

𝑉 𝑖𝑒𝑠𝐽 [𝑇𝑛 ] = 𝑇𝑛 − 𝑇𝑛𝐽 = (𝑛 − 1)(𝑇 (.) − 𝑇𝑛 ). (8)

Passaremos a uma breve apresentação de alguns dos aspectos de importância da metodolo-

Redução do viés: o Jackknife Generalizado.

TA/ISA - Manuela Neves (2009/2010) 7

Naquele trabalho Schucany, Gray e Owen generalizaram a técnica de jackknife na

onde 𝑞 pode depender de 𝑛, i.e., 𝑞 ≡ 𝑞𝑛 .

Como ilustração vejamos o seguinte exemplo

Exemplo 2 Sejam 𝑋1 , 𝑋2 , ⋅ ⋅ ⋅ , 𝑋𝑛 variáveis i.i.d. de uma população 𝒩 (𝜇, 𝜎 2 ).

portanto enviesado, com enviesamento da ordem de 1/𝑛.

TA/ISA - Manuela Neves (2009/2010) 8

Como se veriﬁca 𝑇𝑛𝐽 é um estimador centrado da variância (o viés foi completamente

TA/ISA - Manuela Neves (2009/2010) 9

Voltando ao exemplo anterior temos

Acabámos de referir algumas técnicas de redução do viés de um estimador com recurso

Considerando as estimativas jackknife pelo método de Quenouille, tem-se

TA/ISA - Manuela Neves (2009/2010) 10

isto é, no caso de 𝑡𝑛 ser a média da amostra, os ˜

Exemplo 4 Seja então

A estimativa jackknife de VAR, deﬁnida em (14) vem

TA/ISA - Manuela Neves (2009/2010) 11

Vejamos agora um outro exemplo, o caso da mediana amostral, como estimador da

Exemplo 5 O estimador 𝑇𝑛 é agora deﬁnido como

A utilização da expressão (14) para obtermos as estimativas da variância jackknife de

TA/ISA - Manuela Neves (2009/2010) 12

Como referência para consulta das condições de validade de aplicação da metodologia

TA/ISA - Manuela Neves (2009/2010) 13

Вам также может понравиться