Вы находитесь на странице: 1из 12

Infer ncia em Amostras Pequenas: e M todos Bootstrap e

Augusto Sousa da Silva Filho


1

Programa Permanente de Capacitacao Docente FACULDADES ANHANGUERA

Abstract. A amostra original representa a populacao da qual foi extrada. Dessa maneira, as reamostras obtidas a partir dessa amostra representam o que obteramos se retir ssemos diversas amostras da populacao. A distribuicao a bootstrap de uma estatstica, baseada em um grande n mero de reamostras, u representa a distribuicao da estatstica, com base em um grande n mero de u amostras. Keywords: Bootstrap, Intervalos de Conanca, Erros Padr es; M dia e Mediana. o e

1. Introducao
Existem m todos de estimacao (MV, MMG) e testes de signic ncia (RV,W,ML) e a que produzem estimadores e testes estatsticos com propriedades desej veis de amostras a grandes. Em amostras pequenas, gostaramos de conhecer a performance relativa dos es timadores ou testes estatsticos que t m a mesma distribuicao assint tica, e de saber qu o e o a con vel e a infer ncia assint tica. H alguns resultados amostrais nitos que podem ser a e o a obtidos pela expans o Edgeworth, mais isso e muito complicado e est al m do escopo a a e deste trabalho. Neste trabalho, veremos alternativas de reamostragem - m todos baseados em ree tirar sucessivamente amostras repetidas. Ser discutido o m todo bootstrap e haver um a e a coment rio sobre o m todo de Monte Carlo. a e Os testes RV, W e ML tem distribuicoes assint ticas normal ou 2 . Na pr tica, o a por m, n o sabemos como e a performance desses testes em amostras pequenas. Muitos e a apresentam distorcoes de tamanho substanciais, isto e, pode-se testar ao nvel de 5% de signic ncia usando-se as distribuicoes assint ticas normal ou 2 , sendo que o verdadeiro a o nvel de signic ncia e 25%. Al m disso, as performances de dois estimadores que t m a a e e mesma distribuicao assint tica normal podem ser diferentes em amostras pequenas. o Para examinar esses problemas, discutiremos dois m todos de reamostragem, ou e m todos que dependem da retirada de amostras repetidas: e 1 . M todos Monte Carlo; e 2 . M todos Bootstrap. e Eles resolvem diferentes aspectos de infer ncia em amostras pequenas. O m todo e e 1 e usado para escolher entre, digamos, dois estimadores ou dois testes estatsticos. O m todo 2 e usado para se obter a distribuicao amostral pequena do estimador escole hido ou do teste estatstico.

2. M todo Monte Carlo e


Nos m todos Monte Carlo1 e possvel escolher o modelo, considerar um tamanho e amostral N, xar os par metros em certos valores e retirar amostrar repetidas da a distribuicao do termo do erro. Isso gera os dados do tamanho N, a partir dos quais as estimativas dos par metros s o calculadas. Repeti-se isso M vezes. Ent o, a distribuicao a a a das M estimativas dos par metros dar a distribuicao amostral de tamanho N. Podemos a a ent o comparar essa distribuicao amostral com a distribuicao assint tica. Ou podemos a o obter as distribuicoes amostrais dos dois estimadores e compara-las. Considere, por exemplo, o modelo de regress o: a yt = xt + t IN (0; 2 ) onde xt s o valores dados. Esse n o e o caso em que se faria um estudo Monte Carlo, mas a a o consideramos aqui para ilustrar o procedimento. Consideremos = 4, 2 = 1, 0, e o tamanho amostral 50. Retiramos n meros u aleat rios da distribuicao N (0, 1). Muitos programas de computador (SAS; R, Minitab) o t m geradores de n meros aleat rios. Chame isso (u1 , u2 , . . . , u50 ). Usando-os junto com e u o xt e = 0, geramos os valores amostrais de y : (y1 , y2 , . . . , y50 ). Podemos usar esses valores amostrais para obter uma estimativa de . Repetimos isso M vezes (digamos M=1000). Ent o a distribuicao de j = (j = 1, 2, . . . , 1000) produz a distribuicao do a 1000 1 estimador dos mnimos quadrados . Veremos que = 1000 1 j estaria muito perto de 4,0 nesse caso. Esse e um exemplo muito simples para ilustrar o procedimento. Conhecemos aqui a distribuicao amostral pequena de , de maneira que n o precisamos do estudo Monte a Carlo. Entretanto, consideremos o modelo:

yt = xt + ut ut = ut 1 + et

et IN (0, 2 )

e usaremos o estimador Cochrane-Orcutt em duas etapas. Primeiro obtemos a estimativa ` MQO em ut1 para obtermos . Usamos isso para transformar os dados e chegar a estimativa MQG de . N o conhecemos a distribuicao de pequena amostra de . A distribuicao a 1 1 x , onde x = e a assint tica de e normal com m dia 0 e vari ncia x o e a matriz de covari ncia dos erros ut . O experimento Monte Carlo a (x1 , x2 , . . . , xN ) e procede da seguinte forma. Suponha que consideramos uma amostra de tamanho 50 e nos e dado (x1 , x2 , . . . , x50 ), que permanecem os mesmos em todas as replicacoes. Fixamos o 2 valor dos par metros (e1 , e2 , . . . , e50 ) da distribuicao N (0, ). Para gerar ut , precisamos a
Este trabalho e conciso. Mais detalhes podem ser encontrado em D.F. Hendry, Monte Carlo Experimentation in Economic, Cap. 16 em Z, Griliches e M.D. intrilligator) (eds.), Handbook of Econometrics, Vol 2. (Amsterd : North-Holland, 1984), e Secao 3.6 de D.F. Hendry, Dynamic Econometrics (Oxford: a Oxford University Press, 1995).
1

de um valor inicial u0 . E costume tomar ut , que e N (0; 2 /(1 2 )). Usando o ut , ger amos agora yt . Temos ent o uma amostra de tamanho 50 : (yt , xt ), t = 1, 2, . . . , 50. Usa amos o procedimento Cochrane-Orcutt para obtermos a estimativa MQG M QG . Repeti mos isso, digamos, 1000 vezes. Obtemos assim 1000 valores de M QG e isso produz uma distribuicao amostral pequena de M QG . 2.1. M todos Monte Carlo Mais Ecientes e O procedimento descrito pode ser melhorado. Hendry discute dois m todos: o m todo e e de vari veis antit ticas e o m todo de covari ncias. N o veremos aqui detalhes2 . O a e e a a m todo de vari veis antit ticas utiliza novamente as amostras aleat rias retiradas dos ere a e o uma amostra aleat ria dos erros, o mesmo vale ros, por exemplo, se (e1 , e2 , . . . , e50 ) e o para (e1 , e2 , . . . , e50 ). 2.2. Superfcies de Resposta Os resultados de Monte Carlo que descremos referem-se a um conjunto de valores param tricos () e a um tamanho amostral N. Por exemplo, obtemos o desvio (digamos e B) de um estimador MQG de um valor param trico , tamanho amostral N. Podemos e obter resultados de v rios outros experimentos Monte Carlo de diferentes valores de e a N. Uma maneira f cil de resumir esses resultados e calcular uma superfcie de resposta3 . a Trata-se de uma regress o da forma: a Bj = + 1 j + 2 Nj + uj onde K e o n mero de diferentes valores de e N para os quais n o conduzimos o esu a tudo Monte Carlo. O m todo da superfcie de resposta e uma maneira conveniente e util e de sumarizar resultados de v rios experimentos Monte Carlo4 . O m todo Monte Carlo a e que descrevemos pode ser utilizado para comparar a performance em amostras pequenas de diferentes estimadores ou testes estatsticos. Calculamos os diferentes estimadores e testes estatsticos com cada uma das amostras geradas.

3. M todos de Reamostragem: Bootstrap e Jackknife e


Na secao anterior, descremos o m todo Monte Carlo, no qual amostras repetidas e eram retiradas das distribuicoes de erros assumidas. H v rios outros m todos em que a a e amostras s o retiradas da amostra dada. Dois deles s o o jackknife, introduzido por Quea a nouille5 , e bootstrap, apresentado por Efron6 . Nesses m todos, a informacao da amostra e
Ver Hendry (1984) e Hendry (1995, Secoes 3.6.2 e 3.6.3). Mais detalhes sobre a metodologia de superfcie de resposta podem ser encontrados em Hendry (1984), citado anteriormente. 4 Esse m todo foi utilizado por MacKinnon para resumir os resultados de v rios experimentos Monte e a Carlo e obter valores crticos de testes de cointegracao. Ver J.G. MacKinnon, Critical Values for Cointe gration Tests, em R.F. Engle e C.W.J. Granger (eds.), Long Run Economic Relationships (Oxford: Oxford University Press, 1991), pp. 267-276. 5 M.Quenouille, Notes on Bias in Estimation, Biometrika, Vol 43, 1956, pp. 353-360. 6 B. Efron, Bootstrap Methods: Another Look at the Jackknife, Annals of Statistics, Vol. 7,1979, pp. 1-26
3 2

` e reciclada para se chegar as distribuicoes amostrais das estatsticas de interesse. O jackknife exclui um n mero de observacoes a cada rodada de c lculo, e o bootstrap faz u a a amostragem aleat ria das observacoes amostrais a cada rodada de c lculo. O jacko a knife mais simples, que exclui um, procede da seguinte forma: seja o estimador de y1 , y2 , . . . , yn , o conjunto de observacoes. Os passos da estimacao jackknife s o: a (1) (2) (3) (4) Calcule i excluindo yi do conjunto de observacoes; (n 1)i ; Calcule pi = n O estimador jackknife de e = Pi /n; O estimador da vari ncia jackknife e V = (pi )2 /n(n 1). a

M todos jacknife mais detalhados s o discutidos em Wu7 . O m todo bootstrap e e a e outro m todo de reamostragem para o mesmo prop sito que o jackknife: reduzir desvios e e o prover desvios padr o mais con veis. O m todo bootstrap funciona da seguinte maneira: a a e seja (y1 , y2 , . . . , yn ) a amostra dada. Retira-se dessa amostra uma amostra de tamanho n com reposicao. Chamaremos essa amostra de Bj = (y1 , y2 , . . . , yn ). Essa e amostra bootstrap. Cada yi e uma escolha aleat ria de (y1 , y2 , . . . , yn ). Fazemos isso para j = o de cada uma das amostras bootstrap j distribuicao de j e a 1, 2, . . . , m e calculamos j distribuicao bootstrap do estimador . As estimativas bootstrap do desvio e da vari ncia a de s o derivadas dessa distribuicao bootstrap. a ` Observe que a reamostragem n o adiciona nenhuma informacao nova a amostra a original. A vantagem dos m todos como o bootstrap e o resultado da maneira pela qual e a informacao amostra e processada. No caso da distribuicao normal, toda informacao sobre a m dia amostral e resumida na m dia amostral e na vari ncia amostral. Logo, e e a outras maneiras de processar a informacao amostral n o produzem melhores resultados a nesse caso. S o nos casos em que n o h distribuicao amostral nita das estatsticas a a a prontamente disponvel que o bootstrap e util. A distribuicao bootstrap pode ser freq entemente assim trica. Nesse caso, n o e u e a suciente olhar para a vari ncia bootstrap. Varias aplicacoes antigas da econometria usa aram o m todo bootstrap para obter a vari ncia das estatsticas amostrais. Mesmo se os e a erros padr o assint ticos e bootstrap forem os mesmos em qualquer exemplo, os intervaa o los de conanca poderiam ser diferentes se a distribuicao bootstrap fosse assim trica. Para e o modelo auto-regressivo yt = yt1 + et , baseado nos n meros sumspot de 1770-1889, u Efron e Tibshirani8 obtiveram = 0, 815 com erro padr o assint tico 0,053. O desvio a o padr o bootstrap baseado em 1000 amostras bootstrap foi 0,055, concordando satisfatoria amente com o resultado assint tico. Por m, a distribuicao bootstrap foi assim trica para o e e a esquerda, o que signica que os intervalos de conanca s o diferentes. a 3.1. Por que o bootstrap funciona? Pode parecer que o bootstrap crie dados a partir do nada. Isso parece suspeito. Entretanto, n o estamos utilizando as observacoes das reamostras como se elas fosse dados a reais - o bootstrap n o e um substituto para o acr scimo de dados com vistas ao aumento a e
C.F. J. Wu, Jackknife, Bootstrap and Other Re-sampling Methods in Regression Analysis, Annals of Statistics, Vol.14, 1986, pp. 1261-1295. 8 B.Efron e R. Tibshirani, Bootstrap Methods for Standard Errosrs, Condence Intervals and Other Measures of Statistician Accuracy, Statistical Science, Vol. 1,1986, pp.54-77
7

da precis o. Em vez disso, a id ia do bootstrap e a de se empregarem as medias das a e reamostras para se estimar como a m dia amostral de uma amostra de tamanho N, exe trada dessa populacao, varia em decorr ncia da amostragem aleat ria. e o A utilizacao dos dados duas vezes - uma vez para se estimar a m dia populacional e e outra, para se estimar a variacao das medias amostrais - e um procedimento perfeita mente legitimo. zemos isso muitas vezes antes: por exemplo, quando calculamos J a tanto x quanto s/ n a partir dos mesmos dados. O que temos de diferente agora e que: (1) Calculamos um erro padr o utilizando a reamostragem, em vez da f rmula s/ n; a o (2) Utilizamos a distribuicao bootstrap para ver se a distribuicao amostral e, ou n o, aproximadamente Normal, em vez de simplesmente esperarmos que nossa a amostra seja grande o suciente para que o teorema central do limite se aplique; A id ia do bootstrap tamb m e v lida para outras estatsticas al m das medias e e a e amostrais. Para utilizarmos o bootstrap de maneira mais geral, lancamos m o de um a outro principio - um que j aplicamos diversas vezes sem pensarmos muito sobre ele. a Ele e conhecido como o principio do Plug-in. Este principio consiste em estimar um par metro, uma quantidade que descreve a populacao, utilizando a estatstica que e a a quantidade correspondente para a amostra. O principio do plug-in sugere que a m dia populacional seja estimada por meio e da m dia amostral x, e que o desvio padr o populacional seja estimado pelo desvio e a padr o amostral s. Da mesma forma pode-se estimar mediana populacional pela mea a diana amostral. Para estimarmos o desvio padr o / n da m dia amostral para uma a e AAS, aplicamos o principio do plug-in, empregando s na f rmula para obter . A id ia o e do bootstrap em si mesma e uma forma do principio do plug-in: substitua a distribuicao populacional pela distribuicao dos dados e, ent o extraia amostras (ou reamostras) que a imitem o processo de construcao de uma distribuicao amostral.

4. Distribuicao Amostral e distribuicao bootstrap


Os intervalos de conanca, os testes de hip teses e os erros padr es baseaim-se todos o o na id ia da distribuicao amostral de uma estatstica - a distribuicao dos valores que essa e estatstica pode assumir em todas as amostras possveis de mesmo tamanho extradas da mesma populacao. Na pr tica, n o podemos tomar um n mero muito grande de amostras a a u aleat rias para construir a distribuicao amostral. Em vez disso, utilizamos um atalho: se o j comecamos com um modelo para a distribuicao populacional, as leis da probabilidade a nos dizem (em algumas situacoes) qual e a distribuicao amostral. Se a populacao tem uma e distribuicao Normal, ent o a distribuicao amostral de x tamb m e Normal. a Em diversas situacoes, n o dispomos de qualquer modelo para a populacao. a Nesses casos, n o e possvel apelarmos para a teoria da probabilidade, e n o temos, a a tamb m condicoes de extrair uma quantidade muito grande de amostral. Numa situacao e como essa, o bootstrap vem em nosso auxlio. Usamos a unica de que dispomos como se fosse a populacao e dela extramos diversas reamostras, para construirmos a distribuicao bootstrap. Usa-se a distribuicao bootstrap no lugar da distribuicao amostral. Na pr tica, n o costuma ser exeq vel extrarem-se todas as reamostras possveis. a a u Realizamos o bootstrap utilizando cerca de 1000 reamostras escolhidas aleatoriamente.

Poderamos estimar diretamente a distribuicao amostral escolhendo aleatoriamente 1000 amostras de mesmo tamanho a partir da populacao original. Entretanto, e muito mais r pido e barato fazer o computador obter as reamostras a partir da amostra original, do a que se selecionar diversas amostras da populacao. Mesmo se dispus ssemos de um grande e orcamento, preferiramos gast -lo na obtencao de uma unica amostra maior do que em a diversas amostras menores. Uma amostra maior fornece uma estimativa mais precisa. Na maioria dos casos, a distribuicao bootstrap tem aproximadamente a mesma forma e dispers o da distribuicao amostral, por m est centrada no valor da estatstica a e a original, e n o no valor do par metro de interesse. O bootstrap permite-nos calcular os a a erros padr es originais das estatsticas para as quais n o dispomos de f rmulas, bem como o a o chegar a Normalidade para estatsticas que n o podem ser manipuladas facilmente pela a teoria.

5. Intervalos de conanca Bootstrap


Recordemos o j familiar intervalo de conanca t de uma amostra para a m dia de a e uma populacao Normal, s x t n e o Este intervalo se baseia na distribuicao Normal da m dia amostral x e na f rmula s/ n para o erro padr o de x. a Quando uma distribuicao bootstrap e aproximadamente Normal e tem um vi s e pequeno, podemos utilizar, essencialmente, os mesmos procedimentos com o erro padr o a bootstrap a m de obtermos um intervalo de conanca para qualquer par metro. a 5.1. O intervalo de conanca bootstrap t Suponha que a distribuicao bootstrap de uma estatstica extrada de uma AAS de tamanho n seja aproximadamente Normal e que o vi s seja pequeno. Um intervalo de conanca e de nvel C aproximado para o par metro que correspondente a essa estatstica, segundo o a princpio do plug-in, e estatistica t EPboot, estatstica onde t e o valor crtico da distribuicao t(n 1) com area C entre t e t . E possvel calcular-se um intervalo de conanca bootstrap-t para qualquer par metro, fazendo-se o bootstrap da estatstica correspondente (conforme o princpio a do plug-in). N o precisamos de condicoes sobre a populacao, nem de conhecimento esa pecial sobre a distribuicao amostral da estatstica. A natureza exvel e quase autom tica a dos intervalos bootstrap-t e algo maravilhoso - entretanto, existe uma armadilha. Esses intervalos funcionam bem somente quando a distribuicao bootstrap nos informa que a distribuicao amostral e aproximadamente Normal e possui um vi s pequeno. Como pode e mos saber se essas condicoes est o sendo sucientemente satisfeitas para que possamos a conar no intervalo de conanca?

Para isso, devemos averiguar por meio dos percentis do bootstrap. Os intervalos de conanca baseiam-se na distribuicao amostral de uma estatstica. Um intervalo de conanca de 95% comeca delimitando os 95% centrais da distribuicao amostral. Nos in tervalos de conanca t, os valores t crticos representam um atalho para a delimitacao desses 95% centrais, de maneira que nem sempre e adequado o emprego dos intervalos t. Uma maneira de se vericar se esses intervalos t (usando-se o bootstrap ou a f rmula para os erros padr es) s o razo veis e, portanto, compar -los com os 95% o o a a a centrais da distribuicao bootstrap, que s o delimitados pelos percentis de ordem 2,5 e a 97,5. Na distribuicao bootstrap, o intervalo entre esses dois valores e freq entemente uti u lizado como um intervalo de conanca por si s , sendo conhecido como um intervalo de o conanca percentil do bootstrap.

6. Aplicacao
Examplo 1 Ser mostrado a utilizacao do M todo Bootstrap atrav s de exemplos a e e pr ticos. Utilizou-se o programa Minitab. a A base de dados utilizada neste exemplo faz parte do programa S-Plus e est a disponvel em www.insightful.com/Hesterberg/bootstrap. A Verizon e a empresa respons vel (o termo legal e Distribuidora Titular de Telea fonia Local, DTTL*) por uma grande area da regi o leste dos Estados Unidos. Como a tal, cabe a ela fazer o servico de reparos para os clientes das demais companhias telef nicas dessa regi o (conhecidas como Distribuidoras Concorrentes de Telefonia Loo a cal, DCTL**). A Verizon estar sujeita a multas caso os tempos de reparo (tempo para a resolver problemas nas linhas telef nicas) para os clientes das empresas concorrentes o forem substancialmente maiores que os tempos para os seus pr prios clientes. Isso e o determinado por meio de testes de hip teses, negociados junto a Comiss o de Servicos o a ` P blicos (CSP). u Comecemos nossa an lise observando os pr prios clientes da Verizon. A gura 1 a o mostra a distribuicao de uma amostra aleat ria de 1664 tempos de reparo, constantes do o arquivo eg180 01.txt. Uma r pida olhada na distribuicao revela que os dados est o longe a a ` de ter uma distribuicao Normal. A distribuicao tem uma longa cauda a direta (assimetria ` a direita). Para os clientes da Verizon desta amostra, o tempo m dio dos reparos foi x = 8, 41 e horas. Essa e uma estatstica extrada da uma unica amostra aleat ria (embora bastante o a grande). Se tomarmos mais amostras, a estatstica x ir variar, e sua conabilidade como estimador da m dia populacional depende de quanto ela varia de amostra para amostra. e

Figura 1. Histograma

Figura 2. Probability Plot

` O gr co acima mostra a fuga clara a normalidade, apresentando uma grande a assimetria. O gr co a seguir mostra a distribuicao de 1000 m dias de reamostras para os a e dados dos tempos de reparo da Verizon, utilizando um histograma e uma curva de densidade.

Figura 3. Simulacao bootstrap de 1000 medias Vemos que a distribuicao bootstrap e aproximadamente Normal. O teorema cen tral do limite diz que a distribuicao amostral da m dia x e aproximadamente Normal se n e o bootstrap est pr xima daquela que esperamos for grande. Assim, a forma da distribuica a o que a distribuicao amostral tenha. ` e A distribuicao bootstrap est centrada pr ximo a m dia da amostra original. Ou a o seja, como estimador da m dia da amostra original, a m dia da distribuicao bootstrap ape e resenta um vi s pequeno. Sabemos que a distribuicao amostral de overlinex est centrada e a a na m dia populacional , ou seja, que x e um estimador n o-viciado de . Dessa forma, e a distribuicao das reamostras de novo se comporta ( a partir da amostral original) como esperaramos que a distribuicao amostral se comportasse (a partir da populacao).

Encontraremos tamb m o intervalo de conanca para a m dia e para a mediana e e para as 1000 m dia reamostradas. e MTB > %intervalo.mac c1 1000 1 0,05 Executing from file: intervalo.mac Bootstrap Confidence Interval The 95% Bootstrap Confidence Interval (Percentile Method) Mean 8,41480 Lower Bound 7,73949 Upper Bound 9,13879

Para encontrarmos tal intervalo, utilizou-se uma macro que necessita de tr s e informacoes: (b, est, alfa). Supondo que o conjunto de valores de interesse se encontra na c lula C1 do aplicativo, temos que entrar com as seguintes informacoes: (b= n mero de e u interacoes). Neste exemplo utilizou-se um total de 1000 interacoes. A seguir, temos (est). O valor (1) representa que foi solicitado um intervalo de conanca para a m dia e o valor e (2) indica a solicitacao de um intervalo de conanca para a mediana. E o ultimo valor de entrada e o nvel de signic ncia do teste. Neste exemplo, procuramos um intervalo ao a nvel de 95% de conanca. A macro(Condence Intervals for the Mean or Median ing Bootstrap Methods) se encontra disponvel na internet (http://www.minitab.com.au/support/macros/default.aspx?action=code&id=108) usem:

A seguir, encontramos o intervalo de conanca bootstrap para a mediana pelo m todo dos percentis. e MTB > %intervalo.mac c1 1000 2 0,05 Executing from file: intervalo.mac Bootstrap Confidence Interval The 95% Bootstrap Confidence Interval (Percentile Method) Median 3,6 Lower Bound 3,22 Upper Bound 3,82

O intervalo de conanca para o valor mediano e de 3,22 a 3,82. Foi utilizado o m todo dos percentis, com um nvel de conanca de 95%. e

Figura 4. Simulacao bootstrap Examplo 2 Considere uma amostra qualquer (por exemplo, a amostra MEDIDAS.MTW, disponvel em ftp://ftp.est.ufmg.br/pub/fcruz/pacotes/MEDIDAS.MTW. original 9,2980 9,3938 11,3871 9,4259 10,8253 . . . media_o reamostra media_r media

Suponha que voc queira fazer infer ncia sobre a m dia da populacao correspone e e dente, mas como a amostra e muito pequena, decide usar a t cnica de bootstrap (uma e t cnica de reamostragem), para melhorar a sua estimativa. e Iremos construir uma macro que (i) extraia 5 amostras desta amostra (na pr tica a s o necess rias umas 200), de igual tamanho, com reposicao, (ii) calcule a media de cada a a uma destas 5 amostras e (iii) disponibilize a diferenca entre duas vezes a m dia da amostra e original e m dia das m dias das reamostras (a estimativa melhorada). e e Suponha que voc queira fazer infer ncia sobre a m dia da populacao corree e e spondente, mas como a amostra e muito pequena, decide usar a t cnica de bootstrap e (reamostragem), para melhorar a sua estimativa. Construa uma macro que (i) extraia 5 amostras desta amostra, de igual tamanho, com reposicao, (ii) calcule a media destas 5 amostras e (iii) disponibilize a m dia destas e m dias (a estimativa melhorada), xb = 2x x . e

MTB > base 1000 MTB > %frederico.mac Executing from file: frederico.mac Data Display media 9,85763 No Minitab, obteve-se os seguintes resultados. original 9,2980 9,3938 11,3871 9,4259 10,8253 . . . media_o 9,90392 reamostra 11,3871 9,3925 11,3871 9,2980 9,3938 media_r 9,9908 10,0543 9,6418 10,1064 9,9578 media 9,85763

Logo, temos a m dia da amostra original x = 9, 903293 e a m dia das m dias das e e e reamostras 9,85763.

7. Conclus o a
Neste trabalho vericou-se que para se fazer o bootstrap para uma estatstica (por exem plo a m dia amostral), deve-se retirar centenas de reamostras com reposicao a partir da e amostra original e calcular a estatstica em quest o para cada reamostra e inspecionar a a distribuicao bootstrap das estatsticas dessas reamostras. Procuramos aplicar a metodologia bootstrap a exemplos pr ticos e observamos a que a distribuicao bootstrap aproxima-se da distribuicao amostral da estatstica. Isso e um exemplo do princpio do plug-in. Em geral, as distribuicoes bootstrap possuem aproxi madamente a mesma forma e dispers o da distribuicao amostral, por m est centrada na a e a estatstica (dos dados originais), ao passo que a distribuicao amostral est centrada no a par metro da populacao. a Na an lise do exemplo Verizon, constatou-se que o bootstrap n o e um substia a tuto para o acr scimo de dados com vistas ao aumento da precis o. Em vez disso, a e a id ia do bootstrap e a de se empregar as m dias das reamostras para se estimar como a e e m dia amostral de uma amostral de tamanho 1664, extrada dessa populacao, varia em e decorr ncia da amostra aleat ria. e o A t cnica de bootstrap tenta realizar o que seria desej vel realizar na pr tica, se tal e a a fosse possvel: repetir a experi ncia. As observacoes s o escolhidas de forma aleat ria e e a o as estimativas re-calculadas.

Refer ncias e
[1] FERREIRA, Daniel Furtado. (2005). ESTATISTICA BASICA. , 1 ed. Editora LAVRAS, 2005. [2] MOORE, David S (2006). THE PRACTICE OF BUSINESS STATISTICS: Using data for decisions., 1a. ed. LTC, Rio de Janeiro, 2006. [4] J.L. Horowitz. (1997). Bootstrap Methods in Econometrics: Theory and Performance; em D.M Kreps e K.F. Wallis (eds.), Advances in Economics and Econometrics: Theory and Applications.,7ed. Iowa State University Press, Amer. Iowa. [4] J. Jeong e G.S. Maddala, A Perspective on Application of Bootstrap Methods in Econometrics, em G. S. Maddala, C.R. Rao e H. D. Vinod (eds.), Handbook of Statistics, Vol. 11 ( Amsterd : Elsevier Science, 1993), pp. 573-610. a

Вам также может понравиться