Вы находитесь на странице: 1из 124

INFERENCIA ESTATSTICA I

RICARDO S. EHLERS

Primeira publicao em 2003 ca Segunda edio publicada em 2006 ca RICARDO SANDES EHLERS 2003-2006

Sumrio a
1 Introduo ca 1.1 Princ pios de estimao . . . . . ca 1.2 Funo de Verossimilhana . . . ca c 1.3 Sucincia e fam exponencial e lia 1.3.1 Fam Exponencial . . lia 1.4 Problemas . . . . . . . . . . . . 1.5 Teorema Central do Limite . . . 1 2 3 7 9 10 12 13 17 17 18 20 22 22 30 31 32 34 36 37 38 40 40 41 41 42 43 43 44

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

2 Propriedades dos Estimadores 2.1 Estimadores baseados em estatisticas sucientes 2.2 Ecincia . . . . . . . . . . . . . . . . . . . . . e 2.3 Consistncia . . . . . . . . . . . . . . . . . . . . e 2.4 Problemas . . . . . . . . . . . . . . . . . . . . . 3 Mtodos de Estimao e ca 3.1 Estimadores de Mxima Verossimilhana a c 3.1.1 Comentrios . . . . . . . . . . . . a 3.1.2 Problemas . . . . . . . . . . . . . 3.2 Mtodo dos Momentos . . . . . . . . . . e 3.3 Estimadores de M nimos Quadrados . . . 3.4 Problemas . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

4 Estimao Bayesiana ca 4.1 Distribuio a Posteriori . . . . . . . . . . . . . . . . ca 4.1.1 Observaes Sequenciais . . . . . . . . . . . . co 4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Distribuies a Priori Conjugadas . . . . . . . . . . . co 4.3.1 Amostrando de um Distribuio de Bernoulli . ca 4.3.2 Amostrando de uma Distribuio de Poisson . ca 4.3.3 Amostrando de uma Distribuio Exponencial ca 4.3.4 Amostrando de uma Distribuio Multinomial ca 4.3.5 Amostrando de uma Distribuio Normal . . . ca i

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

ii 4.4 4.5 Problemas . . . . . . . . . . . Estimadores de Bayes . . . . . 4.5.1 Introduo ` Teoria da ca a 4.5.2 Estimadores de Bayes . Problemas . . . . . . . . . . . . . . . . . . . . . Deciso a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

SUMARIO . . . . . . . . . . . . . . . . . . . . 46 48 48 49 52 54 55 57 57 59 61 62 63 64 65 66 68 68 72 73 73 76 79 82 84 84 86 87 89 90 92 93 95 97 98 99 100 102 103

4.6

5 Estimao por Intervalos ca 5.1 Procedimento Geral . . . . . . . . . . . . . . 5.2 Estimao no Modelo Normal . . . . . . . . ca 5.2.1 O caso de uma amostra . . . . . . . 5.2.2 O caso de duas amostras . . . . . . . 5.2.3 Varincias desiguais . . . . . . . . . . a 5.2.4 Comparao de varincias . . . . . . ca a 5.2.5 Amostras pareadas . . . . . . . . . . 5.2.6 Comentrio . . . . . . . . . . . . . . a 5.3 Intervalos de conana para uma proporo c ca 5.4 Intervalos de Conana Assintticos . . . . . c o 5.4.1 Usando a Funo Escore . . . . . . . ca 5.5 Problemas . . . . . . . . . . . . . . . . . . . 5.6 Intervalos Bayesianos . . . . . . . . . . . . . 5.7 Estimao no Modelo Normal . . . . . . . . ca 5.7.1 Varincia Conhecida . . . . . . . . . a 5.7.2 Mdia e Varincia desconhecidas . . e a 5.7.3 O Caso de duas Amostras . . . . . . 5.8 Problemas . . . . . . . . . . . . . . . . . . . 6 Testes de Hipteses o 6.1 Introduo e notao . . . . . . . . . . . . . ca ca 6.1.1 Tipos de Deciso . . . . . . . . . . . a 6.1.2 A Funo Poder . . . . . . . . . . . . ca 6.1.3 Problemas . . . . . . . . . . . . . . . 6.2 Testando Hipteses Simples . . . . . . . . . o 6.2.1 Problemas . . . . . . . . . . . . . . . 6.3 Probabilidade de signicncia (P -valor) . . . a 6.4 Testes Uniformemente mais Poderosos . . . 6.4.1 Problemas . . . . . . . . . . . . . . . 6.5 Testes Bilaterais . . . . . . . . . . . . . . . . 6.5.1 Testes Gerais . . . . . . . . . . . . . 6.6 Testes de Hipteses no Modelo Normal . . . o 6.6.1 Testes para Vrias Mdias . . . . . . a e 6.6.2 Varincias Desconhecidas e Desiguais a

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

SUMARIO 6.6.3 Comparao de Varincias ca a 6.6.4 Problemas . . . . . . . . . Testes Assintticos . . . . . . . . o 6.7.1 Teste Qui-quadrado . . . . Problemas . . . . . . . . . . . . . Testes Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iii 103 104 107 108 111 112 113 113 113 114 114 114 115 115 115 116 116 116 120

6.7 6.8 6.9

A Lista de Distribuies co A.1 Distribuio Normal . . . . . . ca A.2 Distribuio Gama . . . . . . . ca A.3 Distribuio Gama Inversa . . . ca A.4 Distribuio Beta . . . . . . . . ca A.5 Distribuio de Dirichlet . . . . ca A.6 Distribuio t de Student . . . . ca A.7 Distribuio F de Fisher . . . . ca A.8 Distribuio Binomial . . . . . . ca A.9 Distribuio Multinomial . . . . ca A.10 Distribuio de Poisson . . . . . ca A.11 Distribuio Binomial Negativa ca References

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

Cap tulo 1 Introduo ca


Inferncia estat e stica o processo pelo qual podemos tirar concluses acerca de e o um conjunto maior (a populao) usando informao de um conjunto menor (a ca ca amostra). Em estat stica, o termo populao no se refere necessariamente a ca a pessoas, plantas, animais, etc. Ele poderia tambm se referir, por exemplo, a e fsseis, rochas e sedimentos num determinado local, itens produzidos em uma o linha de montagem, etc. A populao se refere a todos os casos ou situaes sobre as quais o pesquisador ca co quer fazer inferncias. Diferentes pesquisadores podem querer fazer inferncias e e acerca da concentrao de poluentes num determinado lenol fretico; predizer a ca c a quantidade de petrleo num poo a ser perfurado e assim por diante. o c Note que o investigador no est interessado em todos os aspectos da popua a lao. O pesquisador pode no estar interessado em estudar a concentrao de ca a ca todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo. Uma amostra um subconjunto qualquer da populao usado para obter e ca informao acerca do todo. Algumas razes para se tomar uma amostra ao invs ca o e de usar a populao toda so as seguintes, ca a custo alto para obter informao da populao toda, ca ca tempo muito longo para obter informao da populao toda, ca ca algumas vezes imposs vel, por exemplo, estudo de poluio atmosfrica ca e algumas vezes logicamente imposs vel, por exemplo, em ensaios destrutivos. Uma denio mais formal de amostra dada a seguir. ca e Denio 1.1 Sejam as variveis aleatrias X = (X1 , . . . , Xn ) com funo de ca a o ca (densidade) de probabilidade conjunta f (x) fatorando nas densidades marginais como f (x) = f (x1 )f (x2 ) . . . f (xn ) 1

CAP ITULO 1. INTRODUCAO

sendo f () a densidade comum de todos Xi s. Ento X1 , . . . , Xn denida como a e uma amostra aleatria de tamanho n da populao com densidade f (). o ca Caracter sticas de uma populao que diferem de um indiv ca duo para outro e aquelas que temos interesse em estudar so chamadas variveis. Alguns exemplos a a so comprimento, massa, idade, temperatura, nmero de ocorrncias, etc. Cada a u e membro da populao que escolhido como parte de uma amostra fornece uma ca e medida de uma ou mais variveis, chamadas observaes. a co

1.1

Princ pios de estimao ca

Suponha que estamos interessados em um parmetro populacional (desconhecido) a . O conjunto aonde assume valores denominado espao paramtrico. e c e Exemplo 1.1 : Se X P oisson(), ento = { : > 0}. a Exemplo 1.2 : Se X N (, 1), ento = { : < < }. a Exemplo 1.3 : Se X N (, 2 ), ento = {(, 2 ) : < < , 2 > 0}. a Podemos estimar o parmetro usando a informao de nossa amostra. a ca Chamamos este unico nmero que representa o valor mais plaus do parmetro u vel a (baseado nos dados amostrais) de uma estimativa pontual de . Alguns exemplos so a mdia amostral, o desvio padro amostral, a mediana amostral, os quais a e a estimam a verdadeira mdia, desvio padro e mediana da populao (que so e a ca a desconhecidos). Denio 1.2 Uma estat ca stica uma funo qualquer das variveis aleatrias e ca a o observveis X1 , . . . , Xn que no depende do parmetro desconhecido. a a a Note que por esta denio, uma estat ca stica tambm uma varivel aleatria e e a o observvel. Estat a sticas so usualmente representadas por letras latinas, (por a e a exemplo, X para a mdia amostral, S para o desvio padro amostral), enquanto que parmetros so usualmente representados por letras gregas (por exemplo, a a para a mdia populacional, para o desvio padro populacional). E claro que ` e a a medida que a amostra aumenta, mais informao ns teremos acerca da populao ca o ca de interesse, e portanto mais precisas sero as estimativas dos parmetros de a a interesse. Denio 1.3 Qualquer estat ca stica que assume valores em denominada um e estimador para .

1.2. FUNCAO DE VEROSSIMILHANCA

Das denies acima segue ento que qualquer estimador uma estat co a e stica mas nem toda estat stica dene um estimador. Denio 1.4 Momentos amostrais: Para uma amostra aleatria X1 , . . . , Xn o ca o k-simo momento amostral denido como e e Mk = 1 n
n

Xik
i=1

e e o k-simo momento amostral em torno de X denido como e


Mk =

1 n

i=1

(Xi X)k

1.2

Funo de Verossimilhana ca c

Seja uma unica varivel aleatria X cuja distribuio depende de um unico a o ca parmetro . Para um valor x xo e variando , p(x|) = l(; x) a plausia e bilidade ou verossimilhana de cada um dos valores de . Assim, a funo de c ca verossimilhana de uma funo que associa o valor de p(x|) a cada um dos c e ca poss veis valores de . Vale notar que l(; x) no uma funo de densidade de a e ca probabilidade, i.e. em geral l(; x)d = 1.

Exemplo 1.4 : Se X Binomial (2, ) ento a p(x|) = l(; x) = 2 x (1 )2x , x x = 0, 1, 2 (0, 1)

e a integral da funo de verossimilhana em relao a dada por ca c ca e l(; x)d = 2 x


1 0

x (1 )2x d.

Mas o integrando o ncleo da funo de densidade de uma distribuio Beta e u ca ca (ver Apndice A) com parmetros x + 1 e 3 x, portanto e a
1 0

x (1 )2x d =

(x + 1)(3 x) x!(2 x)! = . (x + 1 + 3 x) 3!

CAP ITULO 1. INTRODUCAO

Esta ultima igualdade vem do fato que sendo x um nmero inteiro positivo ento u a (x) = (x 1)!. Aps algumas simplicaes segue que o co 1 l(; x)d = . 3 Alm disso, para cada poss e vel valor observado de X temos um valor mais plaus para , vel (i) l(; x = 1) = 2(1 ) e o valor mais provvel de 1/2. a e (ii) l(; x = 2) = 2 e o valor mais provvel 1. a e (iii) l(; x = 0) = (1 )2 e o valor mais provvel 0. a e Claro que na prtica um unico valor de X ser observado. Na Figura 1.1 esto a a a representadas as funes de verossimilhana para uma unica varivel aleatria X co c a o com distribuies Binomial(2,), Poisson() e Exponencial(). co Se x = (x1 , . . . , xn ) so os valores observados das variveis aleatrias a a o X1 , . . . , Xn cuja funo de (densidade) de probabilidade conjunta p(x|) ento ca e a a funo de verossimilhana de l(; x) = p(x|). No caso particular em que ca c e X1 , . . . , Xn so variveis aleatrias independentes e identicamente distribuidas, a a a o funo de verossimilhana de correpondente ` amostra observada x1 , . . . , xn ca c a e dada por
n

l(; x) =
i=1

p(xi |).

Note porm que a denio de verossimilhana no requer que os dados sejam e ca c a observaes de variveis aleatrias independentes ou identicamente distribuidas. co a o Alm disso, fatores que dependem somente de x e no dependem de podem ser e a ignorados quando se escreve a funo de verossimilhana j que eles no fornecem ca c a a informao sobre a plausibilidade relativa de diferentes valores de . ca No caso geral pode ser um escalar, um vetor ou mesmo uma matriz de parmetros. a

Informao de Fisher ca
Denio 1.5 Considere uma unica observao X com funo de (densidade) ca ca ca de probabilidade p(x|). A medida de informao esperada de Fisher de atravs ca e de X denida como e 2 log p(x|) . I() = E 2

1.2. FUNCAO DE VEROSSIMILHANCA

No caso de um vetor paramtrico = (1 , . . . , k ) dene-se a matriz de infore mao esperada de Fisher de atravs de X como ca e I() = E 2 log p(x|) .

Note que o conceito de informao aqui est sendo associado a uma espcie de ca a e curvatura mdia da funo de verossimilhana no sentido de que quanto maior a e ca c curvatura mais precisa a informao contida na verossimilhana, ou equivalene ca c temente maior o valor de I(). Em geral espera-se que a curvatura seja negativa e por isso seu valor tomado com sinal trocado. Note tambm que a esperana e e c matemtica tomada em relao ` distribuio amostral p(x|). a e ca a ca

0.8

l( )

0.4

l( )

x=0 x=1 x=2

0.8

0.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.4

x=0 x=1 x=2 x=8

10

0.4

0.6

x=0.5 x=1 x=2 x=5

l( )

0.0 0

0.2

Figura 1.1: Funes de verossimilhana para uma unica varivel aleatria X com co c a o distribuies Binomial(2,), Poisson() e Exponencial(). co Podemos considerar ento I() uma medida de informao global enquanto a ca que uma medida de informao local obtida quando no se toma o valor esperado ca e a na denio acima. A medida de informao observada de Fisher J() ca ento ca ca a

6 denida como J() =

CAP ITULO 1. INTRODUCAO 2 log p(x|) . 2

Lema 1.1 Seja X = (X1 , . . . , Xn ) uma coleo de variveis aleatrias indepenca a o dentes com distribuies pi (x|), i = 1, . . . , n e sejam I(), J(), Ji () e Ii () co as medidas de informao de obtidas atravs de X e de Xi , respectivamente. ca e Ento, a
n n

I() =
i=1

Ii () e J() =
i=1

Ji ().

Prova. A prova simples e ser deixada como exerc e a cio. O lema nos diz ento que a informao total contida em observaes indepena ca co dentes igual a soma das informaes individuais. Um caso particular importante e co quando as observaes so tambm identicamente distribuidas j que neste caso e co a e a Ii () constante e assim a informao total simplesmente nI(). e ca e Outra estat stica muito importante no estudo da funo de verossimilhana e ca c que ser util a funo escore denida a seguir. a e ca Denio 1.6 A funo escore de X denotada por U (X; ) dada por ca ca e U (X; ) = log p(X|) .

No caso de um vetor paramtrico = (1 , . . . , k ) a funo escore ser um vetor e ca a U (X; ) com componentes Ui (X; ) = log p(X|)/i . Alm disso, pode-se mostrar que sob certas condies de regularidade o valor e co esperado da funo escore zero e sua varincia dada por I()1 (a prova ser ca e a e a deixada como exerc cio). Segue ento que uma forma alternativa de clculo da a a informao de Fisher obtida a partir da funo escore como ca e ca I() = E[U 2 (X; )] onde a esperana tomada em relao ` distribuio de X|. No caso de um c e ca a ca vetor paramtrico o resultado ca e I() = E[U (X; )U (X; ) ].

Exemplo 1.5 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio exponeno ca


1 As condies de regularidade referem-se ` verossimilhana ser derivvel em todo o espao co a c a c paramtrico e ` troca dos sinais de derivao e integrao. e a ca ca

1.3. SUFICIENCIA E FAM ILIA EXPONENCIAL cial com parmetro . A funo de densidade de cada Xi dada por a ca e p(xi |) = exi , > 0,

e portanto a funo de densidade conjunta dada por ca e


n

p(x|) = e

n t

> 0,

sendo t =
i=1

xi .

Tomando-se o logaritmo obtm-se e log p(x|) = n log() t de modo que as derivadas de primeira e segunda ordem so a n log p(x|) = t e 2 log p(x|) n = 2 2

e a informao esperada de Fisher baseada na amostra nI() = n/2 . Alm ca e e disso, n n U (X, ) = Xi . i=1 Exemplo 1.6 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poisson o ca com parmetro . A funo de densidade conjunta dada por a ca e
n

p(x|) =
i=1

1 exp()xi = exp(n)t , xi ! xi ! i=1

> 0,

onde t =
i=1

xi .

As derivadas de primeira e segunda ordem do logaritmo da verossimilhana so c a log p(x|) t = n + e 2 log p(x|) t = 2 2

e portanto a informao esperada de Fisher ca e I() = 1 E 2


n

Xi =
i=1

1 2

E(Xi ) =
i=1

n n = . 2

1.3

Sucincia e fam exponencial e lia

Dado um conjunto de observaes X = (X1 , , Xn ), ser que existe alguma co a funo T (X) que resume toda a informao contida em X? Esta idia d origem ca ca e a ao conceito de estat stica suciente denido a seguir.

CAP ITULO 1. INTRODUCAO

Denio 1.7 T (X) uma estat ca e stica suciente para o parmetro se a p(x|t, ) = p(x|t). Assim, dado T , X no traz nenhuma informao adicional a ca sobre o parmetro . a Ou seja por esta denio, ao invs de observar X basta observar T que pode ca e ter dimenso muito menor. Na prtica esta denio dif de ser aplicada e a a ca e cil precisamos de uma ferramenta adicional. Teorema 1.1 (Critrio de fatorao de Neyman) T (X) suciente para se e ca e somente se p(x|) = f (t, )g(x) com f e g no negativas. a Exemplo 1.7 : Sejam X = (X1 , , Xn ) observaes tipo 0-1 com co P (Xi = 1|) = . Ento para r sucessos e s falhas a verossimilhana a c e
n

p(x|) = (1 ) e T (X) =

nt

onde t =
i=1

xi

Xi uma estat e stica suciente para .

Exemplo 1.8 : Dado , X1 , , Xn so iid com densidades p(xi |). Ento a a a densidade conjunta e
n

p(x|) = p(x1 , , xn |) = Denindo as estat sticas de ordem

i=1

p(xi |).

Y1 = X(1) = min Xi Yn = X(n) = max Xi


i i

e como a cada xi corresponde um unico yi ento a


n n

p(x|) =
i=1 n

p(xi |) =

i=1

p(yi |) = g(x)f (t, )

com g(x) = 1, f (t, ) =


i=1

p(yi |) e t = (y1 , , yn ).

Concluso: T = (Y1 , , Yn ) estat a e stica suciente para e a dimenso de T a depende do tamanho amostral. O que se pode notar deste ultimo exemplo que o conceito de sucincia e e

1.3. SUFICIENCIA E FAM ILIA EXPONENCIAL

no necessariamente util. Na prtica estamos interessados em uma reduo a e a ca signicativa em relao ao tamanho amostral. Um questo que se coloca como ca a e obter estat sticas sucientes que gerem a maior reduo poss nos dados. ca vel Denio 1.8 T (X) estat ca e stica suciente minimal para se for suciente e se for funo de qualquer outra estat ca stica suciente para . Alm disso pode-se mostrar que, e Se S(X) funo bijetiva de T (X) ento S tambm suciente. e ca a e e Estat sticas sucientes minimais so unicas. a Existem distribuies com estat co sticas sucientes cuja dimenso igual ao a e nmero de parmetros para qualquer tamanho n da amostra. Isto nos remete `s u a a denies da prxima seo. co o ca

1.3.1

Fam Exponencial lia

A fam exponencial inclui muitas das distribuies de probabilidade mais colia co mumente utilizadas em Estat stica, tanto cont nuas quanto discretas. Uma caracter stica essencial desta fam que existe uma estat lia e stica suciente com dimenso xa. a Denio 1.9 A fam de distribuies com funo de (densidade) de probabilca lia co ca idade p(x|) pertence ` fam exponencial a um parmetro se podemos escrever a lia a p(x|) = a(x) exp{u(x)() + b()}. Note que pelo critrio de fatorao de Neyman U (X) uma estat e ca e stica suciente para . A denio de fam exponencial pode ser estendida ao caso multiparamca lia e trico com = (1 , . . . , r ) e quando se tem uma amostra aleatria X1 , . . . , Xn , o i.e.
n r n

p(x|) =
i=1

a(xi ) exp
j=1 i=1

uj (xi ) j () + nb()

Neste caso, denindo Uj (X) = a e i Uj (xi ), i = 1, . . . , n, ento pelo critrio de fatorao, T = (U1 (X), . . . , Ur (X)) uma estat ca e stica conjuntamente suciente para o vetor de parmetros . a

10 Exemplo 1.9 : (X1 , , Xn ) Bernoulli()

CAP ITULO 1. INTRODUCAO

p(x|) = x (1 )1x Ix ({0, 1}) + log(1 ) Ix ({0, 1}) = exp x log 1


n

p(x|) = exp

xi
i=1

log

+ n log(1 ) Ix ({0, 1}n )


n i=1

Concluso: A Bernoulli pertence ` fam exponencial e U = a a lia tica suciente para . Exemplo 1.10 : (X1 , , Xn ) Poisson()

Xi estat e s-

e x 1 Ix ({0, 1, }) = exp{ + x log }Ix ({0, 1, }) x! x! 1 exp{n + xi log }Ix ({0, 1, }n ) p(x|) = xi ! p(x|) = Concluso: A Poisson pertence ` fam exponencial e U = a a lia suciente para . Exemplo 1.11 : (X1 , , Xn ) Normal(, 2 ) p(xi |, 2 ) = (2 2 )1/2 exp{(xi )2 /2 2 } 2 1 1 = (2)1/2 exp xi 2 x2 2 log 2 i 2 2 2 2 p(x|, ) = (2)
2 n/2 n i=1

Xi estat e stica

exp

i=1

1 xi 2 2

i=1

x2 i

n 2

2 + log 2 2
n i=1

Concluso: A Normal pertence ` fam exponencial e U = ( a a lia estat e stica conjuntamente suciente para (, 2 ).

Xi ,

n i=1

Xi2 )

1.4

Problemas

1. Uma unica varivel aleatria X tem distribuio de Bernoulli com a o ca parmetro desconhecido mas sabe-se que = 0, 25 ou = 0, 75. A a tabela abaixo descreve a distribuio de X para cada poss valor de . ca vel (a) Explique por que a soma em cada coluna igual a 1 mas a soma em e cada linha no . a e (b) Qual valor de voc escolheria como o mais plaus se X = 1 for e vel

1.4. PROBLEMAS X 0 1 0,25 0,75 1/4 5/6 3/4 1/6

11

observado? 2. Explique as diferenas entre estat c sticas, estimadores e estimativas. 3. Se X1 , . . . , Xn uma amostra aleatria da N (, 2 ) prove que se S 2 = e o n 1 2 a i=1 (Xi X) ento n1 U= (n 1)S 2 2 . n1 2

4. Prove o Lema 1.1, i.e. que a informao total contida em observaes ca co independentes igual a soma das informaes individuais. e co 5. Prove que a mdia da funo escore zero e sua varincia igual a I(). e ca e a e 6. Se X1 , . . . , Xn Bernoulli(p) obtenha a informao de Fisher para p. ca 7. X1 , . . . , Xn N (, 2 ) obtenha a matriz de informao de Fisher para ca 2 (, ). 8. Seja uma amostra aleatria X1 , . . . , Xn de cada uma das distribuies o co abaixo. Mostre que a estat stica T especicada uma estat e stica suciente para o parmetro. a (a) Distribuio de Bernoulli com parmetro p desconhecido, T ca a n i=1 Xi . (b) Distribuio geomtrica com parmetro p desconhecido, T = ca e a
n i=1

= Xi .

(c) Distribuio binomial negativa com parmetros r conhecido e p deca a n sconhecido, T = i=1 Xi . (d) Distribuio normal com mdia conhecida e varincia 2 desconca e a n 2 hecida, T = i=1 (Xi ) .

(e) Distribuio gama com parmetros conhecido e desconhecido, T = ca a X. (f) Distribuio gama com parmetros desconhecido e conhecido, T = ca a n i=1 Xi .

(g) Distribuio beta com parmetros desconhecido e conhecido, T = ca a n i=1 Xi .

12

CAP ITULO 1. INTRODUCAO (h) Distribuio uniforme nos inteiros 1, 2, . . . , para desconhecido ( = ca 1, 2, . . . ), T = max(X1 , . . . , Xn ). (i) Distribuio uniforme no intervalo (a, b) com a conhecido e b desconca hecido (b > a), T = max(X1 , . . . , Xn ). (j) Distribuio uniforme no intervalo (a, b) com a desconhecido e b conca hecido (a < b), T = min(X1 , . . . , Xn ). 9. Verique que cada uma das fam lias de distribuies abaixo uma fam co e lia exponencial e obtenha as estat sticas sucientes de dimenso m a nima. (a) A fam de distribuies de Bernoulli com parmetro p desconhecido. lia co a (b) A fam de distribuies de Poisson com mdia desconhecida. lia co e (c) A fam de distribuies Normais com mdia desconhecida e varincia lia co e a conhecida. (d) A fam de distribuies Normais com mdia conhecida e varincia lia co e a desconhecida. (e) A fam de distribuies Gama(, ) com desconhecido e conlia co hecido. (f) A fam de distribuies Gama(, ) com conhecido e desconlia co hecido. (g) A fam de distribuies Beta(, ) com desconhecido e conlia co hecido. (h) A fam de distribuies Beta(, ) com conhecido e desconlia co hecido.

1.5

Teorema Central do Limite

Um resultado que nos permite conduzir alguns procedimentos de inferncia sem e qualquer conhecimento da distribuio da populao apresentado a seguir. ca ca e Teorema 1.2 Se X1 , X2 , . . . so variveis aleatrias independentes e identicaa a o 2 mente distribuidas com mdia e varincia < e X n = n Xi /n ento e a a i=1 com Y N (0, 2 ). Para simplicar a notao usualmente escreve-se (1.1) como ca n(X n ) N (0, 2 ), quando n .
D

n(X n ) Y, quando n

(1.1)

Cap tulo 2 Propriedades dos Estimadores


Na inferncia estat e stica clssica no existe um critrio unico para escolha de a a e estimadores em um dado problema, mas sim um conjunto de critrios que podem e ser utilizados para seleo e comparao. Estes critrios ou propriedades so ca ca e a descritos a seguir. Denio 2.1 Seja uma amostra aleatria X1 , . . . , Xn tomada de uma disca o tribuio parametrizada por . O erro quadrtico mdio de um estimador de ca a e denido como e EQM () = E( )2 . Podemos reescrever esta ultima expresso como a EQM () = E[( E()) + (E() )]2 = E[ E()]2 + [E() ]2 = V ar() + [E() ]2 . onde o termo E() chamado v ou vis do estimador e denotado por B(). e cio e Assim, o erro quadrtico mdio denido como a varincia do estimador a e e a mais o quadrado do seu vis. Um caso particular ocorre quando B() = 0, ou e equivalentemente E() = , i.e. o v do estimador nulo. Neste caso diz-se cio e um estimador no viesado (ENV) para e da Denio 2.1 segue que que e a ca = V ar(). A interpretao clssica desta denio que, aps observar EQM () ca a ca e o todas as poss veis amostras de tamanho n desta distribuio a mdia dos valores ca e ser . calculados de a = ento o estimador dito ser viesado ou viciado. No entanto e Se E() a pode ocorrer que a esperana do estimador se aproxima do verdadeiro valor de c ` medida que aumenta o tamanho da amostra, i.e. limn E() = . Neste caso, a e dito ser uma estimador assintoticamente no viesado para . a Exemplo 2.1 : Sejam as variveis aleatrias X1 , . . . , Xn independentes e identia o camente distribuidas com E(Xi ) = e V ar(Xi ) = 2 . Ento, a 13

14 (i) E(X) = 1 n
n

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES E(Xi ) =


i=1 n

1 n

=
i=1 n

1 (i) V ar(X) = 2 n

i=1

1 V ar(Xi ) = 2 n

2 =
i=1

2 . n

e e a Portanto a mdia amostral X um ENV da mdia populacional e sua varincia e 2 dada por /n diminui com o tamanho da amostra. Exemplo 2.2 : (continuao) Suponha agora que o seguinte estimador 2 = ca n 2 2 (1/n) i=1 (Xi X) proposto para . Ento e a E( 2 ) = 1 E n
n

i=1

(Xi X)2 .

Mas a soma dos quadrados em torno da mdia amostral pode ser reescrita como e
n n

i=1

(Xi X)

=
i=1 n

[(Xi ) (X )]2
n

=
i=1 n

(Xi )2 2(X )

i=1

(Xi ) + n(X )2

=
i=1

(Xi )2 n(X )2 .

Assim, a esperana do estimador dada por c e 1 E( ) = n


2 n

i=1

E(Xi )2 nE(X )2 = 2

2 = n

n1 n

e conclui-se que 2 no um ENV para 2 . Porm, a e e lim n1 n 2 = 2

e portanto 2 assintoticamente no viesado para 2 . e a No exemplo acima note que nenhuma distribuio de probabilidades foi ca atribuida aos Xi s. Assim, as propriedades obtidas so vlidas qualquer que seja a a a distribuio dos dados. Alm disso, ca fcil obter um ENV para 2 notando-se ca e a que n n 2 = E( 2 ) = 2 . E n1 n1

15 Portanto, o estimador 1 S = n1
2

i=1

(Xi X)2

um ENV para a varincia populacional 2 . e a Em geral o processo de estimao consiste em escolher o estimador que apreca senta o menor erro quadrtico mdio. No caso de estimadores no viesados isto a e a equivale a escolher aquele com a menor varincia. a Exemplo 2.3 : (continuao) Seja o estimador = X1 para a mdia populaca e cional . Como E() = E(X1 ) = segue que = X1 tambm um ENV para e e . Portanto EQM (X) = 2 < EQM () = 2 , n para n > 1 e

e assim o estimador X deve ser escolhido. O simples fato de um estimador ser no viesado no signica que ele seja bom, a a mas se a sua varincia for pequena ento necessariamente sua distribuio estar a a ca a estar prximo de . concentrada em torno da mdia e com alta probabilidade e a o Exemplo 2.4 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poiso ca son com parmetro . Como E(Xi ) = V ar(Xi ) = segue dos resultados nos a a e Exemplos 2.1 e 2.2 que X e S 2 so ENV para . Alm disso, = X + (1 )S 2 tambm um ENV para j que e e a E() = E(X) + (1 )E(S 2 ) = + (1 ) = . Exemplo 2.5 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ) o ca n 2 2 e seja o estimador T = c i=1 (Xi X) . Nesta classe de estimadores vamos obter o de menor erro quadrtico mdio. Como a e
n i=1 (Xi 2

X)2

2 n1

ento a E(T 2 ) = c(n 1) 2 e V ar(T 2 ) = c2 2(n 1) 4

16 e portanto

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

EQM (T 2 ) = 2c2 (n 1) 4 + [c(n 1) 2 2 ]2 . Para obter o valor de c tal que T 2 tem o menor erro quadrtico mdio vamos a e derivar a expresso acima em relao a c e igualar a zero, i.e. a ca d EQM (T 2 ) = 4c(n 1) 4 + 2[c(n 1) 2 2 ](n 1) 2 = 0 dc ou equivalentemente 4c(n 1) 4 = 2(n 1) 2 [c(n 1) 2 2 ] e nalmente 1 . n+1 No dif mostrar que a segunda derivada em relao a c maior do que zero a e cil ca e para n > 1 de modo que o estimador c=
2 T0

1 = n+1

i=1

(Xi X)2

tem o menor EQM nesta classe de estimadores, para todos os poss veis valores 2 de e . Vimos ento que o erro quadrtico mdio a ferramenta usualmente utilizada a a e e 1 melhor do que 2 se para comparar estimadores. Dizemos que e EQM (1 ) EQM (2 ) com substituido por < para ao menos um valor de . Neste caso o estimador 2 dito ser inadmiss e vel. Um estimador dito ser timo (ou admiss e o vel) para se e no existir nenhum outro estimador melhor do que ele. Assim, um estimador a timo para se o EQM ( ) EQM () com substituido por < para ao menos um valor de . No Exemplo 2.5 o 2 estimador T0 timo naquela classe de estimadores. eo No caso de estimadores no viesados a comparao feita em termos de a ca e for um ENV para e varincias. Em particular, se a V ar( ) V ar(),

com substituido por < para ao menos um valor de ento dito ser no a e a

2.1. ESTIMADORES BASEADOS EM ESTATISTICAS SUFICIENTES

17

viesado de varincia uniformemente m a nima (UMVU). A seguir sero apresentaa dos conceitos que possibilitaro a obteno de estimadores no viesados timos. a ca a o

2.1

Estimadores baseados em estatisticas sucientes

O teorema a seguir, conhecido como teorema de Rao-Blackwell mostra que e poss melhorar estimadores no viesados via estat vel a sticas sucientes. Teorema 2.1 (Rao-Blackwell) Para uma amostra aleatria X1 , . . . , Xn sejam o T (X1 , . . . , Xn ) uma estat stica suciente para e S(X1 , . . . , Xn ) um estimador no viesado de que no seja funo de T . Ento a a ca a = E[S(X)|T (X)] um ENV de com V ar() V ar[S(X)]. e Basicamente, o teorema de Rao-Balckwell nos diz que sempre poss mele vel horar um estimador no viesado condicionando em uma estat a stica suciente. A pergunta que se faz aqui como obter a menor reduo poss na varincia e e ca vel a para isto precisamos do conceito de estat stica completa. Denio 2.2 Uma estat ca stica T (X1 , . . . , Xn ) dita ser completa em relao a e ca ` fam p(x|) se a unica funo real g denida no dom lia ca nio de T tal que E[g(T )] = 0, a funo nula, i.e. g(T ) = 0. e ca Teorema 2.2 (Lehmann-Sche) Se T uma estat e e stica suciente e completa e o unico ENV para baseado em T e tem varincia S um ENV para ento e e a a uniformemente m nima (UMVU).

2.2

Ecincia e

Um resultado importante que ser visto a seguir que, na classe de estimadores a e no viesados para um parmetro existe um limite inferior para sua varincia. a a a Veremos que isto est associado ao conceito de ecincia do estimador. a e Teorema 2.3 Sejam X1 , . . . , Xn uma amostra aleatria de p(x|) e T (X) um o estimador no viesado de . Sob condies de regularidade, a co V ar[T (X)] 1 . nI()

18

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

Este resultado conhecido como desigualdade de Cramer-Rao e nos diz ento e a que a varincia m a nima de um ENV para dada pelo inverso da informao de e ca Fisher. Denio 2.3 Um estimador de dito ser eciente se for no viesado e sua ca e a varincia atingir o limite inferior da desigualdede de Cramer-Rao para todos os a poss veis valores de . Com esta denio podemos calcular a ecincia do estimador como a razo ca e a entre o limite inferior da desigualdade e sua varincia, i.e. para um estimador a de 1/nI() ecincia() = e 1. V ar() Vale notar que a varincia de um estimador UMVU no necessariamente a a atinge o limite inferior de Cramer-Rao e sua ecincia pode ser menor do que e 1. Porm o contrrio sempre verdade, i.e. estimadores ecientes so necessarie a e a amente UMVU. O Teorema 2.3 pode ser generalizado para o caso de T (X) ser um ENV para uma funo h(), i.e. E[T (X)] = h(). Neste caso, a desigualdade de Cramerca Rao dada por e [h ()]2 V ar[T (X)] nI() sendo h () = dh()/d. Esta forma geral da desigualdade pode ser usada para calcular o limite inferior da varincia de um estimador viesado. Seja um estimador de com vis b() = a e . Fazendo h() = b() + segue ento que E() a
2 [b () + 1] . V ar[] nI()

2.3

Consistncia e

E bem intuitivo pensar que a informao a respeito de um parmetro contida ca a em uma amostra aumenta conforme o tamanho da amostra aumenta. Assim, e razovel esperar que bons estimadores assumam valores cada vez mais prximos a o do verdadeiro valor do parmetro. A seguir sero discutidas propriedades tericas a a o dos estimadores quando o tamanho amostral torna-se cada vez maior. Denio 2.4 Seja X1 , . . . , Xn uma amostra aleatria de p(x|) e T (X) um ca o estimador de h(). Variando o tamanho amostral n obtm-se uma sequncia de e e estimadores Tn (X) de h(). Esta sequncia dita ser (fracamente) consistente e e para h() se Tn (X) h(), em probabilidade quando n .

2.3. CONSISTENCIA

19

Na prtica tem-se uma unica amostra de tamanho n e a denio simplia ca e cada dizendo-se que o estimador ou no consistente, ao invs de uma sequncia e a e e consistente. A convergncia da Denio 2.4 em probabilidade e pode ser reee ca e scrita como P (|Tn (X) h()| > ) 0, > 0, quando n . Este resultado tambm usualmente denotado por plimTn (X) = h(). e e E importante tambm enfatizar a diferena de interpretao entre os conceitos e c ca de consistncia e vis. Basicamente, consistncia refere-se a um unico experimento e e e com um nmero innitamente grande de replicaes enquanto vis refere-se a um u co e nmero innitamente grande de experimentos, cada um deles com um nmero u u nito de replicaes. Ou seja, um estimador consistente pode ser viesado no co entanto ele ser sempre assintoticamente no viesado. a a Finalmente, segue da desigualdade de Chebychev que uma condio suciente ca para um ENV ser consistente que sua varincia tenda a zero quando n . e a Assim, as condies gerais para a consistncia de um estimador T (X) de h() co e so a lim E[T (X)] = h() e lim V ar[T (X)] = 0.
n n

Exemplo 2.6 : Sejam as variveis aleatrias X1 , . . . , Xn independentes e idena o ticamente distribuidas com E(Xi ) = e V ar(Xi ) = 2 . Vimos no Exemplo 2.1 que E(X) = e V ar(X) = 2 /n, portanto X um estimador consistente para a e mdia populacional . Alm disso, e e E( 2 ) = n1 n 2 2 , quando n .

e a varincia de 2 obtida usando o fato de que a e Y = e V ar(Y ) = 2(n 1). Assim, V ar( 2 ) = V ar 2 Y n = 4 2 4 (n 1) V ar(Y ) = 0, quando n n2 n2
n i=1 (Xi 2

X)2

2 n1

e segue que 2 um estimador consistente para 2 . e

20

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

2.4

Problemas

1. Para uma amostra aleatria X1 , . . . , Xn tomada de uma distribuio parao ca 2 2 metrizada por mostre que E( ) = V ar() + [E() ] 2. Um varivel aleatria X tem distribuio desconhecida mas sabe-se que a o ca k todos os momentos E(X ), k = 1, 2, . . . so nitos. Para uma amostra a aleatria X1 , . . . , Xn desta distribuio mostre que o k-simo momento o ca e n k k amostral i=1 Xi /n um ENV para E(X ). Mostre tambm que este e e estimador consistente. e 3. Nas condies do exerc 2 encontre um estimador no viesado de [E(X)]2 . co cio a 2 2 (Sugesto: [E(X)] = E(X ) V ar(X)) a 4. Uma droga ser administrada em 2 tipos diferentes A e B de animais. Sabea se que a resposta mdia a mesma nos dois tipos de animais mas seu valor e e desconhecido e deve ser estimado. Alm disso, a varincia da resposta e e a 4 vezes maior em animais do tipo A. Sejam X1 , . . . , Xm e Y1 , . . . , Yn e amostras aleatrias independentes de respostas dos animais dos tipos A e o B respectivamente. e (a) Mostre que = X + (1 )Y um ENV para .

(b) Para valores xos de m e n obtenha o valor de que gera um ENV de varincia m a nima. 5. Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poisson com mo ca e n dia > 0 e Y = i=1 Xi . (a) Determine a constante c tal que exp(cY ) seja um ENV para exp(). (b) Obtenha o limite inferior para a varincia deste estimador. a (c) Discuta a ecincia deste estimador. e 6. Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Bernoulli com o ca parmetro > 0. Mostre que a varincia de qualquer estimador no viesado a a a 2 3 de (1 ) deve ser pelo menos 4(1 ) /n. 7. Descreva as seguintes propriedades fundamentais dos estimadores: consistncia, no-tendenciosidade (ou no-vis) e ecincia. e a a e e 8. Sejam X1 , . . . , Xn variveis aleatrias independentes com Xi Exp(1/). a o Mostre que a mdia amostral um estimador eciente para . e e 9. Sejam X1 , . . . , Xn variveis aleatrias independentes com Xi N (, 2 ), a o sendo conhecido e 2 desconhecido. Verique se T (X) = n (Xi )2 /n i=1 um estimador eciente para 2 . (Dica: E(X )4 = 3( 2 )2 ). e

2.4. PROBLEMAS

21

10. Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ). Mostre o ca n n que a estat stica T = i=1 ai Xi com i=1 ai = 1 no viciada. Obtenha e a valores de ai para os quais T seja consistente.

Cap tulo 3 Mtodos de Estimao e ca


3.1 Estimadores de Mxima Verossimilhana a c

No Cap tulo 1 foi introduzido o conceito de verossimilhana ou plausibilidade. c Foi visto que esta medida est associada aos poss a veis valores de um ou mais parmetros e a funo de verossimilhana dene a plausibilidade de cada um a ca c destes poss veis valores. Em termos de estimao parece razovel selecionar o ca a valor do parmetro que recebe a maior verossimilhana, dada uma amostra da a c populao de interesse. Estes conceitos so formalizados a seguir. ca a Denio 3.1 Seja X1 , . . . , Xn uma amostra aleatria de p(x|), . A ca o funo de verossimilhana de correspondente a esta amostra aleatria dada ca c o e por
n

l(; x) =
i=1

p(xi |).

Denio 3.2 O estimador de mxima verossimilhana (EMV) de o valor ca a c e que maximiza l(; x). Seu valor observado a estimativa de mxima e a verossimilhana. c No caso uniparamtrico, i.e. um escalar, temos que R e o EMV pode e e ser obtido como soluo da chamada equao de verossimilhana ca ca c l(; x) = 0. (3.1)

E claro que sempre necessrio vericar que a segunda derivada negativa para e a e garantir que a soluo de (3.1) um ponto de mximo. Ou seja, devemos ter ca e a 2 l(; x) 2 < 0.
=

22

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA

23

Em muitas aplicaes mais simples algebricamente (e muitas vezes computaco e cionalmente) trabalhar na escala dos logaritmos. Do ponto de vista da maximizaco no far diferena j que a funo logaritmo estritamente crescente e o valor a a a c a ca e de que maximiza l(; x) o mesmo que que maximiza log l(; x). Portanto, a e equao (3.1) pode ser reescrita em termos de logaritmo da verossimilhana e ca ca c log l(; x) = U (X; ) = 0. Trata-se portanto de um problema de otimizao e a equao de verossimilhana ca ca c pode no ter soluo anal a ca tica.

A Denio 3.2 pode ser generalizada para o caso multiparamtrico, i.e. ca e pode ser um vetor de parmetros de dimenso k, = (1 , . . . , k ), ou mesmo a a uma matriz de parmetros. Se for um vetor de parmetros as equaes de a a co verossimilhana so c a l(; x) = 0, i = 1, . . . , k. (3.2) i Neste caso as condies de segunda ordem para garantir que a soluo de (3.2) co ca seja um ponto de mximo referem-se ` matriz de segundas derivadas (ou matriz a a Hessiana) da funo de verossimilhana. A condio de que a matriz ca c ca e H= 2 l(; x) =

seja negativa denida, i.e. z Hz < 0, z = 0 sendo cada elemento de H dado por 2 l(; x) . hij = i j

Exemplo 3.1 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio de o ca Bernoulli com parmetro . Para quaisquer valores observados cada xi igual a a e 0 ou 1 e a funo de verossimilhana dada por ca c e
n

l(; x) = p(x|) =
i=1

xi (1 )1xi .

Como o valor de que maximiza l(; x) o mesmo que maximiza log l(; x) neste e caso mais conveniente algebricamente determinar o EMV obtendo o valor de e

24 que maximiza
n

CAP ITULO 3. METODOS DE ESTIMACAO

log l(; x) =
i=1 n

[xi log + (1 xi ) log(1 )]


n

=
i=1

xi

log +

xi
i=1

log(1 )

= n[ log + (1 x) log(1 )]. x Assim, a primeira derivada dada por e n x (1 x) (1 )

e igualando a zero obtm-se que = x. A segunda derivada dada por e e n x (1 x) <0 + 2 (1 )2

de modo que o EMV de = X, i.e. a proporo amostral de sucessos. Como e ca E(X) = segue que este estimador tambm no viesado. e e a

Exemplo 3.2 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 1). o ca A funo de verossimilhana dada por ca c e
n

l(; x) = p(x|) =
i=1

(2)1/2 exp((x )2 /2)


n

= (2)

n/2

exp

i=1

(xi )2 /2

e o logaritmo da verossimilhana dado por c e n log l(; x) = log(2) 2


n

i=1

(xi )2 /2.

Tomando a primeira derivada e igualando a zero obtm-se a equao de verossime ca ilhana c


n i=1 n i=1

(xi ) = 0

cuja soluo = ca e xi /n. A segunda derivada n < 0 de modo que o EMV e de = X. Alm disso o estimador no viesado para . e e e a

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA

25

Exemplo 3.3 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio U (0, ), o ca > 0. A funo de densidade dada por ca e p(x|) = 1/n , 0 xi , i = 1, . . . , n 0, caso contrrio. a

Assim, a verossimilhana uma funo estritamente decrescente de e porc e ca tanto seu mximo atingido quando assume o menor dos seus poss a e veis valores. Esta condio satisfeita quando = max(x1 , . . . , xn ), i.e. o EMV ca e e = max(X1 , . . . , Xn ). Por outro lado a funo de densidade poderia ser denida ca como 1/n , 0 < xi < , i = 1, . . . , n p(x|) = 0, caso contrrio. a Neste caso, max(X1 , . . . , Xn ) no um dos poss a e veis valores de j que > xi , a i = 1, . . . , n, i.e. > max(X1 , . . . , Xn ). Portanto, o EMV no existe. a

Exemplo 3.4 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio o ca U (, + 1), < < . A funo de densidade dada por ca e p(x|) = 1, xi + 1, i = 1, . . . , n 0, caso contrrio. a

A condio xi para i = 1, . . . , n equivalente a min(x1 , . . . , xn ) e a ca e condio xi + 1 para i = 1, . . . , n equivalente a max(x1 , . . . , xn ) + 1. ca e Assim, a funo de densidade pode ser reescrita como ca p(x|) = 1, max(x1 , . . . , xn ) 1 min(x1 , . . . , xn ) 0, caso contrrio. a

e qualquer valor de no intervalo [max(x1 , . . . , xn )1, min(x1 , . . . , xn )] maximiza a funo de verossimilhana. Em outras palavras, o EMV no unico. ca c a e

Exemplo 3.5 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ). o ca A funo de verossimilhana dada por ca c e
n

l(, ; x) = p(x|, ) =
i=1

(2 2 )1/2 exp((x )2 /2 2 )
n

= (2 )

2 n/2

exp

i=1

(xi )2 /2 2

26

CAP ITULO 3. METODOS DE ESTIMACAO

e o logaritmo da verossimilhana dado por c e n L(, 2 ; x) = log l(, 2 ; x) = log(2 2 ) 2


n

i=1

(xi )2 /2 2 .

Tomando a primeira derivada e igualando a zero obtm-se as seguintes equaes e co de verossimilhana c n 1 n (xi ) = 2 ( ) = 0 x 2 i=1 n 1 2+ 4 2
n

i=1

(xi )2 = 0.

A soluo da primeira equao = x e a soluo da segunda equao avaliada ca ca e ca ca n 2 2 em = x = i=1 (xi x) /n. As segundas derivadas avaliadas em e 2 e so dadas por a n < 0, 2 n( ) x =0 e 4 n 2 4
n i=1 (xi 6

)2

n < 0. 4

Conclui-se ento que X e a

n 2 i=1 (Xi X) /n

so os EMV de e 2 respectivamente. a

EMV e estat sticas sucientes


Se X1 , . . . , Xn uma amostra aleatria de p(x|) e T (X) uma estat e o e stica suciente para ento, pelo critrio de fatorao, a funo de verossimilhana a e ca ca c e dada por l(; x) = f (t, )g(x). Como g(x) constante em relao a ento o valor que maximiza l(; x) o e ca a e mesmo que maximiza f (t, ), que depende de x somente atravs de t(x). Assim e ser necessariamente uma funo de t e concluimos que o EMV sempre funo a ca e ca de uma estat stica suciente.

Invarincia a
e Seja X1 , . . . , Xn uma amostra aleatria de p(x|) e o EMV de . Suponha que o queremos inferir o valor de = g() onde g uma funo 1 a 1 (ou bijetora) de . e ca e Se = h() a funo inversa e o EMV de ento h() maximiza p(x|h()). e ca a tambm maximiza p(x|h()), i.e. h() = e portanto h() = Por outro lado e ou equivalentemente = g(). e Conclui-se ento que g() o EMV de g(). Esta propriedade chamada a e princ pio da invarincia. a

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA

27

Exemplo 3.6 : No Exemplo 3.5, pelo princ da invarincia segue que o EMV pio a n (Xi X)2 /n. de = e
i=1

Exemplo 3.7 : Seja X1 , . . . , Xn N (, 1) e queremos estimar a probabilidade e g() = P (X < 0). Como = X o EMV de e P (X < 0) = P (X < ) = () ento pelo princ a pio da invarincia o EMV de P (X < 0) (X). a e Exemplo 3.8 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio exponeno ca cial com parmetro e queremos estimar a probabilidade g() = P (X > 1). O a EMV de = 1/X e a funo de distribuio de X P (X < x) = 1 ex , e ca ca e portanto P (X > 1) = 1 P (X < 1) = e . Assim, pelo princ pio da invarincia a o EMV de P (X > 1) e g() = e = e1/X .

O EMV no depende do plano amostral a


Se dois experimentos do origem a funes de verossimilhana l1 () e l2 () que a co c so proporcionais, i.e. l1 () = k l2 (), k > 0 e k no depende de , ento o EMV a a a de o mesmo. e Exemplo 3.9 : O tempo (em minutos) entre chegadas de clientes em um banco e denotado pela varivel aleatria X Exp(). Deseja-se estimar o tempo mdio a o e entre chegadas a partir de uma amostra aleatria X1 , . . . , Xn . O EMV de o e = 1/X e pela propriedade de invarincia segue que o EMV de = E(X) = 1/ a = X. Para uma amostra de tamanho n = 20 dois planos amostrais = 1/ e poderiam ter sido utilizados, (i) Fixar n = 20 a priori. (ii) Observar X1 , X2 , . . . at obter um tempo superior a 10 minutos. e Suponha que no segundo experimento observou-se xi < 10, i = 1, . . . , 19 e x20 > 10 e em ambos a mdia amostral foi igual 6 minutos. Ento a estimativa de e a mxima verossimilhana do tempo mdio entre chegadas x = 6 no importando a c e e a como a amostra foi obtida. Diz-se que o mtodo satisfaz ao chamado princ e pio da verossimilhana. Este c princ pio postula que, para fazer inferncias sobre uma quantidade desconhecida e s importa aquilo que foi realmente observado e no aquilo que poderia ter o a ocorrido mas efetivamente no ocorreu. a

28

CAP ITULO 3. METODOS DE ESTIMACAO

Observaes incompletas co
Em muitas situaes prticas os dados fornecem informaes incompletas sobre co a co determinado fenmeno. Isto ocorre em geral quando o experimento precisa ser o terminado por algum motivo de ordem prtica e que pode ou no estar sob a a controle do pesquisador. Esta observao parcial dos dados chamada de censura ca e e os mtodos para descrio e modelagem deste tipo de dados chamada de e ca e anlise de sobrevivncia ou anlise de conabilidade. Esta informao parcial a e a ca deve ser levada em conta ao se tentar estimar os parmetros de interesse. a Exemplo 3.10 : No Exemplo 3.9, o tempo at a chegada do prximo cliente e o ser observado at que: o cliente chegue ou o expediente se encerre, o que ocorrer a e primeiro. Suponha que esperou-se 15 minutos e o expediente se encerrou sem que ningum tenha aparecido. Ou seja, X21 no foi observado mas sabe-se que e a X21 > 15. A mdia amostral baseada em 21 observaes maior do que 6 e a e co e estimativa de mxima verossimilhana obtida maximizando-se a c e
20

p(x1 |) . . . p(xn |)P (X21 > 15) = exp(

20

xi ) exp(15).
i=1

Do Exemplo 3.9 temos que x = 6 ento o tempo total de espera dos 20 primeiros a 20 ca c clientes foi i=1 xi = 120 e a funo de verossimilhana ca 20 e135 .

Soluo numrica ca e
Em muitas situaes prticas a funo de verossimilhana est associada a modco a ca c a elos complexos e a equao de verossimilhana no apresenta soluo anal ca c a ca tica explicita. Nestes casos pode-se recorrer a mtodos numricos para obter o EMV e e de um parmetro . a Lembrando que a funo escore denida como ca e U (X; ) = log l(; x)

e ento, se o EMV de segue que U (X; ) = 0. Expandindo U (X; ) em srie a e de Taylor em torno de 0 obtemos que 0 = U (X; ) = U (X; 0 ) + ( 0 )U (X; 0 ) + . . . e desprezando os termos de ordem mais alta ento para valores de e 0 prximos a o segue que 0 = U (X; ) U (X; 0 ) + ( 0 )U (X; 0 ).

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA Resolvendo para segue que U (X; 0 ) U (X; 0 ) = 0 + 0 U (X; 0 ) J(0 )

29

onde J() a informao observada de Fisher. e ca Assim, a partir de um valor inicial (0) um procedimento iterativo para busca de mximo dado por a e (j+1) = (j) U (X; (j) ) U (X; (j) ) = (j) + U (X; (j) ) J((j) )

que deve ser repetido at que o processo se estabilize segundo algum critrio e e (j+1) (j) de convergncia. Um critrio tipicamente utilizado | e e e | < onde e especicado arbitrariamente. Este o conhecido algoritmo de Newton-Raphson e e aonde o algoritmo se estabiliza tomado como a estimativa de mxima o ponto e a verossimilhana. c Uma modicao do algoritmo acima obtida substituindo-se a informao ca e ca observada, J(), pela informao esperada de Fisher, I(). Sob algumas condica ces de regularidade, tipicamente vericadas na prtica, este mtodo modicado o a e converge para o estimador de mxima verossimilhana. a c

Distribuio assinttica ca o
Em muitas situaes a equao de verossimilhana tem soluo anal co ca c ca tica expl cita porm o EMV uma funo complicada da amostra. Neste caso, pode no e e ca a ser uma tarefa fcil obter a distribuio do estimador ou vericar sua ecincia. a ca e Uma alternativa estudar o comportamento do estimador quando o tamanho e da amostra n tende a innito (comportamento assinttico). Como na prtica o o a tamanho amostral nito os resultados obtidos so aproximadamente corretos e a para n sucientemente grande. Pode-se mostrar que, sob condies de regularidade co N (, I 1 ()), quando n .

A prova deste resultado est alm do escopo destas notas e ser omitida (ver a e a Migon and Gamerman 1999). Na prtica, i.e. para n nito, dizemos que para a n sucientemente grande, o estimador de mxima verossimilhana tem disa c 1 tribuio aproximadamente N (, I ()). Ou seja, o EMV sempre assintoticaca e mente no viesado e eciente j que sua esperana tende para e sua varincia a a c a tende para o limite inferior da desigualdade de Cramer-Rao. Alm disso, ele e e consistente j que V ar() 0 quando n . a

30

CAP ITULO 3. METODOS DE ESTIMACAO O resultado pode ser generalizado para uma funo g(), i.e. ca g() N g(), [g ()]2 I() , quando n .

Exemplo 3.11 : Suponha uma unica observao X da distribuio binomial com ca ca parmetros n e desconhecido. O EMV de = X/n e a informao de Fisher a e ca n/[(1 )] (verique). Portanto, para n grande a distribuio aproximada da e ca varivel aleatria a o n( ) (1 ) N (0, 1). e

3.1.1

Comentrios a

Em muitas situaes a funo de verossimilhana pode ser muito dif ou mesmo co ca c cil imposs de ser calculada. Assim, obter estimativas de mxima verossimilhana vel a c e principalmente quanticar a incerteza associada pode ser uma tarefa complexa. Por outro lado a tendncia atual de propor modelos cada vez mais complexos e e para analisar conjuntos dados em quase todas as reas da cincia (e.g. dados a e espacialmente distribuidos). Alguns fatores que podem levar a diculdades prticas no processo de estia mao so, ca a dados faltantes ou incompletos; funo de verossimilhana complexa, com um nmero grande de parmetca c u a ros ou uma forma funcional computacionalmente intratvel (e.g. modelos a probito multinomiais, modelos de sries temporais para dados qualitativos); e maximizao pode ser extremamente lenta; ca no existncia de um mximo unico, ou mximo localizado no extremo do a e a a espao dos parmetros (e.g. modelos de misturas nitas). c a Felizmente vrios mtodos computacionalmente intensivos (Bootstrap, algoa e ritmo EM, mtodos de Monte Carlo, algoritmos genticos, etc) foram e contine e uam sendo desenvolvidos ou adaptados para tratar de situaes cada vez mais co complexas (e portanto mais realistas). Os recursos computacionais atualmente dispon veis vem contribuindo muito para disseminar o uso destas tcnicas. e

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA

31

3.1.2

Problemas

1. Deseja-se estimar a proporo de mulheres em cursos de graduao em ca ca Estat stica no Brasil. Uma amostra aleatria de 90 alunos matriculados foi o selecionada e obteve-se que 58 eram mulheres e 32 eram homens. Encontre a estimativa de mxima verossimilhana de . a c 2. No exerc cio anterior sabe-se que 1/2 < < 3/5. Qual a estimativa de mxima verossimilhana de para aquela amostra. a c 3. Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Bernoulli com o ca parmetro (0 < < 1). Mostre que o EMV de no existe se os valores a a observados forem todos iguais a 1 ou todos iguais a 0. 4. Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poisson com o ca parmetro desconhecido ( > 0). a (a) Obtenha o EMV de assumindo que pelo menos um valor observado diferente de zero. e (b) Mostre que o EMV de no existe se todos os valores observados forem a nulos. 5. Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ), com mdia o ca e 2 conhecida e varincia desconhecida. Obtenha o EMV de e verique se a ele no viesado. e a 6. Seja X1 , . . . , Xn uma amostra aleatria da distribuio exponencial com o ca parmetro desconhecido ( > 0). Obtenha o EMV de . a 7. Seja X1 , . . . , Xn uma amostra aleatria da distribuio cuja funo de deno ca ca sidade dada por e p(x|) = x1 , 0 < x < 1, > 0 0, caso contrrio. a

(a) Obtenha os EMV de e g() = /(1 + ). (b) Obtenha as distribuies aproximadas destes estimadores para n co grande. 8. Seja uma amostra aleatria X1 , . . . , Xn da distribuio N (, 1). Obtenha o ca o EMV de g() = P (X > 0) e sua distribuio aproximada quando n ca e grande. 9. Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poisson com mo ca e dia desconhecida. Obtenha o EMV do desvio padro da distribuio. a ca

32

CAP ITULO 3. METODOS DE ESTIMACAO

10. O tempo de vida de um tipo de lmpada tem distribuio exponencial a ca com parmetro desconhecido. Uma amostra aleatria de n lmpadas a o a foi testada durante T horas e observou-se o nmero X de lmpadas que u a falharam. Obtenha o EMV de baseado em X. 11. Suponha que 21 observaes so tomadas ao acaso de uma distribuio exco a ca ponencial com mdia desconhecida. A mdia amostral de 20 observaes e e co foi igual a 6 e o valor da outra observao desconhecido mas sabe-se que ca e maior do que 15. Calcule o EMV de . e 12. Dois estat sticos precisam estimar uma quantidade desconhecida > 0. O estat stico A observa uma varivel aleatria X Gama(3, ) e o estat a o stico B observa uma varivel aleatria Y com distribuio de Poisson e mdia a o ca e 2. Se os valores observados foram X = 2 e Y = 3 mostre que as funes co de verossimilhana so proporcionais e obtenha o EMV de . c a

3.2

Mtodo dos Momentos e

O mtodo dos momentos para estimao de parmetros bastante simples e e ca a e intuitivo. Basicamente, ele preconiza a estimao de momentos populacionais ca (no observveis) por seus equivalentes momentos amostrais. Assim, para uma a a varivel aleatria X cuja distribuio depende de um parmetro com momentos a o ca a de ordem k dados por k = E(X k |) e uma amostra aleatria X1 , . . . , Xn desta distribuio, o mtodo preconiza a o ca e estimao de k por ca n 1 Xik . k = n i=1 Qualquer outra funo de estimada a partir de sua relao com os momentos. ca e ca Para um vetor de parmetros = (1 , . . . , r ) os estimadores so obtidos como a a soluo do sistema de equaes criado igualando-se os r primeiros momentos ca co amostrais e populacionais, k = k , k = 1, . . . , r.

No dif vericar que o mtodo sempre produz estimadores no viesados a e cil e a para os momentos populacionais, i.e. 1 E(k ) = n
n

E(Xik ) = k .
i=1

3.2. METODO DOS MOMENTOS com varincia dada por a V ar(k ) =

33

2k 2 k . n

O mtodo tambm tem boas propriedades assintticas j que as leis dos e e o a grandes nmeros garantem que k k com probabilidade 1 quando n . u Exemplo 3.12 : Seja uma amostra aleatria X1 , . . . , Xn tomada de uma diso 2 tribuio com E(X) = 1 e V ar(X) = . Pelo mtodo dos momentos, a mdia ca e e populacional estimada por X e o segundo momento estimado por e e 2 = 1 n
n

Xi2 .
i=1

Como 2 = 2 2 segue que a varincia populacional estimada por a e 1 2 = 2 1 2 = 1 n


n

i=1

Xi2 X 2 =

1 n

i=1

Xi2 nX 2

1 n

i=1

(Xi2 X)2 .

Assim, os estimadores da mdia e da varincia coincidem com os EMV no caso e a normal. Exemplo 3.13 : Seja uma amostra aleatria X1 , . . . , Xn tomada de uma diso tribuio Gama com parmetros e . A mdia e a varincia populacionais so ca a e a a dados por E(X) = / e V ar(X) = / 2 . Portanto, pelo mtodo dos momentos os estimadores para e so obtidos como e a soluo das equaes ca co / = 1 n
n

Xi = X
i=1 n

1 / 2 + 2 / 2 = n A segunda equao pode ser reescrita como ca obtendo-se 1 =


n i=1

Xi2
i=1

1 +

=X

1 +X

1 n

Xi2
i=1

Xi2 /n X = X

n 2 i=1 (Xi

X)2 /n = X

X n 2 2 . i=1 (Xi X) /n

34

CAP ITULO 3. METODOS DE ESTIMACAO

Substituindo na primeira equao obtm-se que ca e = X2 n 2 2 . i=1 (Xi X) /n

Neste exemplo, estimadores de mxima verossimilhana no podem ser obtidos a c a explicitamente e mtodos computacionais devem ser utilizados. Assim, uma pose s vel aplicao do mtodos dos momentos utilizar este resultado para obter ca e e valores iniciais em algoritmos de busca pelo mximo da funo de verossimila ca hana. c

3.3

Estimadores de M nimos Quadrados

Seja agora uma amostra aleatria Y1 , . . . , Yn tomada de uma distribuio tal que o ca 2 E(Yi |) = fi () e V ar(Yi |) = . Ou seja, a mdia de cada Yi assume uma forma e espec ca, que pode depender de outras variveis, e as varincias so as mesmas. a a a Uma forma equivente e Yi = fi () + i onde E(i ) = 0 e V ar(i ) = 2 para i = 1, . . . , n. O critrio adotado aqui consiste em estimar de modo a minimizar os erros e cometidos, Yi fi (), minimizando uma funo destes erros. Uma funo que ca ca penaliza igualmente erros positivos e negativos e comumente utilizada a funo e e ca quadrtica. Assim, o critrio pode ser expresso como, obter que minimiza a e
n

S() =
i=1

(Yi fi ())2 .

O valor obtido chamado de estimador de m e nimos quadrados (EMQ) de . Exemplo 3.14 : Regresso linear simples. Suponha que os valores da varivel de a a interesse Y so afetados linearmente pelos valores de uma outra varivel conhecida a a X. Dados n valores de X e Y um poss modelo para este problema E(Yi ) = vel e Xi e o EMQ do parmetro obtido minimizando-se a e
n

S() =
i=1

(Yi Xi )2 .

Derivando e igualando a zero esta soma de quadrados obtm-se que e


n

i=1

(Yi Xi )(Xi ) = 0 =

n i=1 Yi Xi n 2 i=1 Xi

3.3. ESTIMADORES DE M INIMOS QUADRADOS e como a segunda derivada dada por 2 e =


n i=1

35

Xi2 > 0 segue que o EMQ de e

n i=1 Yi Xi . n 2 i=1 Xi

Note como nenhuma distribuio de probabilidades foi assumida para que o ca mtodo pudesse ser aplicado. Este um dos motivos para sua grande utilizae e co. Por outro lado, se os dados tiverem distribuio normal o procedimento a ca coincide com a estimao de mxima verossimilhana, i.e. pode-se mostrar que ca a c minimizar a soma de quadrados dos erros equivalente a maximizar a funo de e ca verossimilhana. c Outro fato importante que o peso atribuido a cada observaao na soma de e c quadrados foi o mesmo j que todas tm a mesma varincia. O mtodo pode ser a e a e estendido ao caso de varincias desiguais e conhecidas a menos de uma constante, a i.e. V ar(Yi |) = 2 /wi . Neste caso a soma de quadrados a ser minimizada e
n

S() =
i=1

wi (Yi fi ())2

e observaes com maior varincia (menor wi ) tero um peso menor na estimao. co a a ca Este procedimento chamada de estimao por m e ca nimos quadrados ponderados. O mtodo anterior (sem ponderao) ento chamado de estimao por m e ca e a ca nimos quandrados ordinrios e um caso particular onde todos os pesos so iguais a 1. a e a Exemplo 3.15 : No Exemplo 3.14 o estimador de m nimos quadrados ponderados de dado por e n = i=1 wi Yi Xi . n 2 i=1 wi Xi

Finalmente, vale notar que a funo fi () pode assumir vrias formas distintas. ca a Por exemplo, se fi for um polinmio de ordem k em uma varivel X conhecida, o a 2 k i.e. 0 + 1 X + 2 X + + k X ento os EMQ de 0 , 1 , . . . , k so obtidos a a minizando-se
n

S() =
i=1

(Yi 0 1 Xi 2 Xi2 k Xik )2 .

Por outro lado, se fi dene uma dependncia linear em k variveis conhecidas e a X1 , . . . , Xk , i.e. 0 + 1 X1 + 2 X2 + + k Xk ento os EMQ de 0 , 1 , . . . , k a

36 so obtidos minizando-se a
n

CAP ITULO 3. METODOS DE ESTIMACAO

S() =
i=1

(Yi 0 1 Xi1 2 Xi2 k Xik )2 .

Em ambos os casos teremos um vetor de parmetros 0 , 1 , . . . , k a serem estia 2 mados (alm da varincia ) o que equivale a resolver um sistema de k equaes e a co do tipo S/j = 0 para j = 0, . . . , k.

3.4

Problemas

1. Seja X1 , . . . , Xn uma amostra aleatria tomada da distribuio Gama(,2). o ca Obtenha um estimador para usando o mtodo dos momentos. e 2. Seja X1 , . . . , Xn uma amostra aleatria tomada da distribuio o ca Exponencial(). Obtenha um estimador para usando o mtodo dos moe mentos. 3. Seja X1 , . . . , Xn uma amostra aleatria tomada da distribuio o ca Geomtrica(p). Obtenha um estimador para p usando o mtodo dos moe e mentos. 4. Seja X1 , . . . , Xn uma amostra aleatria tomada da distribuio N (, 2 ). o ca 2 Obtenha estimadores de e usando o mtodo dos momentos. Obtenha e 2 o vis do estimador de . e 5. Seja X1 , . . . , Xn uma amostra aleatria tomada da distribuio Gama(, ). o ca Obtenha estimadores de e usando o mtodo dos momentos. e 6. No Exemplo 3.14 mostre que o EMQ obtido no viesado com varincia e a a n 2 2 / i=1 Xi . 7. No Exemplo 3.14 obtenha os EMQ de 0 e 1 supondo que E(Yi ) = 0 +1 Xi com varincia constante. a 8. Se Yi | N (fi (), 2 ) mostre que o EMV e o EMQ de coincidem.

Cap tulo 4 Estimao Bayesiana ca


Considere uma amostra aleatria X1 , . . . , Xn tomada de uma distribuio de probo ca abilidades com parmetro desconhecido, p(x|). Em muitas situaes, antes de a co observar a amostra o pesquisador tem condies de resumir sua informao e co ca experincia anteriores sobre as chances de pertencer a determinadas regies e o do espao paramtrico. Este conhecimento pode ser quanticado construindo-se c e uma distribuio de probabilidades para , chamada distribuio a priori. ca ca Exemplo 4.1 : Seja a probabilidade de obter cara quando uma moeda e lanada. Sabe-se que a moeda honesta ou tem duas caras, i.e. os dois posc e s veis valores de so 1/2 e 1. Se a probabilidade a priori de que a moeda seja a honesta p ento a distribuio a priori de p( = 1/2) = p e p( = 1) = 1 p. e a ca e Exemplo 4.2 : A proporo de itens defeituosos em um grande lote desconca e hecida e supe-se que os poss o veis valores de se distribuem uniformemente no intervalo (0,1). A distribuio a priori ento dada por U (0, 1) ou ca e a p() = 1, 0 < < 1 0, caso contrrio. a

Exemplo 4.3 : O tempo de vida de um certo tipo de lmpada tem distribuio a ca exponencial com parmetro . Com base em experincias anteriores assume-se a e que a distribuio a priori de Gama com mdia 0,0002 e desvio padro 0,0001. ca e e a Assim, a distribuio a priori dada por Gama(, ) onde os parmetros ca e a e so tais que a = 0, 0002 e = 0, 00012 2 37

38 de onde se obtm que e =

CAP ITULO 4. ESTIMACAO BAYESIANA

0, 0002 = 20 000 e = 0, 0002 = 4. 0, 00012

Portanto, a distribuio a priori de dada por Gama(4, 20 000) ou equivaca e lentemente, 20 0004 3 20 000 e , >0 3! p() = 0, 0.

4.1

Distribuio a Posteriori ca

Por simplicidade vamos assumir que todas as quantidades envolvidas so cont a nuas de modo que p(x|) e p() so funes de densidade de probabilidade. Mula co tiplicando estas duas densidades obtm-se a densidade conjunta de X1 , . . . , Xn e e , i.e. p(x, ) = p(x|)p(). A funo de densidade conjunta marginal de X1 , . . . , Xn pode ser obtida por ca integrao como ca p(x) = p(x|)p()d.

Alm disso, do clculo das probabilidades, a funo de densidade condicional de e a ca dados x1 , . . . , xn dada por e p(|x) = p(x|)p() 1 = p(x|)p(). p(x) p(x) (4.1)

A funo de densidade (4.1) est representando a distribuio de aps os daca a ca o dos serem observados, e portanto chamada distribuio a posteriori de . Todos e ca estes resultados valem tambm para distribuies discretas de probabilidade. e co Note que 1/p(x) em (4.1) no depende de e funciona como uma constante a normalizadora de p(|x). Assim, a forma usual do teorema de Bayes e p(|x) p(x|)p(). Em palavras temos que distribuio a posteriori verossimilhana distribuio a priori. ca c ca Ou seja, ao omitir o termo p(x), a igualdade em (4.1) foi substitu por uma da proporcionalidade. Esta forma simplicada do teorema de Bayes ser util em a (4.2)

4.1. DISTRIBUICAO A POSTERIORI

39

problemas que envolvam estimao de parmetros j que o denominador apenas ca a a e uma constante normalizadora. E intuitivo tambm que a probabilidade a posteriori de um particular conjunto e de valores de ser pequena se p() ou p(x|) for pequena para este conjunto. Em a particular, se atribuirmos probabilidade a priori igual a zero para um conjunto de valores de ento a probabilidade a posteriori ser zero qualquer que seja a a a amostra observada. Exemplo 4.4 : No Exemplo 4.2 suponha que uma amostra aleatria X1 , . . . , Xn o tomada do lote, onde Xi = 1 se o item i for defeituoso e Xi = 0 caso contrrio e a para i = 1, . . . , n. Assim, p(x|) = onde y = segue que
n i=1

y (1 )ny , xi = 0, 1, i = 1, . . . , n 0, caso contrrio a

xi . Como a distribuio a priori uniforme no intervalo (0,1) ca e p(|x)p() = y (1 )ny , y 0, 0 < < 1 0, caso contrrio a

Por comparao pode-se notar que, a menos de uma constante (que no depende ca a de ), o lado direito desta expresso tem a forma da funo de densidade de uma a ca distribuio Beta com parmetros = y + 1 e = n y + 1. Assim, como ca a a distribuio a posteriori de proporcional ao lado direito desta expresso ca e a conclui-se que |x Beta(y + 1, n y + 1). Exemplo 4.5 : No Exemplo 4.3 suponha que uma amostra aleatria X1 , . . . , Xn o com os tempos de vida de n lmpadas tomada. Neste caso, denindo y = a e n e i=1 xi , a densidade conjunta para xi > 0, i = 1, . . . , n p(x|) = n ey . Usando o teorema de Bayes na forma (4.2) segue que p(|x) n ey 3 e20 000 3+n e(20 000+y) onde todos os termos que no dependem de foram omitidos. Por comparao, o a ca lado direito desta expresso tem a mesma forma da funo de densidade de uma a ca distribuio Gama com parmetros = n + 4 e = 20 000 + y. Assim, para ca a

40

CAP ITULO 4. ESTIMACAO BAYESIANA

> 0 conclui-se que a distribuio a posteriori de dada por ca e |x Gama(n + 4, 20 000 + y).

4.1.1

Observaes Sequenciais co

Uma questo que se coloca aqui se a distribuio a posteriori depende da ordem a e ca em que as observaes foram processadas. Observando-se as variveis aleatrias co a o X1 , . . . , Xn , que so independentes dado e relacionadas a atravs de pi (xi |) a e segue que p(|x1 ) p1 (x1 |)p()

p(|x2 , x1 ) p2 (x2 |)p(|x1 )

p2 (x2 |)p1 (x1 |)p() . . . . . .


n i=1

p(|xn , xn1 , , x1 )

pi (xi |) p()

pn (xn |) p(|xn1 , , x1 ). Ou seja, a ordem em que as observaes so processadas pelo teorema de Bayes co a irrelevante. Na verdade, elas podem at ser processadas em subgrupos. e e

4.2

Problemas

1. Suponha que a proporo de itens defeituosos em um grande lote igual a ca e 0,1 ou 0,2 e que a funo de probabilidade a priori de theta p(0, 1) = 0, 7 ca e e p(0, 2) = 0, 3. Se 8 itens foram selecionados ao acaso do lote e observou-se exatamente 2 defeituosos obtenha a distribuio a posteriori de . ca 2. Suponha que o nmero de defeitos em um tipo de ta magntica tem disu e tribuio de Poisson com parmetro cujo valor igual a 1 ou 1,5. A ca a e distribuio a priori de p(1) = 0, 4 e p(1, 5) = 0, 6. Se uma ta seleca e cionada ao acaso apresentou 3 defeitos obtenha a distribuio a posteriori ca de . 3. Suponha que a distribuio a priori de um parmetros > 0 Gama com ca a e mdia 10 e varincia 5. Determine os parmetros desta distribuio a priori. e a a ca

4.3. DISTRIBUICOES A PRIORI CONJUGADAS

41

4. Suponha que a distribuio a priori de um parmetros (0 < < 1) ca a Beta com mdia 1/3 e varincia 1/45. Determine os parmetros desta e e a a distribuio a priori. ca 5. Suponha que a proporo de itens defeituosos em um grande lote deca e sconhecida e que sua distribuio a priori uniforme no intervalo (0,1). ca e Se 8 itens foram selecionados ao acaso do lote e observou-se exatamente 3 defeituosos obtenha a distribuio a posteriori de . ca 6. Considere novamente as condies do Problema 5 mas suponha que a funo co ca de densidade a priori de e p() = 2(1 ), 0 < < 1 0, caso contrrio. a

Determine a distribuio a posteriori de . ca 7. Suponha que uma unica observao X tomada da distribuio uniforme ca e ca no intervalo ( 1/2, + 1/2) e o valor de desconhecido. Supondo que e a distribuio a priori de uniforme no intervalo (10,20) e observou-se ca e X = 12 obtenha a distribuio a posteriori de . ca

4.3

Distribuies a Priori Conjugadas co

A partir do conhecimento que se tem sobre , pode-se denir uma fam lia paramtrica de distribuies. Neste caso, a distribuio a priori representada e co ca e por uma forma funcional, cujos parmetros devem ser especicados de acordo a com este conhecimento. Estes parmetros indexadores da fam de distribuies a lia co a priori so chamados de hiperparmetros para distingui-los dos parmetros de a a a interesse . Esta abordagem em geral facilita a anlise e o caso mais importante o de a e prioris conjugadas. A idia que as distribuies a priori e a posteriori pertenam e e co c a mesma classe de distribuies e assim a atualizao do conhecimento que se tem co ca de envolve apenas uma mudana nos hiperparmetros. Neste caso, o aspecto c a sequencial do mtodo Bayesiano pode ser explorado denindo-se apenas a regra de e atualizao dos hiperparmetros j que as distribuioes permanecem as mesmas. ca a a c A forma da distribuio conjugada depende da distribuio dos dados atravs ca ca e da funo de verossimilhana e alguns casos so listados a seguir. ca c a

4.3.1

Amostrando de um Distribuio de Bernoulli ca

Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Bernoulli com parmeo ca a n tro . Denindo y = i=1 xi sua funo de probabilidade conjunta para xi = 0, 1, ca

42 i = 1, . . . , n dada por e

CAP ITULO 4. ESTIMACAO BAYESIANA

p(x|) = y (1 )ny e assumindo que a distribuio a priori Beta com parmetros > 0 e > 0 ca e a ento a p() 1 (1 )1 . Usando o teorema de Bayes, a distribuio a posteriori dada por ca e p(|x) y (1 )ny 1 (1 )1 +y1 (1 )+ny1 , 0 < < 1. Exceto por uma constante que no depende de o lado direito desta expresso a a pode ser reconhecido como a funo de densidade de uma distribuio Beta com ca ca parmetros + y e + n y. Portanto esta a distribuio a posteriori de , i.e. a e ca |x Beta( + y, + n y). Uma extenso direta o modelo binomial, i.e. se Y | Binomial(n, ) ento a e a p(y|) y (1 )ny e portanto a priori conjugada Beta(, ). e

4.3.2

Amostrando de uma Distribuio de Poisson ca

Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poisson com parmetro o ca a . Sua funo de probabilidade conjunta dada por ca e en t en t , p(x|) = xi !
n

> 0,

t=
i=1

xi .

O ncleo da verossimilhana da forma a eb que caracteriza a fam de disu c e lia tribuies Gama. Assim, vamos assumir que a distribuio a priori Gama com co ca e parmetros positivos > 0 e > 0, i.e. a p() 1 e , A densidade a posteriori ca p(|x) +t1 exp {( + n)} , > 0 > 0.

4.3. DISTRIBUICOES A PRIORI CONJUGADAS

43

que corresponde ` densidade Gama( + t, + n). Ou seja, a distribuio Gama a ca a priori conjugada para o modelo de Poisson. e

4.3.3

Amostrando de uma Distribuio Exponencial ca

Seja X1 , . . . , Xn uma amostra aleatria da distribuio Exponencial com parmeo ca a tro . Sua funo de densidade de probabilidade conjunta dada por ca e
n

p(x|) = e

t n

> 0,

t=
i=1

xi .

O ncleo da verossimilhana novamente da forma a eb e assim vamos assumir u c e que a distribuio a priori Gama com parmetros positivos > 0 e > 0. ca e a Neste caso a densidade a posteriori ca p(|x) +n1 exp {( + t)} que corresponde ` densidade Gama( + n, + t). Ou seja, a distribuio Gama a ca a priori conjugada para o modelo exponencial. e

4.3.4

Amostrando de uma Distribuio Multinomial ca

Denotando por X = (X1 , . . . , Xp ) o nmero de ocorrncias em cada uma de p u e categorias em n ensaios independentes, e por = (1 , . . . , p ) as probabilidades associadas deseja-se fazer inferncia sobre estes p parmetros. No entanto, note e a que existem efetivamente p 1 parmetros j que temos a seguinte restrio a a ca p p e ca e i=1 i = 1. Alm disso, a restrio i=1 Xi = n obviamente tambm se aplica. Dizemos que X tem distribuio multinomial com parmetros n e e a funo ca a ca de probabilidade conjunta das p contagens X dada por e p(x|) = n!
p i=1 p x i i . i=1

xi !

Note que esta uma generalizao da distribuio binomial que apenas duas e ca ca categorias. A funo de verossimilhana para ca c e
p

l(; x)

x i i i=1

que tem o mesmo ncleo da funo de densidade de uma distribuio de Dirichu ca ca let. Esta uma generalizao da distribuio Beta para um vetor aleatrio com e ca ca o elementos denidos no intervalo (0,1). Usando esta distribuio como priori para ca

44

CAP ITULO 4. ESTIMACAO BAYESIANA

o vetor ento a funo de densidade a priori dada por a ca e


p

p()

a i i 1 , i=1

ai > 0,

i = 1, . . . p

onde a1 , . . . , ap so os parmetros da priori. A distribuio a posteriori dada a a ca e por


p p p

p(|x)

x i i i=1 i=1

a i i 1

=
i=1

x i i +ai 1 .

ou seja, a posteriori tambm Dirichlet com parmetros a1 + x1 , . . . , ap + xp . e e a Assim temos uma priori conjugada ao modelo multinomial. Note que estamos generalizando a anlise conjugada para amostras Binomiais com priori Beta. a

4.3.5

Amostrando de uma Distribuio Normal ca

Um outro resultado importante ocorre quando se tem uma unica observao da ca distribuio normal com mdia desconhecida. Se a mdia tiver priori normal ca e e ento os parmetros da posteriori so obtidos de uma forma bastante intuitiva. a a a
2 Teorema 4.1 Se X| N (, 2 ) com 2 conhecido e N (0 , 0 ) ento |x a 2 N (1 , 1 ) sendo 2 0 0 + 2 x 2 0 + 2 2 2 e 1 = 0 + 2 .

1 =

Note que, denindo preciso como o inverso da varincia, segue do teorema a a que a preciso a posteriori a soma das precises a priori e da verossimilhana a e o c e no depende de x. Interpretando preciso como uma medida de informao a a ca 2 2 2 e denindo w = 0 /(0 + ) (0, 1) ento w mede a informao relativa a ca contida na priori com respeito ` informao total. Podemos escrever ento que a ca a 1 = w0 + (1 w)x ou seja, 1 uma combinao linear convexa de 0 e x e portanto 0 1 x. e ca Exemplo 4.6 : (Box & Tiao, 1992) Os f sicos A e B desejam determinar uma constante f sica . O f sico A tem mais experincia nesta rea e especica sua e a 2 priori como N (900, 20 ). O f sico B tem pouca experincia e especica uma e priori muito mais incerta em relao ` posio de , N (800, 802 ). Assim, no ca a ca a dif vericar que e cil para o f sico A: P (860 < < 940) 0, 95

4.3. DISTRIBUICOES A PRIORI CONJUGADAS para o f sico B: P (640 < < 960) 0, 95.

45

Faz-se ento uma medio X de em laboratrio com um aparelho calibrado a ca o 2 com distribuio amostral X| N (, 40 ) e observou-se X = 850. Aplicando o ca teorema 1.1 segue que (|X = 850) N (890, 17, 92 ) para o f sico A (|X = 850) N (840, 35, 72 ) para o f sico B. Note tambm que os aumentos nas precises a posteriori em relao `s precises e o ca a o a priori foram,
2 2 para o f sico A: preciso() passou de 0 = 0, 0025 para 1 = 0, 00312 a (aumento de 25%).

2 2 para o f sico B: preciso() passou de 0 = 0, 000156 para 1 = 0, 000781 a (aumento de 400%).

A situao est representada gracamente na Figura 4.1 a seguir. Note como a ca a distribuio a posteriori representa um compromisso entre a distribuio a priori ca ca e a verossimilhana. Alm disso, como as incertezas iniciais so bem diferentes c e a o mesmo experimento fornece muito pouca informao adicional para o f ca sico A enquanto que a incerteza do f sico B foi bastante reduzida. Para uma unica observao vimos pelo Teorema 4.1 que a fam de dis ca lia tribuies normais conjugada ao modelo normal. Para uma amostra de tamanho co e n, a funo de verssimilhana pode ser escrita como ca c l(; x) = (2 )
2 n/2

1 exp 2 2

n exp 2 (x )2 2

i=1

(xi )2

onde os termos que no dependem de foram incorporados ` constante de proa a porcionalidade. Portanto, a verossimilhana tem a mesma forma daquela baseada c em uma unica observao bastando substituir x por x e 2 por 2 /n. Logo vale ca o Teorema 4.1 com as devidas substituies, i.e. a distribuio a posteriori de co ca 2 dado x N (1 , 1 ) onde e
2 0 0 + n 2 x 1 = 2 0 + n 2 2 2 e 1 = 0 + n 2 .

46

CAP ITULO 4. ESTIMACAO BAYESIANA

0.020

0.015

priori posteriori verossimilhanca

Fisico A

0.005 0.000

0.010 Fisico B 700

750

800

850

900

950

1000

Figura 4.1: Densidades a priori e a posteriori e funo de verossimilhana para o ca c


Exemplo 4.6.

4.4

Problemas

1. A proporo de itens defeituosos em um grande lote desconhecida e ca e deve ser estimada. Assume-se que a distribuio a priori de uniforme no ca e intervalo (0,1). Itens so selecionados ao acaso e inspecionados at que a a e varincia a posteriori de seja menor ou igual a 0,01. Determine o nmero a u total de itens que devem ser selecionados. 2. No problema anterior suponha que a priori Beta com parmetros = 2 e a e = 200. Se 100 itens foram selecionados ao acaso e 3 eram defeituosos obtenha a distribuio a posteriori de . ca 3. Mostre que a fam de distribuies Beta conjugada em relao `s dislia co e ca a tribuies amostrais binomial, geomtrica e binomial negativa. co e 4. Suponha que o tempo, em minutos, para atendimento a clientes segue uma distribuio exponencial com parmetro desconhecido. Com base na exca a perincia anterior assume-se uma distribuio a priori Gama com mdia 0,2 e ca e

4.4. PROBLEMAS e desvio-padro 1 para . a

47

(a) Se o tempo mdio para atender uma amostra aleatria de 20 clientes e o foi de 3,8 minutos, qual a distribuio a posteriori de . ca (b) Qual o menor nmero de clientes que precisam ser observados para u que o coeciente de variao a posteriori se reduza para 0,1? ca 5. Seja X1 , . . . , Xn uma amostra aleatria da distribuio de Poisson com o ca parmetro . a (a) Determine os parmetros da priori conjugada de sabendo que E() = a 4 e o coeciente de variao a priori 0,5. ca e (b) Quantas observaes devem ser tomadas at que a varincia a posteco e a riori se reduza para 0,01 ou menos? (c) Mostre que a mdia a posteriori da forma n x + (1 n )0 , onde e e 0 = E() e n 1 quando n . Interprete este resultado. 6. O nmero mdio de defeitos por 100 metros de uma ta magntica desconu e e e hecido e denotado por . Atribui-se uma distribuio a priori Gama(2,10) ca para . Se um rolo de 1200 metros desta ta foi inspecionado e encontrou-se 4 defeitos qual a distribuio a posteriori de ? ca 7. Seja X1 , . . . , Xn uma amostra aleatria da distribuio Bernoulli com o ca parmetro e usamos a priori conjugada Beta(a, b). Mostre que a ma e dia a posteriori da forma n x + (1 n )0 , onde 0 = E() e n 1 e quando n . Interprete este resultado. 8. Para uma amostra aleatria X1 , . . . , Xn tomada da distribuio U (0, ), o ca mostre que a fam de distribuies de Pareto com parmetros a e b, cuja lia co a a a+1 funo de densidade p() = ab / , conjugada ` uniforme. ca e e a 9. Para uma amostra aleatria de 100 observaes da distribuio normal com o co ca mdia e desvio-padro 2 foi especicada uma priori normal para . Mostre e a que o desvio-padro a posteriori ser sempre menor do que 1/5 (Interprete a a este resultado). 10. Para uma amostra aleatria da distribuio normal com mdia e desvioo ca e padro 2 foi especicada uma priori normal para com varincia igual a 1. a a Qual deve ser o menor nmero de observaes para que o desvio-padro a u co a posteriori seja 0,1?

48

CAP ITULO 4. ESTIMACAO BAYESIANA

11. Para uma varivel aleatria > 0 a fam de distribuies Gama-invertida a o lia co tem funo de densidade de probabilidade dada por ca p() = (+1) / e , () , > 0.

Mostre que esta fam conjugada ao modelo normal com mdia conlia e e hecida e varincia desconhecida. a

4.5

Estimadores de Bayes

A distribuio a posteriori de um parmetro contm toda a informao probca a e ca abil stica a respeito deste parmetro e um grco da sua funo de densidade a a a ca posteriori a melhor descrio do processo de inferncia. No entanto, algumas e ca e vezes necessrio resumir a informao contida na posteriori atravs de alguns e a ca e poucos valores numricos. O caso mais simples a estimao pontual de onde se e e ca resume a distribuio a posteriori atravs de um unico nmero, . Como veremos ca e u no contexto de teoria da deciso. a seguir, ser mais fcil entender a escolha de a a a

4.5.1

Introduo ` Teoria da Deciso ca a a

Um problema de deciso ca completamente especicado pela descrio dos a ca seguintes espaos: c (i) Espao do parmetro ou estados da natureza, . c a (ii) Espao dos resultados poss c veis de um experimento, . (iii) Espao de poss c veis aes, A. co Uma regra de deciso uma funo denida em que assume valores em A, a e ca i.e. : A. A cada deciso e a cada poss valor do parmetro podemos a vel a associar uma perda L(, ) assumindo valores positivos. Denimos assim uma funo de perda L(, ) : A R+ . Algumas funes de perda comumente ca co utilizadas em problemas de estimao sero vistas na prxima seo. ca a o ca Intuitivamente, gostariamos de obter uma regra de deciso que minimiza a a funo de perda, no entanto isto no poss ca a e vel j que esta depende do valor a desconhecido de . Uma forma de contornar este problema especicar uma e regra de deciso que minimiza a perda mdia, o que nos leva a denio a seguir. a e ca Denio 4.1 O risco de uma regra de deciso, denotado por R(), a perda ca a e esperada a posteriori, i.e. R() = E|x [L(, )].

4.5. ESTIMADORES DE BAYES

49

Denio 4.2 Uma regra de deciso tima se tem risco m ca a e o nimo, i.e. R( ) < R(), . Esta regra ser denominada regra de Bayes e seu risco, a risco de Bayes. Exemplo 4.7 : Um laboratrio farmaceutico deve decidir pelo lanamento ou o c claro que o laboratrio s lanar a droga no de uma nova droga no mercado. E a o o c a se achar que ela eciente mas isto exatamente o que desconhecido. Podemos e e e associar um parmetro aos estados da natureza: droga eciente ( = 1), droga a e no eciente ( = 0) e as poss a e veis aes como lana a droga ( = 1), no lana co c a c a droga ( = 0). Suponha que foi poss construir a seguinte tabela de perdas vel levando em conta a ecincia da droga, e lana c no lana a c eciente no eciente a -500 600 1500 100

Vale notar que estas perdas traduzem uma avaliao subjetiva em relao ` ca ca a gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza descrita por P ( = 1) = , 0 < < 1 avaliada na distribuio e ca atualizada de (seja a priori ou a posteriori). Note que, para xo, L(, ) uma e varivel aleatria discreta assumindo apenas dois valores com probabilidades e a o 1 . Assim, usando a denio de risco obtemos que ca R( = 0) = E(L(0, )) = 1500 + (1 )100 = 1400 + 100 R( = 1) = E(L(1, )) = (500) + (1 )600 = 1100 + 600

Uma questo que se coloca aqui , para que valores de a regra de Bayes ser de a e a lanar a droga. No dif vericar que as duas aes levaro ao mesmo risco, c a e cil co a i.e. R( = 0) = R( = 1) se somente se = 0, 20. Alm disso, para < 0, 20 e temos que R( = 0) < R( = 1) e a regra de Bayes consiste em no lanar a a c droga enquanto que > 0, 20 implica em R( = 1) < R( = 0) e a regra de Bayes deve ser de lanar a droga. c

4.5.2

Estimadores de Bayes

Seja agora uma amostra aleatria X1 , . . . , Xn tomada de uma distribuio com o ca funo de (densidade) de probabilidade p(x|) aonde o valor do parmetro ca a e desconhecido. Em um problema de inferncia o valor de deve ser estimado a e partir dos valores observados na amostra. Se ento razovel que os poss a e a veis valores de um estimador (X) tambm devam pertencer ao espao . Alm disso, um bom estimador aquele e c e e

50

CAP ITULO 4. ESTIMACAO BAYESIANA

para o qual, com alta probabilidade, o erro (X) estar prximo de zero. a o Para cada poss valor de e cada poss estimativa a vamos associar vel vel uma perda L(a, ) de modo que quanto maior a distncia entre a e maior o a valor da perda. Neste caso, a perda esperada a posteriori dada por e E[L(a, )|x] =

L(a, )p(|x)d

e a regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada. Assim, a forma do estimador de Bayes vai depender tanto da funo ca de perda quanto da distribuio a priori. ca Aqui vamos discutir apenas funes de perda simtricas, j que estas so mais co e a a comumente utilizadas. Dentre estas a mais utilizada em problemas de estimao ca certamente a funo de perda quadrtica, denida como L(a, ) = (a )2 . e ca a Neste caso, pode-se mostrar que o estimador de Bayes para o parmetro ser a a a mdia de sua distribuio atualizada. Note tambm que neste caso o risco de e ca e 2 Bayes simplesmente E(E(|x) ) = V ar(|x). e Exemplo 4.8 : Suponha que queremos estimar a proporo de itens defeituosos ca em um grande lote. Para isto ser tomada uma amostra aleatria X1 , . . . , Xn de a o uma distribuio de Bernoulli com parmetro . Usando uma priori conjugada ca a Beta(, ) sabemos que aps observar a amostra a distribuio a posteriori o ca e n e ca e Beta( + t, + n t) onde t = i=1 xi . A mdia desta distribuio Beta dada por ( + t)/( + + n) e portanto o estimador de Bayes de usando perda quadrtica a e + n Xi i=1 . (X) = ++n Note tambm que fazendo 0 e 0 segue que o estimador de Bayes e n coincide com o estimador de mxima verossimilhana = a c i=1 Xi /n. Esta priori chamada de priori no informativa. e a Exemplo 4.9 : No Exemplo 4.8 suponha que foi especicada uma priori Beta(1,1) (ou equivalentemente U(0,1)) para e 10 itens foram inspecionados dos quais 8 eram defeituosos. A estimativa de Bayes de (1+8)/(2+10) = 0, 75 e = 0, 80. enquanto A perda quadrtica as vezes criticada por penalizar demais o erro de estia e mao. A funo de perda absoluta, denida como L(a, ) = |a |, introduz ca ca punies que crescem linearmente com o erro de estimao e pode-se mostrar que co ca o estimador de Bayes associado a mediana da distribuio atualizada de . e ca Para reduzir ainda mais o efeito de erros de estimao grandes podemos conca siderar funes que associam uma perda xa a um erro cometido, no importando co a

4.5. ESTIMADORES DE BAYES

51

sua magnitude. Uma tal funo de perda, denominada perda 0-1, denida como ca e L(a, ) = 1 se |a | > 0 se |a | <

para todo > 0. Neste caso pode-se mostrar que o estimador de Bayes a moda e da distribuio atualizada de . A moda da posteriori de tambm chamado ca e e de estimador de mxima verossimilhana generalizado (EMVG) e o mais fcil a c e a de ser obtido dentre os estimadores vistos at agora. No caso cont e nuo devemos obter a soluo da equao ca ca p(|x) = 0. Um caso particular interessante quando p() proporcional a uma constante e e (como no Exemplo 4.9). Pelo teorema de Bayes segue que p(|x) p(x|) e o estimador de Bayes coincide com o estimador de mxima verossimilhana. a c

Exemplo 4.10 : Se X1 , . . . , Xn uma amostra aleatria da N (, 2 ) com 2 e o 2 conhecido e usarmos a priori conjugada, i.e. N (0 , 0 ) ento a posteriori a tambm ser normal e neste caso mdia, mediana e moda coincidem. Portanto, e a e o estimador de Bayes de dado por e (X) =
2 0 0 + n 2 X . 2 0 + n 2

2 Note que se 0 0 segue que (X) X. Ou seja, na prtica se atribuirmos a uma varincia a priori muito grande para a estimativa de Bayes dever ser a a similar ` mdia amostral. a e

Exemplo 4.11 : No Exemplo 4.8 suponha que foram observados 100 itens dos quais 10 eram defeituosos. Usando perda quadrtica a estimativa de Bayes de a e + 10 . (x) = + + 100 Assim, se a priori for Beta(1,1), ou equivalentemente U (0, 1), ento (x) = 0, 108. a Por outro lado se especicarmos uma priori Beta(1,2), que bem diferente da ane terior, ento (x) = 0, 107. Ou seja, as estimativas de Bayes so bastante prxia a o mas, e isto uma consequncia do tamanho amostral ser grande. Note tambm e e e que ambas as estimativas so prximas da proporo amostral de defeituosos 0,1, a o ca que a estimativa de mxima verossimilhana. e a c

52

CAP ITULO 4. ESTIMACAO BAYESIANA

4.6

Problemas

1. Sabendo que um paciente pode ter a doena A ou a doena B um mdico c c e deve decidir pelo diagnstico de uma das duas doenas. Associando um o c parmetro aos estados da natureza: paciente tem a doena A ( = 1), a c paciente tem a doena B ( = 0), e as poss c veis aes do mdico como co e diagnosticar a doena A ( = 1) ou diagnosticar a doena B ( = 0) foi c c poss construir a seguinte tabela de perdas, vel diagnstico o doenaA doena B c c 1 0 5 0 10 0

Pela experincia do mdico com estas doenas ele atribui a probabilidade e e c P ( = 1) = , 0 < < 1. Calcule os riscos associados como funo de , ca esboce estes riscos gracamente e deduza a deciso de menor risco. a 2. Em que condies o estimador de Bayes usando perda 0-1 coincide com o co estimador de mxima verossimilhana? a c 3. A proporo de itens defeituosos em um grande lote desconhecida e ca e deve ser estimada. Assume-se que a distribuio a priori de Beta(5,10). ca e Suponha que 20 itens foram selecionados ao acaso e inspecionados e encontrou-se exatamente um defeituoso. (a) Obtenha a estimativa de Bayes de usando perda quadrtica. a (b) Repita a estimao usando perda 0-1. ca (c) Comente os resultados e compare com a estimativa de mxima verossia milhana. c 4. O nmero de defeitos em rolos de 100 metros de uma ta magntica tem u e distribuio de Poisson com mdia desconhecida. A distribuio a priori ca e ca de Gama(3,1). Se cinco rolos so selecionados ao acaso e observa-se e a 2, 2, 6, 0 e 3 defeitos obtenha a estimativa Bayesiana de usando perda quadrtica. a 5. Suponha que as alturas (em cm) de indiv duos de uma populao seguem ca uma distribuio normal cuja mdia desconhecida e o desvio-padro ca e e a e 5 cm. A distribuio a priori de normal com mdia 173 cm e desvioca e e padro 2,5 cm. Uma amostra aleatria de 10 indiv a o duos foi selecionada e sua altura mdia foi de 177 cm. Calcule a estimativa de Bayes de . e

4.6. PROBLEMAS

53

6. Suponha que o tempo em minutos para atender um cliente tem distribuio ca exponencial com parmetro desconhecido. A distribuio a priori de a ca e Gama com mdia 0,2 e desvio-padro 1. Se o tempo mdio para atender e a e uma amostra aleatria de 20 clientes foi 3,8 minutos calcule a estimativa de o Bayes de usando funo de perda quadrtica. ca a

Cap tulo 5 Estimao por Intervalos ca


A principal restrio da estimao pontual que quando estimamos um parca ca e a metro atravs de um unico valor numrico toda a informao presente nos dados e e ca importante encontrar tambm um intervalo resumida atravs deste nmero. E e e u e de valores plaus veis para o parmetro. a A idia construir um intervalo em torno da estimativa pontual de modo que e e ele tenha uma probabilidade conhecida de conter o verdadeiro valor do parmetro. a Tipicamente as distribuies amostrais de estimadores dos parmetros desconco a hecidos sero utilizadas. Antes de descrever o procedimento geral veremos um a exemplo simples de construo do intervalo de conana. ca c Exemplo 5.1 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ), o ca 2 com conhecido. Para fazer inferncias sobre nos baseamos na mdia amostral e e X e sabemos que n (X ) N (0, 1). U= Note que a estat stica U uma funo da amostra e tambm de , o parmetro de e ca e a interesse, mas sua distribuio de probabilidades no depende de . Usando uma ca a tabela da distribuio normal padronizada podemos obter o valor do percentil ca z/2 tal que P (z/2 U z/2 ) = 1 e assim, aps isolar , obtemos que o P X z/2 X + z/2 n n = 1 .

Esta ultima igualdade pode dar margem a interpretaes errneas, o que alis co o a acontece com bastante frequncia. Na inferncia clssica, o parmetro dee e a a e sconhecido mas xo e portanto no pass de descrio probabil a e vel ca stica, ou seja no se trata de um intervalo de probabilidade para . Na verdade os limites do a 54

5.1. PROCEDIMENTO GERAL

55

intervalo que so variveis aleatrias. Aps a amostra ser observada teremos e a a o o um valor numrico para a mdia amostral, i.e. X = x e dizemos que e e x z/2 x + z/2 n n com conana 100(1 )%. No se pode fazer armaes do tipo o verdadeiro c a co valor de tem 95% de chances de estar no intervalo x 1, 96 / n. Vale notar tambm que, para um dado valor de 1 , poss construir e e vel muitos intervalos de conana diferentes para . Na verdade, quaisquer constantes c c1 e c2 tais que P (c1 U c2 ) = 1 podem ser usadas para construir um intervalo com limites e x c1 . x c2 n n No entanto, pode-se mostrar que dentre todos os intervalos de conana com esta c caracter stica, aquele denido acima que simtrico em torno do mdia amostral e e e x o de menor comprimento. e Exemplo 5.2 : No Exemplo 5.1 suponha que foram observados os dados abaixo, -3.83 -1.88 -1.55 -12.64 -0.4 -18.87 4.98 -9.52 -14.06 13.56 e queremos construir um intervalo de 95% para a mdia com = 10. A mdia e e amostral x = 4.421. Na Tabela abaixo encontram-se os valores de c1 e c2 e obtidos para diferentes probabilidades nas caudas da distribuio normal padro. ca a Na ultima coluna esto os comprimentos (c2 c1 )/ n dos intervalos. a 1 2 3 4 P(Z<c 1) P(Z>c 2) 0.01 0.05 0.02 0.03 0.03 0.03 0.04 0.01 c1 -2.33 -2.05 -1.96 -1.70 c 2 comp 1.75 12.90 1.88 12.43 1.96 12.40 2.58 13.53

Tabela 5.1:

5.1

Procedimento Geral

O procedimento geral para construo de intervalos de conana consiste nos ca c seguintes passos, 1. Obter uma estat stica que depende de , U = G(X, ), mas cuja distribuio no depende de . ca a

56

CAP ITULO 5. ESTIMACAO POR INTERVALOS 2. Usando a distribuio de U , encontrar as constantes a e b tais que ca P (a U b) 1 . 3. Denir { : a G(x, ) b} como o intervalo (ou regio) de conana a c 100(1-)% para .

A exigncia de que a probabilidade no item 2 acima possa ser maior do que o e n de conana essencialmente tcnica pois queremos que o intervalo seja o vel c e e menor poss vel, o que em geral implica em usar uma igualdade. A desigualdade ser util principalmente no caso de distribuies discretas onde nem sempre a co e poss satisfazer a igualdade. vel Note que a varivel aleatria U , comumente denominada quantidade pivotal a o ou pivot, fundamental para o funcionamento do mtodo. Idealmente ela deve e e depender da amostra atravs de estat e sticas sucientes minimais e ter distribuio ca conhecida. E importante notar tambm que este intervalo no pode ser interpretado como e a um intervalo de probabilidade para j que a aleatoriedade presente devida ` a e a amostra X1 , . . . , Xn . Ou seja, o procedimento leva a construo de um intervalo ca probabil stico para a varivel aleatria U e no para . a o a Tecnicamente, dizemos que 100(1 )% de todos os intervalos de conana c que construirmos contero o verdadeiro valor do parmetro (dado que todas as a a suposies envolvidas estejam corretas). Por exemplo se 1 = 0, 95 ento, co a em mdia, somente 5 a cada 100 intervalos no contero . A probabilidade e a a 1 denominada n de conana e sua escolha depende da preciso com e vel c a que queremos estimar o parmetro, sendo em geral 1 0, 90 os valores mais a utilizados na prtica. a Exemplo 5.3 : Seja X1 , . . . , Xn U [0, ], para > 0 desconhecido. A funo ca de distribuio acumulada de max{Xi } dada por ca e
n

F (x) = P (max{Xi } < x) = P (X1 < x, . . . , Xn < x) = e como P (Xi < x) = x/ segue que P (max{Xi } < x) = (x/)n , 0 x .

P (Xi < x),


i=1

Consequentemente a distribuio de max{Xi }/ tambm pode ser facilmente ca e obtida como P (max{Xi }/ < x) = P (max{Xi } < x) = xn , 0 x .

5.2. ESTIMACAO NO MODELO NORMAL

57

Assim, max{Xi }/ uma estat e stica que depende da amostra atravs de max{Xi } e e do parmetro desconhecido mas cuja distribuio no depende de . Para um a ca a coeciente de conana 1 = 0, 90 podemos obter os limites c1 e c2 tais que c P (c1 < max{Xi }/ < c2 ) = 0, 90 e se as reas ` esquerda de c1 e ` direita de c2 forem iguais ento a a a a P (max{Xi }/ < c2 ) = 0, 95 = cn c2 = 0, 951/n 2

P (max{Xi }/ < c1 ) = 0, 05 = cn c1 = 0, 051/n 1 Agora, isolando obtemos o I.C. de 90% max{Xi } max{Xi } << . 1/n 0, 95 0, 051/n

Os dados abaixo foram simulados de uma distribuio uniforme no intervalo (0;10) ca 0.87 7.94 3.16 9.85 3.39 1.53 5.15 4.38 8.5 7.02 Usando a expresso acima ento segue que 9.9 < < 13.29 com conana 0,90. a a c

5.2

Estimao no Modelo Normal ca

Nesta seo sero discutidos os casos em que os dados provm de uma distribuio ca a e ca normal. Inicialmente veremos o caso em que temos uma unica amostra de uma distribuio normal e queremos estimar sua mdia e sua varincia. Na Seo ca e a ca 5.2.2 estudaremos o caso de duas amostras tomadas de distribuies normais co independentes.

5.2.1

O caso de uma amostra

No exemplo 5.1, se 2 for desconhecido no podemos usar a mesma quantidade a pivotal j que ela depende de . Ou seja, precisamos obter uma outra quantidade a pivotal que depende apenas de X e de e com uma distribuio que seja conhecida ca e no dependa de nenhum parmetro desconhecido. No modelo normal isto ser a a a poss usando os resultados a seguir. vel Teorema 5.1 Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ) e o ca 2 sejam X e S a mdia e a varincia amostrais. Ento, condicionado em e 2 , e a a 2 X e S so independentes com distribuies amostrais a co n(X ) N (0, 1) e (n 1)S 2 2 . n1 2

58

CAP ITULO 5. ESTIMACAO POR INTERVALOS

Lema 5.1 Se U N (0, 1) e W 2 e se U e W so independentes ento a a U W t (0, 1).

Prova. A prova deixada como exerc e cio. Corolrio 5.1 Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ) a o ca 2 e a a e sejam X e S a mdia e a varincia amostrais. Ento, condicionado em e 2 , X tem distribuio amostral ca n(X ) tn1 (0, 1) S

Prova. Aplicao direta do Lema 5.1 acima com U = n(X )/, W = ca (n 1)S 2 / 2 e = n 1. Estes resultados nos permitem denir quantidades pivotais para construo ca 2 de intervalos de conana para e . No caso da mdia , o valor desconhecido c e de substituido pelo seu estimador S levando a uma quantidade pivotal com e distribuio t com n 1 graus de liberdade. Assim, podemos obter o percentil ca t/2,n1 tal que P t/2,n1 n(X ) t/2,n1 S =1

e, aps isolar , obtemos que o P S S X t/2,n1 X + t/2,n1 n n = 1 .

Note que, mesmo se S pudesse estimar sem erro, esta substituio implica ca em um aumento da amplitude do intervalo de conana pois t,n > z para n c pequeno. Finalmente, aps observar a amostra substituimos as estimativas e dizemos o que s s x t/2,n1 x + t/2,n1 n n com conana 100(1 )%. c Exemplo 5.4 : Considere novamente os dados do Exemplo 5.2, -3.83 -1.88 -1.55 -12.64 -0.4 -18.87 4.98 -9.52 -14.06 13.56

5.2. ESTIMACAO NO MODELO NORMAL

59

Estimando a Varincia a
Para obter estimativas da varincia populacional 2 usamos a seguinte quantidade a pivotal (n 1)S 2 Q= 2 que tem distribuio qui-quadrado com n 1 graus de liberdade. Devemos ento ca a 2 2 ca obter os percentis /2,n1 e /2,n1 desta distribuio tais que P 2 /2,n1 (n 1)S 2 2 /2,n1 2 = 1 .

Aps observar a amostra teremos o valor numrico s2 de S 2 e o intervalo de o e 2 conana de 100(1 )% para dado por c e (n 1)s2 (n 1)s2 , 2 /2,n1 2 /2,n1 .

Note que o intervalo no depende da mdia amostral x mas somente do grau a e de disperso dos dados, medido atravs do desvio padro amostral s2 . Alm a e a e disso, este intervalo no simtrico em torno da estimativa pontual e por isso a e e temos que obter 2 valores da distribuio qui-quadrado cujos valores absolutos ca so diferentes, um a ser utilizado no limite inferior e outro a ser utilizado no limite a superior do intervalo.

5.2.2

O caso de duas amostras

Nesta seo vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 so amostras ca a 2 2 aleatrias das distribuies N (1 , 1 ) e N (2 , 2 ) respectivamente e que as o co amostras so independentes. a Podemos = 1 2 . X 1 X 2 que populacionais comparar as mdias populacionais estimando a diferena e c A estimao baseada na diferena entre mdias amostrais, i.e. ca e c e o estimador de mxima verossimilhana de . Se as varincias e a c a forem conhecidas ento a distribuio amostral dada por a ca e X 1 X 2 N (1 2 , 2 ) onde 2 =
2 2 1 2 + . n1 n2

j que as mdias amostrais so independentes. Assim, o intervalo de conana a e a c

60

CAP ITULO 5. ESTIMACAO POR INTERVALOS

de 100(1 )% para a diferena entre mdias dado por c e e 2 2 2 2 x1 x2 z/2 1 + 2 ; x1 x2 + z/2 1 + 2 . n1 n2 n1 n2


2 No caso de varincias populacionais desconhecidas porm iguais, i.e. 1 = a e 2 2 = 2 podemos combinar os duas varincias amostrais para formar uma esa timativa combinada da varincia. Atribu a mos mais peso `s amostras maiores e a esta varincia combinada dada por a e 2 2 (n1 1)S1 + (n2 1)S2 , n1 + n2 2

2 Sp =

isto , a mdia ponderada das varincias amostrais com pesos dados por n1 1 e e a e n2 1. Agora podemos calcular o erro padro das diferenas nas mdias como a c e EP (X 1 X 2 ) = Sp 1 1 + . n1 n2

Note que min{s2 , s2 } s2 max{s2 , s2 } sempre j que a soma dos coecientes a 1 2 p 1 2 igual a 1. Se isto no ocorrer seus clculos esto errados. e a a a Note tambm que e
2 (n1 1)S1 2 1 1 n 2

2 (n2 1)S2 2 2 1 n 2

2 2 e como S1 e S2 so independentes segue que a 2 2 (n1 1)S1 + (n2 1)S1 2 1 +n2 2 . n 2

Agora ca fcil vericar que a


2 (n1 + n2 2)Sp 2 1 +n2 2 n 2

Do exposto acima, um intervalo de conana para a diferena entre mdias 1 c c e 2 assumindo desvios padro iguais pode ser constru usando-se a quantidade a do pivotal t (0, 1) 1 1 Sp + n1 n2 c onde = n1 + n2 2 e = X 1 X 2 . Assim, o intervalo de conana de

5.2. ESTIMACAO NO MODELO NORMAL 100(1 )% para a diferena ca, c x1 x2 t/2, sp 1 1 + ; x1 x2 + t/2, sp n1 n2 1 1 + n1 n2 .

61

Analogamente ao caso de uma amostra, o intervalo de conana para 2 c e constru usando-se a quantidade pivotal do
2 Sp 2 . 2

Ento devemos obter os quantis /2 inferior e superior desta distribuio quia ca quadrado e o intervalo de conana de 100(1 )% para a varincia populacional c a ca s2 s2 p p ; 2 2 /2, /2,

5.2.3

Varincias desiguais a

At agora assumimos que as varincias populacionais desconhecidas eram iguais e a (ou pelo menos aproximadamente iguais). A violao desta suposio leva a ca ca problemas tericos e prticos uma vez que no trivial encontrar uma quantio a a e dade pivotal para com distribuio conhecida. Na verdade, se existem grandes ca diferenas de variabilidade entre as duas populaes pode ser mais apropriado c co analisar conjuntamente as consequncias das diferenas entre as mdias e as vare c e incias. Assim, caso o pesquisador tenha interesse no parmetro deve levar em a a conta os problemas de ordem tericas introduzidos por uma diferena substancial o c 2 2 entre 1 e 2 . A literatura estat stica apresenta vrios mtodos para resolver este problema a e mas nenhum deles completamente satisfatrio. Um procedimento poss (e e o vel aproximado) consiste em utilizar a estat stica T = . 2 2 S2 S1 + n1 n2

No entanto, a distribuio exata de T depende da razo 1 /2 , que desconca a 2 2 e hecida. Se n1 e n2 forem grandes T tem distribuio aproximadamente normal ca padro, mas quando eles so ambos pequenos uma soluo simples utilizar uma a a ca e distribuio t de Student com k 1 graus de liberdade onde k = min(n1 , n2 ). ca Outra soluo aproximada (mtodo aproximado de Aspin-Welch) consiste em ca e utilizar a estat stica acima com distribuio t de Student e nmero de graus de ca u

62 liberdade dado por

CAP ITULO 5. ESTIMACAO POR INTERVALOS

onde w1 =

(w1 + w2 )2 2 2 w2 w1 + n1 1 n2 1 s2 1 n1 e w2 = s2 2 . n2

No caso de estar utilizando valores tabelados ento deve ser arrendondado para a o inteiro mais prximo. o Novamente pode-se construir intervalos de conana para a diferena entre as c c mdias populacionais usando esta estat e stica.

5.2.4

Comparao de varincias ca a

Outra situao de interesse a comparao das duas varincias populacionais. ca e ca a Neste caso, faz mais sentido utilizar a razo de varincias ao invs da diferena a a e c j que elas medem a escala de uma distribuio e so sempre positivas. Ou a ca a 2 2 seja estamos interessados em estimar a quantidade 1 /2 construindo intervalos de conana em torno da estimativa pontual s2 /s2 . Para obter a distribuio c ca 1 2 amostral apropriada usaremos o teorema a seguir. Teorema 5.2 Sejam as variveis aleatrias U e W independentes com disa o tribuies qui-quadrado com 1 e 2 graus de liberdade respectivamente. Ento a co a varivel aleatria dada por a o U/1 X= W/2 tem distribuio F com 1 e 2 graus de liberdade. ca Usaremos a notao X F (1 , 2 ) e dos Teoremas 5.1 e 5.2 no dif ca a e cil mostrar que 2 2 S1 2 F (n1 1, n2 1). 2 2 S2 1 Embora sua funo de distribuio no possa ser obtida analiticamente os valca ca a ores esto tabelados em muitos livros de estat a stica e tambm podem ser obtidos e na maioria dos pacotes computacionais. Os percentis podem ento ser utilizados a na construo de intervalos de conana para a razo de varincias. ca c a a Uma propriedade bastante util para calcular probabilidade com a distribuio ca 1 F vem do fato de que se X F (2 , 1 ) ento X F (1 , 2 ) por simples invera so na razo de distribuies qui-quadrado independentes. Assim, denotando os a a co quantis e 1 da distribuio F (1 , 2 ) por F (1 , 2 ) e F (1 , 2 ) respectica vamente segue que 1 F (1 , 2 ) = . F (2 , 1 )

5.2. ESTIMACAO NO MODELO NORMAL

63

Note que usual que os livros forneam tabelas com os percentis superiores da e c distribuio F para vrias combinaes de valores de 1 e 2 devido ` propriedade ca a co a acima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter tambm um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de e liberdade. Exemplo 5.5 : Suponha que X F (4, 6) e queremos obter o valor x tal que P (X < x) = 0, 05. Neste caso devemos obter primeiro o valor y tal que P (X 1 > y) = 0, 05 sendo que X 1 F (6, 4). Este valor dado por y = 6, 16. Podemos e agora calcular x = 1/y = 1/6, 16 0, 16.

5.2.5

Amostras pareadas

Nas sees anteriores zemos a suposio de que as amostras eram independentes, co ca mas esta nem sempre uma suposio razovel. Em estudos chamados pareados e ca a ou emparelhados, temos duas amostras mas cada observao na primeira amostra ca pareada (ou emparelhada) com uma observao da segunda amostra. Tal situe ca ao ocorre por exemplo em um estudo de medidas feitas antes e depois no mesmo ca indiv duo (ou mesma mquina, ou mesmo processo de produo, etc). Como a ca esperado, as duas observaes do mesmo indiv co duo so mais provveis de serem a a similares, e portanto no podem ser consideradas estatisticamente independentes. a Analogamente ao caso anterior, as observaes pareadas so representadas co a pelas variveis aleatrias, a o X11 , . . . , X1n : medida 1 X21 , . . . , X2n : medida 2 e ento escrevemos as diferenas nas medidas de cada par como Di = X2i X1i , a c i = 1, . . . , n. Temos agora uma amostra de diferenas e assumindo que c
2 D1 , . . . , Dn N (D , D )

podemos usar os mtodos com os quais j estamos familiares. Ou seja, podemos e a calcular um intervalo de conana para a diferena mdia e testar se a diferena c c e c mdia igual a um particular valor (usualmente zero) ou no. Nos referimos a e e a tal teste como um teste t pareado. A estat stica (pivot) utilizada ento a e D D tn1 SD / n

64

CAP ITULO 5. ESTIMACAO POR INTERVALOS

e o intervalo de conana de 100(1-)% para D c e d t/2,n1 sD / n D d + t/2,n1 sD / n. Note que neste caso estamos interessados na diferena mdia enquanto que c e para duas amostras independentes, estamos interessados na diferena das mdias. c e Ainda que numericamente estas quantidades possam ser as mesmas, conceitualmente elas so diferentes. Outra observao importante que estamos assumindo a ca e normalidade para as diferenas e no para os dados originais. Lembre-se, mesmo c a que X1i e X2i sejam normais isto no implica que os Di sejam normais j que a a aqui no h independncia. Portanto a hiptese de normalidade deve ser feita a a e o nas diferenas. c Exemplo 5.6 : A mudana nos n c veis de um contaminante numa certa rea do a in ao nal de seis meses de observao foram (em /l): cio ca 1, 5 0, 6 0, 3 0, 2 2, 0 1, 2 Aqui no estamos interessados nos n a veis de contaminao mas sim em sua ca variao. A mdia e o desvio padro amostrais so d = 0, 9 e s = ca e a a 0, 81 respectivamente. Ento o erro padro 0, 81/ 6 = 0, 33. Podea a e mos agora construir um intervalo de conana para vericar se a perda na c concentrao mdia nula. Para =0,05 e 5 graus de liberdade obtm-se ca e e e t0,025 =Sexprround(qt(1 0.025, df = n 1), 2) e o I.C. de 95% para D ca 0, 9 2, 57 0, 81/ 6 D 0, 9 2, 57 0, 81/ 6

ou seja com 95% de conana [-1.75; -0.05]. Neste caso h ind c a cios nos dados de que a perda na concentrao mdia no nula, ao contrrio negativa. ca e a e a e

5.2.6

Comentrio a

Os intervalos de conana obtidos nesta seo dependem fortemente da suposio c ca ca de independncia e normalidade dos dados (ou das diferenas). Na prtica die c a cilmente poderemos garantir que os dados seguem um modelo terico simples e o que estas suposies esto corretas. co a

5.3. INTERVALOS DE CONFIANCA PARA UMA PROPORCAO

65

5.3

Intervalos de conana para uma proporo c ca

Seja X1 , . . . , Xn uma amostra aleatria de uma distribuio de Bernoulli com o ca parmetro . Assim, a n 1 Y = Xi n i=1 a proporo amostral de sucessos e ser o nosso estimador pontual da verdadeira e ca a probabilidade de sucesso . Vamos considerar agora a construo de um intervalo ca de conana para . c Pelo Teorema Central do Limite, para n grande e no muito prximo de 0 a o ou 1, a distribuio de Y ser aproximadamente normal com mdia e um desvio ca a e padro dado por a (1 ) . n j que E(Xi ) = e V (Xi ) = (1 ). Ou seja, a quantidade pivotal ser dada a a por Y N (0, 1). (1 ) n Assim, aps observar a amostra o intervalo de conana de 100(1-)% para ca o c y z/2 (1 ) , y + z/2 n (1 ) n .

Note que os limites do intervalo dependem do valor desconhecido de e aqui duas abordagens so poss a veis. Podemos usar o fato de que o valor mximo de a (1 ) atingido para = 1/2, logo (1 ) 1/4, ou equivalentemente e (1 )/n 1/ 4n. Neste caso, um intervalo de conana conservativo c e dado por 1 1 , y + z/2 . y z/2 4n 4n No entanto, se o verdadeiro valor de estiver afastado do seu valor mximo a e estiver prximo de 0 ou de 1 ento este intervalo tem amplitude desnecessariao a mente grande porque substituimos (1 ) pelo seu valor mximo. Um enfoque a mais otimista consiste em substituir pela sua estimativa de mxima verossima ilhana, i.e. a proporo amostral de sucessos y e utilizar o intervalo c ca y z/2 y(1 y) , y + z/2 n y(1 y) n .

66

CAP ITULO 5. ESTIMACAO POR INTERVALOS

Note que, para n e 1 xos a amplitude do intervalo conservativo ser a a mesma para todas as poss veis amostras de tamanho n. Por outro lado, usando-se esta ultima expresso o intervalo ter amplitude 2z/2 y(1 y)/n que varia de a a amostra para amostra. Uma funo geral pode ser escrita no R para se obter o intervalo de conana. ca c > ic.binom = function(dados, nivel = 0.95) { + x = sum(dados) + n = length(dados) + alpha = 1 - nivel + xbar = x/n + EP = sqrt(xbar * (1 - xbar)/n) + q = qnorm(c(alpha/2, 1 - (alpha/2))) + IC = xbar + q * EP + return(IC) + }

5.4

Intervalos de Conana Assintticos c o

Utilizando os conceitos do mtodo da quantidade pivotal e a propriedade de e normalidade assinttica dos estimadores de mxima verossimilhana podemos o a c construir intervalos de conana para . Para isto sero usadas as denies de c a co medida de informao de Fisher e funo escore vistas no Cap ca ca tulo 1. Vimos em estimao pontual que, para grandes amostras, o estimador de ca mxima verossimilhana n para um parmetro tem distribuio aproximadaa c a ca mente normal com mdia sob condies de regularidade gerais. Assim, mesmo e co n seja viesado para n xo ele ser assintoticamente no viesado. A varinque a a a n tem distribuio cia assinttica dada por 1/nI(). Ou seja, para n grande o e ca 1 aproximadamente N (, (nI()) ) e podemos construir intervalos de conana c aproximados para . Neste caso, (n ) nI() N (0, 1)

pode ser tratado como uma quantidade pivotal aproximada e se for poss isolar vel na desigualdade z/2 < (n ) nI() < z/2 teremos um intervalo de conana com coeciente de conana aproximado igual c c a 1 . Exemplo 5.7 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio exponeno ca

5.4. INTERVALOS DE CONFIANCA ASSINTOTICOS cial com parmetro . A funo de densidade conjunta dada por a ca e
n

67

p(x|) = n et , Tomando-se o logaritmo obtm-se e

> 0,

onde t =
i=1

xi .

log p(x|) = n log() t de modo que as derivadas de primeira e segunda ordem so a log p(|) n = t e 2 log p(|) n = 2 2

e a informao esperada de Fisher baseada na amostra nI() = n/2 . Sabemos ca e tambm que o estimador de mxima verossimilhana de 1/X e portanto, e a c e ca e para n grande, 1/X tem distribuio aproximadamente normal com mdia e 2 varincia /n. Assim, o intervalo de conana aproximado obtido fazendo-se a c e P Isolando obtemos que P n/X n/X << n + z/2 n z/2 1 . z/2 < 1/X 2 /n < z/2 1 .

Exemplo 5.8 : Os dados abaixo (simulados) formam uma amostra aleatria de o X Exp(), com = 0, 5. Deseja-se construir um intervalo de conana de 95% c para . 5.02 1.11 0.04 0.48 1.59 0.75 5.1 0.38 2.33 0.68 Aplicando o resultado do exemplo anterior devemos obter z/2 tal que P z/2 < 1/X 2 /n < z/2 = 0, 95

isto , z/2 = 1, 96. Da amostra obtemos que x = 1.7 e isolando na desigualdade e acima segue que 1/1.7 1/1.7 << 1 + 1, 96 1 1, 96 e o I.C. de 95% [0.36; 1.55]. e

68

CAP ITULO 5. ESTIMACAO POR INTERVALOS

Um fato importante que, em geral, na distribuio assinttica normal do estie ca o 1 mador de mxima verossimilhana a sua varincia (nI()) pode ser substituida a c a 1 pelo seu estimador (nI()) sem afetar muito a acurcia da aproximao. Este a ca fato, que no ser provado aqui, simplica bastante a converso das desigualdades a a a para obteno de intervalos de conana aproximados. Assim, ca c P z/2 < ( ) nI() < z/2 1

facilmente convertido para e P z/2 (nI())1 < < + z/2 (nI())1 1 .

Note que este resultado foi utilizado na Seo 5.3 para construir um intervalo ca de conana aproximado para uma proporo. Naquele caso, (1 )/n era a c ca varincia de X que foi substituida pelo seu estimador de mxima verossimilhana. a a c

5.4.1

Usando a Funo Escore ca

Em algumas situaes no se tem uma forma expl co a cita para o estimador de mxa ima verossimilhana e neste caso a funo escore ser particularmente util. Lemc ca a brando que a funo escore de X tem mdia zero e varincia igual a I() ento ca e a a n temos pelo teorema central do limite que i=1 U (Xi ; ) converge em distribuio ca para uma N (0, nI()). Podemos usar este resultado para fazer inferncia aproxe imada sobre e assim o intervalo de conana aproximado de 100(1 )% c e obtido fazendo-se P 1 nI()
n

U (Xi ; ) < z/2


i=1

1 .

Finalmente, vale ressaltar que todos os resultados desta seo podem ser esca tendidos para o caso de um vetor paramtrico = (1 , . . . , k ). Neste caso, e a distribuio assinttica do estimador de mxima verossimilhana ser normal ca o a c a multivariada com vetor de mdias e matriz de varincia-covarincia igual a e a a 1 I () onde I() a matriz de informao de Fisher. e ca

5.5

Problemas
p(x|) = x1 , 0 < x < 1, > 0.

1. Seja X uma unica observao de uma distribuio com densidade ca ca

5.5. PROBLEMAS (a) Mostre que log X uma quantidade pivotal. e

69

(b) Use este pivot para construir um intervalo de conana para com c coeciente de conana 0,90. c 2. No problema anterior, se Y = ( log X)1 e (Y /2, Y ) o intervalo de cone ana para , calcule o coeciente de conana. c c 3. Seja X1 , . . . , Xn uma amostra aleatria da distribuio Exponencial(). o ca Obtenha uma quantidade pivotal e mostre como construir um I.C. para . (Dica: mostre que min{Xi } Exponencial(n). 4. Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, ). Obtenha o ca uma quantidade pivotal para construir um intervalo de conana para . c 5. Se X11 , . . . , X1n1 e X21 , . . . , X2n2 so amostras aleatrias independentes das a o 2 2 distribuies N (1 , 1 ) e N (2 , 2 ) mostre que co (X 1 X 2 ) (1 2 ) 1 1 Sp + n1 n2 tem distribuio t-Student com n1 + n2 2 graus de liberdade. ca 6. Os dados abaixo so uma amostra aleatria da distribuio Bernoulli(p), a o ca com P (sucesso)=p. Construa os IC de 90% e 99% para p. 0001101111011011110111111 7. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma mdia e de 72,9 batidas por minuto (bpm) e um desvio padro de 11,0 bpm foram a obtidos. Construa um intervalo de conana de 95% para a pulsao mdia c ca e em repouso de pessoas sadias com base nesses dados. 8. Tendo sido medido o eixo maior de 9 gros de quartzo de um corpo arenoso a em uma lmina de arenito, obteve-se um comprimento amostral mdio de a e 1,5mm e um desvio padro de 0,3mm. Deseja-se construir um intervalo de a conana para o comprimento mdio dos gros de quartzo do corpo arenoso. c e a 9. O tempo mdio, por operrio, para executar uma tarefa, tem sido de 100 e a minutos com desvio padro de 15 minutos. Foi introduzida uma modicao a ca para reduzir este tempo e aps alguns meses foi selecionada uma amostra o de 16 operrios medindo-se o tempo de execuo de cada um. Obteve-se um a ca tempo mdio amostral de 90 minutos e um desvio padro de 16 minutos. e a (a) Estime o novo tempo mdio de execuo por um intervalo com 95% e ca de conana. c

70

CAP ITULO 5. ESTIMACAO POR INTERVALOS (b) Inteprete o I.C. obtido no item anterior. Voc diria que a modicao e ca surtiu efeito? (Justique). (c) Estime a nova varincia populacional por um intervalo com 98% de a razovel concluir que a varincia populacional se alterou? conana. E c a a

10. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI mdio foi 108,08, e o desvio padro foi 14,38. e a (a) Calcule um intervalo de conana de 95% para o QI mdio populac e cional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados. (b) Interprete o intervalo de conana com palavras. c (c) Foi necessrio assumir que os QIs tm distribuio normal neste caso? a e ca Por qu? e 11. Em um experimento sobre o efeito do lcool na habilidade perceptual, 10 a indiv duos so testados duas vezes, uma depois de ter tomado dois drinks a e uma depois de ter tomado dois copos de gua. Os dois testes foram a realizados em dois dias diferentes para evitar inuncia do efeito do lcool. e a Metade dos indiv duos tomou a bebida alcolica primeiro e a outra metade o gua. Os escores dos 10 indiv a duos so mostrados abaixo. Escores mais a altos reetem uma melhor performance. Verique se a bebida alcolica o teve um efeito signicativo com 99% de conana. c 1 2 3 4 5 6 7 8 9 10 agua 16 15 11 20 19 14 13 15 14 16 alcool 13 13 12 16 16 11 10 15 9 16

12. Em um estudo de captura e recaptura a massa de 10 pssaros migratrios a o foi medida em duas ocasies distintas. Os dados obtidos esto na tabela o a abaixo. Construa um intervalo de conana para a diferena mdia de c c e massas e verique se houve ganho, reduo ou manuteno de massa. ca ca pssaro a 1 2 3 4 5 6 7 8 9 10 medio 1 10,3 11,4 10,9 12,0 10,0 11,9 12,2 12,3 11,7 12,0 ca medio 2 12,2 12,1 13,1 11,9 12,0 12,9 11,4 12,1 13,5 12,3 ca

5.5. PROBLEMAS

71

13. Para decidir se uma moeda balanceada (honesta) ela lanada 40 vezes e e c e cara aparece 13 vezes. Construa um intervalo de 95% de conana para c a verdadeira proporo de caras p. O que voc conclui? ca e 14. Numa pesquisa eleitoral, 57 dentre 150 entrevistados armaram que votariam no candidato X. Com uma conana de 90%, o que voc pode c e dizer acerca da proporo real de votos aquele candidato ter? ca a 15. Dentre 100 peixes capturados num certo lago, 18 no estavam apropriaa dos para consumo devido aos n veis de poluio do ambiente. Construa ca um intervalo de conana de 99% para a verdadeira proporao de peixes c c contaminados. 16. Uma indstria compra componentes eletrnicos dos fornecedores A e B, u o mas o fornecedor A garante que o tempo mdio de vida (em horas) do seu e produto supera o da marca B em 300 horas. Para testar esta armao ca foram selecionadas duas amostras de 5 e 4 componentes, das marcas A e B respectivamente. As mdias amostrais foram 1492 e 1182 e as varincias e a amostrais foram 770 e 3892. (a) Compare as varincias dos tempos de vida atravs de um intervalo de a e razovel assumir igualdade de varincias? conana de 98%. E c a a (b) Construa um intervalo de conana de 95% para a diferena entre os c c temxpos mdios de vida. e (c) Este intervalo d alguma indicao sobre a armao do fornecedor a ca ca A? Explique. 17. Seja X1 , . . . , Xn uma amostra aleatria da distribuio normal com mdia o ca e 2 desconhecida e varincia conhecida. Qual deve ser o tamanho da amostra a tal que exista um intervalo de conana para com coeciente de conana c c 0,95 e comprimento menor do que 0,01? 18. Seja X1 , . . . , Xn uma amostra aleatria da distribuio exponencial com o ca mdia desconhecida. Descreva um mtodo para construir um intervalo de e e conana de 100(1 )% para . (Sugesto: Determine as constantes c1 e c a n c2 tais que P (c1 < (1/) i=1 Xi < c2 ) = 1 ). 19. Seja X1 , . . . , Xn uma amostra aleatria da distribuio Beta(, 1). Obtenha o ca o intervalo de conana aproximado de 100(1 )% baseando-se na disc tribuio assinttica da funo escore. ca o ca 20. Se uma varivel aleatria X tem distribuio de Poisson com mdia a o ca e obtenha a informao esperada de Fisher I() atravs de X. ca e

72

CAP ITULO 5. ESTIMACAO POR INTERVALOS

21. Suponha que uma varivel aleatria X tem distribuio normal com mdia a o ca e zero e desvio-padro desconhecido . Obtenha a informao esperada de a ca Fisher I() atravs de X. Suponha agora que a varincia seja o parmetro e a a 2 de interesse e obtenha a informao de Fisher de atravs de X. ca e 22. Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (0, 2 ). Construa o ca um intervalo de conana aproximado para o desvio-padro baseado no c a seu estimador de mxima verossimilhana. a c

5.6

Intervalos Bayesianos

Do ponto de Bayesiano, todas as quantidades desconhecidas (parmetros, dados a omissos, etc) so variveis aleatrias. Em princ a a o pio, a forma mais adequada de expressar a informao que se tem sobre um parmetro atravs de sua disca a e e tribuio a posteriori. Nesta seo vamos introduzir um compromisso entre o ca ca uso da prpria distribuio a posteriori e uma estimativa pontual. Ser discuo ca a tido o conceito de intervalo de credibilidade (ou intervalo de conana Bayesiano) c baseado no distribuio a posteriori. ca Denio 5.1 C um intervalo de credibilidade de 100(1-)%, ou n de credca e vel ibilidade (ou conana) 1 , para se P ( C) 1 . c Note que a denio expressa de forma probabil ca stica a pertinncia ou no de e a ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada a distribuio do parmetro, ou seja o tamanho do intervalo informa sobre a e ca a disperso de . Alm disso, a exigncia de que a probabilidade acima possa ser a e e maior do que o n de conana essencialmente tcnica pois queremos que o vel c e e intervalo seja o menor poss vel, o que em geral implica em usar uma igualdade. No entanto, a desigualdade ser util se tiver uma distribuio discreta onde a ca nem sempre poss satisfazer a igualdade. e vel Outro fato importante que os intervalos de credibilidade so invariantes a e a transformaes 1 a 1, (). Ou seja, se C = [a, b] um intervalo de credibilidade co e 100(1-)% para ento [(a), (b)] um intervalo de credibilidade 100(1-)% a e para (). Note que esta propriedade tambm vale para intervalos de conana e c na inferncia clssica. e a E poss construir uma innidade de intervalos usando a denio acima mas vel ca estamos interessados apenas naquele com o menor comprimento poss vel. Pode-se mostrar que intervalos de comprimento m nimo so obtidos tomando-se os valores a de com maior densidade a posteriori, e esta idia expressa matematicamente e e na denio abaixo. ca

5.7. ESTIMACAO NO MODELO NORMAL

73

Denio 5.2 Um intervalo de credibilidade C de 100(1-)% para de mxca e a ima densidade a posteriori (MDP) se C = { : p(|x) k()} onde k() e a maior constante tal que P ( C) 1 . Usando esta denio, todos os pontos dentro do intervalo MDP tero denca a sidade maior do que qualquer ponto fora do intervalo. Alm disso, no caso de e distribuies com duas caudas, e.g. normal, t de Student, o intervalo MDP co e obtido de modo que as caudas tenham a mesma probabilidade. Um problema com os intervalos MDP que eles no so invariantes a transfore a a maes 1 a 1, a no ser para transformaes lineares. O mesmo problema ocorre co a co com intervalos de comprimento m nimo na inferncia clssica. e a

5.7

Estimao no Modelo Normal ca

Os resultados desenvolvidos nos cap tulos anteriores sero aplicados ao modelo a normal para estimao da mdia e varincia em problemas de uma ou mais ca e a amostras e em modelos de regresso linear. A anlise ser feita com priori cona a a jugada e priori no informativa quando sero apontadas as semelhanas com a a a c anlise clssica. A abordagem aqui introdutria, um tratamento mais completo a a e o do enfoque Bayesiano em modelos lineares pode ser encontrado em Broemeling (1985) e Box e Tiao (1992). Nesta seo considere uma amostra aleatria X1 , , Xn tomada da disca o 2 tribuio N (, ). ca

5.7.1

Varincia Conhecida a

2 Se 2 conhecido e a distribuio a priori de N (0 , 0 ) ento, do Teorema e ca e a 4.1, obtm-se que distribuio a posteriori de tambm normal com mdia 1 e ca e e e 2 e varincia 1 dados por a 2 0 0 + n 2 x 1 = 2 0 + n 2 2 2 e 1 = 0 + n 2 .

Assim temos que, X1 , , Xn N (, 2 )

2 |x N (1 , 1 )

2 N (0 , 0 )

Portanto, intervalos de conana Bayesianos para podem ento ser constru c a -

74 dos usando o fato de que

CAP ITULO 5. ESTIMACAO POR INTERVALOS

1 |x N (0, 1). 1

Assim, usando uma tabela da distribuio normal padronizada podemos obter o ca valor do percentil z/2 tal que P z/2 1 z/2 1 =1

e aps isolar , obtemos que o P 1 z/2 1 1 + z/2 1 = 1 . Portanto 1 z/2 1 ; 1 + z/2 1 o intervalo de credibilidade 100(1-)% e MDP para , devido ` simetria da normal. a A priori no informativa pode ser obtida fazendo-se a varincia da priori a a 2 tender a innito, i.e. 0 . Neste caso, fcil vericar que e a
2 1 n 2

e 1 x,

ou seja a mdia e a preciso da posteriori convergem para a mdia e a preciso e a e a amostrais. Mdia, moda e mediana a posteriori coincidem ento com a estimativa e a clssica de mxima verossimilhana, x. O intervalo de conana Bayesiano de a a c c 100(1-)% para dado por e x z/2 ; x + z/2 n n e tambm coincide numericamente com o intervalo de conana clssico. e c a E importante notar que esta coincidncia apenas numrica uma vez que a e e e interpretao do intervalo Bayesiano como uma armaao probabil ca e c stica sobre . Exemplo 5.9 : Sejam X1 , . . . , Xn os tempos (em minutos) de execuo de uma ca tarefa medidos para 16 operrios selecionados ao acaso. Sabe-se que o desvio a padro populacional destes tempos igual a 15 minutos e obteve-se um tempo a e mdio amostral de 90 minutos. e Assumindo que X N (, 2 ) com = 15 e usando uma distribuio a priori ca no informativa para segue que a sua distribuio a posteriori a ca e |x1 , . . . , xn N (x, 2 /n) e para construir o I.C. Bayesiano de 95% para obtemos de uma tabela da normal

5.7. ESTIMACAO NO MODELO NORMAL padro que z0,025 = 1, 96. Assim, o intervalo ca a 15 15 90 1, 96 ; 90 + 1, 96 = [82, 65; 97, 35]. 16 16

75

Ou seja, aps observar os dados a probabilidade do tempo mdio de execuo o e ca estar neste intervalo 0,95, i.e. e P (82, 65 < < 97, 35) = 0, 95. Uma funo geral pode ser escrita no R para se obter o intervalo MDP e opcionalca mente fazer os grcos das densidades. a

> ic.mdp = function(x, sigma, mu0, tau0, plot = F, conf = 0.95) { + n = length(x) + xbar = mean(x) + ep = sigma/sqrt(n) + sigma2 = sigma^2 + precisao = n * (1/sigma2) + (1/tau0) + mu1 = (n * (1/sigma2) * xbar + (1/tau0) * mu0)/precisao + tau1 = 1/precisao + if (plot) { + curve(dnorm(x, xbar, ep), xbar - 3 * ep, xbar + 3 * ep) + curve(dnorm(x, mu0, sqrt(tau0)), add = T, col = 2) + curve(dnorm(x, mu1, 1/sqrt(precisao)), add = T, col = 3) + } + z = qnorm((1 - conf)/2, lower = F) + c(mu1 - z * sqrt(tau1), mu1 + z * sqrt(tau1)) + }

Exemplo 5.10 : No Exemplo 5.9 sabe-se que o tempo mdio de execuo tem e ca sido de 100 minutos com desvio padro igual a 10 minutos. Podemos usar esta a 2 informao como priori para o tempo mdio ou seja N (0 , 0 ) com 0 = 100 ca e e 0 = 10. Assim, segue que
2 |x1 , . . . , xn N (, 1 ) 1 16 2 + 2 = 0, 0811 1 = 2 15 10 (16/152 )(90) + (1/102 )(100) 1 = = 91, 245 0, 0811

76

CAP ITULO 5. ESTIMACAO POR INTERVALOS

e o I.C. Bayesiano de 95% ca [91, 245 1, 96 1/0, 0811; 91, 245 + 1, 96 1/0, 0811] = [84, 36; 98, 13].

Usando a funo ic.mdp obtemos ca

ic.mdp(x=rep(90,16),sigma=15,mu0=100,tau0=100,plot=F,conf=0.95) [1] 84.35098 98.11477

5.7.2

Mdia e Varincia desconhecidas e a

Neste caso deve-se obter uma distribuio a posteriori para (, 2 ) via teorema ca de Bayes, p(, 2 |x) p(x|, 2 )p(, 2 ) e comearemos especicando uma priori no informativa. Assummindo que c a e so a priori independentes e que (, log()) tem distribuio uniforme isto a ca equivale a dizer que p(, 2 ) 1/ 2 . A funo de verossimilhana dada por ca c e p(x|, 2 ) = (2 2 )n/2 exp = (2 2 )n/2 exp 1 2 2 1 2 2
n

i=1

(xi )2
n

i=1

(xi x)2 + n(x )2

1 n exp 2 (n 1)s2 + n(x )2 2 sendo s2 a varincia amostral. Aplicando o teorema de Bayes obtemos ento que a a p(, 2 |x) n2 exp 1 (n 1)s2 + n(x )2 2 2 . (5.1)

Da expresso (5.1) e usando novamente o Teorema 4.1 no dif vericar a a e cil 2 que a densidade a posteriori de condicionada em ca p(|x, 2 ) p(, 2 |x) exp ou seja, |x, 2 N (x, 2 /n). n (x )2 2 2

5.7. ESTIMACAO NO MODELO NORMAL

77

Distribuio Marginal de 2 ca
O prximo passo obter a distribuio a posteriori marginal de 2 e para isto o e ca basta integrar a densidade a posteriori conjunta em relao a . Assim, ca p( |x) =
2

1 [(n 1)s2 + n(x )2 ] d 2 2 1 n = n2 exp 2 (n 1)s2 exp 2 (x )2 d 2 2 n2 exp

Nesta ultima integral temos o ncleo de uma funo de densidade normal com u ca 2 a e mdia x e varincia /n, portanto ela dada simplesmente por e

exp

n (x )2 d = 2 2

2 2 /n.

Conclui-se ento que a p( 2 |x) ( 2 )(n+1)/2 exp e portanto (ver Apndice A) e 2 |x GI n 1 (n 1)s2 , 2 2 . (n 1)s2 2 2 .

Finalmente, pelo teorema de transformao de variveis pode-se mostrar que ca a 2 |x Gama ou equivalentemente, n 1 (n 1)s2 , 2 2

(n 1)s2 |x 2 . n1 2

Agora podemos ento construir um intervalo de probabilidade para 2 . a 2 ca Obtenha os percentis /2,n1 e 2 /2,n1 desta distribuio qui-quadrado tais que P 2 /2,n1 (n 1)s2 2 /2,n1 2 = 1 .

O intervalo de credibilidade de 100(1 )% para 2 dado ento por e a (n 1)s2 (n 1)s2 , 2 2 /2,n1 /2,n1 .

78

CAP ITULO 5. ESTIMACAO POR INTERVALOS

Exemplo 5.11 : No Exemplo 5.9 suponha agora que a varincia populacional a e 2 desconhecida e sua estimativa amostral foi s = 16. Neste caso a distribuio a ca 2 posteriori de (15)(16)/ qui-quadrado com 15 graus de liberdade e os percentis e de ordem 0,025 inferior e superior so 6,2622 e 27,4884 respectivamente, i.e. a P (6, 2622 < (15)(16)/ 2 < 27, 4884) = 0, 95. Assim, o intervalo de probabilidade ca (15)(16) (15)(16) = [8, 73; 38, 33]. ; 27, 4884 6, 2622 Note que este intervalo no simtrico em torno de s2 = 15, a e e P (8, 73 < (15)(16)/ 2 < 15) = 0, 4398 < P (15 < (15)(16)/ 2 < 38, 33) = 0, 4506.

Exemplo 5.12 : Ainda no Exemplo 5.9, recebemos a informao de que em ca outro setor da empresa o tempo de execuo desta mesma tarefa tem varincia ca a igual a 10. Aps introduzir algumas alteraes foram observados 16 operrios o co a 2 e seus tempos de execuo em minutos resultaram em s = 16. O intervalo, ca tanto clssico quanto Bayesiano, de 95% para 2 exatamente [8,73; 38,33]. O a e estat stico clssico diria que no indicao nos dados de que a varincia tenha se a a ca a alterado (de 10 para outro valor). No entanto, P ((15)(16)/ 2 [8, 73; 10]) = 0, 0715 < P ((15)(16)/ 2 [10; 38, 33]) = 0, 8189.

Distribuio Marginal de ca
Tipicamente estaremos interessados em estimar a mdia do processo, i.e. o e parmetro . Do ponto de vista Bayesiano, todo a inferncia feita com base na a e e distribuio a posteriori marginal de obtida como ca

p(|x) =
0

p(, 2 |x)d 2 =

p(|x, 2 )p( 2 |x)d 2 .

Usando a expresso (5.1) segue que a

p(|x)

( 2 )(n/2+1) exp

1 (n 1)s2 + n(x )2 2 2

d 2

e do Apndice A pode-se notar que o integrando o ncleo de uma densidade e e u 2 Gama Inversa com parmetros n/2 e (n 1)s + n(x )2 . Portanto a integral a

5.7. ESTIMACAO NO MODELO NORMAL dada por e p(|x) [(n 1)s2 (n/2) [(n 1)s2 + n(x )2 ]n/2 + n(x )2 ]n/2
n/2

79

n(x )2 (n 1) + s2

que o ncleo da distribuio t de Student com n 1 graus de liberdade, e u ca parmetro de locao x e parmetro de escala s2 /n (ver Apndice A). Ou seja, a ca a e |x tn1 (x, s2 /n). ou equivalentemente, x |x tn1 (0, 1). s/ n

A concluso nal que mais uma vez um intervalo Bayesiano ir coincidir nua e a mericamente com um intervalo de conana clssico. O intervalo de probabilidade c a 100(1-)% de MDP dado por e s s x t/2,n1 ; x + t/2,n1 n n e a probabilidade de pertencer a este intervalo 1 . e Mais uma vez vale enfatizar que esta coincidncia com as estimativas clse a sicas apenas numrica uma vez que as interpretaes dos intervalos diferem e e co radicalmente. Exemplo 5.13 : Voltando ao Exemplo 5.9, usando priori no informativa o a intervalo Bayesiano ser exatamente o mesmo, i.e. [82,65; 97,35], porm com a e uma interpretao probabil ca stica, P ( [82, 65; 97, 35] | x) = 0, 95.

5.7.3

O Caso de duas Amostras

Nesta seo vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 so amostras ca a 2 2 aleatrias das distribuies N (1 , 1 ) e N (2 , 2 ) respectivamente e que as o co amostras so independentes. a
2 2 Para comear vamos assumir que as varincias 1 e 2 so conhecidas. Neste c a a

80

CAP ITULO 5. ESTIMACAO POR INTERVALOS

caso, a funo de verossimilhana dada por ca c e p(x1 , x2 |1 , 2 ) = p(x1 |1 ) p(x2 |2 ) n1 exp 2 (1 x1 )2 21

exp

n2 ( x2 )2 2 2 22

isto , o produto de verossimilhanas relativas a 1 e 2 . Assim, se assumirmos e c que 1 e 2 so independentes a priori ento eles tambm sero independentes a a a e a posteriori j que, pelo Teorema de Bayes a p(1 , 2 |x1 , x2 ) = p(x1 |1 ) p(1 ) p(x2 |2 ) p(2 ) p(x1 ) p(x2 )

= p(1 |x1 )p(2 |x2 )

Se usarmos a classe de prioris conjugadas da Seo 5.7.1 ou seja ca i N (i , i2 ) ento as distribuies a posterioris independentes sero a co a i |xi N ( , i ), i = 1, 2 i sendo a mdia e a varincia dadas por e a = i
2 i2 i + ni i xi 2 i2 + ni i 2 e i = 1/(i2 + ni i ),
2 2

i = 1, 2.

Em geral estaremos interessados em comparar as mdias populacionais, i.e e queremos estimar = 1 2 . Neste caso, a posteriori de facilmente obtida, e devido ` independncia, como a e
|x1 , x2 N ( , 1 + 2 ) 1 2
2 2

e podemos usar como estimativa pontual para a diferena e tambm c e 1 2 construir um intervalo de credibilidade MDP para esta diferena. Note que se c 2 usarmos priori no informativa, i.e. fazendo i , i = 1, 2 ento a posteriori a a ca 2 2 1 2 + |x1 , x2 N x1 x2 , n1 n2 e o intervalo obtido coincidir mais uma vez com o intervalo de conana clssico. a c a

5.7. ESTIMACAO NO MODELO NORMAL

81

Podemos escrever ento que o intervalo de credibilidade MDP digamos de 95% a e x1 x2 1, 96


2 2 1 2 + ; x1 x2 + 1, 96 n1 n2 2 2 1 2 + . n1 n2

Varincias Desconhecidas a
2 No caso de varincias populacionais desconhecidas porm iguais, temos que 1 = a e 2 2 = 2 e novamente podemos denir a varincia amostral combinada a

s2 = p

(n1 1)s2 + (n2 1)s2 1 2 . n1 + n2 2

Vejamos agora como ca a anlise usando priori no informativa. Neste caso, a a pode-se mostrar que a distribuio a priori dada por ca e p(1 , 2 , 2 ) 1/ 2 e as distribuies a posteriori marginais de 1 2 e 2 so co a 1 2 |x1 , x2 tn1 +n2 2 x1 x2 , s2 p ou equivalentemente, 1 2 (x1 x2 ) tn1 +n2 2 1 1 sp + n1 n2 e 2 Gamma ou equivalentemente, n1 + n2 2 (n1 + n2 2)s2 p , 2 2 1 1 + n1 n2

(n1 + n2 2)s2 p 2 1 +n2 2 . n 2 O intervalo de 100(1 )% para 2 obtido de maneira anloga ao caso de uma e a amostra usando a distribuio qui-quadrado, agora com n1 + n2 2 graus de ca liberdade, i.e. (n1 + n2 2)s2 (n1 + n2 2)s2 p p , . 2 2
2 2

82

CAP ITULO 5. ESTIMACAO POR INTERVALOS

Varincias desiguais a
At agora assumimos que as varincias populacionais desconhecidas eram iguais e a (ou pelo menos aproximadamente iguais). Na inferncia clssica a violao desta e a ca suposio leva a problemas tericos e prticos uma vez que no trivial encontrar ca o a a e uma quantidade pivotal para com distribuio conhecida ou tabelada. Do ponto ca de vista Bayesiano o que precisamos fazer combinar informao a priori com a e ca verossimilhana e basear a estimao na distribuio a posteriori. A funo de c ca ca ca verossimilhana agora pode ser fatorada como c
2 2 2 2 p(x1 , x2 |1 , 2 , 1 , 2 ) = p(x1 |1 , 1 )p(x2 |2 , 2 ).

A anlise usando priori no informativa pode ser feita assumindo que a a


2 2 2 2 p(1 , 2 , 1 , 2 ) 1 2 2 2 e a obteno das posterioris marginais de (1 2 ), 1 e 2 ser deixada como ca a exerc cio.

5.8

Problemas

1. Refaa o Exemplo 5.9 sabendo que o tempo mdio de execuao tem sido de c e c 100 minutos com desvio padro igual a 10 minutos. Use esta informao a ca como priori para o tempo mdio e construa um I.C. Bayesiano de 95%. e 2. Seja X1 , . . . , Xn uma amostra aleatria da distribuio normal com mdia o ca e 2 desconhecida e varincia conhecida. Usando uma priori no informativa a a para , obtenha o tamanho da amostra tal que P (a < < b|x) = 0, 95 e o comprimento do intervalo (a, b) seja menor do que 0,01. 3. Seja X1 , . . . , Xn uma amostra aleatria de tamanho 16 da distribuio o ca n N (, 1). Sabendo-se que foi observado i=1 xi = 160 e usando uma priori no informativa, obtenha um intervalo de credibilidade MDP de 95% para a . Interprete este intervalo. 4. Repita o problema 3 supondo agora que a varincia populacional ( 2 ) tama bm desconhecida, assumindo uma priori no informativa e sabendo que e e a 2 foi observado s = 1. Construa tambm um intervalo de credibilidade para e 2 . 5. Suponha que X1 , . . . , Xn N (, ) sendo conhecido e = 2 (o inverso da varincia) desconhecido. Se a distribuio a priori de for a ca

5.8. PROBLEMAS Gama(a, b) mostre que a sua distribuio a posteriori ser ca a 1 n |x Gama a + , b + 2 2
n

83

i=1

(xi )2

6. Seja X1 , . . . , Xn uma amostra aleatria de tamanho 10 da distribuio o ca 2 P oisson() sendo cada Xi o nmero de defeitos por m de uma placa u metlica. Usando uma distribuio a priori no informativa para dada a ca a por p() 1/2 , (a) Verique que a distribuio a posteriori de dada por ca e
n

|x Gama

i=1

1 xi + , n . 2

(b) Obtenha um intervalo de credibilidade de 95% para o nmero mdio u e de defeitos sabendo que o total observado de defeitos foi 10. (c) Repita os itens anteriores usando uma priori p() a1 exp(b) com a > 0 e b > 0. 7. Uma moeda cuja probabilidade de cara desconhecida foi lanada 10 vezes e c e observou-se 7 caras e 3 coroas. Usando uma distribuio a priori uniforme ca no intervalo (0,1) calcule um intervalo Bayesiano de 90% para a probabilidade de cara. 8. O nmero de defeitos em um item manufaturado tem distribuio de Poisson u ca com parmetro . Atribui-se uma distribuio a priori exponencial com a ca parmetro 1 para . Se em 5 itens selecionados ao acaso observou-se um a total de 8 defeitos calcule o intervalo Bayesiano de 90% para .

Cap tulo 6 Testes de Hipteses o


6.1 Introduo e notao ca ca

Em geral, intervalos de conana so a forma mais informativa de apresentar os c a achados principais de um estudo. Contudo, algumas vezes existe um particular interesse em vericar determinadas armaes ou conjecturas. Por exemplo, co podemos estar interessados em determinar se uma moeda honesta, se certas e quantidades so independentes, ou se populaes distintas so similares do ponto a co a de vista probabil stico. Cada uma destas armaes constitui uma hiptese que co o pode ser associada a um modelo, i.e. pode ser parametrizada. O material deste cap tulo fortemente baseado em DeGroot (1989), Gamerman e Migon (1993), e Migon e Gamerman (1999) e DeGroot and Schervish (2002). A teoria clssica de a testes de hipteses apresentada a um n mais formal em Lehman (1986). o e vel Chamamos de hiptese estat o stica qualquer armao que se faa sobre um ca c parmetro populacional desconhecido. A idia bsica que a partir de uma a e a e amostra da populao iremos estabelecer uma regra de deciso segundo a qual reca a jeitaremos ou aceitaremos a hiptese proposta. Esta regra de deciso chamada o a e de teste. Normalmente existe uma hiptese que mais importante para o o e pesquisador que ser denotada por H0 e chamada hiptese nula. Qualquer outra a o hiptese diferente de H0 ser chamada de hiptese alternativa e denotada por o a o H1 . Veremos mais adiante que intervalos de conana e testes de hipteses esto c o a intimamente relacionados. Exemplo 6.1 : (Teste Binomial) Um professor aplica um teste do tipo certoerrado com 10 questes. Queremos testar a hiptese de que o aluno est advino o a hando. Nossa hiptese nula que o aluno acerta as questes ao acaso e a hiptese o e o o alternativa que ele tem algum conhecimento da matria. Denotando por p a e e probabilidade (desconhecida) do aluno acertar cada questo a hiptese estat a o stica 84

6.1. INTRODUCAO E NOTACAO

85

de interesse pode ser formulada como H0 : p = 1/2. Neste caso, a hiptese o alternativa mais adequada H1 : p > 1/2 indicando que o aluno tem algum e conhecimento sobre o assunto. Temos ento 10 repeties do experimento com a co p constante, portanto X=nmero de acertos tem distribuio binomial com u ca parmetros n = 10 e p desconhecido. Suponha que adotamos a seguinte regra de a deciso: o aluno no est advinhando se acertar 8 ou mais questes. Isto equivale a a a o a rejeitar H0 se X 8 (regio de rejeio ou regio cr a ca a tica) e aceitar H0 se X < 8 (regio de aceitao). a ca No entanto, poss que um aluno acerte 8 ou mais questes e esteja ade vel o vinhando, isto podemos rejeitar H0 quando ela verdadeira. A probabilidade e e de que isto ocorra e P (X 8 | p = 1/2) = 7 10 10 10 0, 510 = 0, 054. 0, 510 + 0, 510 + 128 10 9 8

Esta probabilidade chamada n de signicncia e ser denotada por . Fica e vel a a claro ento que o valor de depende da regra de deciso, por exemplo se a regio a a a cr tica for X 7 teriamos 0, 171. No prximo exemplo veremos como usar o o n de signicncia para construir uma regra de deciso. vel a a Exemplo 6.2 : Um fornecedor garante que 90% de sua produo no apresenta ca a defeito. Para testar esta armao selecionamos ao acaso 10 itens de um lote ca e contamos o nmero de defeituosos. Com base nesta amostra tomaremos uma u deciso: comprar ou no comprar o lote. E bem intuitivo que devemos decidir a a no comprar o lote se o nmero observado de no defeituosos for muito pequeno. a u a O nosso problema denir o quo pequeno. e a Denindo X=nmero de no defeituosos na amostra de 10 itens temos ento u a a uma distribuio binomial com parmetros n = 10 e p desconhecido, e queremos ca a testar H0 : p = 0, 90. Aqui p a proporo de itens no defeituosos no lote e e ca a portanto a hiptese alternativa deve ser H1 : p < 0, 90. Suponha que decidimos o manter 0, 025 e a partir deste valor vamos estabelecer a nossa regra de deciso, ou seja obter o valor da constante c tal que H0 rejeitada se X c. a e Para isto vamos calcular para diferentes regies cr o ticas, P (X 5 | p = 0, 90) = 0, 001

P (X 7 | p = 0, 90) = 0, 069. Portanto, devemos usar a regio cr a tica X 6. Isto , vamos rejeitar o lote se o e nmero de itens defeituosos na amostra for maior ou igual a 4. u

P (X 6 | p = 0, 90) = 0, 012

86

CAP ITULO 6. TESTES DE HIPOTESES

Nestes dois exemplos os testes so chamados de unilaterais porque somente a valores de um lado do espao amostral foram utilizados para construir a regio c a cr tica. As regies cr o ticas so mostradas nos grcos da Figura ??. Podemos ter a a tambm testes bilaterais aonde os dois extremos do espao amostral so usados e c a como regio cr a tica. A varivel aleatria X chamada estat a o e stica de teste, sua distribuio deve ser conhecida e ela deve depender do parmetro que est sendo ca a a testado. No caso geral ento temos uma amostra aleatria X = (X1 , . . . , Xn ) tomada a o de uma distribuio que envolve um parmetro desconhecido, denido em um ca a espao paramtrico . Assim, as hipteses podem ser denidas como c e o H0 : 0

H1 : 1

sendo que 0 e 1 so subconjuntos disjuntos de . Um teste especicado a e particiondo-se o espao amostral em dois subconjuntos. Um sobconjunto contm c e os valores de X para os quais H0 ser rejeitada e chamado regio cr a e a tica do teste, e o outro contem os valores de X para os quais H0 ser aceita e chamado a e regio de aceitao do teste. Em resumo, um teste ca determinado quando a ca especicamos sua regio cr a tica. Alm disso, uma hiptese pode ser classicada da seguinte maneira. Se o e o subconjunto i , i = 0 ou i = 1 contm um unico valor ento Hi uma hiptese e a e o simples. Caso contrrio, se i contm mais de um valor ento Hi uma hiptese a e a e o composta. Nos Exemplos 6.1 e 6.2 H0 uma hiptese simples enquanto H1 come o e a ca ca posta. Ou seja, se C e C denotam a regio de rejeio e aceitao respectivamente ento a P (X C| 0 ) = e P (X C| 1 ) =

6.1.1

Tipos de Deciso a

Ao tomar uma deciso a favor ou contra uma hiptese existem dois tipos de erros a o que podemos cometer. Podemos rejeitar a hiptese nula quando de fato ela o e verdadeira (erro tipo I) ou podemos falhar em rejeitar H0 quando de fato ela falsa (erro tipo II). Frequentemente denotamos as probabilidades destes dois e tipos de erro como e respectivamente. Existe um balano entre esses dois tipos de erros, no sentido de que ao tentar-se c minimizar , aumenta-se . Isto , no poss minimizar estas duas probabile a e vel idades simultaneamente e na prtica costume xar um valor (pequeno) para . a e Na Tabela 6.1 esto descritos as decises que podemos tomar e os tipos de erro a o associados.

6.1. INTRODUCAO E NOTACAO

87

Tabela 6.1: Tipos de deciso e tipos de erro associados a testes de hipteses. a o Deciso a Verdade Aceitar H0 Rejeitar H0 H0 verdadeira Deciso correta a Erro Tipo I (probabilidade 1 ) (probabilidade ) H0 falsa Erro Tipo II Deciso correta a (probabilidade ) (probabilidade 1 )

6.1.2

A Funo Poder ca

As caracter sticas probabil sticas de um teste podem ser descritas atravs de uma e funo que associa a cada valor de a probabilidade () de rejeitar H0 . A funo ca ca () chamada funo de poder (ou potncia) do teste. Assim, denotando por e ca e C a regio cr a tica a funo de poder denida como ca e () = P (X C | ), .

A funo de poder a ferramenta utilizada para vericar a adequao de um ca e ca claro que uma funo de poder teste ou para comparar dois ou mais testes. E ca ideal seria tal que () = 0 para satisfazendo H0 e () = 1 para satisfazendo H1 . Em um problema prtico no entanto raramente existir um teste com estas a a caracter sticas. Na Figura 6.1 abaixo est representada a funo poder para o a ca Exemplo 6.2, i.e. P (X 6 | p), para 0 < p < 1 com X Binomial(10, p). Note que neste exemplo se p for maior do que digamos 0,8 ento o teste quase a certamente aceitar H0 , indicando que o teste adequado. Por outro lado, para a e valores de p entre 0,7 e 0,8 o teste ainda rejeita H0 com probabilidade baixa. O tamanho ou n de signicncia de um teste denido como vel a e sup ().
0

Assim como no caso de n veis de conana na Seo 5.1, a desigualdade acima c ca e essencialmente tcnica j que estaremos interessados em valores de to pequenos e a a quanto poss vel. Na prtica isto implicar em usar uma igualdade e o tamanho a a do teste ento ser a probabilidade mxima, para 0 , de tomar uma deciso a a a a errada. A desigualdade ser util principalmente no caso de espaos amostrais a c discretos. Exemplo 6.3 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 2 ) o ca com 2 = 25 e suponha que queremos testar H0 : 17. Suponha que a regra de deciso consiste em rejeitar H0 se somente se X > 17 + / n. Neste caso a a

88

CAP ITULO 6. TESTES DE HIPOTESES

(p) 0.0 0.0 0.2 0.4

0.6

0.8

1.0

0.2

0.4 p

0.6

0.8

1.0

Figura 6.1: Grco da funo de poder para o Exemplo 6.2. a ca

funo poder dada por ca e () = P (rejeitar H0 | ) = P (X > 17 + / n) = P onde Z N (0, 1). Para n = 25 segue que, () = P (Z > 18 ) e calculando esta probabilidade para vrios valores de podemos construir o a grco da Figura 6.2 para a funo poder do teste. Note que o valor mximo a ca a da funo quando H0 verdadeira ( 17) obtido para = 17 e portanto o ca e e tamanho do teste dado por e 17 + / n sup P Z > = P (Z > 1) 0, 159. / n 17 17 + / n Z> / n

6.1. INTRODUCAO E NOTACAO

89

() 0.0 14 0.2 0.4

0.6

0.8

1.0

16

18

20

22

Figura 6.2: Grco da funo de poder para o Exemplo 6.3. a ca

Comentrio a
Fica claro que os testes de hipteses clssicos dependem basicamente da probo a abilidade de X pertencer a uma determinada regio do espao amostral. Isto a c signica que os testes dependem da probabilidade de dados que poderiam ter sido observados mas na realidade no foram. Portanto, estes testes violam o a princ pio da verossimilhana. c

6.1.3

Problemas

1. Suponha que X1 , . . . , Xn uma amostra aleatria da distribuio U (0, ) e o ca e queremos testar as hipteses H0 : 2 H1 : < 2. Seja Yn = o max(X1 , . . . , Xn ) e um teste que rejeita H0 se Yn 1. (a) Determine a funo poder do teste. ca (b) Determine o tamanho do teste. 2. Um aluno faz um teste de mltipla escolha com 10 questes, cada uma u o com 5 alternativas (somente uma alternativa correta). O aluno acerta 4

90

CAP ITULO 6. TESTES DE HIPOTESES questes. E poss deduzir (estatisticamente) que este aluno sabe alguma o vel coisa da matria? e 3. Suponha que a proporo p de itens defeituosos em uma populao de itens ca ca desconhecida e queremos testar as hipteses H0 : p = 0, 2 H1 : p = 0, 2. e o Uma amostra aleatria de 20 itens tomada desta populao e a regra de o e ca deciso consiste em rejeitar H0 se o nmero amostral de defeituosos for a u menor ou igual a 1 ou maior ou igual a 7. (a) Faa um esboo do grco da funo poder para p = 0; 0, 1; 0, 2, . . . , 1 c c a ca (b) Determine o tamanho do teste.

6.2

Testando Hipteses Simples o

E mais util comear o estuda da teoria de testes de hipteses considerando apenas c o hipteses simples. Isto equivale a dizer que uma amostra aleatria X1 , . . . , Xn foi o o tomada de um dentre duas poss veis distribuies e queremos decidir de qual delas co vem a amostra. Neste caso o espao paramtrico contm apenas dois pontos, c e e digamos 0 e 1 e queremos testar H 0 : = 0 H 1 : = 1 .

As probabilidades dos dois tipo de erro so dadas por a = P (rejeitar H0 | = 0 ) = P (aceitar H0 | = 1 ) e gostariamos de poder construir um teste para o qual estas probabilidades fossem as menores poss veis. Na prtica imposs encontrar um teste que minimize a e vel e simultaneamente mas pode-se construir testes que minimizam combinaes co lineares destas probabilidades. Assim, para constantes positivas a e b queremos encontrar um teste para o qual a() + b() seja m nima. Teorema 6.1 (Teste Otimo) Seja X1 , . . . , Xn uma amostra aleatria de uma o distribuio com funo de (densidade) de probabilidade p(x|) e dena pi = ca ca p(x|i ). Se um teste rejeita H0 quando p0 /p1 < k, aceita H0 quando p0 /p1 > k e nada decide se p0 /p1 = k, ento qualquer outro teste tal que a e a( ) + b( ) a() + b().

6.2. TESTANDO HIPOTESES SIMPLES

91

A razo p0 /p1 chamada razo de verossimilhanas (RV). O teorema estaba e a c elece ento que um teste timo, no sentido de minimizar a() + b(), rejeita a o H0 quando a razo de verossimilhanas pequena e aceita H0 quando esta razo a c e a grande. e Outro resultado vem do fato de que a hiptese H0 e o erro tipo I so em geral o a privilegiados em problemas prticos. Assim, usual considerar testes tais que a e () no seja maior do que um n especicado, digamos 0 , e tentar minimizar a vel (). Lema 6.1 (Neyman-Pearson) Seja X1 , . . . , Xn uma amostra aleatria de uma o distribuio com funo de (densidade) de probabilidade p(x|) e dena pi = ca ca p(x|i ). Se um teste rejeita H0 quando p0 /p1 < k, aceita H0 quando p0 /p1 > k e nada decide se p0 /p1 = k, ento para qualquer outro teste tal que () ( ), a () ( ). E tambm, () < ( ) implica em () > ( ). e Exemplo 6.4 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 1) e o ca queremos testar H0 : = 0 H1 : = 1. Neste caso a razo de verossimilhanas a c dada por e (2)n/2 exp((1/2) p0 = p1 (2)n/2 exp((1/2) 1 = exp 2
n n n 2 i=1 xi ) n i=1 (xi

1)2 )

x2 i
i=1

i=1

(xi 1)2

= exp n x

1 2

Portanto rejeitar H0 quando p0 /p1 < k equivalente a rejeitar H0 quando x > e (1/2) (1/n) log k = c. No dif obter o valor da constante c tal que a e cil Por exemplo para = 0, 05 obtemos da tabela da normal padronizada que c n = 1, 645 e o teste timo (que minimiza ) consiste em rejeitar H0 se X > 1, 645/ n. o Exemplo 6.5 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio exponeno ca cial com parmetro e queremos testar H0 : = 0 H1 : = 1 , com 1 > 0 . a A razo de verossimilhanas dada por a c e p0 = p1 0 1
n n

P (X > c | = 0) = P (Z > c n) = onde Z N (0, 1)

exp (0 1 )

xi
i=1

ento, pelo lema de Neyman-Pearson, o teste mais poderoso (teste timo) rejeita a o

92

CAP ITULO 6. TESTES DE HIPOTESES

H0 se p0 /p1 < k ou equivalentemente se


n

i=1

1 log k xi < 0 1

1 0

=c

A constante c obtida xando-se o valor de , ou seja calcule c tal que e


n

=P
i=1

Xi < c | = 0

.
n i=1

Note que se Xi Exp() ento quando = 0 temos que a n ca 2n e portanto 20 i=1 Xi tem distribuio 2 .

Xi Gama(n, 0 )

Exemplo 6.6 : Seja X1 , . . . , X10 Exp() uma amostra aleatria de tempos o (em horas) at a falha de equipamento eletrnicos. Suponha que queremos testar e o H0 : = 1 H1 : = 2 ao n de 5%. Do exemplo anterior, devemos obter o vel valor de uma constante c tal que
n

2
i=1

Xi < 2c

= 0, 05

sendo que 2 n Xi 2 . Usando uma tabela da distribuio qui-quadrado ca 20 i=1 com 20 graus de liberdade obtemos que 2c = 10.85. Assim, a regra de deciso a n consiste em rejeitar H0 se i=1 Xi < 5.425, ou equivalentemente se X < 0.5425.

6.2.1

Problemas

1. Sejam as hipteses H0 : = 1/2 e H1 : = 2/3 sendo a probabilidade o de sucesso em um experimento de Bernoulli. O experimento repetido 2 e vezes e aceita-se H0 se forem obtidos 2 sucessos. Calcule as probabilidades de erro tipo I e II. 2. Sabe-se que uma caixa contm 3 bolas vermelhas e 5 pretas ou 5 vermelhas e e 3 pretas. Um experimento consiste em retirar 3 bolas da caixa. Se menos do que 3 bolas retiradas forem vermelhas a deciso ser que a caixa contm a a e 3 bolas vermelhas e 5 pretas. Calcule as probabilidades de erro (tipo I e tipo II). 3. Com base em uma amostra de tamanho n da varivel aleatria X sendo a o f (x|) = ( + 1)x I[0,1] (x), > 0, deseja-se testar as hipteses H0 : = 0 contra H1 : = 1 com 0 > 1 . o

6.3. PROBABILIDADE DE SIGNIFICANCIA (P -VALOR) Construa um teste timo (use o Lema de Neyman-Pearson). o

93

4. Deseja-se testar H0 : = 0 contra H1 : = 1 (1 > 0 ) com base em uma amostra de tamanho n da varivel aleatria X sendo a o f (x|) = exp(x)I[0,) (x), > 0. Construa um teste timo usando o Lema de Neyman-Pearson. o 5. Uma v.a. X tal que f (x|) = (1 )x1 , para x {1, 2, . . . } e (0, 1). e Encontre uma regio cr a tica para testar H0 : = 3/4 contra H1 : = 2/3 com base em um unico valor de X e que satisfaa 0, 5. c 6. Dispe-se de uma amostra aleatria de tamanho 50 da v.a. X N (, 25). o o Sabendo que a mdia amostral foi x = 28 teste H0 : = 30 contra H1 : = e 29 com = 0, 05.

6.3

Probabilidade de signicncia (P -valor) a

Vimos que a escolha do n de signicncia do teste completamente arbitrria. vel a e a Alm disso, quando a distribuio da estat e ca stica de teste discreta, como no e Exemplo 2 da binomial, o n vel escolhido pode nem mesmo ser atingido. Por outro lado, a deciso de aceitar ou rejeitar H0 claramente depende desta escolha. a Na maioria das aplicaes prticas o valor escolhido 0,05 ou 0,01 mas no h co a e a a nada que justique formalmente o uso destes valores em particular. Um enfoque alternativo consiste em calcular o menor n de signicncia para o qual H0 rejeitada, para o valor observel a e vado da estat stica de teste. Esta quantidade chamada n cr e vel tico, probabilidade de signicncia ou pa valor. A idia que, aps calcular o p-valor o pesquisador pode escolher o seu e e o prprio n de signicncia como sendo a probabilidade mxima tolervel para o vel a a a um erro tipo I. Em geral, se T uma estat e stica de teste e H0 rejeitada por e exemplo para T > c ento o p-valor a probabilidade P (T > t | H0 ) onde t o a e e valor observado de T . Exemplo 6.7 : No Exemplo 6.1 suponha que o nmero observado de questes u o certas foi X = 9. Ento o p-valor ser a a P (X 9 | p = 1/2) = 10 10 0, 510 + 0, 510 = 0, 0107 9 10

e rejeitaremos H0 para todo n de signicncia maior do que este valor. Por vel a exemplo, rejeitaremos H0 para os valores usuais = 0, 025 ou = 0, 05. Por

94

CAP ITULO 6. TESTES DE HIPOTESES

outro lado, H0 seria aceita para = 0, 01. Exemplo 6.8 : No Exemplo 6.2 suponha que o nmero observado de no deu a feituosos foi X = 4. Neste caso o p-valor dado por e P (X 4 | p = 0, 90) = 0, 000146 ou seja, rejeitaremos H0 para praticamente todos os n veis de signicncia usuais. a

Portanto, o p-valor a probabilidade de observar resultados to extremos e a quanto aqueles que foram obtidos se a hiptese nula for verdadeira. A idia que o e e se o p-valor for grande ele fornece evidncia de que H0 verdadeira, enquanto e e que um p-valor pequeno indica que existe evidncia nos dados contra H0 . As e seguintes interpretaes de p-valores (P ) podem ser uteis, co P 0, 10 0, 05 P < 0, 10 0, 01 P < 0, 05 0, 001 P < 0, 01 P < 0, 001 No existe evidncia contra H0 a e Fraca evidncia contra H0 e Evidncia signicativa . . . e Evidncia altamente signicativa . . . e Evidncia extremamente signicativa . . . e

Comentrios a
Da forma como a metodologia clssica de testes de hipteses foi desenvolvida a o podemos ter a impresso de que estamos calculando probabilidades a respeito de a uma hiptese. De fato, algumas vezes incorretamente armado que rejeitar H0 o e ao n indica que a probabilidade de H0 ser verdadeira menor do que . vel e Esta interpretao no vlida e o p-valor calculado em um teste no fornece ca a e a a nenhuma indicao sobre qualquer probabilidade a respeito de H0 . ca Por exemplo, um p-valor prximo de zero nos fornece (do ponto de vista o clssico) muita evidncia contra H0 porm isto no signica de maneira alguma a e e a que P (H0 ser verdadeira) seja tambm prxima de zero. Esta ultima armao e o ca probabil stica sequer faz sentido na inferncia clssica, embora seja exatamente e a isto que gostariamos de calcular. Para que esta interpretao fosse vlida teriamos que usar a abordagem ca a Bayesiana. Basicamente, ter amos que atribuir uma probabilidade a priori, i.e. antes de observar os dados, para a hiptese H0 . Aps a observao dos dao o ca dos amostrais esta probabilidade seria atualizada, segundo regras da inferncia e Bayesiana, e ter amos uma probabilidade a posteriori para a hiptese H0 . Para o

6.4. TESTES UNIFORMEMENTE MAIS PODEROSOS

95

maiores detalhes ver por exemplo Migon and Gamerman (1999) ou DeGroot (1989).

6.4

Testes Uniformemente mais Poderosos

Na Seo 6.2 foram denidos testes timos para testar hipteses simples. Nesta ca o o seo os resultados sero generalizados para hipteses compostas. Considere enca a o to um teste em que H0 pode ser uma hiptese simples ou composta e H1 a o e sempre uma hiptese composta. o Denio 6.1 Um teste de H0 : 0 H1 : 1 dito ser uniformemente ca e mais poderoso (UMP) de tamanho se e somente se sup () =
0

e para qualquer outro teste que satisfaa esta igualdade c (|) (| ), 1 .

Assim, de acordo com esta denio, precisamos especicar um teste cuja probca abilidade mxima de rejeitar H0 quando ela verdadeira seja e que ao mesmo a e tempo maximize a probabilidade de rejeitar H0 quando ela falsa. Veremos a e seguir que os testes UMP s existem em situaes especiais, por exemplo quando o co a distribuio pertence ` fam exponencial vista na Seo 1.3.1. ca a lia ca Teorema 6.2 Se X1 , . . . , Xn uma amostra aleatria de um membro da fam e o lia exponencial e for estritamente crescente em ento o teste UMP de n a vel para testar H0 : 0 H1 : > 0 rejeita H0 se T (x) > c. Se as hipteses forem o invertidas ou for estritamente decrescente em ento o teste UMP rejeita H0 a se T (x) < c. Se ambas as condies ocorrerem o teste ca inalterado. co Um fato importante que, em qualquer condio estes testes tm funo e ca e ca poder crescente em e portanto seu valor mximo atingido em = 0 . Assim a e a constante c acima obtida de modo que P (rejeitar H0 | = 0 ) , com e igualdade no caso cont nuo. Exemplo 6.9 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio de o ca Bernoulli com parmetro . Suponha que queremos testar H0 : 0, 1 H1 : a > 0, 1 ao n mximo de 5% com base em uma amostra de tamanho n = 15. vel a

96 Ento, denindo t(x) = a


n i=1

CAP ITULO 6. TESTES DE HIPOTESES xi

p(x|) = t(x) (1 )nt(x) = exp[t(x) log + (n t(x)) log(1 )] + n log(1 ) . = exp t(x) log 1 Logo, a distribuio pertence ` fam exponencial e () = log(/(1 )) ca a lia e uma funo estritamente crescente de . Assim, um teste UMP deve rejeitar ca H0 se n Xi > c onde c tal que P ( n Xi > c | = 0, 1) . Como e i=1 i=1 n Y = i=1 Xi Binomial(n, ) segue que P (Y > 4 | = 0, 1) = 0, 013 P (Y > 3 | = 0, 1) = 0, 056

P (Y > 6 | = 0, 1) = 0, 0003. e a regra de deciso consiste em rejeitar H0 se a


n i=1

P (Y > 5 | = 0, 1) = 0, 002

Xi > 4.

Exemplo 6.10 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio expoo ca nencial com parmetro e queremos testar H0 : 0 H1 : > 0 . Denindo a n t(x) = i=1 xi a densidade conjunta e p(x|) = n e t(x) = exp(n log t(x)). Portanto a distribuio pertence ` fam exponencial e () = uma funo ca a lia e ca estritamente decrescente de . Ento pelo teorema 6.2 o teste UMP deve rea n e ca jeitar H0 se i=1 Xi < c. Fixando o valor de a constante c a soluo da n n equao P ( i=1 Xi < c | = 0 ) = com i=1 Xi Gama(n, 0 ) e portanto ca 20 n Xi 2 . 2n i=1 A propriedade que garante a existncia de testes UMP na fam exponene lia cial pode ser estendida a fam lias de distribuies com razo de verossimilhana co a c montona. o Denio 6.2 A fam de distribuies com funo de (densidade) de probaca lia co ca bilidade p(x|) dita ter razo de verossimilhana montona se existe uma ese a c o tat stica T (X) tal que 1 , 2 , com 1 < 2 , a razo p(x|2 )/p(x|1 ) uma a e funo montona em t(x). ca o Intuitivamente, quanto maior for a razo de verossimilhana mais plaus a c vel e o valor 2 em relao a 1 . Assim, se queremos testar H0 : 0 H1 : > 0 ca e se a RV for uma funo crescente de T (X) ento razovel rejeitar H0 para ca a e a

6.4. TESTES UNIFORMEMENTE MAIS PODEROSOS

97

valores grandes de T (X). Pode-se mostrar que neste caso o teste UMP rejeita H0 se T (X) > c. Analogamente, se as hipteses forem invertidas ou se a RV for o uma funo decrescente de T (X) ento o teste UMP rejeita H0 se T (X) < c. Se ca a ambas as condies ocorrerem o teste ca inalterado. co Em qualquer destas condies o fato importante que a funo poder co e ca e sempre crescente em . Portanto, a constante c acima obtida de modo que e P (rejeitar H0 | = 0 ) , com igualdade no caso cont nuo. Exemplo 6.11 : Seja X1 , . . . , Xn uma amostra aleatria da distribuio de o ca Bernoulli com parmetro e queremos testar H0 : 0 H1 : > 0 . Ento, a a n denindo t(x) = i=1 xi temos que p(x|) = t(x) (1 )nt(x) e para 1 < 2 a razo de verossimilhana ca a c 2 (1 1 ) (1 2 )nt(x) = t(x) 1 (1 2 ) 1 (1 1 )nt(x) 2
t(x) t

1 2 1 1

= t n .

Como 2 > 1 e 1 1 > 1 2 ento > 1 e a RV uma funo crescente em t. a e ca n Portanto, o teste UMP rejeita H0 se i=1 Xi > c conrmando assim o resultado no Exemplo 6.9.

6.4.1

Problemas

1. Para cada uma das distribuies abaixo considere uma amostra aleatria co o X1 , . . . , Xn e obtenha o teste UMP para testar as hipteses H0 : o 0 H 0 : > 0 . (a) Poisson com parmetro . a (b) Normal com mdia conhecida e varincia desconhecida. e a (c) Gama com parmetro desconhecido e conhecido. a (d) Gama com parmetro conhecido e desconhecido. a 2. Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (0, 2 ) com 2 o ca desconhecido. Obtenha o teste UMP para testar as hipteses H0 : 2 o 2 2 H0 : > 2 com n = 10 e = 0, 05. 3. Suponha que X1 , . . . , Xn seja uma amostra aleatria da distribuio expoo ca nencial com parmetro e queremos testar H0 : 1/2 H0 : < 1/2. a Obtenha o teste UMP para estas hipteses com n = 10 e = 0, 05. o

98

CAP ITULO 6. TESTES DE HIPOTESES 4. Suponha que X1 , . . . , Xn seja uma amostra aleatria da distribuio de o ca Poisson com parmetro e queremos testar H0 : 1 H0 : > 1. a Obtenha o teste UMP para estas hipteses com n = 10 e = 0, 05. o 5. Seja X1 , . . . , Xn uma amostra aleatria da distribuio com funo de deno ca ca 1 sidade p(x|) = x , para x (0, 1) e > 0 desconhecido. Encontre o teste UMP para as hipteses H0 : 1 H1 : > 1 com n o vel de signicncia = 0, 05. a 6. A proporo p de itens defeituosos em um grande lote de manufaturados ca desconhecida. Uma amostra aleatria de 20 itens foi selecionada e ine o specionada, e queremos testar as hipteses H0 : p 0, 1 H1 : p > 0, 1. o Obtenha o teste UMP. 7. Suponha que X1 , . . . , Xn seja uma amostra aleatria da distribuio de o ca Poisson com mdia desconhecida e queremos testar H0 : 1 H1 : e < 1. Para n = 10, verique para quais n veis de signicncia no intervalo a 0 < < 0, 03 existem testes UMP. 8. Seja X1 , . . . , Xn uma amostra aleatria da distribuio N (, 1) com deo ca sconhecido e queremos testar as hipteses H0 : 0 H1 : > 0. Sejam o o teste UMP ao n = 0, 025 e (| ) funo poder do teste. vel ca (a) Determine o menor valor de n para o qual (| ) 0, 9 para 0, 5.

(b) Determine o menor valor de n para o qual (| ) 0, 001 para 0, 1.

9. Seja X1 , . . . , Xn uma amostra aleatria da distribuio 2 com nmero de o ca u graus de liberdade desconhecido, = 1, 2, . . . . Suponha que queremos testar as hipteses H0 : 8 H1 : 9 ao n o vel de signicncia . a n Mostre que existe um teste UMP que rejeita H0 se i=1 log Xi > k para uma constante k.

6.5

Testes Bilaterais

Suponha agora que queremos testar hipteses do tipo o H 0 : = 0 H 1 : = 0 , (6.1)

ou seja H0 uma hiptese simples e H1 uma alternativa bilateral. Como e o e veremos nas prximas sees este tipo de teste pode ser util na comparao de o co ca

6.5. TESTES BILATERAIS

99

tratamentos. O problema que neste caso no existe um teste UMP para estas e a hipteses, i.e. no poss construir um teste cuja probabilidade de rejeitar H0 o a e vel seja maximizada quando ela falsa. e Um procedimento alternativo seria construir testes tais que as chances de rejeitar H0 sejam maiores quando ela falsa do que quando ela verdadeira. Isto e e nos leva ` denio de testes no viesados a seguir. a ca a Denio 6.3 Um teste dito ser no viesado para as hipteses H0 : 0 ca e a o H1 : 1 se 0 e 1 ento () ( ). Caso contrrio o teste a a dito viesado. e Ou seja, em testes no viesados a probabilidade de rejeitar H0 quando ela falsa a e no m e nimo to grande quanto para H0 verdadeira. a Podemos agora tentar construir testes para hipteses bilaterais que sejam o UMP dentro da classe de testes no viesados. Se a distribuio pertence ` fam a ca a lia exponencial, pode-se mostrar que se () for uma funo estritamente crescente ca em ento o teste UMP no viesado de n para as hipteses (6.1) aceita a a vel o H0 quando c1 < T (X) < c2 . As constantes c1 e c2 so obtidas de modo que a P (c1 < T (X) < c2 | = 0 ) = 1 . Note que existe uma innidade de valores de c1 e c2 satisfazendo a esta condio. Em muitas situaes conveniente tomar valores tais que ca co e P (T (X) < c1 | = 0 ) = P (T (X) > c2 | = 0 ) = /2 e se T (X) tem uma distribuio simtrica em torno de um ponto isto implica ca e em escolher c1 e c2 simetricamente em relao a este ponto. No entanto, nada ca impede que outros valores possam ser considerados. Por exemplo, o pesquisador pode considerar mais grave aceitar H0 quando < 0 do que quando > 0 e neste caso melhor considerar testes com funo poder assimtrica. e ca e

6.5.1

Testes Gerais

Em muitas situaes no poss obter nem mesmo um teste no viesado. Um co a e vel a procedimento geral para testar H0 : 0 H1 : 1 baseado na estat e stica da razo de mxima verossimilhana (RMV) dada por a a c (X) = sup0 p(X|) . sup1 p(X|)

Deste modo estaremos comparando o valor mximo atingido pela funo de a ca verossimilhana quando 0 com o valor mximo atingido quando 1 . c a Neste caso, razovel decidir pela rejeio de H0 se (X) < c onde a constante e a ca

100 c obtida de modo que e

CAP ITULO 6. TESTES DE HIPOTESES

sup P ((X) < c | ) .

Novamente, a igualdade ser usada sempre que poss cando a desigualdade a vel para o caso de distribuies discretas. co Equivalentemente, podemos usar o logaritmo da verossimilhana c 2 log = 2( ) 1 0 e neste caso, a regio de rejeio ser {X : 2 log (X) > k}. a ca a Existem duas diculdades prticas associadas a estes testes: a obter os valores 0 e 1 que maximizam a verossimilhana sob H0 e H1 . c determinar a distribuio amostral de (X) (ou 2 log (X)). ca Este segundo problema ser discutido em mais detalhes quando falarmos de testes a assintticos na Seo 6.7. o ca

6.6

Testes de Hipteses no Modelo Normal o

Os resultados desenvolvidos nas sees anteriores sero aplicados ao modelo norco a mal para testes sobre mdia e varincia em problemas de uma ou mais amostras e a e em modelos de regresso linear. Nesta seo considere uma amostra aleatria a ca o 2 X1 , , Xn tomada da distribuio N (, ). ca Suponha que queremos testar H0 : = 0 H1 : = 0 e inicialmente vamos assumir que 2 conhecida. Neste caso, e p(x|) = (2 )
2 n/2

1 exp 2 2 1 2 2

i=1 n

(xi )2 x2 i exp xn n2 2 2 2

= (2 2 )n/2 exp

i=1

e como n uma funo estritamente crescente de segue que o teste UMP no e ca a vel a viesado rejeita H0 se X < c1 ou X > c2 . Ao n de signicncia podemos obter as constantes c1 e c2 tais que P (X < c1 | = 0 ) + P (X > c2 | = 0 ) = . Conforme discutido anteriormente, existe uma innidade de valores que satisfazem esta condio. Na maioria dos experimentos envolvendo o modelo normal ca

6.6. TESTES DE HIPOTESES NO MODELO NORMAL

101

ser conveniente tomar c1 e c2 simtricos em relao a E(X). Assim, usando uma a e ca tabela da distribuio normal padronizada podemos obter o valor do percentil z/2 ca tal que n(X 0 ) z/2 = 1 P z/2 e o teste bilateral UMP no viesado rejeita H0 se a X < 0 z/2 / n ou X > 0 + z/2 / n. No caso em que a varincia populacional tambm desconhecida o espao dos a e e c 2 2 parmetros = {(, ) : R, > 0} e vamos obter o teste da RMV. Note a e que, como H0 uma hiptese simples ento 0 = {(0 , 2 ) : 2 > 0} e no e o a a e 2 dif vericar que o valor de que maximiza a verossimilhana para 0 xo cil c e n 2 2 0 = i=1 (xi 0 ) /n (faa as contas). Portanto, c sup
(, 2 )0

p(X|, 2 ) = p(x|0 , 0 ). 2

Para = 0 a funo de verossimilhana maximizada em (, 2 ) onde = x e ca c e n 2 = i=1 (xi x)2 /n. Portanto sup
(, 2 )1

p(X|, 2 ) = p(x|, 2 ).

Assim, a estat stica da RMV dada por e (20 )n/2 exp{ 2 (X) = (2 2 )n/2 exp{
n i=1 (Xi n i=1 (Xi

0 )2 /20 } 2 X)2 /2 2 }

e substituindo as somas de quadrados obtemos que (X) = (0 / 2 )n/2 . Mas, 2 0 2 = 2 onde T =


n i=1 (Xi

X)2 + n(X 0 )2 T2 n(X 0 )2 =1+ =1+ n 2 (n 1)S 2 n1 i=1 (Xi X)

n(X 0 )/S e ento podemos reescrever a RMV como a (X) = T2 1+ n1


n/2

Finalmente, o teste da RMV rejeita H0 se (X) < c ou equivalentemente se T 2 > c ou |T | > c. Como T tn1 a constante c simplesmente o percentil e t/2,n1 desta distribuio. ca O teste desenvolvido acima conhecido como teste t e talvez um dos mais e utilizados em Estat stica. Pode-se mostrar que o teste t no viesado j que o e a a

102

CAP ITULO 6. TESTES DE HIPOTESES

valor m nimo da funo poder ocorre em = 0 . Alm disso, as propriedades ca e 2 do teste no so afetadas pelo valor de (parmetro de distrbio) j que 2 foi a a a u a 2 substituido pelo seu estimador S e T uma quantidade pivotal. O teste tambm e e invariante a transformaes lineares das observaes. e co co 2 2 Testes bilaterais do tipo H0 : 2 = 0 H1 : 2 = 0 para a varincia podem a ser constru dos fazendo-se analogia com intervalos de conana. Vimos na Seo c ca 2 5.2.1 do Cap tulo 5 que o intervalo de conana de 100(1 )% para dado c e por (n 1)s2 (n 1)s2 , q2 q1 sendo q1 e q2 so os quantis /2 e 1 /2 da distribuio 2 . Assim, o teste a ca n1 2 deve aceitar H0 se e somente se 0 estiver contido neste intervalo. Ser deixado a como exerc mostrar que este o teste da razo de mxima verossimilhana cio e a a c para as hipteses acima. o

6.6.1

Testes para Vrias Mdias a e

Para comear vamos assumir que temos duas amostras aleatrias X11 , . . . , X1n1 c o 2 2 e X21 , . . . , X2n2 das distribuies N (1 , 1 ) e N (2 , 2 ) respectivamente e que as co 2 2 amostras so independentes. Neste caso o vetor de parmetros (1 , 2 , 1 , 2 ) e a a e em geral estaremos interessados em testar as hipteses o
2 2 H0 : 1 = 2 , 1 > 0, 2 > 0 2 2 H1 : 1 = 2 , 1 > 0, 2 > 0

(6.2)

2 2 Se pudermos assumir que as varincias populacionais so iguais, i.e. 1 = 2 = a a 2 , o problema de construo do teste se torna relativamente simples usando a ca estat stica da razo de mxima verossimilhana. Neste caso, como as amostras a a c so independentes, podemos escrever a funo de verossimilhana como a ca c

p(x1 , x2 |1 , 2 , 2 ) = p(x1 |1 , 2 )p(x2 |2 , 2 ) e aps algum algebrismo segue que a verossimilhana de (1 , 2 , 2 ) dada por o c e (2 2 )(n1 +n2 )/2 exp 1 2 2 (n1 1)S1 + n1 (1 x1 )2 + (n2 1)S2 + n2 (2 x2 )2 2 2 .

Quando 1 = 2 as estimativas de mxima verossimilhana de 1 , 2 e 2 so a c a respectivamente x1 , x2 e 2 =


2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2

6.6. TESTES DE HIPOTESES NO MODELO NORMAL

103

2 2 onde S1 e S2 so as varincias amostrais. Quando 1 = 2 = segue que as a a estimativas de mxima verossimilhana de e 2 so a c a

n1 x 1 + n2 x 2 = n1 + n2

e 0 = 2 + 2

n1 n2 (x1 x2 )2 . (n1 + n2 )2

Substituindo estas expresses na razo de verossimilhanas pode-se mostrar o a c que o teste da RMV rejeita H0 se (X 1 X 2 ) > c. 1 1 + n1 n2

|T | =

Pode-se mostrar que T tem distribuio t de Student com = n1 + n2 2 graus ca de liberdade de modo que a constante c simplesmente o percentil t/2, desta e distribuio. Este teste conhecido como teste t para duas amostras. ca e

6.6.2

Varincias Desconhecidas e Desiguais a

O procedimento visto na seo anterior para varincias iguais pode ser estendido ca a facilmente para o caso de varincias desconhecidas e desiguais, desde que a razo a a 2 2 2 2 de varincias 1 /2 seja conhecida. Suponha por exemplo que 1 = k2 onde k a uma constante positiva conhecida. Denindo-se e 2 =
2 2 (n1 1)S1 + (n2 1)S2 /k n1 + n2 2

ento pode-se mostrar que quando 1 = 2 a varivel aleatria a a o U= (X 1 X 2 ) 1 k + n1 n2

tem distribuio t de Student com n1 + n2 2 graus de liberdade. ca Finalmente, se mesmo a razo de varincias for desconhecida ento o problema a a a de testar as hipteses 6.2 torna-se bastante complexo. Este problema conhecido o e na literatura como o problema de Behrens-Fisher. Vrios procedimentos de teste a j foram propostos e a maioria foi objeto de controvrsia em relao a sua utilidade a e ca e correo. ca

104

CAP ITULO 6. TESTES DE HIPOTESES

6.6.3

Comparao de Varincias ca a

Em problemas com duas ou mais amostras de distribuies normais natural co e que se tenha interesse em comparar as varincias populacionais. Neste caso, a a distribuio F utilizada para testar as hipteses associadas. No caso de duas ca e o amostras suponha que queremos testar
2 2 H0 : 1 2 2 2 H1 : 1 > 2

Pode-se mostrar que no existe teste UMP para estas hipteses e prtica a o e a comum utilizar-se o chamado teste F . Este teste no viesado e na verdade e a e UMP dentro da classe de testes no viesados. Usando a estat a stica da razo de a mxima verossimilhana pode-se mostrar que o teste F rejeita H0 se a c
n1 i=1 (x1i n2 i=1 (x2i

x1 )2 /(n1 1) s2 1 = 2 > c. s2 x2 )2 /(n2 1)

Vimos na Seo 5.2.4 que ca


2 2 S1 2 F (n1 1, n2 1). 2 2 S2 1

e portanto a constante c pode ser obtida tal que P


2 2 S1 2 2 2 > c | 1 = 2 2 2 S2 1

=P

2 S1 >c 2 S2

usando os valores tabelados da distribuio F com n1 1 e n2 1 graus de ca liberdade. No caso de testes bilaterais, i.e.
2 2 H0 : 1 = 2 2 2 H1 : 1 = 2 2 2 2 2 o teste F rejeita H0 se S1 /S2 < c1 ou S1 /S2 > c2 onde as constantes c1 e c2 so a mais uma vez obtidas como percentis da distribuio F com n1 1 e n2 1 graus ca de liberdade. Analogamente ao teste t, prtica comum escolher c1 e c2 tal que e a as probabilidades nas caudas sejam iguais, i.e. /2.

6.6.4

Problemas

1. Suponha que X1 , . . . , Xn uma amostra aleatria da distribuio N (, 1) e o ca e queremos testar as hipteses H0 : = 0 H1 : = 0 . Considere um o

6.6. TESTES DE HIPOTESES NO MODELO NORMAL teste que rejeita H0 se X c1 ou X c2 .

105

(a) Determine os valores de c1 e c2 tais que (0 ) = 0, 10 e () seja simtrica em torno de 0 . e (b) Determine os valores de c1 e c2 tais que (0 ) = 0, 10 e o teste seja no viesado. a (c) Suponha que c1 = 0 1, 96/ n. Determine c2 tal que (0 ) = 0, 10. (d) Determine o menor valor de n para o qual (0 ) = 0, 10 e (0 + 1) = (0 1) 0, 95. 2. Suponha que X1 , . . . , Xn uma amostra aleatria da distribuio N (, 1) e e o ca queremos testar as hipteses o H0 : 0, 1 0, 2

H1 : < 0, 1 ou > 0, 2.

Considere um teste que rejeita H0 se X c1 ou X c2 . (a) Para n = 25 determine c1 e c2 tais que tais que (0, 1) = (0, 2) = 0, 07. (b) Idem para (0, 1) = 0, 02 e (0, 2) = 0, 05. 3. Os comprimentos de bras metlicas (em mil a metros) produzidas por uma mquina tm distribuio normal com mdia e varincia 2 desconhecidos. a e ca e a Suponha que queremos testar as seguintes hipteses o H0 : 5, 2

H1 : > 5, 2.

Os comprimentos de 15 bras selecionadas ao acaso foram medidos e obtevese a mdia amostral x = 5, 4 e n (xi x)2 = 2, 5. e i=1 (a) Construa um teste t ao n de 0,05 baseado nestes resultados. vel (b) Repita o item anterior para as hipteses H0 : = 5, 2 H1 : = 5, 2. o Qual a concluso do exerc a cio? 4. Suponha que foi selecionada uma amostra aleatria de 9 observaes da o co 2 distribuio N (, ) com parmetros desconhecidos. Obteve-se X = 22 e ca a n 2 i=1 (Xi X) = 72. (a) Teste as hipteses H0 : 20 H1 : > 20 ao n de signicncia o vel a 0,05.

106

CAP ITULO 6. TESTES DE HIPOTESES (b) Teste as hipteses H0 : = 20 H1 : = 20 ao n de signicncia o vel a 0,05. Use um teste simtrico com probabilidade 0,025 em cada cauda. e

5. O tempo mdio, por operrio, para executar uma tarefa, tem sido de 100 e a minutos com desvio padro de 15 minutos. Foi introduzida uma modicao a ca para reduzir este tempo e aps alguns meses foi selecionada uma amostra o de 16 operrios medindo-se o tempo de execuo de cada um. Obteve-se a ca um tempo mdio amostral de 90 minutos e um desvio padro amostral de e a 16 minutos. Estabelea claramente as suposies que precisam ser feitas. c co (a) Verique se existem evidncias, ao n de signicncia 0,05, de que e vel a a modicao surtiu efeito? ca (b) Verique se h evidncias, ao n a e vel de signicncia 0,05, de que a a modicao alterou a varincia populacional. ca a 6. Uma indstria compra componentes eletrnicos dos fornecedores A e B, u o mas o fornecedor A garante que o tempo mdio de vida (em horas) do e seu produto supera o da marca B em 300 horas. Para testar esta armao ca foram selecionadas duas amostras de componentes, uma de cada fornecedor, e obteve-se os seguintes tempos de vida: marca A marca B 1500 1450 1480 1520 1510 1100 1200 1180 1250

Aps estabelecer claramente as suposies que precisam ser feitas, o co (a) teste a hiptese de igualdade das varincias dos tempos de vida, ao o a n de signicncia 0,02; vel a (b) teste a armao do fornecedor A, ao n de signicncia 0,05. ca vel a 7. Uma droga A foi administrada em um grupo de 8 pacientes selecionados ao acaso. Aps um per o odo xo de tempo a concentrao da droga em ca certas clulas de cada paciente foi medida (em unidades apropriadas). O e procedimento foi repetido em um outro grupo de 6 pacientes selecionados ao acaso usando uma droga B. As concentraes obtidas foram co droga A droga B 1,23 1,42 1,41 1,62 1,55 1,51 1,60 1,76 1,76 1,41 1,87 1,49 1,67 1,81

Aps estabelecer claramente as suposies que precisam ser feitas, o co (a) teste a hiptese de que a concentrao mdia de droga A entre todos o ca e os pacientes pelo menos to grande quanto da droga B; e a

6.7. TESTES ASSINTOTICOS

107

(b) teste a hiptese de que as concentraes mdias das duas drogas so o co e a iguais. 8. Mostre que o teste bilateral para a varincia dado na Seo 6.6 o teste da a ca e RMV.

6.7

Testes Assintticos o

Vimos que a construo de um teste envolve a obteno de constantes atravs da ca ca e distribuio de probabilidades de uma estat ca stica. Em muitas situaes, particuco larmente para a razo de mxima verossimilhana, estas distribuies no podem a a c co a ser determinadas de forma exata e precisamos recorrer a resultados aproximados. Nesta seo sero desenvolvidos testes baseados em distribuioes assintticas das ca a c o estat sticas de teste envolvidas. Iremos nos concentrar em testes baseados na distribuio assinttica da razo de mxima verossimilhana, do estimador de ca o a a c mxima verossimilhana e da funo escore. a c ca Suponha que uma amostra aleatria X1 , . . . , Xn tomada de uma distribuio o e ca com parmetro R desconhecido e queremos testar H0 : = 0 . Exa pandindo em srie de Taylor a funo L(0 ) = log p(x|0 ) em torno do estimador e ca de mxima verossimilhana obtemos a c 1 L(0 ) L() + U (x; )(0 ) J()(0 )2 2 onde J a informao observada de Fisher denida na Seo 5.4 e podemos e ca ca desprezar os termos de ordem mais alta j que, sob H0 , 0 e esto prximos a a o para n grande. e Mas a funo escore avaliada em igual a zero por denio. Alm disso, a ca ca e razo de mxima verossimilhana neste caso a a c e (X) = e podemos escrever ento que a 2 log (X) = 2 log p(X|0 ) p(X|) = 2[L(0 ) L()] J()(0 )2 . p(X|0 ) p(X|)

e Lembrando que assintticamente normal com mdia e usando o fato de que o e J()/n converge quase certamente para o seu valor esperado I(0 )/n quando H0 verdadeira ento a distribuio assinttica de 2 log (X) 2 . Assim, um e a ca o e 1 teste com n de signicncia assinttico rejeita H0 se 2 log (X) > c onde vel a o c tal que P (2 log (X) > c| = 0 ) = . e

108

CAP ITULO 6. TESTES DE HIPOTESES

Este resultado pode ser generalizado para o caso de um vetor de parmeta ros = (, . . . , k ) de dimenso k. Neste caso, a estat a stica 2 log (X) tem 2 distribuio assinttica k . ca o

6.7.1

Teste Qui-quadrado

Um caso de particular interesse em Estat stica quando os dados so tais que e a cada observao pode ser classicada de acordo com um nmero nito de posca u s veis categorias. Por isso, observaes deste tipo so chamadas dados categricos co a o e estaremos interessados em fazer inferncia sobre as probabilidades de cada cate egoria. Suponha que uma populao consiste de itens que podem ser classicados ca em k diferentes categorias. Seja i a probabilidade de que um item selecionado ao acaso pertena ` categoria i, i = 1, . . . , k. Assumimos tambm que i 0, c a e n 0 0 i = 1, . . . , k e i=1 i = 1. Sejam agora os valores espec cos 1 , . . . , k tais que n 0 0 i > 0, i = 1, . . . , k e i=1 i = 1 e queremos testar as hipteses o
0 H 0 : i = i , 0 H 0 : i = i ,

i = 1, . . . , k para ao menor um valor de i. (6.3)

Suponha agora que uma amostra aleatria de tamanho n tomada desta o e populao e as hipteses (6.3) sero testadas com base nesta amostra. Para ca o a isto vamos denotar por Ni o nmero amostral de observaes na categoria i, u co k i.e. N1 , . . . , Nk so inteiros no negativos tais que i=1 Ni = n. Quando H0 a a 0 verdadeira, o nmero esperado de observaes do tipo i ni e a diferena e u co e c entre o nmero observado e o nmero esperado tende a ser menor quando H0 u u e verdadeira do que quando ela falsa. Parece razovel ento basear o teste nas e a a magnitudes relativas destas diferenas. Neste caso, usando-se a funo escore c ca pode-se mostrar que o teste assinttico rejeita H0 se o
k

Q=
i=1

0 (Ni ni )2 >c 0 ni

onde a estat stica Q tem distribuio assinttica 2 . Estes testes tambm so ca o e a k1 conhecidos na literatura como testes de qualidade de ajuste ou testes de aderncia e e esto entre os mais utilizados em Estat a stica. 0 Uma observao de ordem prtica que as frequncias esperadas ni no ca a e e a 2 devem ser muito pequenas para que a distribuio seja uma boa aproximao ca ca da distribuio de Q. Especicamente, pode-se mostrar que a aproximao ser ca ca a 0 0 muito boa se ni 5 e apenas razovel ni 1, 5. a Vrias aplicaes para dados categricos e mtodos no paramtricos que a co o e a e

6.7. TESTES ASSINTOTICOS

109

utilizam testes qui-quadrado podem ser vistas por exemplo em DeGroot (1989).

Testes de Aderncia e
Suponha agora que deseja-se testar a hiptese de que a amostra foi tomada de o uma certa distribuio indexada por um vetor de parmetros = (1 , . . . , m ). ca a Neste caso a hiptese alternativa que a amostra foi tomada de alguma outra o e distribuio. Alm disso, suponha que foram observados k valores de uma varivel ca e a categrica ou os dados foram agrupados em k classes de valores. o Agora, para calcular as probabilidades de que um item pertena a cada c uma das classes ou categorias precisamos dos valores estimados dos parmetros a 1 , . . . , m . Se usarmos estimativas de mxima verossimilhana pode-se mostrar a c que a estat stica Q tem distribuio assinttica qui-quadrado com k 1m graus ca o de liberdade sendo m o nmero de parmetros estimados no modelo terico. Uma u a o condio de validade desta distribuio que ei 5, i = 1, . . . , k. ca ca e Exemplo 6.12 : A proporo p de itens defeituosos em um grande lote deca e sconhecida e deseja-se testar as hipteses o H0 : p = 0, 1 H1 : p = 0, 1 com base em uma amostra aleatria de 100 itens dos quais 16 so defeituosos. o a Podemos usar o teste qui-quadrado com duas categorias (defeituoso e no dea feituoso) reformulando as hipteses acima como o H0 : p1 = 0, 1 e p2 = 0, 9 H1 : H0 falsa e sendo p1 e p2 as probabilidades de um item ser defeituoso ou no defeituoso a respectivamente. As frequncias observadas e esperadas sob H0 so e a N1 = 16, N2 = 84, np0 = 10, np0 = 90 1 2 e portanto o valor observado da estat stica de teste e Q= (16 10)2 (84 90)2 + = 4. 10 90

Usando uma tabela da distribuio qui-quadrado com 1 grau de liberdade obtmca e se que 0,025 < P -valor < 0,05 e assim H0 deve ser rejeitada ao n de 5% e vel aceita ao n de 2,5%. vel

110

CAP ITULO 6. TESTES DE HIPOTESES

Exemplo 6.13 : O teste 2 tambm pode ser aplicado no estudo da relao entre e ca duas variaveis categricas com p e k poss o veis categorias. Neste caso queremos testar se as variveis so independentes (hiptese nula). A estat a a o stica de teste a mesma porm com nmero de graus de liberdade igual a (p 1)(k 1) e e u Considere por exemplo a Tabela 6.3 na qual esto apresentados os nmero de a u alunos matriculados nos colgios A e B, em relao ` sua classe social. Se as e ca a Tabela 6.2: Classe social Colgio Alta Media Baixa Total e A 20 40 40 100 B 50 40 30 120 Total 70 80 70 220 variveis Colgio e Classe social forem independentes espera-se que as frequncias a e e de alunos das 3 classes sejam as mesmas nos 2 colgios, i.e. 70/220, 80/220 e e 70/220. As frequncias esperadas sob a hiptese de independncia so ento e o e a a dadas por Colgio A: 100 e Colgio B: 120 e 80 70 70 = 31, 82 100 = 36, 36 100 = 31, 82 220 220 220

70 80 70 = 38, 18 120 = 43, 64 120 = 38, 18 220 220 220 e podemos construir a tabela abaixo. Tabela 6.3: Frequncias esperadas sob a hiptese de independncia. e o e Classe social Colgio Alta Media Baixa e A 31,82 36,36 31,82 B 38,18 43,64 38,18 Podemos agora avaliar a estat stica de teste T = (20 31, 82)2 (40 36, 36)2 (40 31, 82)2 + + + 31, 82 36, 36 31, 82 (50 38, 18)2 (40 43, 64)2 (30 38, 18)2 + + = 12, 57. 38, 18 43, 64 38, 18

Ao n vel de signicncia 0,05 obtemos da tabela 2 com (p 1)(k 1) = 2 a graus de liberdade que P (T > 5, 99) = 0, 05 e como 12, 57 > 5, 99 a hiptese o

6.8. PROBLEMAS

111

de independncia rejeitada. Para calcular o P -valor, note que a tabela quie e quadrado com 2 graus de liberdade nos fornece, P (T > 12, 429) = 0, 002 e portanto podemos concluir que P -valor < 0,002. Ou seja, existe forte evidncia e contra a hiptese de independncia entre as variveis Colgio e Classe social. o e a e

6.8

Problemas

1. Em uma amostra de 100 lotes com 5 itens cada um, vericou-se que o nmero de itens defeituosos tem a distribuio de frequncias abaixo. Teste u ca e a adequao do modelo binomial. ca no de defeituosos 0 1 2 3 4 5 total 75 21 3 1 0 0 100 no de lotes 2. Em uma amostra de 300 itens, o nmero de defeitos observados em cada u um deles tem a distribuio de frequncias dada na tabela abaixo. Teste a ca e adequao do modelo Poisson. ca no de defeitos 0 1 2 3 4 total o 80 122 53 31 14 300 n de itens 3. Em seus experimentos com ervilhas, Mendel ao cruzar plantas de sementes amarelas lisas com plantas de sementes verdes enrugadas observou ca a seguinte descendncia na 2a gerao: 315 plantas com sementes amaree las lisas, 108 com sementes amarelas enrugadas, 101 com sementes verdes lisas e 32 com sementes verdes enrugadas. De acordo com os postulados de Mendel a segregao esperada nesta gerao deveria seguir a proporo de ca ca ca 9:3:3:1. Verique se a teoria de Mendel explica a segregao observada. ca 4. Em uma amostra de 1800 valores no intervalo (0,1) obteve-se 391 valores entre 0 e 0,2, 490 valores entre 0,2 e 0,5, 580 entre 0,5 e 0,8; e 339 maiores do que 0,8. Teste a hiptese de que a amostra foi tomada de uma distribuio o ca uniforme no intervalo (0,1) (neste caso a probabilidade de um valor cair no intervalo (a, b) b a). e

112

CAP ITULO 6. TESTES DE HIPOTESES

6.9

Testes Bayesianos

Do ponto de vista Bayesiano, podemos atribuir probabilidades a priori p(H0 ) e p(H1 ) para um par de hipteses estat o sticas H0 e H1 . Aps observar uma amostra o aleatria X1 , . . . , Xn e aplicando o teorema de Bayes obtemos as probabilidades o a posteriori p(H0 |x) = p(x|H0 )p(H0 ) p(x) e p(H1 |x) = p(x|H1 )p(H1 ) . p(x)

Tomando-se a razo das posterioris (e notando que o termo p(x) se cancela) a obtemos P (H0 |x) P (x|H0 ) P (H0 ) . = P (H1 |x) P (x|H1 ) P (H1 )
razo de chances a a posteriori fator de Bayes razo de chances a a priori

O fator de Bayes (FB) ser usado para testar as hipteses e pode ser reescrito a o como p(|H0 )p(x|, H0 )d P (x|H0 ) FB = . = P (x|H1 ) p(|H1 )p(x|, H1 )d Note que o fator de Bayes similar ` razo de verossimilhanas porm ao invs de e a a c e e maximizar a verossimilhana toma-se uma mdia ponderada com pesos p(|Hi ). c e Na escala logar tmica o fator de Bayes algumas vezes chamado de fora (ou e c peso) da evidncia fornecido pelos dados para H0 contra H1 . e Um fator de Bayes grande indica evidncia a favor de H0 e a seguinte escala e pode ser usada, FB <1 [1, 3] (3, 12] (12, 150] > 150 log FB <0 [0, 5] (5, 11] (11, 22] > 22 Fora da evidncia c e negativa (suporta H1 ) fraca positiva forte muito forte

Apndice A e Lista de Distribuies co


Neste apndice so listadas as distribuies de probabilidade utilizadas no texto e a co para facilidade de referncia. So apresentadas suas funes de (densidade) de e a co probabilidade alm da mdia e varincia. Uma reviso exaustiva de distribuies e e a a co de probabilidades pode ser encontrada em Johnson et al. (1992, 1994, 1995).

A.1

Distribuio Normal ca

X tem distribuio normal com parmetros e 2 , denotando-se X N (, 2 ), ca a se sua funo de densidade dada por ca e p(x|, 2 ) = (2 2 )1/2 exp[(x )2 /2 2 ], < x < ,

para < < e 2 > 0. Quando = 0 e 2 = 1 a distribuio chamada ca e normal padro. A distribuio log-normal denida como a distribuio de eX . a ca e ca No caso vetorial, X = (X1 , . . . , Xp ) tem distribuio normal multivariada ca com vetor de mdias e matriz de varincia-covarincia , denotando-se X e a a N (, ) se sua funo de densidade dada por ca e p(x|, ) = (2)p/2 ||1/2 exp[(x ) 1 (x )/2] para Rp e positiva-denida.

A.2

Distribuio Gama ca

X tem distribuio Gama com parmetros e , denotando-se X Ga(, ), ca a se sua funo de densidade dada por ca e p(x|, ) = 1 x x e , () 113 x > 0,

114 para , > 0.

APENDICE A. LISTA DE DISTRIBUICOES

E(X) = /

e V (X) = / 2 .

Casos particulares da distribuio Gama so a distribuio de Erlang, Ga(, 1), ca a ca a distribuio exponencial, Ga(1, ), e a distribuio qui-quadrado com graus ca ca de liberdade, Ga(/2, 1/2).

A.3

Distribuio Gama Inversa ca

X tem distribuio Gama Inversa com parmetros e , denotando-se ca a X GI(, ), se sua funo de densidade dada por ca e p(x|, ) = para , > 0. E(X) = 1 e V (X) = 2 . ( 1)2 ( 2) (+1) /x x e , () x > 0,

No dif vericar que esta a distribuio de 1/X quando X Ga(, ). a e cil e ca

A.4

Distribuio Beta ca

X tem distribuio Beta com parmetros e , denotando-se X Be(, ), se ca a sua funo de densidade dada por ca e p(x|, ) = para , > 0. E(X) = + e V (X) = . ( + )2 ( + + 1) ( + ) 1 x (1 x)1 , ()() 0 < x < 1,

A.5

Distribuio de Dirichlet ca

O vetor aleatrio X = (X1 , . . . , Xk ) tem distribuio de Dirichlet com parmetros o ca a 1 , . . . , k , denotada por Dk (1 , . . . , k ) se sua funo de densidade conjunta ca e dada por (0 ) x1 1 . . . xk 1 , p(x|1 , . . . , k ) = k (1 ), . . . , (k ) 1
k

xi = 1,
i=1

A.6. DISTRIBUICAO T DE STUDENT para 1 , . . . , k > 0 e 0 = E(Xi ) = i , 0 V (Xi ) =


k i=1

115

i . e Cov(Xi , Xj ) = i j 2 0 (0 +

(0 i )i , 2 0 (0 + 1)

1)

Note que a distribuio Beta obtida como caso particular para k = 2. ca e

A.6

Distribuio t de Student ca

X tem distribuio t de Student (ou simplesmente t) com mdia , parmetro ca e a 2 de escala e graus de liberdade, denotando-se X t (, ), se sua funo de ca densidade dada por e p(x|, , 2 ) = (x )2 (( + 1)/2) /2 + 2 (/2)
(+1)/2

x R,

para > 0, R e 2 > 0. E(X) = , 2 , para > 1 e V (X) = 2 para > 2.

Um caso particular da distribuio t a distribuio de Cauchy, denotada por ca e ca 2 C(, ), que corresponde a = 1.

A.7

Distribuio F de Fisher ca

X tem distribuio F com 1 e 2 graus de liberdade, denotando-se X F (1 , 2 ), ca se sua funo de densidade dada por ca e p(x|1 , 2 ) = ((1 + 2 )/2) 1 /2 2 /2 1 /21 2 x (2 + 1 x)(1 +2 )/2 (1 /2)(2 /2) 1

x > 0, e para 1 , 2 > 0. E(X) = 2 , 2 2 para 2 > 2 e V (X) =


2 22 (1 + 2 2) , 1 (2 4)(2 2)2

para 2 > 4.

A.8

Distribuio Binomial ca

X tem distribuio binomial com parmetros n e p, denotando-se X bin(n, p), ca a se sua funo de probabilidade dada por ca e p(x|n, p) = n x p (1 p)nx , x x = 0, . . . , n

116 para n 1 e 0 < p < 1.

APENDICE A. LISTA DE DISTRIBUICOES

E(X) = np e V (X) = np(1 p) e um caso particular a distribuio de Bernoulli com n = 1. e ca

A.9

Distribuio Multinomial ca

O vetor aleatrio X = (X1 , . . . , Xk ) tem distribuio multinomial com parmeto ca a ros n e probabilidades 1 , . . . , k , denotada por Mk (n, 1 , . . . , k ) se sua funo de ca probabilidade conjunta dada por e n! x x 1 1 , . . . , k k , p(x|1 , . . . , k ) = x1 !, . . . , xk !
k

xi = 0, . . . , n,
i=1

xi = n,

para 0 < i < 1 e k i = 1. Note que a distribuio binomial um caso ca e i=1 especial da multinomial quando k = 2. Alm disso, a distribuio marginal de e ca cada Xi binomial com parmetros n e i e e a E(Xi ) = ni , V (Xi ) = ni (1 ) , e Cov(Xi , Xj ) = ni j .

A.10

Distribuio de Poisson ca

X tem distribuio de Poisson com parmetro , denotando-se X P oisson(), ca a se sua funo de probabilidade dada por ca e p(x|) = para > 0. E(X) = V (X) = . x e , x! x = 0, 1, . . .

A.11

Distribuio Binomial Negativa ca

X tem distribuio de binomial negativa com parmetros r e p, denotando-se ca a X BN (r, p), se sua funo de probabilidade dada por ca e p(x|r, p) = r+x1 r p (1 p)x , x x = r, r + 1, . . .

A.11. DISTRIBUICAO BINOMIAL NEGATIVA para r 1 e 0 < p < 1. E(X) = r(1 p)/p e V (X) = r(1 p)/p2 .

117

Um caso particular quando r = 1 e neste caso diz-se que X tem distribuio e ca geomtrica com parmetro p. e a

Solues de Exerc co cios Selecionados


Cap tulo 4
Seo 4.4 ca
10. n = 396

Seo 4.6 ca
3. (a) mdia 0, 17, (b) moda 0, 15 e 4. mdia 2, 67 e 4. mdia 175, 86 e

Cap tulo 5
Seo 5.5 ca
11. O I.C. de 99% para a diferena mdia [0,2143177; 4,185682]. Com 99% c e e de conana podemos armar que a bebida teve efeito signicativo pois em c mdia houve aumento nos escores aps ingesto de gua. e o a a 12. O I.C. de 95% para a diferena mdia de massas [0,1178474; 1,642153]. c e e Com 95% de conana podemos armar que houve ganho de massa j que c a o intervalo contm somente valores positivos. e

Cap tulo 6
Seo 6.4 ca
1. (a)
n i=1

Xi > c, (b)

n i=1 (Xi

)2 > c, (c) 118

n i=1

Xi > c, (d) X > c.

A.11. DISTRIBUICAO BINOMIAL NEGATIVA 2. Rejeitar H0 se 3. Rejeitar H0 se


n i=1 n i=1

119

Xi2 > 36, 62. Xi > 31, 41. log Xi <

5. Teste UMP rejeita H0 se log Xi > c ou equivalentemente se c sendo que log Xi Exp().

Seo 6.6.4 ca
6 Da Tab. A.7 obtemos P (Y > 28.71)=0,01 sendo Y F (4, 3) ento a FS U P =28,71 Da Tab. A.7 obtemos P (Z > 16.69)=0,01 sendo Z 2 2 F (3, 4) ento FI N F =1/16,69 SA /SB = 770/3892 = 0.1978417 e como a 0, 0599 < 0, 197841 < 28, 71 aceita-se H0 ao n de 2%. vel

Referncias e
Broemeling, L. (1985). Bayesian Analysis of Linear Models. New York: Marcel Dekker. DeGroot, M. H. (1989). Probability and Statistics (2nd ed.). Addison Wesley. DeGroot, M. H. and M. J. Schervish (2002). Probability and Statistics (3rd ed.). Addison Wesley. Lehman, E. (1986). Testing Statistical Hypothesis (2nd ed.). Wiley. Migon, H. S. and D. Gamerman (1999). Statistical Inference: An Integrated Approach. Arnold.

120

Похожие интересы