Inferencia UFPR PDF

NCIA ESTAT INFERE ISTICA
RICARDO S. EHLERS
Primeira publica c ao em 2003 Segunda edi c ao publicada em 2006 Terceira edi c ao publicada em 2009 RICARDO SANDES EHLERS 2003-2009
Sum ario
1 Introdu c ao 1.1 Princ pios de estima c ao . . . . . 1.2 Fun c ao de Verossimilhan ca . . . 1.3 Suci encia e fam lia exponencial 1.3.1 Fam lia Exponencial . . 1.4 Problemas . . . . . . . . . . . . 1.5 Teorema Central do Limite . . . 1 2 3 8 9 11 12 14 18 18 19 21 23 23 31 32 33 35 37 38 39 41 41 42 42 43 44 44 45
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
2 Propriedades dos Estimadores 2.1 Estimadores baseados em estatisticas sucientes 2.2 Eci encia . . . . . . . . . . . . . . . . . . . . . 2.3 Consist encia . . . . . . . . . . . . . . . . . . . . 2.4 Problemas . . . . . . . . . . . . . . . . . . . . . 3 M etodos de Estima c ao 3.1 Estimadores de M axima Verossimilhan ca 3.1.1 Coment arios . . . . . . . . . . . . 3.1.2 Problemas . . . . . . . . . . . . . 3.2 M etodo dos Momentos . . . . . . . . . . 3.3 Estimadores de M nimos Quadrados . . . 3.4 Problemas . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4 Estima c ao Bayesiana 4.1 Distribui c ao a Posteriori . . . . . . . . . . . . . . . . 4.1.1 Observa c oes Sequenciais . . . . . . . . . . . . 4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Distribui c oes a Priori Conjugadas . . . . . . . . . . . 4.3.1 Amostrando de um Distribui c ao de Bernoulli . 4.3.2 Amostrando de uma Distribui c ao de Poisson . 4.3.3 Amostrando de uma Distribui c ao Exponencial 4.3.4 Amostrando de uma Distribui c ao Multinomial 4.3.5 Amostrando de uma Distribui c ao Normal . . . i
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
ii 4.4 4.5 Problemas . . . . . . . . . . . Estimadores de Bayes . . . . . 4.5.1 Introdu c ao ` a Teoria da 4.5.2 Estimadores de Bayes . Problemas . . . . . . . . . . . . . . . . . . . . . Decis ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
SUMARIO . . . . . . . . . . . . . . . . . . . . 47 49 49 50 53 55 56 59 59 61 63 64 65 66 67 68 70 70 74 75 75 78 83 85 87 87 90 90 92 94 96 97 98 101 102 103 104 106 107
4.6
5 Estima c ao por Intervalos 5.1 Procedimento Geral . . . . . . . . . . . . . . 5.2 Estima c ao no Modelo Normal . . . . . . . . 5.2.1 O caso de uma amostra . . . . . . . 5.2.2 O caso de duas amostras . . . . . . . 5.2.3 Vari ancias desiguais . . . . . . . . . . 5.2.4 Compara c ao de vari ancias . . . . . . 5.2.5 Amostras pareadas . . . . . . . . . . 5.2.6 Coment ario . . . . . . . . . . . . . . 5.3 Intervalos de conan ca para uma propor c ao 5.4 Intervalos de Conan ca Assint oticos . . . . . 5.4.1 Usando a Fun c ao Escore . . . . . . . 5.5 Problemas . . . . . . . . . . . . . . . . . . . 5.6 Intervalos Bayesianos . . . . . . . . . . . . . 5.7 Estima c ao no Modelo Normal . . . . . . . . 5.7.1 Vari ancia Conhecida . . . . . . . . . 5.7.2 M edia e Vari ancia desconhecidas . . 5.7.3 O Caso de duas Amostras . . . . . . 5.8 Problemas . . . . . . . . . . . . . . . . . . . 6 Testes de Hip oteses 6.1 Introdu c ao e nota c ao . . . . . . . . . . . . . 6.1.1 Tipos de Decis ao . . . . . . . . . . . 6.1.2 A Fun c ao Poder . . . . . . . . . . . . 6.1.3 Problemas . . . . . . . . . . . . . . . 6.2 Testando Hip oteses Simples . . . . . . . . . 6.2.1 Problemas . . . . . . . . . . . . . . . 6.3 Probabilidade de signic ancia (P -valor) . . . 6.4 Testes Uniformemente mais Poderosos . . . 6.4.1 Problemas . . . . . . . . . . . . . . . 6.5 Testes Bilaterais . . . . . . . . . . . . . . . . 6.5.1 Testes Gerais . . . . . . . . . . . . . 6.6 Testes de Hip oteses no Modelo Normal . . . 6.6.1 Testes para V arias M edias . . . . . . 6.6.2 Vari ancias Desconhecidas e Desiguais
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
SUMARIO 6.6.3 Compara c ao de Vari ancias 6.6.4 Problemas . . . . . . . . . Testes Assint oticos . . . . . . . . 6.7.1 Teste Qui-quadrado . . . . Problemas . . . . . . . . . . . . . Testes Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii 107 108 110 111 114 116 117 117 117 118 118 118 119 119 119 120 120 120 122 124 127
6.7 6.8 6.9
A Lista de Distribui c oes A.1 Distribui c ao Normal . . . . . . A.2 Distribui c ao Gama . . . . . . . A.3 Distribui c ao Gama Inversa . . . A.4 Distribui c ao Beta . . . . . . . . A.5 Distribui c ao de Dirichlet . . . . A.6 Distribui c ao t de Student . . . . A.7 Distribui c ao F de Fisher . . . . A.8 Distribui c ao Binomial . . . . . . A.9 Distribui c ao Multinomial . . . . A.10 Distribui c ao de Poisson . . . . . A.11 Distribui c ao Binomial Negativa B Propriedades de Distribui c oes
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
C Solu c oes de Exerc cios Selecionados References
Cap tulo 1 Introdu c ao

Infer encia estat stica e o processo pelo qual podemos tirar conclus oes acerca de um conjunto maior (a popula c ao) usando informa c ao de um conjunto menor (a amostra). Em Estat stica, o termo popula c ao n ao se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia tamb em se referir, por exemplo, a f osseis, rochas e sedimentos num determinado local, itens produzidos em uma linha de montagem, etc. A popula c ao se refere a todos os casos ou situa c oes sobre as quais o pesquisador quer fazer infer encias. Diferentes pesquisadores podem querer fazer infer encias acerca da concentra c ao de poluentes num determinado len col fre atico; predizer a quantidade de petr oleo num po co a ser perfurado e assim por diante. Note que o investigador n ao est a interessado em todos os aspectos da popula c ao. O pesquisador pode n ao estar interessado em estudar a concentra c ao de todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo. Uma amostra e um subconjunto qualquer da popula c ao usado para obter informa c ao acerca do todo. Algumas raz oes para se tomar uma amostra ao inv es de usar a popula c ao toda s ao as seguintes, custo alto para obter informa c ao da popula c ao toda, tempo muito longo para obter informa c ao da popula c ao toda, algumas vezes imposs vel, por exemplo, estudo de polui c ao atmosf erica algumas vezes logicamente imposs vel, por exemplo, em ensaios destrutivos. Uma deni c ao mais formal de amostra e dada a seguir. Deni c ao 1.1 Sejam as vari aveis aleat orias X = (X1 , . . . , Xn ) com fun c ao de (densidade) de probabilidade conjunta f (x) fatorando nas densidades marginais como f (x) = f (x1 )f (x2 ) . . . f (xn ) 1
CAP ITULO 1. INTRODUC AO
sendo f () a densidade comum de todos Xi s. Ent ao X1 , . . . , Xn e denida como uma amostra aleat oria de tamanho n da popula c ao com densidade f (). Caracter sticas de uma popula c ao que diferem de um indiv duo para outro e aquelas que temos interesse em estudar s ao chamadas vari aveis. Alguns exemplos s ao comprimento, massa, idade, temperatura, n umero de ocorr encias, etc. Cada membro da popula c ao que e escolhido como parte de uma amostra fornece uma medida de uma ou mais vari aveis, chamadas observa c oes.
1.1
Princ pios de estima c ao
Suponha que estamos interessados em um par ametro populacional (desconhecido) . O conjunto aonde assume valores e denominado espa co param etrico. Exemplo 1.1 : Se X P oisson(), ent ao = { : > 0}. Exemplo 1.2 : Se X N (, 1), ent ao = { : < < }. Exemplo 1.3 : Se X N (, 2 ), ent ao = {(, 2 ) : < < , 2 > 0}. Podemos estimar o par ametro usando a informa c ao de nossa amostra. Chamamos este u nico n umero que representa o valor mais plaus vel do par ametro (baseado nos dados amostrais) de uma estimativa pontual de . Alguns exemplos s ao a m edia amostral, o desvio padr ao amostral, a mediana amostral, os quais estimam a verdadeira m edia, desvio padr ao e mediana da popula c ao (que s ao desconhecidos). Deni c ao 1.2 Uma estat stica e uma fun c ao qualquer das vari aveis aleat orias observ aveis X1 , . . . , Xn que n ao depende do par ametro desconhecido. Note que por esta deni c ao, uma estat stica e tamb em uma vari avel aleat oria observ avel. Estat sticas s ao usualmente representadas por letras latinas, (por edia amostral, S para o desvio padr ao amostral), enquanto exemplo, X para a m que par ametros s ao usualmente representados por letras gregas (por exemplo, claro que ` para a m edia populacional, para o desvio padr ao populacional). E a medida que a amostra aumenta, mais informa c ao n os teremos acerca da popula c ao de interesse, e portanto mais precisas ser ao as estimativas dos par ametros de interesse. Deni c ao 1.3 Qualquer estat stica que assume valores em e denominada um estimador para .
DE VEROSSIMILHANCA 1.2. FUNC AO
Das deni c oes acima segue ent ao que qualquer estimador e uma estat stica mas nem toda estat stica dene um estimador. Deni c ao 1.4 Momentos amostrais: Para uma amostra aleat oria X1 , . . . , Xn o k - esimo momento amostral e denido como Mk = 1 n
n
Xik
i=1
e denido como e o k - esimo momento amostral em torno de X

Mk =
1 n
i=1
(Xi X )k
1.2
Fun c ao de Verossimilhan ca
Seja uma u nica vari avel aleat oria X cuja distribui c ao depende de um u nico par ametro . Para um valor x xo e variando , p(x|) = l(; x) e a plausibilidade ou verossimilhan ca de cada um dos valores de . Assim, a fun c ao de verossimilhan ca de e uma fun c ao que associa o valor de p(x|) a cada um dos poss veis valores de . Vale notar que l(; x) n ao e uma fun c ao de densidade de probabilidade, i.e. em geral l(; x)d = 1.
Exemplo 1.4 : Se X Binomial (2, ) ent ao p(x|) = l(; x) = 2 x (1 )2x , x x = 0, 1, 2 (0, 1)
e a integral da fun c ao de verossimilhan ca em rela c ao a e dada por l(; x)d = 2 x

1 0
x (1 )2x d.
Mas o integrando e o n ucleo da fun c ao de densidade de uma distribui c ao Beta (ver Ap endice A) com par ametros x + 1 e 3 x, portanto
1 0
x (1 )2x d =
(x + 1)(3 x) x!(2 x)! = . (x + 1 + 3 x) 3!
Esta u ltima igualdade vem do fato que sendo x um n umero inteiro positivo ent ao (x) = (x 1)!. Ap os algumas simplica c oes segue que 1 l(; x)d = . 3 Al em disso, para cada poss vel valor observado de X temos um valor mais plaus vel para , (i) l(; x = 1) = 2(1 ) e o valor mais prov avel de e 1/2. (ii) l(; x = 2) = 2 e o valor mais prov avel e 1. (iii) l(; x = 0) = (1 )2 e o valor mais prov avel e 0. Claro que na pr atica um u nico valor de X ser a observado. Na Figura 1.1 est ao representadas as fun c oes de verossimilhan ca para uma u nica vari avel aleat oria X com distribui c oes Binomial(2,), Poisson() e Exponencial(). Se x = (x1 , . . . , xn ) s ao os valores observados das vari aveis aleat orias X1 , . . . , Xn cuja fun c ao de (densidade) de probabilidade conjunta e p(x|) ent ao a fun c ao de verossimilhan ca de e l(; x) = p(x|). No caso particular em que X1 , . . . , Xn s ao vari aveis aleat orias independentes e identicamente distribuidas, a fun c ao de verossimilhan ca de correpondente ` a amostra observada x1 , . . . , xn e dada por
n
l(; x) =
i=1
p(xi |).
Note por em que a deni c ao de verossimilhan ca n ao requer que os dados sejam observa c oes de vari aveis aleat orias independentes ou identicamente distribuidas. Al em disso, fatores que dependem somente de x e n ao dependem de podem ser ignorados quando se escreve a fun c ao de verossimilhan ca j a que eles n ao fornecem informa c ao sobre a plausibilidade relativa de diferentes valores de . No caso geral pode ser um escalar, um vetor ou mesmo uma matriz de par ametros.
Informa c ao de Fisher
Deni c ao 1.5 Considere uma u nica observa c ao X com fun c ao de (densidade) de probabilidade p(x|). A medida de informa c ao esperada de Fisher de atrav es de X e denida como 2 log p(x|) . I () = E 2
DE VEROSSIMILHANCA 1.2. FUNC AO
No caso de um vetor param etrico = (1 , . . . , k ) dene-se a matriz de informa c ao esperada de Fisher de atrav es de X como I ( ) = E 2 log p(x| ) .
Note que o conceito de informa c ao aqui est a sendo associado a uma esp ecie de curvatura m edia da fun c ao de verossimilhan ca no sentido de que quanto maior a curvatura mais precisa e a informa c ao contida na verossimilhan ca, ou equivalentemente maior o valor de I (). Em geral espera-se que a curvatura seja negativa e por isso seu valor e tomado com sinal trocado. Note tamb em que a esperan ca matem atica e tomada em rela c ao ` a distribui c ao amostral p(x|).
0.8
l( )
0.4
l( )
x=0 x=1 x=2
0.8
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.4
x=0 x=1 x=2 x=8
10
0.4
0.6
x=0.5 x=1 x=2 x=5
l( )
0.0 0
0.2
Figura 1.1: Fun c oes de verossimilhan ca para uma u nica vari avel aleat oria X com distribui c oes Binomial(2,), Poisson() e Exponencial(). Podemos considerar ent ao I () uma medida de informa c ao global enquanto que uma medida de informa c ao local e obtida quando n ao se toma o valor esperado na deni c ao acima. A medida de informa c ao observada de Fisher J () ca ent ao
6 denida como J () =
CAP ITULO 1. INTRODUC AO 2 log p(x|) . 2
Lema 1.1 Seja X = (X1 , . . . , Xn ) uma cole c ao de vari aveis aleat orias independentes com distribui c oes pi (x|), i = 1, . . . , n e sejam I (), J (), Ji () e Ii () as medidas de informa c ao de obtidas atrav es de X e de Xi , respectivamente. Ent ao,
n n
I () =
i=1
Ii () e J () =
i=1
Ji ().
Prova. A prova e simples e ser a deixada como exerc cio. O lema nos diz ent ao que a informa c ao total contida em observa c oes independentes e igual a soma das informa c oes individuais. Um caso particular importante e quando as observa c oes s ao tamb em identicamente distribuidas j a que neste caso Ii () e constante e assim a informa c ao total e simplesmente nI (). Outra estat stica muito importante no estudo da fun c ao de verossimilhan ca e que ser au til e a fun c ao escore denida a seguir. Deni c ao 1.6 A fun c ao escore de X denotada por U (X ; ) e dada por U (X ; ) = log p(X |) .
No caso de um vetor param etrico = (1 , . . . , k ) a fun c ao escore ser a um vetor U (X ; ) com componentes Ui (X ; ) = log p(X | )/i . Al em disso, pode-se mostrar que sob certas condi c oes de regularidade o valor esperado da fun c ao escore e zero e sua vari ancia e dada por I ()1 (a prova ser a deixada como exerc cio). Segue ent ao que uma forma alternativa de c alculo da informa c ao de Fisher e obtida a partir da fun c ao escore como I () = E [U 2 (X ; )] onde a esperan ca e tomada em rela c ao ` a distribui c ao de X |. No caso de um vetor param etrico o resultado ca I ( ) = E [U (X ; )U (X ; ) ].
Exemplo 1.5 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponen1 As condi c oes de regularidade referem-se ` a verossimilhan ca ser deriv avel em todo o espa co param etrico e ` a troca dos sinais de deriva c ao e integra c ao.
DE VEROSSIMILHANCA 1.2. FUNC AO cial com par ametro . A fun c ao de densidade de cada Xi e dada por p(xi |) = exi , > 0,
e portanto a fun c ao de densidade conjunta e dada por

n
p(x|) = e
n t
> 0,
sendo t =
i=1
xi .
Tomando-se o logaritmo obt em-se log p(x|) = n log() t de modo que as derivadas de primeira e segunda ordem s ao n log p(x|) = t e 2 log p(x|) n = 2 2
e a informa c ao esperada de Fisher baseada na amostra e I () = n/2 . Al em disso, a fun c ao escore e dada por U (X , ) = n
n
Xi .
i=1
Exemplo 1.6 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com par ametro . A fun c ao de densidade conjunta e dada por
n
p(x|) =
i=1
exp() xi 1 = exp(n) t , xi ! x! i=1 i
> 0,
sendo t =
i=1
xi .
As derivadas de primeira e segunda ordem do logaritmo da verossimilhan ca s ao t log p(x|) = n + e 2 log p(x|) t = 2 2
e portanto a informa c ao esperada de Fisher e 1 I () = 2 E

n
Xi
i=1
1 = 2
E (Xi ) =
i=1
n n = . 2
1.3
Suci encia e fam lia exponencial
Dado um conjunto de observa c oes X = (X1 , , Xn ), ser a que existe alguma fun c ao T (X ) que resume toda a informa c ao contida em X ? Esta id eia d a origem ao conceito de estat stica suciente denido a seguir. Deni c ao 1.7 T (X ) e uma estat stica suciente para o par ametro se p(x|t, ) = p(x|t). Assim, dado T , X n ao traz nenhuma informa c ao adicional sobre o par ametro . Ou seja por esta deni c ao, ao inv es de observar X basta observar T que pode ter dimens ao muito menor. Na pr atica esta deni c ao e dif cil de ser aplicada e precisamos de uma ferramenta adicional. Teorema 1.1 (Crit erio de fatora c ao de Neyman) T (X ) e suciente para se somente se p(x|) = f (t, )g (x) com f e g n ao negativas. Exemplo 1.7 : Sejam X = (X1 , , Xn ) observa c oes tipo 0-1 com P (Xi = 1|) = . Ent ao para r sucessos e s falhas a fun c ao de densidade conjunta e
n
p(x|) = (1 ) e portanto T (X ) =
n i=1
nt
onde t =
i=1
xi
Xi e uma estat stica suciente para .
Exemplo 1.8 : Dado , X1 , , Xn s ao independentes e identicamente distribuidos com fun c oes de densidade p(xi |). Ent ao a fun c ao de densidade conjunta e
n
p(x|) = p(x1 , , xn |) = Denindo as estat sticas de ordem
i=1
p(xi |).
Y1 = X(1) = min Xi Yn = X(n) = max Xi

i i
e como a cada xi corresponde um u nico yi ent ao

n n
p(x|) =
i=1
p(xi |) =
i=1
p(yi |) = g (x)f (t, )
1.3. SUFICIENCIA E FAM ILIA EXPONENCIAL

n
com g (x) = 1, f (t, ) =

i=1
p(yi |) e t = (y1 , , yn ).
Conclus ao: T (X ) = (Y1 , , Yn ) e estat stica suciente para e a dimens ao de T depende do tamanho amostral. O que se pode notar deste u ltimo exemplo e que o conceito de suci encia n ao e necessariamente u til. Na pr atica estamos interessados em uma redu c ao signicativa em rela c ao ao tamanho amostral. Um quest ao que se coloca e como obter estat sticas sucientes que gerem a maior redu c ao poss vel nos dados. Deni c ao 1.8 T (X ) e estat stica suciente minimal para se for suciente e se for fun c ao de qualquer outra estat stica suciente para . Al em disso pode-se mostrar que, Se S (X ) e fun c ao bijetiva de T (X ) ent ao S tamb em e suciente. Estat sticas sucientes minimais s ao u nicas. Existem distribui c oes com estat sticas sucientes cuja dimens ao e igual ao n umero de par ametros para qualquer tamanho n da amostra. Isto nos remete ` as deni c oes da pr oxima se c ao.
1.3.1
Fam lia Exponencial
A fam lia exponencial inclui muitas das distribui c oes de probabilidade mais comumente utilizadas em Estat stica, tanto cont nuas quanto discretas. Uma caracter stica essencial desta fam lia e que existe uma estat stica suciente com dimens ao xa. Deni c ao 1.9 A fam lia de distribui c oes com fun c ao de (densidade) de probabilidade p(x|) pertence ` a fam lia exponencial a um par ametro se podemos escrever p(x|) = a(x) exp{u(x)() + b()}. Note que pelo crit erio de fatora c ao de Neyman U (X ) e uma estat stica suciente para . A deni c ao de fam lia exponencial pode ser estendida ao caso multiparam etrico com = (1 , . . . , r ),
r
p(x| ) = a(x) exp
uj (x)j ( ) + b( ) ,
j =1
10
e quando se tem uma amostra aleat oria X1 , . . . , Xn , i.e.

n r n
p(x| ) =
a(xi ) exp
i=1 j =1 i=1
uj (xi ) j ( ) + nb( )
Neste caso, denindo Uj (X ) = n ao pelo crit erio de i=1 Uj (xi ), i = 1, . . . , n, ent fatora c ao, T (X ) = (U1 (X ), . . . , Ur (X )) e uma estat stica conjuntamente suciente para o vetor de par ametros (1 , . . . , r . Exemplo 1.9 : (X1 , , Xn ) Bernoulli() p(x|) = x (1 )1x Ix ({0, 1}) = exp x log + log(1 ) Ix ({0, 1}) 1
n
p(x|) = exp
xi
i=1
log
+ n log(1 ) Ix ({0, 1}n )

n i=1
Conclus ao: A Bernoulli pertence ` a fam lia exponencial e U = tica suciente para . Exemplo 1.10 : Sejam X1 , , Xn Poisson(). Ent ao,
Xi e estat s-
1 e x Ix ({0, 1, }) = exp{ + x log }Ix ({0, 1, }) x! x! 1 exp{n + xi log }Ix ({0, 1, }n ) p(x|) = xi ! p(x|) = Conclus ao: A Poisson pertence ` a fam lia exponencial e U = suciente para . Exemplo 1.11 : Sejam X1 , , Xn Normal(, 2 ). Ent ao, p(xi |, 2 ) = (2 2 )1/2 exp{(xi )2 /2 2 } 1 2 2 1 = (2 )1/2 exp x x log 2 i i 2 2 2 2 2 2 p(x|, 2 ) = (2 )n/2 exp 2
n n i=1
Xi e estat stica
i=1
xi
1 2 2
i=1
x2 i
n 2
2 + log 2 2
n i=1
Conclus ao: A Normal pertence ` a fam lia exponencial e U = ( e estat stica conjuntamente suciente para (, 2 ).
Xi ,
n i=1
Xi2 )
1.4. PROBLEMAS
11
1.4
Problemas
1. Uma u nica vari avel aleat oria X tem distribui c ao de Bernoulli com par ametro desconhecido mas sabe-se que = 0, 25 ou = 0, 75. A tabela abaixo descreve a distribui c ao de X para cada poss vel valor de . X 0 1 0,25 0,75 1/4 5/6 3/4 1/6
(a) Explique por que a soma em cada coluna e igual a 1 mas a soma em cada linha n ao e. (b) Qual valor de voc e escolheria como o mais plaus vel se X = 1 for observado? 2. Explique as diferen cas entre estat sticas, estimadores e estimativas. 3. Se X1 , . . . , Xn e uma amostra aleat oria da N (, 2 ) prove que se S 2 = n 1 2 ao i=1 (Xi X ) ent n1 U= (n 1)S 2 2 n1 . 2
4. Prove o Lema 1.1, i.e. que a informa c ao total contida em observa c oes independentes e igual a soma das informa c oes individuais. 5. Prove que a m edia da fun c ao escore e zero e sua vari ancia e igual a I (). 6. Se X1 , . . . , Xn Bernoulli(p) obtenha a informa c ao de Fisher para p. 7. Se X1 , . . . , Xn N (, 2 ) obtenha a matriz de informa c ao de Fisher para 2 (, ). 8. Seja uma amostra aleat oria X1 , . . . , Xn de cada uma das distribui c oes abaixo. Mostre que a estat stica T especicada e uma estat stica suciente para o par ametro. (a) Distribui c ao de Bernoulli com par ametro p desconhecido, T n i=1 Xi . (b) Distribui c ao geom etrica com par ametro p desconhecido, T =
n i=1
= Xi .
(c) Distribui c ao binomial negativa com par ametros r conhecido e p den sconhecido, T = i=1 Xi .
12
CAP ITULO 1. INTRODUC AO (d) Distribui c ao normal com m edia conhecida e vari ancia 2 descon2 hecida, T = n i=1 (Xi ) . (e) Distribui c ao gama com par ametros conhecido e desconhecido, T = X. (f) Distribui c ao gama com par ametros desconhecido e conhecido, T = n i=1 Xi . (g) Distribui c ao beta com par ametros desconhecido e conhecido, T = n i=1 Xi . (h) Distribui c ao uniforme nos inteiros 1, 2, . . . , para desconhecido ( = 1, 2, . . . ), T = max(X1 , . . . , Xn ). (i) Distribui c ao uniforme no intervalo (a, b) com a conhecido e b desconhecido (b > a), T = max(X1 , . . . , Xn ). (j) Distribui c ao uniforme no intervalo (a, b) com a desconhecido e b conhecido (a < b), T = min(X1 , . . . , Xn ). 9. Verique que cada uma das fam lias de distribui c oes abaixo e uma fam lia exponencial e obtenha as estat sticas sucientes de dimens ao m nima. (a) A fam lia de distribui c oes de Bernoulli com par ametro p desconhecido. (b) A fam lia de distribui c oes de Poisson com m edia desconhecida. (c) A fam lia de distribui c oes Normais com m edia desconhecida e vari ancia conhecida. (d) A fam lia de distribui c oes Normais com m edia conhecida e vari ancia desconhecida. (e) A fam lia de distribui c oes Gama(, ) com desconhecido e conhecido. (f) A fam lia de distribui c oes Gama(, ) com conhecido e desconhecido. (g) A fam lia de distribui c oes Beta(, ) com desconhecido e conhecido. (h) A fam lia de distribui c oes Beta(, ) com conhecido e desconhecido.
1.5
Teorema Central do Limite
Um resultado que nos permite conduzir alguns procedimentos de infer encia sem qualquer conhecimento da distribui c ao da popula c ao e apresentado a seguir.
1.5. TEOREMA CENTRAL DO LIMITE
13
Teorema 1.2 Se X1 , X2 , . . . s ao vari aveis aleat orias independentes e identica2 ao mente distribuidas com m edia e vari ancia < e X n = n i=1 Xi /n ent com Y N (0, 2 ). Para simplicar a nota c ao usualmente escreve-se (1.1) como n(X n ) N (0, 2 ), quando n .
D
n(X n ) Y, quando n
(1.1)
Cap tulo 2 Propriedades dos Estimadores

Na infer encia estat stica cl assica n ao existe um crit erio u nico para escolha de estimadores em um dado problema, mas sim um conjunto de crit erios que podem ser utilizados para sele c ao e compara c ao. Estes crit erios ou propriedades s ao descritos a seguir. Deni c ao 2.1 Seja uma amostra aleat oria X1 , . . . , Xn tomada de uma dis de tribui c ao parametrizada por . O erro quadr atico m edio de um estimador e denido como ) = E ( )2 . EQM ( Podemos reescrever esta u ltima express ao como ) = E [( E ( )) + (E ( ) )]2 EQM ( E ( )]2 + [E ( ) ]2 = V ar( ) + [E ( ) ]2 . = E [ ) ). onde o termo E ( e chamado v cio ou vi es do estimador e denotado por B ( Assim, o erro quadr atico m edio e denido como a vari ancia do estimador ) = 0, ou mais o quadrado do seu vi es. Um caso particular ocorre quando B ( ) = , i.e. o v equivalentemente E ( cio do estimador e nulo. Neste caso diz-se que e um estimador n ao viesado (ENV) para e da Deni c ao 2.1 segue que EQM () = V ar(). A interpreta c ao cl assica desta deni c ao e que, ap os observar todas as poss veis amostras de tamanho n desta distribui c ao a m edia dos valores calculados de ser a . Se E () = ent ao o estimador e dito ser viesado ou viciado. No entanto pode ocorrer que a esperan ca do estimador se aproxima do verdadeiro valor de ) = . Neste caso, ` a medida que aumenta o tamanho da amostra, i.e. limn E ( e dito ser uma estimador assintoticamente n ao viesado para . Exemplo 2.1 : Sejam as vari aveis aleat orias X1 , . . . , Xn independentes e identicamente distribuidas com E (Xi ) = e V ar(Xi ) = 2 . Ent ao, 14
15 (i) E (X ) = 1 n
n
E (Xi ) =
i=1 n
1 n
=
i=1 n
1 (i) V ar(X ) = 2 n
i=1
1 V ar(Xi ) = 2 n
2 =
i=1
2 . n
e um ENV da m edia populacional e sua vari ancia Portanto a m edia amostral X 2 dada por /n diminui com o tamanho da amostra. Exemplo 2.2 : (continua c ao) Suponha agora que o seguinte estimador 2 = n (1/n) i=1 (Xi X )2 e proposto para 2 . Ent ao E ( 2) = 1 E n
n
i=1
(Xi X )2 .
Mas a soma dos quadrados em torno da m edia amostral pode ser reescrita como
n n
i=1
(Xi X )
=
i=1 n
[(Xi ) (X )]2
n
=
i=1 n
(Xi )2 2(X )
i=1
(Xi ) + n(X )2
=
i=1
(Xi )2 n(X )2 .
Assim, a esperan ca do estimador e dada por 1 E ( )= n

2 n
i=1
E (Xi )2 nE (X )2 = 2
2 = n
n1 n
e conclui-se que 2 n ao e um ENV para 2 . Por em, lim n1 n 2 = 2
e portanto 2 e assintoticamente n ao viesado para 2 . No exemplo acima note que nenhuma distribui c ao de probabilidades foi atribuida aos Xi s. Assim, as propriedades obtidas s ao v alidas qualquer que seja a distribui c ao dos dados. Al em disso, ca f acil obter um ENV para 2 notando-se que n n 2 = E ( 2) = 2. E n1 n1
16
CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES
Portanto, o estimador 1 S = n1
2
i=1
(Xi X )2
e um ENV para a vari ancia populacional 2 . Em geral o processo de estima c ao consiste em escolher o estimador que apresenta o menor erro quadr atico m edio. No caso de estimadores n ao viesados isto equivale a escolher aquele com a menor vari ancia. Exemplo 2.3 : (continua c ao) Seja o estimador = X1 para a m edia populacional . Como E ( ) = E (X1 ) = segue que = X1 e tamb em um ENV para . Portanto EQM (X ) = 2 < EQM ( ) = 2 , n para n > 1 e
e assim o estimador X deve ser escolhido. O simples fato de um estimador ser n ao viesado n ao signica que ele seja bom, mas se a sua vari ancia for pequena ent ao necessariamente sua distribui c ao estar a concentrada em torno da m edia e com alta probabilidade estar a pr oximo de . Exemplo 2.4 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com par ametro . Como E (Xi ) = V ar(Xi ) = segue dos resultados nos ao ENV para . Al em disso, Exemplos 2.1 e 2.2 que X e S 2 s = X + (1 )S 2 tamb em e um ENV para j a que ) = E (X ) + (1 )E (S 2 ) = + (1 ) = . E ( Exemplo 2.5 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ) 2 e seja o estimador T 2 = c n i=1 (Xi X ) . Nesta classe de estimadores vamos obter o de menor erro quadr atico m edio. Como
n i=1 (Xi 2
X )2
2 n1
ent ao E (T 2 ) = c(n 1) 2 e V ar(T 2 ) = c2 2(n 1) 4
17 e portanto EQM (T 2 ) = 2c2 (n 1) 4 + [c(n 1) 2 2 ]2 . Para obter o valor de c tal que T 2 tem o menor erro quadr atico m edio vamos derivar a express ao acima em rela c ao a c e igualar a zero, i.e. d EQM (T 2 ) = 4c(n 1) 4 + 2[c(n 1) 2 2 ](n 1) 2 = 0 dc ou equivalentemente 4c(n 1) 4 = 2(n 1) 2 [c(n 1) 2 2 ] e nalmente 1 . n+1 N ao e dif cil mostrar que a segunda derivada em rela c ao a c e maior do que zero para n > 1 de modo que o estimador c=
2 T0
1 = n+1
i=1
(Xi X )2
tem o menor EQM nesta classe de estimadores, para todos os poss veis valores 2 de e . Vimos ent ao que o erro quadr atico m edio e a ferramenta usualmente utilizada 2 se para comparar estimadores. Dizemos que 1 e melhor do que 1 ) EQM ( 2 ) EQM ( 2 com substituido por < para ao menos um valor de . Neste caso o estimador e dito ser inadmiss vel. Um estimador e dito ser otimo (ou admiss vel) para se n ao existir nenhum outro estimador melhor do que ele. Assim, e um estimador otimo para se ) EQM ( ) EQM ( com substituido por < para ao menos um valor de . No Exemplo 2.5 o 2 estimador T0 e otimo naquela classe de estimadores. No caso de estimadores n ao viesados a compara c ao e feita em termos de vari ancias. Em particular, se for um ENV para e ) V ar( ), V ar(
com substituido por < para ao menos um valor de ent ao e dito ser n ao
18
viesado de vari ancia uniformemente m nima (UMVU). A seguir ser ao apresentados conceitos que possibilitar ao a obten c ao de estimadores n ao viesados otimos.
2.1
Estimadores baseados em estatisticas sucientes
O teorema a seguir, conhecido como teorema de Rao-Blackwell mostra que e poss vel melhorar estimadores n ao viesados via estat sticas sucientes. Teorema 2.1 (Rao-Blackwell) Para uma amostra aleat oria X1 , . . . , Xn sejam T (X1 , . . . , Xn ) uma estat stica suciente para e S (X1 , . . . , Xn ) um estimador n ao viesado de que n ao seja fun c ao de T . Ent ao = E [S (X )|T (X )] ) V ar[S (X )]. e um ENV de com V ar( Basicamente, o teorema de Rao-Balckwell nos diz que e sempre poss vel melhorar um estimador n ao viesado condicionando em uma estat stica suciente. A pergunta que se faz aqui e como obter a menor redu c ao poss vel na vari ancia e para isto precisamos do conceito de estat stica completa. Deni c ao 2.2 Uma estat stica T (X1 , . . . , Xn ) e dita ser completa em rela c ao a ` fam lia p(x|) se a u nica fun c ao real g denida no dom nio de T tal que E [g (T )] = 0, e a fun c ao nula, i.e. g (T ) = 0. Teorema 2.2 (Lehmann-Sche e) Se T e uma estat stica suciente e completa e S e um ENV para ent ao eou nico ENV para baseado em T e tem vari ancia uniformemente m nima (UMVU).
2.2
Eci encia
Um resultado importante que ser a visto a seguir e que, na classe de estimadores n ao viesados para um par ametro existe um limite inferior para sua vari ancia. Veremos que isto est a associado ao conceito de eci encia do estimador. Teorema 2.3 Sejam X1 , . . . , Xn uma amostra aleat oria de p(x|) e T (X ) um estimador n ao viesado de . Sob condi c oes de regularidade, V ar[T (X )] 1 . I ()
2.3. CONSISTENCIA
19
Este resultado e conhecido como desigualdade de Cramer-Rao e nos diz ent ao que a vari ancia m nima de um ENV para e dada pelo inverso da informa c ao de Fisher. Deni c ao 2.3 Um estimador de e dito ser eciente se for n ao viesado e sua vari ancia atingir o limite inferior da desigualdede de Cramer-Rao para todos os poss veis valores de . Com esta deni c ao podemos calcular a eci encia do estimador como a raz ao entre o limite inferior da desigualdade e sua vari ancia, i.e. para um estimador de ) = 1/I () 1. eci encia( ) V ar( Vale notar que a vari ancia de um estimador UMVU n ao necessariamente atinge o limite inferior de Cramer-Rao e sua eci encia pode ser menor do que 1. Por em o contr ario e sempre verdade, i.e. estimadores ecientes s ao necessariamente UMVU. O Teorema 2.3 pode ser generalizado para o caso de T (X ) ser um ENV para uma fun c ao h(), i.e. E [T (X )] = h(). Neste caso, a desigualdade de CramerRao e dada por [h ()]2 V ar[T (X )] I () sendo h () = dh()/d. Esta forma geral da desigualdade pode ser usada para calcular o limite inferior um estimador de com vi da vari ancia de um estimador viesado. Seja es b() = E () . Portanto e um ENV para b() + . Fazendo h() = b() + segue ent ao que 2 ] [b () + 1] . V ar[ I ()
2.3
Consist encia
bem intuitivo pensar que a informa E c ao a respeito de um par ametro contida em uma amostra aumenta conforme o tamanho da amostra aumenta. Assim, e razo avel esperar que bons estimadores assumam valores cada vez mais pr oximos do verdadeiro valor do par ametro. A seguir ser ao discutidas propriedades te oricas dos estimadores quando o tamanho amostral torna-se cada vez maior. Deni c ao 2.4 Seja X1 , . . . , Xn uma amostra aleat oria de p(x|) e T (X ) um estimador de h(). Variando o tamanho amostral n obt em-se uma sequ encia de estimadores Tn (X ) de h(). Esta sequ encia e dita ser (fracamente) consistente para h() se Tn (X ) h(), em probabilidade quando n .
20
Na pr atica tem-se uma u nica amostra de tamanho n e a deni c ao e simplicada dizendo-se que o estimador e ou n ao consistente, ao inv es de uma sequ encia consistente. A converg encia da Deni c ao 2.4 e em probabilidade e pode ser reescrita como P (|Tn (X ) h()| > ) 0, > 0, quando n . Este resultado tamb em e usualmente denotado por plim Tn (X ) = h(). importante tamb E em enfatizar a diferen ca de interpreta c ao entre os conceitos de consist encia e vi es. Basicamente, consist encia refere-se a um u nico experimento com um n umero innitamente grande de replica c oes enquanto vi es refere-se a um n umero innitamente grande de experimentos, cada um deles com um n umero nito de replica c oes. Ou seja, um estimador consistente pode ser viesado no entanto ele ser a sempre assintoticamente n ao viesado. Finalmente, segue da desigualdade de Chebychev que uma condi c ao suciente para um ENV ser consistente e que sua vari ancia tenda a zero quando n . Assim, as condi c oes gerais para a consist encia de um estimador T (X ) de h() s ao lim E [T (X )] = h() e lim V ar[T (X )] = 0.
n n
Exemplo 2.6 : Sejam as vari aveis aleat orias X1 , . . . , Xn independentes e identicamente distribuidas com E (Xi ) = e V ar(Xi ) = 2 . Vimos no Exemplo 2.1 que E (X ) = e V ar(X ) = 2 /n, portanto X e um estimador consistente para a m edia populacional . Al em disso, E ( 2) = n1 n 2 2 , quando n .
e a vari ancia de 2 e obtida usando o fato de que Y = e V ar(Y ) = 2(n 1). Assim, V ar( 2 ) = V ar 2 Y n = 4 2 4 (n 1) V ar ( Y ) = 0, quando n n2 n2
n i=1 (Xi 2
X )2
2 n1
e segue que 2 e um estimador consistente para 2 .
2.4. PROBLEMAS
21
2.4
Problemas
1. Para uma amostra aleat oria X1 , . . . , Xn tomada de uma distribui c ao para2 2 ) = V ar( ) + [E ( ) ] metrizada por mostre que E ( 2. Um vari avel aleat oria X tem distribui c ao desconhecida mas sabe-se que k todos os momentos E (X ), k = 1, 2, . . . s ao nitos. Para uma amostra aleat oria X1 , . . . , Xn desta distribui c ao mostre que o k - esimo momento n k k amostral i=1 Xi /n e um ENV para E (X ). Mostre tamb em que este estimador e consistente. 3. Nas condi c oes do exerc cio 2 encontre um estimador n ao viesado de [E (X )]2 . 2 2 (Sugest ao: [E (X )] = E (X ) V ar(X )) 4. Uma droga ser a administrada em 2 tipos diferentes A e B de animais. Sabese que a resposta m edia e a mesma nos dois tipos de animais mas seu valor e desconhecido e deve ser estimado. Al em disso, a vari ancia da resposta e 4 vezes maior em animais do tipo A. Sejam X1 , . . . , Xm e Y1 , . . . , Yn amostras aleat orias independentes de respostas dos animais dos tipos A e B respectivamente. = X + (1 )Y e um ENV para . (a) Mostre que
(b) Para valores xos de m e n obtenha o valor de que gera um ENV de vari ancia m nima. 5. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com m en dia > 0 e Y = i=1 Xi . (a) Determine a constante c tal que exp(cY ) seja um ENV para exp(). (c) Discuta a eci encia deste estimador. 6. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Bernoulli com par ametro > 0. Mostre que a vari ancia de qualquer estimador n ao viesado 2 3 de (1 ) deve ser pelo menos 4(1 ) /n. 7. Descreva as seguintes propriedades fundamentais dos estimadores: consist encia, n ao-tendenciosidade (ou n ao-vi es) e eci encia. 8. Sejam X1 , . . . , Xn vari aveis aleat orias independentes com Xi Exp(1/). Mostre que a m edia amostral e um estimador eciente para . 9. Sejam X1 , . . . , Xn vari aveis aleat orias independentes com Xi N (, 2 ), 2 sendo conhecido e 2 desconhecido. Verique se T (X ) = n i=1 (Xi ) /n e um estimador eciente para 2 . (Dica: E (X )4 = 3( 2 )2 ).
(b) Obtenha o limite inferior para a vari ancia deste estimador.
22
10. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ). Mostre n que a estat stica T = n e n ao viciada. Obtenha i=1 ai Xi com i=1 ai = 1 valores de ai para os quais T seja consistente.
Cap tulo 3 M etodos de Estima c ao

3.1 Estimadores de M axima Verossimilhan ca
No Cap tulo 1 foi introduzido o conceito de verossimilhan ca ou plausibilidade. Foi visto que esta medida est a associada aos poss veis valores de um ou mais par ametros e a fun c ao de verossimilhan ca dene a plausibilidade de cada um destes poss veis valores. Em termos de estima c ao parece razo avel selecionar o valor do par ametro que recebe a maior verossimilhan ca, dada uma amostra da popula c ao de interesse. Estes conceitos s ao formalizados a seguir. Deni c ao 3.1 Seja X1 , . . . , Xn uma amostra aleat oria de p(x|), . A fun c ao de verossimilhan ca de correspondente a esta amostra aleat oria e dada por
n
l(; x) =
i=1
p(xi |).
Deni c ao 3.2 O estimador de m axima verossimilhan ca (EMV) de e o valor que maximiza l(; x). Seu valor observado e a estimativa de m axima verossimilhan ca. No caso uniparam etrico, i.e. e um escalar, temos que R e o EMV pode ser obtido como solu c ao da chamada equa c ao de verossimilhan ca l(; x) = 0. (3.1)
claro que E e sempre necess ario vericar que a segunda derivada e negativa para garantir que a solu c ao de (3.1) e um ponto de m aximo. Ou seja, devemos ter 2 l(; x) 2 < 0.
=
23
24
CAP ITULO 3. METODOS DE ESTIMAC AO
Em muitas aplica c oes e mais simples algebricamente (e muitas vezes computacionalmente) trabalhar na escala dos logaritmos. Do ponto de vista da maximizac ao n ao far a diferen ca j a que a fun c ao logaritmo e estritamente crescente e o valor de que maximiza l(; x) e o mesmo que que maximiza log l(; x). Portanto, a equa c ao (3.1) pode ser reescrita em termos de logaritmo da verossimilhan ca e ca log l(; x) = U (X ; ) = 0. Trata-se portanto de um problema de otimiza c ao e a equa c ao de verossimilhan ca pode n ao ter solu c ao anal tica.
A Deni c ao 3.2 pode ser generalizada para o caso multiparam etrico, i.e. pode ser um vetor de par ametros de dimens ao k , = (1 , . . . , k ), ou mesmo uma matriz de par ametros. Se for um vetor de par ametros as equa c oes de verossimilhan ca s ao l( ; x) = 0, i = 1, . . . , k. (3.2) i Neste caso as condi c oes de segunda ordem para garantir que a solu c ao de (3.2) seja um ponto de m aximo referem-se ` a matriz de segundas derivadas (ou matriz Hessiana) da fun c ao de verossimilhan ca. A condi c ao e de que a matriz H= 2 l( ; x) =
seja negativa denida, i.e. z H z < 0, z = 0 sendo cada elemento de H dado por 2 l( ; x) . hij = i j
Exemplo 3.1 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Bernoulli com par ametro . Para quaisquer valores observados cada xi e igual a 0 ou 1 e a fun c ao de verossimilhan ca e dada por
n
l(; x) = p(x|) =
i=1
xi (1 )1xi .
Como o valor de que maximiza l(; x) e o mesmo que maximiza log l(; x) neste caso e mais conveniente algebricamente determinar o EMV obtendo o valor de
3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA que maximiza

n
25
log l(; x) =
i=1 n
[xi log + (1 xi ) log(1 )]

n
=
i=1
xi
log +
xi
i=1
log(1 )
= n[ x log + (1 x ) log(1 )]. Assim, a primeira derivada e dada por n x (1 x ) (1 )
e igualando a zero obt em-se que = x . A segunda derivada e dada por n x (1 x ) <0 + 2 (1 )2
= X , i.e. a propor de modo que o EMV de e c ao amostral de sucessos. Como E (X ) = segue que este estimador e tamb em n ao viesado.
Exemplo 3.2 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 1). A fun c ao de verossimilhan ca e dada por
n
l(; x) = p(x|) = = (2 )
n/2
i=1
(2 )1/2 exp((x )2 /2)

n
exp
i=1
(xi )2 /2
e o logaritmo da verossimilhan ca e dado por n log l(; x) = log(2 ) 2

n
i=1
(xi )2 /2.
Tomando a primeira derivada e igualando a zero obt em-se a equa c ao de verossimilhan ca

n i=1 n i=1
(xi ) = 0
cuja solu c ao e= xi /n. A segunda derivada e n < 0 de modo que o EMV = X . Al de e em disso o estimador e n ao viesado para .
26
Exemplo 3.3 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao U (0, ), > 0. A fun c ao de densidade e dada por p(x|) = 1/n , 0 xi , i = 1, . . . , n 0, caso contr ario.
Assim, a verossimilhan ca e uma fun c ao estritamente decrescente de e portanto seu m aximo e atingido quando assume o menor dos seus poss veis valores. Esta condi c ao e satisfeita quando = max(x1 , . . . , xn ), i.e. o EMV e = max(X1 , . . . , Xn ). Por outro lado a fun c ao de densidade poderia ser denida como 1/n , 0 < xi < , i = 1, . . . , n p(x|) = 0, caso contr ario. Neste caso, max(X1 , . . . , Xn ) n ao e um dos poss veis valores de j a que > xi , i = 1, . . . , n, i.e. > max(X1 , . . . , Xn ). Portanto, o EMV n ao existe.
Exemplo 3.4 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao U (, + 1), < < . A fun c ao de densidade e dada por p(x|) = 1, xi + 1, i = 1, . . . , n 0, caso contr ario.
A condi c ao xi para i = 1, . . . , n e equivalente a min(x1 , . . . , xn ) e a condi c ao xi + 1 para i = 1, . . . , n e equivalente a max(x1 , . . . , xn ) + 1. Assim, a fun c ao de densidade pode ser reescrita como p(x|) = 1, max(x1 , . . . , xn ) 1 min(x1 , . . . , xn ) 0, caso contr ario.
e qualquer valor de no intervalo [max(x1 , . . . , xn ) 1, min(x1 , . . . , xn )] maximiza a fun c ao de verossimilhan ca. Em outras palavras, o EMV n ao eu nico.
Exemplo 3.5 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ). A fun c ao de verossimilhan ca e dada por
n
l(, ; x) = p(x|, ) = = (2 )
2 n/2
i=1
(2 2 )1/2 exp((x )2 /2 2 )
n
exp
i=1
(xi )2 /2 2
3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA e o logaritmo da verossimilhan ca e dado por n L(, 2 ; x) = log l(, 2 ; x) = log(2 2 ) 2
n
27
i=1
(xi )2 /2 2 .
Tomando a primeira derivada e igualando a zero obt em-se as seguintes equa c oes de verossimilhan ca n 1 n ( x ) = ( x ) = 0 i 2 i=1 2 n 1 2+ 4 2
n
i=1
(xi )2 = 0.
A solu c ao da primeira equa c ao e =x e a solu c ao da segunda equa c ao avaliada n 2 2 em =x e = i=1 (xi x ) /n. As segundas derivadas avaliadas em e 2 s ao dadas por n < 0, 2 n( x ) =0 e 4 n 2 4
n i=1 (xi 6
)2
n < 0. 4
e Conclui-se ent ao que X
n 2 i=1 (Xi X ) /n
s ao os EMV de e 2 respectivamente.
EMV e estat sticas sucientes

Se X1 , . . . , Xn e uma amostra aleat oria de p(x|) e T (X ) e uma estat stica suciente para ent ao, pelo crit erio de fatora c ao, a fun c ao de verossimilhan ca e dada por l(; x) = f (t, )g (x). que maximiza l(; x) Como g (x) e constante em rela c ao a ent ao o valor eo mesmo que maximiza f (t, ), que depende de x somente atrav es de t(x). Assim ser a necessariamente uma fun c ao de t e concluimos que o EMV e sempre fun c ao de uma estat stica suciente.
Invari ancia
Seja X1 , . . . , Xn uma amostra aleat oria de p(x|) e e o EMV de . Suponha que queremos inferir o valor de = g () onde g e uma fun c ao 1 a 1 (ou bijetora) de . ) maximiza p(x|h()). Se = h() e a fun c ao inversa e e o EMV de ent ao h( e portanto h( ) = Por outro lado tamb em maximiza p(x|h()), i.e. h() = = g ( ). ou equivalentemente ) Conclui-se ent ao que g ( e o EMV de g (). Esta propriedade e chamada princ pio da invari ancia.
28
Exemplo 3.6 : No Exemplo 3.5, pelo princ pio da invari ancia segue que o EMV n )2 /n. (Xi X de e =
i=1
Exemplo 3.7 : Seja X1 , . . . , Xn N (, 1) e queremos estimar a probabilidade = X g () = P (X < 0). Como e o EMV de e P (X < 0) = P (X < ) = ). () ent ao pelo princ pio da invari ancia o EMV de P (X < 0) e (X Exemplo 3.8 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponencial com par ametro e queremos estimar a probabilidade g ( ) = P (X > 1). O = 1/X e a fun EMV de e c ao de distribui c ao de X e P (X < x) = 1 ex , portanto P (X > 1) = 1 P (X < 1) = e . Assim, pelo princ pio da invari ancia o EMV de P (X > 1) e ) = e g ( = e1/X .
O EMV n ao depende do plano amostral

Se dois experimentos d ao origem a fun c oes de verossimilhan ca l1 () e l2 () que s ao proporcionais, i.e. l1 () = k l2 (), k > 0 e k n ao depende de , ent ao o EMV de e o mesmo. Exemplo 3.9 : O tempo (em minutos) entre chegadas de clientes em um banco e denotado pela vari avel aleat oria X Exp( ). Deseja-se estimar o tempo m edio entre chegadas a partir de uma amostra aleat oria X1 , . . . , Xn . O EMV de e = 1/X e pela propriedade de invari ancia segue que o EMV de = E (X ) = 1/ e = 1/ = X . Para uma amostra de tamanho n = 20 dois planos amostrais poderiam ter sido utilizados, (i) Fixar n = 20 a priori. (ii) Observar X1 , X2 , . . . at e obter um tempo superior a 10 minutos. Suponha que no segundo experimento observou-se xi < 10, i = 1, . . . , 19 e x20 > 10 e em ambos a m edia amostral foi igual 6 minutos. Ent ao a estimativa de m axima verossimilhan ca do tempo m edio entre chegadas ex = 6 n ao importando como a amostra foi obtida. Diz-se que o m etodo satisfaz ao chamado princ pio da verossimilhan ca. Este princ pio postula que, para fazer infer encias sobre uma quantidade desconhecida s o importa aquilo que foi realmente observado e n ao aquilo que poderia ter ocorrido mas efetivamente n ao ocorreu.
3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA
29
Observa c oes incompletas

Em muitas situa c oes pr aticas os dados fornecem informa c oes incompletas sobre determinado fen omeno. Isto ocorre em geral quando o experimento precisa ser terminado por algum motivo de ordem pr atica e que pode ou n ao estar sob controle do pesquisador. Esta observa c ao parcial dos dados e chamada de censura e os m etodos para descri c ao e modelagem deste tipo de dados e chamada de an alise de sobreviv encia ou an alise de conabilidade. Esta informa c ao parcial deve ser levada em conta ao se tentar estimar os par ametros de interesse. Exemplo 3.10 : No Exemplo 3.9, o tempo at e a chegada do pr oximo cliente ser a observado at e que: o cliente chegue ou o expediente se encerre, o que ocorrer primeiro. Suponha que esperou-se 15 minutos e o expediente se encerrou sem que ningu em tenha aparecido. Ou seja, X21 n ao foi observado mas sabe-se que X21 > 15. A m edia amostral baseada em 21 observa c oes e maior do que 6 e a estimativa de m axima verossimilhan ca e obtida maximizando-se
20
p(x1 | ) . . . p(xn | )P (X21 > 15) = exp(
20
i=1
xi ) exp(15 ).
Do Exemplo 3.9 temos que x = 6 ent ao o tempo total de espera dos 20 primeiros 20 c ao de verossimilhan ca ca 20 e135 . clientes foi i=1 xi = 120 e a fun
Solu c ao num erica

Em muitas situa c oes pr aticas a fun c ao de verossimilhan ca est a associada a modelos complexos e a equa c ao de verossimilhan ca n ao apresenta solu c ao anal tica explicita. Nestes casos pode-se recorrer a m etodos num ericos para obter o EMV de um par ametro . Lembrando que a fun c ao escore e denida como U (X ; ) = log l(; x)
) = 0. Expandindo U (X ; ) em s ent ao, se e o EMV de segue que U (X ; erie de Taylor em torno de 0 obtemos que ) = U (X ; 0 ) + ( 0 )U (X ; 0 ) + . . . 0 = U (X ; e 0 pr e desprezando os termos de ordem mais alta ent ao para valores de oximos segue que ) U (X ; 0 ) + ( 0 )U (X ; 0 ). 0 = U (X ;
30 segue que Resolvendo para
0 U (X ; 0 ) = 0 + U (X ; 0 ) U (X ; 0 ) J (0 ) onde J () e a informa c ao observada de Fisher. Assim, a partir de um valor inicial (0) um procedimento iterativo para busca de m aximo e dado por (j +1) = (j ) U (X ; (j ) ) U (X ; (j ) ) (j ) = + U (X ; (j ) ) J ((j ) )
que deve ser repetido at e que o processo se estabilize segundo algum crit erio (j +1) (j ) de converg encia. Um crit erio tipicamente utilizado e | | < onde e especicado arbitrariamente. Este e o conhecido algoritmo de Newton-Raphson e o ponto aonde o algoritmo se estabiliza e tomado como a estimativa de m axima verossimilhan ca. Uma modica c ao do algoritmo acima e obtida substituindo-se a informa c ao observada, J (), pela informa c ao esperada de Fisher, I (). Sob algumas condic oes de regularidade, tipicamente vericadas na pr atica, este m etodo modicado converge para o estimador de m axima verossimilhan ca.
Distribui c ao assint otica

Em muitas situa c oes a equa c ao de verossimilhan ca tem solu c ao anal tica expl cita por em o EMV e uma fun c ao complicada da amostra. Neste caso, pode n ao ser uma tarefa f acil obter a distribui c ao do estimador ou vericar sua eci encia. Uma alternativa e estudar o comportamento do estimador quando o tamanho da amostra n tende a innito (comportamento assint otico). Como na pr atica o tamanho amostral e nito os resultados obtidos s ao aproximadamente corretos para n sucientemente grande. Pode-se mostrar que, sob condi c oes de regularidade N (, I 1 ()), quando n .
A prova deste resultado est a al em do escopo destas notas e ser a omitida (ver Migon and Gamerman 1999). Na pr atica, i.e. para n nito, dizemos que para tem disn sucientemente grande, o estimador de m axima verossimilhan ca 1 tribui c ao aproximadamente N (, I ()). Ou seja, o EMV e sempre assintoticamente n ao viesado e eciente j a que sua esperan ca tende para e sua vari ancia tende para o limite inferior da desigualdade de Cramer-Rao. Al em disso, ele e ) 0 quando n . consistente j a que V ar(
3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA O resultado pode ser generalizado para uma fun c ao g (), i.e. ) N g ( g (), [g ()]2 I () , quando n .
31
Exemplo 3.11 : Suponha uma u nica observa c ao X da distribui c ao binomial com = X/n e a informa par ametros n e desconhecido. O EMV de e c ao de Fisher e n/[(1 )] (verique). Portanto, para n grande a distribui c ao aproximada da vari avel aleat oria n( ) (1 ) e N (0, 1).
3.1.1
Coment arios
Em muitas situa c oes a fun c ao de verossimilhan ca pode ser muito dif cil ou mesmo imposs vel de ser calculada. Assim, obter estimativas de m axima verossimilhan ca e principalmente quanticar a incerteza associada pode ser uma tarefa complexa. Por outro lado a tend encia atual e de propor modelos cada vez mais complexos para analisar conjuntos dados em quase todas as areas da ci encia (e.g. dados espacialmente distribuidos). Alguns fatores que podem levar a diculdades pr aticas no processo de estima c ao s ao, dados faltantes ou incompletos; fun c ao de verossimilhan ca complexa, com um n umero grande de par ametros ou uma forma funcional computacionalmente intrat avel (e.g. modelos probito multinomiais, modelos de s eries temporais para dados qualitativos); maximiza c ao pode ser extremamente lenta; n ao exist encia de um m aximo u nico, ou m aximo localizado no extremo do espa co dos par ametros (e.g. modelos de misturas nitas). Felizmente v arios m etodos computacionalmente intensivos (Bootstrap, algoritmo EM, m etodos de Monte Carlo, algoritmos gen eticos, etc) foram e continuam sendo desenvolvidos ou adaptados para tratar de situa c oes cada vez mais complexas (e portanto mais realistas). Os recursos computacionais atualmente dispon veis vem contribuindo muito para disseminar o uso destas t ecnicas.
32
3.1.2
Problemas
1. Deseja-se estimar a propor c ao de mulheres em cursos de gradua c ao em Estat stica no Brasil. Uma amostra aleat oria de 90 alunos matriculados foi selecionada e obteve-se que 58 eram mulheres e 32 eram homens. Encontre a estimativa de m axima verossimilhan ca de . 2. No exerc cio anterior sabe-se que 1/2 < < 3/5. Qual a estimativa de m axima verossimilhan ca de para aquela amostra. 3. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Bernoulli com par ametro (0 < < 1). Mostre que o EMV de n ao existe se os valores observados forem todos iguais a 1 ou todos iguais a 0. 4. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com par ametro desconhecido ( > 0). (a) Obtenha o EMV de assumindo que pelo menos um valor observado e diferente de zero. (b) Mostre que o EMV de n ao existe se todos os valores observados forem nulos. 5. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ), com m edia 2 conhecida e vari ancia desconhecida. Obtenha o EMV de e verique se ele e n ao viesado. 6. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponencial com par ametro desconhecido ( > 0). Obtenha o EMV de . 7. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao cuja fun c ao de densidade e dada por p(x|) = x1 , 0 < x < 1, > 0 0, caso contr ario.
(a) Obtenha os EMV de e g () = /(1 + ). (b) Obtenha as distribui c oes aproximadas destes estimadores para n grande. 8. Seja uma amostra aleat oria X1 , . . . , Xn da distribui c ao N (, 1). Obtenha o EMV de g () = P (X > 0) e sua distribui c ao aproximada quando n e grande. 9. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com m edia desconhecida. Obtenha o EMV do desvio padr ao da distribui c ao.
3.2. METODO DOS MOMENTOS
33
10. O tempo de vida de um tipo de l ampada tem distribui c ao exponencial com par ametro desconhecido. Uma amostra aleat oria de n l ampadas foi testada durante T horas e observou-se o n umero X de l ampadas que falharam. Obtenha o EMV de baseado em X . 11. Suponha que 21 observa c oes s ao tomadas ao acaso de uma distribui c ao exponencial com m edia desconhecida. A m edia amostral de 20 observa c oes foi igual a 6 e o valor da outra observa c ao e desconhecido mas sabe-se que e maior do que 15. Calcule o EMV de . 12. Dois estat sticos precisam estimar uma quantidade desconhecida > 0. O estat stico A observa uma vari avel aleat oria X Gama(3, ) e o estat stico B observa uma vari avel aleat oria Y com distribui c ao de Poisson e m edia 2. Se os valores observados foram X = 2 e Y = 3 mostre que as fun c oes de verossimilhan ca s ao proporcionais e obtenha o EMV de .
3.2
M etodo dos Momentos
O m etodo dos momentos para estima c ao de par ametros e bastante simples e intuitivo. Basicamente, ele preconiza a estima c ao de momentos populacionais (n ao observ aveis) por seus equivalentes momentos amostrais. Assim, para uma vari avel aleat oria X cuja distribui c ao depende de um par ametro com momentos de ordem k dados por k = E (X k |) e uma amostra aleat oria X1 , . . . , Xn desta distribui c ao, o m etodo preconiza a estima c ao de k por n 1 Xik . k = n i=1 Qualquer outra fun c ao de e estimada a partir de sua rela c ao com os momentos. Para um vetor de par ametros = (1 , . . . , r ) os estimadores s ao obtidos como solu c ao do sistema de equa c oes criado igualando-se os r primeiros momentos amostrais e populacionais, k = k , k = 1, . . . , r.
N ao e dif cil vericar que o m etodo sempre produz estimadores n ao viesados para os momentos populacionais, i.e. 1 E ( k ) = n
n
E (Xik ) = k .
i=1
34 com vari ancia dada por
V ar( k ) =
2k 2 k . n
O m etodo tamb em tem boas propriedades assint oticas j a que as leis dos grandes n umeros garantem que k k com probabilidade 1 quando n . Exemplo 3.12 : Seja uma amostra aleat oria X1 , . . . , Xn tomada de uma dis2 tribui c ao com E (X ) = 1 e V ar(X ) = . Pelo m etodo dos momentos, a m edia e o segundo momento populacional e estimada por X e estimado por 2 = 1 n
n
Xi2 .
i=1
Como 2 = 2 2 ancia populacional e estimada por 1 segue que a vari 2 = 2 1 2 = 1 n

n
i=1
2 = Xi2 X
1 n
i=1
2 Xi2 nX
1 n
i=1
)2 . (Xi2 X
Assim, os estimadores da m edia e da vari ancia coincidem com os EMV no caso normal. Exemplo 3.13 : Seja uma amostra aleat oria X1 , . . . , Xn tomada de uma distribui c ao Gama com par ametros e . A m edia e a vari ancia populacionais s ao dados por E (X ) = / e V ar(X ) = / 2 . Portanto, pelo m etodo dos momentos os estimadores para e s ao obtidos como solu c ao das equa c oes = / 1 n
n
Xi = X
i=1 n
2 + 2 = 1 / 2 / n A segunda equa c ao pode ser reescrita como obtendo-se 1 =

n i=1
Xi2
i=1
1 +
=X
1 +X
1 n
Xi2
i=1
Xi2 /n = X X
n 2 i=1 (Xi
)2 /n X = X
X n 2 2 . i=1 (Xi X ) /n
3.3. ESTIMADORES DE M INIMOS QUADRADOS Substituindo na primeira equa c ao obt em-se que = 2 X n 2 2 . i=1 (Xi X ) /n
35
Neste exemplo, estimadores de m axima verossimilhan ca n ao podem ser obtidos explicitamente e m etodos computacionais devem ser utilizados. Assim, uma poss vel aplica c ao do m etodos dos momentos e utilizar este resultado para obter valores iniciais em algoritmos de busca pelo m aximo da fun c ao de verossimilhan ca.
3.3
Estimadores de M nimos Quadrados
Seja agora uma amostra aleat oria Y1 , . . . , Yn tomada de uma distribui c ao tal que 2 E (Yi |) = fi () e V ar(Yi |) = . Ou seja, a m edia de cada Yi assume uma forma espec ca, que pode depender de outras vari aveis, e as vari ancias s ao as mesmas. Uma forma equivente e Yi = fi () + i com E (i ) = 0 e V ar(i ) = 2 para i = 1, . . . , n. O crit erio adotado aqui consiste em estimar de modo a minimizar os erros cometidos, Yi fi (), minimizando uma fun c ao destes erros. Uma fun c ao que penaliza igualmente erros positivos e negativos e e comumente utilizada e a fun c ao quadr atica. Assim, o crit erio pode ser expresso como, obter que minimiza
n
S () =
i=1
(Yi fi ())2 .
obtido O valor e chamado de estimador de m nimos quadrados (EMQ) de . Exemplo 3.14 : Regress ao linear simples. Suponha que os valores da vari avel de interesse Y s ao afetados linearmente pelos valores de uma outra vari avel conhecida X . Dados n valores de X e Y um poss vel modelo para este problema e E (Yi ) = Xi e o EMQ do par ametro e obtido minimizando-se
n
S ( ) =
i=1
(Yi Xi )2 .
Derivando e igualando a zero esta soma de quadrados obt em-se que

n
i=1
(Yi Xi )(Xi ) = 0 =
n i=1 Yi Xi n 2 i=1 Xi
36

n i=1
e como a segunda derivada e dada por 2 =
Xi2 > 0 segue que o EMQ de e
n i=1 Yi Xi . n 2 i=1 Xi
Note como nenhuma distribui c ao de probabilidades foi assumida para que o m etodo pudesse ser aplicado. Este e um dos motivos para sua grande utilizac ao. Por outro lado, se os dados tiverem distribui c ao normal o procedimento coincide com a estima c ao de m axima verossimilhan ca, i.e. pode-se mostrar que minimizar a soma de quadrados dos erros e equivalente a maximizar a fun c ao de verossimilhan ca. Outro fato importante e que o peso atribuido a cada observa ca o na soma de quadrados foi o mesmo j a que todas t em a mesma vari ancia. O m etodo pode ser estendido ao caso de vari ancias desiguais e conhecidas a menos de uma constante, i.e. V ar(Yi |) = 2 /wi . Neste caso a soma de quadrados a ser minimizada e
n
S () =
i=1
wi (Yi fi ())2
e observa c oes com maior vari ancia (menor wi ) ter ao um peso menor na estima c ao. Este procedimento e chamada de estima c ao por m nimos quadrados ponderados. O m etodo anterior (sem pondera c ao) e ent ao chamado de estima c ao por m nimos quandrados ordin arios e e um caso particular onde todos os pesos s ao iguais a 1. Exemplo 3.15 : No Exemplo 3.14 o estimador de m nimos quadrados ponderados de e dado por n wi Yi Xi = i=1 . n 2 i=1 wi Xi
Finalmente, vale notar que a fun c ao fi () pode assumir v arias formas distintas. Por exemplo, se fi for um polin omio de ordem k em uma vari avel X conhecida, 2 k i.e. 0 + 1 X + 2 X + + k X ent ao os EMQ de 0 , 1 , . . . , k s ao obtidos minizando-se
n
S ( ) =
i=1
(Yi 0 1 Xi 2 Xi2 k Xik )2 .
Por outro lado, se fi dene uma depend encia linear em k vari aveis conhecidas X1 , . . . , Xk , i.e. 0 + 1 X1 + 2 X2 + + k Xk ent ao os EMQ de 0 , 1 , . . . , k
3.4. PROBLEMAS s ao obtidos minizando-se

n
37
S ( ) =
i=1
(Yi 0 1 Xi1 2 Xi2 k Xik )2 .
Em ambos os casos teremos um vetor de par ametros 0 , 1 , . . . , k a serem esti2 mados (al em da vari ancia ) o que equivale a resolver um sistema de k equa c oes do tipo S/j = 0 para j = 0, . . . , k .
3.4
Problemas
1. Seja X1 , . . . , Xn uma amostra aleat oria tomada da distribui c ao Gama(,2). Obtenha um estimador para usando o m etodo dos momentos. 2. Seja X1 , . . . , Xn uma amostra aleat oria tomada da distribui c ao Exponencial( ). Obtenha um estimador para usando o m etodo dos momentos. 3. Seja X1 , . . . , Xn uma amostra aleat oria tomada da distribui c ao Geom etrica(p). Obtenha um estimador para p usando o m etodo dos momentos. 4. Seja X1 , . . . , Xn uma amostra aleat oria tomada da distribui c ao N (, 2 ). Obtenha estimadores de e 2 usando o m etodo dos momentos. Obtenha 2 o vi es do estimador de . 5. Seja X1 , . . . , Xn uma amostra aleat oria tomada da distribui c ao Gama(, ). Obtenha estimadores de e usando o m etodo dos momentos. 6. No Exemplo 3.14 mostre que o EMQ obtido e n ao viesado com vari ancia n 2 2 / i=1 Xi . 7. No Exemplo 3.14 obtenha os EMQ de 0 e 1 supondo que E (Yi ) = 0 +1 Xi com vari ancia constante. 8. Se Yi | N (fi (), 2 ) mostre que o EMV e o EMQ de coincidem.
Cap tulo 4 Estima c ao Bayesiana

Considere uma amostra aleat oria X1 , . . . , Xn tomada de uma distribui c ao de probabilidades com par ametro desconhecido, p(x|). Em muitas situa c oes, antes de observar a amostra o pesquisador tem condi c oes de resumir sua informa c ao e experi encia anteriores sobre as chances de pertencer a determinadas regi oes do espa co param etrico. Este conhecimento pode ser quanticado construindo-se uma distribui c ao de probabilidades para , chamada distribui c ao a priori. Exemplo 4.1 : Seja a probabilidade de obter cara quando uma moeda e lan cada. Sabe-se que a moeda e honesta ou tem duas caras, i.e. os dois poss veis valores de s ao 1/2 e 1. Se a probabilidade a priori de que a moeda seja honesta e p ent ao a distribui c ao a priori de e p( = 1/2) = p e p( = 1) = 1 p. Exemplo 4.2 : A propor c ao de itens defeituosos em um grande lote e desconhecida e sup oe-se que os poss veis valores de se distribuem uniformemente no intervalo (0,1). A distribui c ao a priori e ent ao dada por U (0, 1) ou p() = 1, 0 < < 1 0, caso contr ario.
Exemplo 4.3 : O tempo de vida de um certo tipo de l ampada tem distribui c ao exponencial com par ametro . Com base em experi encias anteriores assume-se que a distribui c ao a priori de e Gama com m edia 0,0002 e desvio padr ao 0,0001. Assim, a distribui c ao a priori e dada por Gama(, ) onde os par ametros e s ao tais que = 0, 0002 e = 0, 00012 2 38
A POSTERIORI 4.1. DISTRIBUIC AO de onde se obt em que = 0, 0002 = 20 000 e = 0, 0002 = 4. 0, 00012
39
Portanto, a distribui c ao a priori de e dada por Gama(4, 20 000) ou equivalentemente, 20 0004 3 20 000 e , >0 3! p() = 0, 0.
4.1
Distribui c ao a Posteriori
Por simplicidade vamos assumir que todas as quantidades envolvidas s ao cont nuas de modo que p(x|) e p() s ao fun c oes de densidade de probabilidade. Multiplicando estas duas densidades obt em-se a densidade conjunta de X1 , . . . , Xn e , i.e. p(x, ) = p(x|)p(). A fun c ao de densidade conjunta marginal de X1 , . . . , Xn pode ser obtida por integra c ao como p(x) = p(x|)p()d.
Al em disso, do c alculo das probabilidades, a fun c ao de densidade condicional de dados x1 , . . . , xn e dada por p(|x) = p(x|)p() 1 = p(x|)p(). p(x) p(x) (4.1)
A fun c ao de densidade (4.1) est a representando a distribui c ao de ap os os dados serem observados, e portanto e chamada distribui c ao a posteriori de . Todos estes resultados valem tamb em para distribui c oes discretas de probabilidade. Note que 1/p(x) em (4.1) n ao depende de e funciona como uma constante normalizadora de p(|x). Assim, a forma usual do teorema de Bayes e p(|x) p(x|)p(). Em palavras temos que distribui c ao a posteriori verossimilhan ca distribui c ao a priori. Ou seja, ao omitir o termo p(x), a igualdade em (4.1) foi substitu da por uma proporcionalidade. Esta forma simplicada do teorema de Bayes ser a u til em (4.2)
40
BAYESIANA CAP ITULO 4. ESTIMAC AO
problemas que envolvam estima c ao de par ametros j a que o denominador e apenas uma constante normalizadora. intuitivo tamb E em que a probabilidade a posteriori de um particular conjunto de valores de ser a pequena se p() ou p(x|) for pequena para este conjunto. Em particular, se atribuirmos probabilidade a priori igual a zero para um conjunto de valores de ent ao a probabilidade a posteriori ser a zero qualquer que seja a amostra observada. Exemplo 4.4 : No Exemplo 4.2 suponha que uma amostra aleat oria X1 , . . . , Xn e tomada do lote, onde Xi = 1 se o item i for defeituoso e Xi = 0 caso contr ario para i = 1, . . . , n. Assim, p(x|) = onde y = segue que
n i=1
y (1 )ny , xi = 0, 1, i = 1, . . . , n 0, caso contr ario
xi . Como a distribui c ao a priori e uniforme no intervalo (0,1) p(|x)p() = y (1 )ny , y 0, 0 < < 1 0, caso contr ario
Por compara c ao pode-se notar que, a menos de uma constante (que n ao depende de ), o lado direito desta express ao tem a forma da fun c ao de densidade de uma distribui c ao Beta com par ametros = y + 1 e = n y + 1. Assim, como a distribui c ao a posteriori de e proporcional ao lado direito desta express ao conclui-se que |x Beta(y + 1, n y + 1). Exemplo 4.5 : No Exemplo 4.3 suponha que uma amostra aleat oria X1 , . . . , Xn com os tempos de vida de n l ampadas e tomada. Neste caso, denindo y = n e i=1 xi , a densidade conjunta para xi > 0, i = 1, . . . , n p(x|) = n ey . Usando o teorema de Bayes na forma (4.2) segue que p(|x) n ey 3 e20 000 3+n e(20 000+y) onde todos os termos que n ao dependem de foram omitidos. Por compara c ao, o lado direito desta express ao tem a mesma forma da fun c ao de densidade de uma distribui c ao Gama com par ametros = n + 4 e = 20 000 + y . Assim, para
4.2. PROBLEMAS > 0 conclui-se que a distribui c ao a posteriori de e dada por |x Gama(n + 4, 20 000 + y ).
41
4.1.1
Observa c oes Sequenciais
Uma quest ao que se coloca aqui e se a distribui c ao a posteriori depende da ordem em que as observa c oes foram processadas. Observando-se as vari aveis aleat orias X1 , . . . , Xn , que s ao independentes dado e relacionadas a atrav es de pi (xi |) segue que p(|x1 ) p1 (x1 |)p()
p(|x2 , x1 ) p2 (x2 |)p(|x1 )
p2 (x2 |)p1 (x1 |)p() . . . . . .

n i=1
p(|xn , xn1 , , x1 )
pi (xi |) p()
pn (xn |) p(|xn1 , , x1 ). Ou seja, a ordem em que as observa c oes s ao processadas pelo teorema de Bayes e irrelevante. Na verdade, elas podem at e ser processadas em subgrupos.
4.2
Problemas
1. Suponha que a propor c ao de itens defeituosos em um grande lote e igual a 0,1 ou 0,2 e que a fun c ao de probabilidade a priori de e p(0, 1) = 0, 7 e p(0, 2) = 0, 3. Se 8 itens foram selecionados ao acaso do lote e observou-se exatamente 2 defeituosos obtenha a distribui c ao a posteriori de . 2. Suponha que o n umero de defeitos em um tipo de ta magn etica tem distribui c ao de Poisson com par ametro cujo valor e igual a 1 ou 1,5. A distribui c ao a priori de e p(1) = 0, 4 e p(1, 5) = 0, 6. Se uma ta selecionada ao acaso apresentou 3 defeitos obtenha a distribui c ao a posteriori de . 3. Suponha que a distribui c ao a priori de um par ametros > 0 e Gama com m edia 10 e vari ancia 5. Determine os par ametros desta distribui c ao a priori.
42
BAYESIANA CAP ITULO 4. ESTIMAC AO 4. Suponha que a distribui c ao a priori de um par ametros (0, 1) e Beta com m edia 1/3 e vari ancia 1/45. Determine os par ametros desta distribui c ao a priori. 5. Suponha que a propor c ao de itens defeituosos em um grande lote e desconhecida e que sua distribui c ao a priori e uniforme no intervalo (0,1). Se 8 itens foram selecionados ao acaso do lote e observou-se exatamente 3 defeituosos obtenha a distribui c ao a posteriori de . 6. Considere novamente as condi c oes do Problema 5 mas suponha que a fun c ao de densidade a priori de e p() = 2(1 ), 0 < < 1 0, caso contr ario.
Determine a distribui c ao a posteriori de . 7. Suponha que uma u nica observa c ao X e tomada da distribui c ao uniforme no intervalo ( 1/2, + 1/2) e o valor de e desconhecido. Supondo que a distribui c ao a priori de e uniforme no intervalo (10,20) e observou-se X = 12 obtenha a distribui c ao a posteriori de .
4.3
Distribui c oes a Priori Conjugadas
A partir do conhecimento que se tem sobre , pode-se denir uma fam lia param etrica de distribui c oes. Neste caso, a distribui c ao a priori e representada por uma forma funcional, cujos par ametros devem ser especicados de acordo com este conhecimento. Estes par ametros indexadores da fam lia de distribui c oes a priori s ao chamados de hiperpar ametros para distingui-los dos par ametros de interesse . Esta abordagem em geral facilita a an alise e o caso mais importante e o de prioris conjugadas. A id eia e que as distribui c oes a priori e a posteriori perten cam a mesma classe de distribui c oes e assim a atualiza c ao do conhecimento que se tem de envolve apenas uma mudan ca nos hiperpar ametros. Neste caso, o aspecto sequencial do m etodo Bayesiano pode ser explorado denindo-se apenas a regra de atualiza c ao dos hiperpar ametros j a que as distribui co es permanecem as mesmas. A forma da distribui c ao conjugada depende da distribui c ao dos dados atrav es da fun c ao de verossimilhan ca e alguns casos s ao listados a seguir.
4.3.1
Amostrando de um Distribui c ao de Bernoulli
Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Bernoulli com par amen tro . Denindo y = i=1 xi sua fun c ao de probabilidade conjunta para xi = 0, 1,
4.3. DISTRIBUIC OES A PRIORI CONJUGADAS i = 1, . . . , n e dada por p(x|) = y (1 )ny
43
e assumindo que a distribui c ao a priori e Beta com par ametros > 0 e > 0 ent ao p() 1 (1 ) 1 . Usando o teorema de Bayes, a distribui c ao a posteriori e dada por p(|x) y (1 )ny 1 (1 ) 1 +y1 (1 ) +ny1 , 0 < < 1. Exceto por uma constante que n ao depende de o lado direito desta express ao pode ser reconhecido como a fun c ao de densidade de uma distribui c ao Beta com par ametros + y e + n y . Portanto esta e a distribui c ao a posteriori de , i.e. |x Beta( + y, + n y ). Uma extens ao direta e o modelo binomial, i.e. se Y | Binomial(n, ) ent ao p(y |) y (1 )ny e portanto a priori conjugada e Beta(, ).
4.3.2
Amostrando de uma Distribui c ao de Poisson
Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com par ametro . Sua fun c ao de probabilidade conjunta e dada por en t en t , p(x|) = xi !
n
> 0,
t=
i=1
xi .
O n ucleo da verossimilhan ca e da forma a eb que caracteriza a fam lia de distribui c oes Gama. Assim, vamos assumir que a distribui c ao a priori e Gama com par ametros positivos > 0 e > 0, i.e. p() 1 e , A densidade a posteriori ca p(|x) +t1 exp {( + n)} , > 0 > 0.
44
que corresponde ` a densidade Gama( + t, + n). Ou seja, a distribui c ao Gama e a priori conjugada para o modelo de Poisson.
4.3.3
Amostrando de uma Distribui c ao Exponencial
Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao Exponencial com par ametro . Sua fun c ao de densidade de probabilidade conjunta e dada por
n
p(x|) = e
t n
> 0,
t=
i=1
xi .
O n ucleo da verossimilhan ca e novamente da forma a eb e assim vamos assumir que a distribui c ao a priori e Gama com par ametros positivos > 0 e > 0. Neste caso a densidade a posteriori ca p(|x) +n1 exp {( + t)} que corresponde ` a densidade Gama( + n, + t). Ou seja, a distribui c ao Gama e a priori conjugada para o modelo exponencial.
4.3.4
Amostrando de uma Distribui c ao Multinomial
Denotando por X = (X1 , . . . , Xp ) o n umero de ocorr encias em cada uma de p categorias em n ensaios independentes, e por = (1 , . . . , p ) as probabilidades associadas deseja-se fazer infer encia sobre estes p par ametros. No entanto, note que existem efetivamente p 1 par ametros j a que temos a seguinte restri c ao p p em disso, a restri c ao i=1 Xi = n obviamente tamb em se aplica. i=1 i = 1. Al Dizemos que X tem distribui c ao multinomial com par ametros n e e a fun c ao de probabilidade conjunta das p contagens X e dada por p(x| ) = n!
p i=1 p xi . i i=1
xi !
Note que esta e uma generaliza c ao da distribui c ao binomial que apenas duas categorias. A fun c ao de verossimilhan ca para e
p
l( ; x)
xi i i=1
que tem o mesmo n ucleo da fun c ao de densidade de uma distribui c ao de Dirichlet. Esta e uma generaliza c ao da distribui c ao Beta para um vetor aleat orio com elementos denidos no intervalo (0,1). Usando esta distribui c ao como priori para
4.3. DISTRIBUIC OES A PRIORI CONJUGADAS o vetor ent ao a fun c ao de densidade a priori e dada por
p
45
p( )
ai 1 , i i=1
ai > 0,
i = 1, . . . p
onde a1 , . . . , ap s ao os par ametros da priori. A distribui c ao a posteriori e dada por

p p p
p( |x)
xi i i=1 i=1
ai 1 i
=
i=1
xi +ai 1 i .
ou seja, a posteriori e tamb em Dirichlet com par ametros a1 + x1 , . . . , ap + xp . Assim temos uma priori conjugada ao modelo multinomial. Note que estamos generalizando a an alise conjugada para amostras Binomiais com priori Beta.
4.3.5
Amostrando de uma Distribui c ao Normal
Um outro resultado importante ocorre quando se tem uma u nica observa c ao da distribui c ao normal com m edia desconhecida. Se a m edia tiver priori normal ent ao os par ametros da posteriori s ao obtidos de uma forma bastante intuitiva.
2 Teorema 4.1 Se X | N (, 2 ) com 2 conhecido e N (0 , 0 ) ent ao |x 2 N (1 , 1 ) sendo 2 0 0 + 2 x 2 0 + 2 2 2 e 1 = 0 + 2 .
1 =
Note que, denindo precis ao como o inverso da vari ancia, segue do teorema que a precis ao a posteriori e a soma das precis oes a priori e da verossimilhan ca e n ao depende de x. Interpretando precis ao como uma medida de informa c ao 2 2 2 e denindo w = 0 /(0 + ) (0, 1) ent ao w mede a informa c ao relativa contida na priori com respeito ` a informa c ao total. Podemos escrever ent ao que 1 = w0 + (1 w)x ou seja, 1 e uma combina c ao linear convexa de 0 e x e portanto 0 1 x. Exemplo 4.6 : (Box & Tiao, 1992) Os f sicos A e B desejam determinar uma constante f sica . O f sico A tem mais experi encia nesta area e especica sua 2 priori como N (900, 20 ). O f sico B tem pouca experi encia e especica uma priori muito mais incerta em rela c ao ` a posi c ao de , N (800, 802 ). Assim, n ao e dif cil vericar que para o f sico A: P (860 < < 940) 0, 95
46
BAYESIANA CAP ITULO 4. ESTIMAC AO para o f sico B : P (640 < < 960) 0, 95.
Faz-se ent ao uma medi c ao X de em laborat orio com um aparelho calibrado 2 com distribui c ao amostral X | N (, 40 ) e observou-se X = 850. Aplicando o teorema 1.1 segue que (|X = 850) N (890, 17, 92 ) para o f sico A (|X = 850) N (840, 35, 72 ) para o f sico B. Note tamb em que os aumentos nas precis oes a posteriori em rela c ao ` as precis oes a priori foram,
2 2 para o f sico A: precis ao() passou de 0 = 0, 0025 para 1 = 0, 00312 (aumento de 25%).
2 2 para o f sico B : precis ao() passou de 0 = 0, 000156 para 1 = 0, 000781 (aumento de 400%).
A situa c ao est a representada gracamente na Figura 4.1 a seguir. Note como a distribui c ao a posteriori representa um compromisso entre a distribui c ao a priori e a verossimilhan ca. Al em disso, como as incertezas iniciais s ao bem diferentes o mesmo experimento fornece muito pouca informa c ao adicional para o f sico A enquanto que a incerteza do f sico B foi bastante reduzida. Para uma u nica observa c ao vimos pelo Teorema 4.1 que a fam lia de distribui c oes normais e conjugada ao modelo normal. Para uma amostra de tamanho n, a fun c ao de verssimilhan ca pode ser escrita como l(; x) = (2 )
2 n/2
1 exp 2 2
n exp 2 (x )2 2
i=1
(xi )2
onde os termos que n ao dependem de foram incorporados ` a constante de proporcionalidade. Portanto, a verossimilhan ca tem a mesma forma daquela baseada em uma u nica observa c ao bastando substituir x por x e 2 por 2 /n. Logo vale o Teorema 4.1 com as devidas substitui c oes, i.e. a distribui c ao a posteriori de 2 dado x e N (1 , 1 ) onde
2 0 0 + n 2 x 1 = 2 0 + n 2 2 2 e 1 = 0 + n 2 .
4.4. PROBLEMAS
47
0.020
0.015
priori posteriori verossimilhanca
Fisico A
0.005 0.000
0.010 Fisico B 700
750
800
850
900
950
1000
Figura 4.1: Densidades a priori e a posteriori e fun c ao de verossimilhan ca para o

Exemplo 4.6.
4.4
Problemas
1. A propor c ao de itens defeituosos em um grande lote e desconhecida e deve ser estimada. Assume-se que a distribui c ao a priori de e uniforme no intervalo (0,1). Itens s ao selecionados ao acaso e inspecionados at e que a vari ancia a posteriori de seja menor ou igual a 0,01. Determine o n umero total de itens que devem ser selecionados. 2. No problema anterior suponha que a priori e Beta com par ametros = 2 e = 200. Se 100 itens foram selecionados ao acaso e 3 eram defeituosos obtenha a distribui c ao a posteriori de . 3. Mostre que a fam lia de distribui c oes Beta e conjugada em rela c ao ` as distribui c oes amostrais binomial, geom etrica e binomial negativa. 4. Suponha que o tempo, em minutos, para atendimento a clientes segue uma distribui c ao exponencial com par ametro desconhecido. Com base na experi encia anterior assume-se uma distribui c ao a priori Gama com m edia 0,2
48 e desvio-padr ao 1 para .
(a) Se o tempo m edio para atender uma amostra aleat oria de 20 clientes foi de 3,8 minutos, qual a distribui c ao a posteriori de . (b) Qual o menor n umero de clientes que precisam ser observados para que o coeciente de varia c ao a posteriori se reduza para 0,1? 5. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Poisson com par ametro . (a) Determine os par ametros da priori conjugada de sabendo que E () = 4 e o coeciente de varia c ao a priori e 0,5. (b) Quantas observa c oes devem ser tomadas at e que a vari ancia a posteriori se reduza para 0,01 ou menos? (c) Mostre que a m edia a posteriori e da forma n x + (1 n )0 , onde 0 = E () e n 1 quando n . Interprete este resultado. 6. O n umero m edio de defeitos por 100 metros de uma ta magn etica e desconhecido e denotado por . Atribui-se uma distribui c ao a priori Gama(2,10) para . Se um rolo de 1200 metros desta ta foi inspecionado e encontrou-se 4 defeitos qual a distribui c ao a posteriori de ? 7. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao Bernoulli com par ametro e usamos a priori conjugada Beta(a, b). Mostre que a m edia a posteriori e da forma n x + (1 n )0 , onde 0 = E () e n 1 quando n . Interprete este resultado. 8. Para uma amostra aleat oria X1 , . . . , Xn tomada da distribui c ao U (0, ), mostre que a fam lia de distribui c oes de Pareto com par ametros a e b, cuja a a+1 fun c ao de densidade e p() = ab / , e conjugada ` a uniforme. 9. Para uma amostra aleat oria de 100 observa c oes da distribui c ao normal com m edia e desvio-padr ao 2 foi especicada uma priori normal para . Mostre que o desvio-padr ao a posteriori ser a sempre menor do que 1/5 (Interprete este resultado). 10. Para uma amostra aleat oria da distribui c ao normal com m edia e desviopadr ao 2 foi especicada uma priori normal para com vari ancia igual a 1. Qual deve ser o menor n umero de observa c oes para que o desvio-padr ao a posteriori seja 0,1?
4.5. ESTIMADORES DE BAYES
49
11. Para uma vari avel aleat oria > 0 a fam lia de distribui c oes Gama-invertida tem fun c ao de densidade de probabilidade dada por p() = (+1) / e , () , > 0.
Mostre que esta fam lia e conjugada ao modelo normal com m edia conhecida e vari ancia desconhecida.
4.5
Estimadores de Bayes
A distribui c ao a posteriori de um par ametro cont em toda a informa c ao probabil stica a respeito deste par ametro e um gr aco da sua fun c ao de densidade a posteriori e a melhor descri c ao do processo de infer encia. No entanto, algumas vezes e necess ario resumir a informa c ao contida na posteriori atrav es de alguns poucos valores num ericos. O caso mais simples e a estima c ao pontual de onde se . Como veremos resume a distribui c ao a posteriori atrav es de um u nico n umero, a seguir, ser a mais f acil entender a escolha de no contexto de teoria da decis ao.
4.5.1
Introdu c ao ` a Teoria da Decis ao
Um problema de decis ao ca completamente especicado pela descri c ao dos seguintes espa cos: (i) Espa co do par ametro ou estados da natureza, . (ii) Espa co dos resultados poss veis de um experimento, . (iii) Espa co de poss veis a c oes, A. Uma regra de decis ao e uma fun c ao denida em que assume valores em A, i.e. : A. A cada decis ao e a cada poss vel valor do par ametro podemos associar uma perda L(, ) assumindo valores positivos. Denimos assim uma fun c ao de perda L(, ) : A R+ . Algumas fun c oes de perda comumente utilizadas em problemas de estima c ao ser ao vistas na pr oxima se c ao. Intuitivamente, gostariamos de obter uma regra de decis ao que minimiza a fun c ao de perda, no entanto isto n ao e poss vel j a que esta depende do valor desconhecido de . Uma forma de contornar este problema e especicar uma regra de decis ao que minimiza a perda m edia, o que nos leva a deni c ao a seguir. Deni c ao 4.1 O risco de uma regra de decis ao, denotado por R( ), e a perda esperada a posteriori, i.e. R( ) = E|x [L(, )].
50
Deni c ao 4.2 Uma regra de decis ao e otima se tem risco m nimo, i.e. R( ) < R( ), . Esta regra ser a denominada regra de Bayes e seu risco, risco de Bayes. Exemplo 4.7 : Um laborat orio farmaceutico deve decidir pelo lan camento ou n ao de uma nova droga no mercado. E claro que o laborat orio s o lan car a a droga se achar que ela e eciente mas isto e exatamente o que e desconhecido. Podemos associar um par ametro aos estados da natureza: droga e eciente ( = 1), droga n ao e eciente ( = 0) e as poss veis a c oes como lan ca a droga ( = 1), n ao lan ca a droga ( = 0). Suponha que foi poss vel construir a seguinte tabela de perdas levando em conta a eci encia da droga, lan ca n ao lan ca eciente n ao eciente -500 600 1500 100
Vale notar que estas perdas traduzem uma avalia c ao subjetiva em rela c ao ` a gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza e descrita por P ( = 1) = , 0 < < 1 avaliada na distribui c ao atualizada de (seja a priori ou a posteriori). Note que, para xo, L(, ) e uma vari avel aleat oria discreta assumindo apenas dois valores com probabilidades e 1 . Assim, usando a deni c ao de risco obtemos que R( = 0) = E (L(0, )) = 1500 + (1 )100 = 1400 + 100 R( = 1) = E (L(1, )) = (500) + (1 )600 = 1100 + 600
Uma quest ao que se coloca aqui e, para que valores de a regra de Bayes ser a de lan car a droga. N ao e dif cil vericar que as duas a c oes levar ao ao mesmo risco, i.e. R( = 0) = R( = 1) se somente se = 0, 20. Al em disso, para < 0, 20 temos que R( = 0) < R( = 1) e a regra de Bayes consiste em n ao lan car a droga enquanto que > 0, 20 implica em R( = 1) < R( = 0) e a regra de Bayes deve ser de lan car a droga.
4.5.2
Estimadores de Bayes
Seja agora uma amostra aleat oria X1 , . . . , Xn tomada de uma distribui c ao com fun c ao de (densidade) de probabilidade p(x|) aonde o valor do par ametro e desconhecido. Em um problema de infer encia o valor de deve ser estimado a partir dos valores observados na amostra. Se ent ao e razo avel que os poss veis valores de um estimador (X ) tamb em devam pertencer ao espa co . Al em disso, um bom estimador e aquele
4.5. ESTIMADORES DE BAYES
51
para o qual, com alta probabilidade, o erro (X ) estar a pr oximo de zero. Para cada poss vel valor de e cada poss vel estimativa a vamos associar uma perda L(a, ) de modo que quanto maior a dist ancia entre a e maior o valor da perda. Neste caso, a perda esperada a posteriori e dada por E [L(a, )|x] = L(a, )p(|x)d
e a regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada. Assim, a forma do estimador de Bayes vai depender tanto da fun c ao de perda quanto da distribui c ao a priori. Aqui vamos discutir apenas fun c oes de perda sim etricas, j a que estas s ao mais comumente utilizadas. Dentre estas a mais utilizada em problemas de estima c ao e certamente a fun c ao de perda quadr atica, denida como L(a, ) = (a )2 . Neste caso, pode-se mostrar que o estimador de Bayes para o par ametro ser a a m edia de sua distribui c ao atualizada. Note tamb em que neste caso o risco de 2 Bayes e simplesmente E (E (|x) ) = V ar(|x). Exemplo 4.8 : Suponha que queremos estimar a propor c ao de itens defeituosos em um grande lote. Para isto ser a tomada uma amostra aleat oria X1 , . . . , Xn de uma distribui c ao de Bernoulli com par ametro . Usando uma priori conjugada Beta(, ) sabemos que ap os observar a amostra a distribui c ao a posteriori e n edia desta distribui c ao Beta e dada Beta( + t, + n t) onde t = i=1 xi . A m por ( + t)/( + + n) e portanto o estimador de Bayes de usando perda quadr atica e + n i=1 Xi . (X ) = ++n Note tamb em que fazendo 0 e 0 segue que o estimador de Bayes n = coincide com o estimador de m axima verossimilhan ca i=1 Xi /n. Esta priori e chamada de priori n ao informativa. Exemplo 4.9 : No Exemplo 4.8 suponha que foi especicada uma priori Beta(1,1) (ou equivalentemente U(0,1)) para e 10 itens foram inspecionados dos quais 8 eram defeituosos. A estimativa de Bayes de e (1+8)/(2+10) = 0, 75 enquanto = 0, 80. A perda quadr atica e as vezes criticada por penalizar demais o erro de estima c ao. A fun c ao de perda absoluta, denida como L(a, ) = |a |, introduz puni c oes que crescem linearmente com o erro de estima c ao e pode-se mostrar que o estimador de Bayes associado e a mediana da distribui c ao atualizada de . Para reduzir ainda mais o efeito de erros de estima c ao grandes podemos considerar fun c oes que associam uma perda xa a um erro cometido, n ao importando
52
sua magnitude. Uma tal fun c ao de perda, denominada perda 0-1, e denida como L(a, ) = 1 se |a | > 0 se |a | <
para todo > 0. Neste caso pode-se mostrar que o estimador de Bayes e a moda da distribui c ao atualizada de . A moda da posteriori de tamb em e chamado de estimador de m axima verossimilhan ca generalizado (EMVG) e e o mais f acil de ser obtido dentre os estimadores vistos at e agora. No caso cont nuo devemos obter a solu c ao da equa c ao p(|x) = 0. Um caso particular interessante e quando p() e proporcional a uma constante (como no Exemplo 4.9). Pelo teorema de Bayes segue que p(|x) p(x|) e o estimador de Bayes coincide com o estimador de m axima verossimilhan ca.
Exemplo 4.10 : Se X1 , . . . , Xn e uma amostra aleat oria da N (, 2 ) com 2 2 conhecido e usarmos a priori conjugada, i.e. N (0 , 0 ) ent ao a posteriori tamb em ser a normal e neste caso m edia, mediana e moda coincidem. Portanto, o estimador de Bayes de e dado por (X ) =
2 0 0 + n 2 X . 2 0 + n 2
2 Note que se 0 0 segue que (X ) X . Ou seja, na pr atica se atribuirmos uma vari ancia a priori muito grande para a estimativa de Bayes dever a ser similar ` a m edia amostral.
Exemplo 4.11 : No Exemplo 4.8 suponha que foram observados 100 itens dos quais 10 eram defeituosos. Usando perda quadr atica a estimativa de Bayes de e + 10 . (x) = + + 100 Assim, se a priori for Beta(1,1), ou equivalentemente U (0, 1), ent ao (x) = 0, 108. Por outro lado se especicarmos uma priori Beta(1,2), que e bem diferente da anterior, ent ao (x) = 0, 107. Ou seja, as estimativas de Bayes s ao bastante pr oximas, e isto e uma consequ encia do tamanho amostral ser grande. Note tamb em que ambas as estimativas s ao pr oximas da propor c ao amostral de defeituosos 0,1, que e a estimativa de m axima verossimilhan ca.
4.6. PROBLEMAS
53
4.6
Problemas
1. Sabendo que um paciente pode ter a doen ca A ou a doen ca B um m edico deve decidir pelo diagn ostico de uma das duas doen cas. Associando um par ametro aos estados da natureza: paciente tem a doen ca A ( = 1), paciente tem a doen ca B ( = 0), e as poss veis a c oes do m edico como diagnosticar a doen ca A ( = 1) ou diagnosticar a doen ca B ( = 0) foi poss vel construir a seguinte tabela de perdas, diagn ostico doen caA doen ca B 1 0 5 0 10 0
Pela experi encia do m edico com estas doen cas ele atribui a probabilidade P ( = 1) = , 0 < < 1. Calcule os riscos associados como fun c ao de , esboce estes riscos gracamente e deduza a decis ao de menor risco. 2. Em que condi c oes o estimador de Bayes usando perda 0-1 coincide com o estimador de m axima verossimilhan ca? 3. A propor c ao de itens defeituosos em um grande lote e desconhecida e deve ser estimada. Assume-se que a distribui c ao a priori de e Beta(5,10). Suponha que 20 itens foram selecionados ao acaso e inspecionados e encontrou-se exatamente um defeituoso. (a) Obtenha a estimativa de Bayes de usando perda quadr atica. (b) Repita a estima c ao usando perda 0-1. (c) Comente os resultados e compare com a estimativa de m axima verossimilhan ca. 4. O n umero de defeitos em rolos de 100 metros de uma ta magn etica tem distribui c ao de Poisson com m edia desconhecida. A distribui c ao a priori de e Gama(3,1). Se cinco rolos s ao selecionados ao acaso e observa-se 2, 2, 6, 0 e 3 defeitos obtenha a estimativa Bayesiana de usando perda quadr atica. 5. Suponha que as alturas (em cm) de indiv duos de uma popula c ao seguem uma distribui c ao normal cuja m edia e desconhecida e o desvio-padr ao e 5 cm. A distribui c ao a priori de e normal com m edia 173 cm e desviopadr ao 2,5 cm. Uma amostra aleat oria de 10 indiv duos foi selecionada e sua altura m edia foi de 177 cm. Calcule a estimativa de Bayes de .
54
BAYESIANA CAP ITULO 4. ESTIMAC AO 6. Suponha que o tempo em minutos para atender um cliente tem distribui c ao exponencial com par ametro desconhecido. A distribui c ao a priori de e Gama com m edia 0,2 e desvio-padr ao 1. Se o tempo m edio para atender uma amostra aleat oria de 20 clientes foi 3,8 minutos calcule a estimativa de Bayes de usando fun c ao de perda quadr atica.
Cap tulo 5 Estima c ao por Intervalos

A principal restri c ao da estima c ao pontual e que quando estimamos um par ametro atrav es de um u nico valor num erico toda a informa c ao presente nos dados e resumida atrav es deste n umero. E importante encontrar tamb em um intervalo de valores plaus veis para o par ametro. A id eia e construir um intervalo em torno da estimativa pontual de modo que ele tenha uma probabilidade conhecida de conter o verdadeiro valor do par ametro. Tipicamente as distribui c oes amostrais de estimadores dos par ametros desconhecidos ser ao utilizadas. Antes de descrever o procedimento geral veremos um exemplo simples de constru c ao do intervalo de conan ca. Exemplo 5.1 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ), com 2 conhecido. Para fazer infer encias sobre nos baseamos na m edia amostral X e sabemos que n (X ) N (0, 1). U= Note que a estat stica U e uma fun c ao da amostra e tamb em de , o par ametro de interesse, mas sua distribui c ao de probabilidades n ao depende de . Usando uma tabela da distribui c ao normal padronizada podemos obter o valor do percentil z/2 tal que P (z/2 U z/2 ) = 1 e assim, ap os isolar , obtemos que P X z/2 X + z/2 n n = 1 .
Esta u ltima igualdade pode dar margem a interpreta c oes err oneas, o que ali as acontece com bastante frequ encia. Na infer encia cl assica, o par ametro e desconhecido mas xo e portanto n ao e pass vel de descri c ao probabil stica, ou seja n ao se trata de um intervalo de probabilidade para . Na verdade os limites do 55
56
POR INTERVALOS CAP ITULO 5. ESTIMAC AO
intervalo e que s ao vari aveis aleat orias. Ap os a amostra ser observada teremos um valor num erico para a m edia amostral, i.e. X = x e dizemos que x z/2 x + z/2 n n com conan ca 100(1 )%. N ao se pode fazer arma c oes do tipo o verdadeiro valor de tem 95% de chances de estar no intervalo x 1, 96 / n. Vale notar tamb em que, para um dado valor de 1 , e poss vel construir muitos intervalos de conan ca diferentes para . Na verdade, quaisquer constantes c1 e c2 tais que P (c1 U c2 ) = 1 podem ser usadas para construir um intervalo com limites x c2 e x c1 . n n No entanto, pode-se mostrar que dentre todos os intervalos de conan ca com esta caracter stica, aquele denido acima que e sim etrico em torno do m edia amostral x e o de menor comprimento. Exemplo 5.2 : No Exemplo 5.1 suponha que foram observados os dados abaixo, -3.83 -1.88 -1.55 -12.64 -0.4 -18.87 4.98 -9.52 -14.06 13.56 e queremos construir um intervalo de 95% para a m edia com = 10. A m edia amostral e x = 4.421. Na Tabela 5.1 abaixo encontram-se os valores de c1 e c2 obtidos para diferentes probabilidades nas caudas da distribui c ao normal padr ao. Na u ltima coluna est ao os comprimentos (c2 c1 )/ n dos intervalos. 1 2 3 4 P(Z<c 1) P(Z>c 2) c 1 c 2 comp 0.010 0.040 -2.326 1.751 12.890 0.020 0.030 -2.054 1.881 12.440 0.025 0.025 -1.960 1.960 12.400 0.045 0.005 -1.695 2.576 13.510
Tabela 5.1: Valores de c1 e c2 para diferentes probabilidades nas caudas e os comprimentos dos intervalos.
5.1
Procedimento Geral
O procedimento geral para constru c ao de intervalos de conan ca consiste nos seguintes passos, 1. Obter uma estat stica que depende de , U = G(X , ), mas cuja distribui c ao n ao depende de .
5.1. PROCEDIMENTO GERAL
57
20 0
10
Medias 0
10
20
20
60 80 Amostras Nivel de Confianca Real = 95 %
40
100
Figura 5.1: Intervalos de 95% de conan ca para m edia desconhecida. 2. Usando a distribui c ao de U , encontrar as constantes a e b tais que P (a U b) 1 . 3. Denir { : a G(x, ) b} como o intervalo (ou regi ao) de conan ca 100(1-)% para . A exig encia de que a probabilidade no item 2 acima possa ser maior do que o n vel de conan ca e essencialmente t ecnica pois queremos que o intervalo seja o menor poss vel, o que em geral implica em usar uma igualdade. A desigualdade ser a u til principalmente no caso de distribui c oes discretas onde nem sempre e poss vel satisfazer a igualdade. Note que a vari avel aleat oria U , comumente denominada quantidade pivotal ou pivot, e fundamental para o funcionamento do m etodo. Idealmente ela deve depender da amostra atrav es de estat sticas sucientes minimais e ter distribui c ao conhecida. importante notar tamb E em que este intervalo n ao pode ser interpretado como um intervalo de probabilidade para j a que a aleatoriedade presente e devida ` a amostra X1 , . . . , Xn . Ou seja, o procedimento leva a constru c ao de um intervalo
58
probabil stico para a vari avel aleat oria U e n ao para . Tecnicamente, dizemos que 100(1 )% de todos os intervalos de conan ca que construirmos conter ao o verdadeiro valor do par ametro (dado que todas as suposi c oes envolvidas estejam corretas). Por exemplo se 1 = 0, 95 ent ao, em m edia, somente 5 a cada 100 intervalos n ao conter ao . A probabilidade 1 e denominada n vel de conan ca e sua escolha depende da precis ao com que queremos estimar o par ametro, sendo em geral 1 0, 90 os valores mais utilizados na pr atica. Exemplo 5.3 : Seja X1 , . . . , Xn U [0, ], para > 0 desconhecido. A fun c ao de distribui c ao acumulada de max{Xi } e dada por
n
F (x) = P (max{Xi } < x) = P (X1 < x, . . . , Xn < x) = e como P (Xi < x) = x/ segue que P (max{Xi } < x) = (x/)n , 0 x .
P (Xi < x),

i=1
Consequentemente a distribui c ao de max{Xi }/ tamb em pode ser facilmente obtida como P (max{Xi }/ < x) = P (max{Xi } < x) = xn , 0 x . Assim, max{Xi }/ e uma estat stica que depende da amostra atrav es de max{Xi } e do par ametro desconhecido mas cuja distribui c ao n ao depende de . Para um coeciente de conan ca 1 = 0, 90 podemos obter os limites c1 e c2 tais que P (c1 < max{Xi }/ < c2 ) = 0, 90 e se as areas ` a esquerda de c1 e ` a direita de c2 forem iguais ent ao
1/n P (max{Xi }/ < c2 ) = 0, 95 = cn 2 c2 = 0, 95
1/n P (max{Xi }/ < c1 ) = 0, 05 = cn 1 c1 = 0, 05
Agora, isolando obtemos o I.C. de 90% max{Xi } max{Xi } < < . 0, 951/n 0, 051/n Os dados abaixo foram simulados de uma distribui c ao uniforme no intervalo (0;10) 0.87 7.94 3.16 9.85 3.39 1.53 5.15 4.38 8.5 7.02
NO MODELO NORMAL 5.2. ESTIMAC AO
59
Usando a express ao acima ent ao segue que 9.9 < < 13.29 com conan ca 0,90.
5.2
Estima c ao no Modelo Normal
Nesta se c ao ser ao discutidos os casos em que os dados prov em de uma distribui c ao normal. Inicialmente veremos o caso em que temos uma u nica amostra de uma distribui c ao normal e queremos estimar sua m edia e sua vari ancia. Na Se c ao 5.2.2 estudaremos o caso de duas amostras tomadas de distribui c oes normais independentes.
5.2.1
O caso de uma amostra
No exemplo 5.1, se 2 for desconhecido n ao podemos usar a mesma quantidade pivotal j a que ela depende de . Ou seja, precisamos obter uma outra quantidade pivotal que depende apenas de X e de e com uma distribui c ao que seja conhecida e n ao dependa de nenhum par ametro desconhecido. No modelo normal isto ser a poss vel usando os resultados a seguir. Teorema 5.1 Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ) e sejam X e S 2 a m edia e a vari ancia amostrais. Ent ao, condicionado em e 2 , X e S 2 s ao independentes com distribui c oes amostrais n(X ) N (0, 1) e (n 1)S 2 2 n1 . 2
Lema 5.1 Se U N (0, 1) e W 2 ao independentes ent ao e se U e W s U W t (0, 1).
Prova. A prova e deixada como exerc cio. Corol ario 5.1 Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ) e sejam X e S 2 a m edia e a vari ancia amostrais. Ent ao, condicionado em e c ao amostral 2 , X tem distribui n(X ) tn1 (0, 1) S n(X )/ , W =
Prova. Aplica c ao direta do Lema 5.1 acima com U = 2 2 (n 1)S / e = n 1.
60
Estes resultados nos permitem denir quantidades pivotais para constru c ao 2 de intervalos de conan ca para e . No caso da m edia , o valor desconhecido de e substituido pelo seu estimador S levando a uma quantidade pivotal com distribui c ao t com n 1 graus de liberdade. Assim, podemos obter o percentil t/2,n1 tal que P t/2,n1 n(X ) t/2,n1 S =1
e, ap os isolar , obtemos que P S S X t/2,n1 X + t/2,n1 n n = 1 .
Note que, mesmo se S pudesse estimar sem erro, esta substitui c ao implica em um aumento da amplitude do intervalo de conan ca pois t,n > z para n pequeno. Finalmente, ap os observar a amostra substituimos as estimativas e dizemos que s s x t/2,n1 x + t/2,n1 n n com conan ca 100(1 )%.
Estimando a Vari ancia

Para obter estimativas da vari ancia populacional 2 usamos a seguinte quantidade pivotal (n 1)S 2 Q= 2 que tem distribui c ao qui-quadrado com n 1 graus de liberdade. Devemos ent ao 2 2 c ao tais que obter os percentis /2,n1 e /2,n1 desta distribui P 2 /2,n1 (n 1)S 2 2 /2,n1 2 = 1 .
Ap os observar a amostra teremos o valor num erico s2 de S 2 e o intervalo de conan ca de 100(1 )% para 2 e dado por (n 1)s2 (n 1)s2 , 2 2 /2,n1 /2,n1 .
Note que o intervalo n ao depende da m edia amostral x mas somente do grau de dispers ao dos dados, medido atrav es do desvio padr ao amostral s2 . Al em
61
disso, este intervalo n ao e sim etrico em torno da estimativa pontual e por isso temos que obter 2 valores da distribui c ao qui-quadrado cujos valores absolutos s ao diferentes, um a ser utilizado no limite inferior e outro a ser utilizado no limite superior do intervalo. Exemplo 5.4 : Considere novamente os dados do Exemplo 5.2 com m edia e vari ancia desconhecidas e construa um I.C. de 90% para estes par ametros. ancia amostral e s2 = 93.128. Da A m edia amostral e x = 4.421 e a vari tabela da distribui c ao t com n 1 = 9 graus de liberdade obtemos que P (T > 1.833) = 0, 05. Portanto, x 1.833 s/ n x + 1.833 s/ n e um I.C. de 90% para . Substituindo os valores de x e s obtemos que 10.015 1.173.
Da tabela da distribui c ao qui-quadrado com n 1 = 9 graus de liberdade obtemos que P (Q > 3.325) = 0, 95 e P (Q > 16.919) = 0, 05. Portanto, (n 1)s2 (n 1)s2 , 16.919 3.325
e um I.C. de 90% para 2 . Substituindo os valores num ericos obtemos que 5.133 2 26.121.
5.2.2
O caso de duas amostras
Nesta se c ao vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 s ao amostras 2 2 aleat orias das distribui c oes N (1 , 1 ) e N (2 , 2 ) respectivamente e que as amostras s ao independentes. Podemos = 1 2 . X 1 X 2 que populacionais comparar as m edias populacionais estimando a diferen ca A estima c ao e baseada na diferen ca entre m edias amostrais, i.e. e o estimador de m axima verossimilhan ca de . Se as vari ancias forem conhecidas ent ao a distribui c ao amostral e dada por X 1 X 2 N (1 2 , 2 ) onde 2 =
2 2 1 + 2. n1 n2
j a que as m edias amostrais s ao independentes. Assim, o intervalo de conan ca
62
de 100(1 )% para a diferen ca entre m edias e dado por 2 2 2 2 x1 x2 z/2 1 + 2 ; x1 x2 + z/2 1 + 2 . n1 n2 n1 n2

2 No caso de vari ancias populacionais desconhecidas por em iguais, i.e. 1 = 2 2 2 = podemos combinar os duas vari ancias amostrais para formar uma estimativa combinada da vari ancia. Atribu mos mais peso ` as amostras maiores e esta vari ancia combinada e dada por 2 2 (n1 1)S1 + (n2 1)S2 , n1 + n2 2
2 Sp =
isto e, a m edia ponderada das vari ancias amostrais com pesos dados por n1 1 e n2 1. Agora podemos calcular o erro padr ao das diferen cas nas m edias como EP (X 1 X 2 ) = Sp 1 1 + . n1 n2
2 2 2 2 Note que min{s2 a que a soma dos coecientes 1 , s2 } sp max{s1 , s2 } sempre j e igual a 1. Se isto n ao ocorrer seus c alculos est ao errados.
Note tamb em que

2 (n1 1)S1 2 n1 1 2
2 (n2 1)S2 2 n2 1 2
2 2 e como S1 e S2 s ao independentes segue que 2 2 (n1 1)S1 + (n2 1)S1 2 n1 +n2 2 . 2
Agora ca f acil vericar que

2 (n1 + n2 2)Sp 2 n1 +n2 2 2
Do exposto acima, um intervalo de conan ca para a diferen ca entre m edias 1 2 assumindo desvios padr ao iguais pode ser constru do usando-se a quantidade pivotal t (0, 1) 1 1 Sp + n1 n2 = X 1 X 2 . Assim, o intervalo de conan ca de onde = n1 + n2 2 e
NO MODELO NORMAL 5.2. ESTIMAC AO 100(1 )% para a diferen ca ca, x1 x2 t/2, sp 1 1 + ; x1 x2 + t/2, sp n1 n2 1 1 + n1 n2 .
63
Analogamente ao caso de uma amostra, o intervalo de conan ca para 2 e constru do usando-se a quantidade pivotal
2 Sp 2 . 2
Ent ao devemos obter os quantis /2 inferior e superior desta distribui c ao quiquadrado e o intervalo de conan ca de 100(1 )% para a vari ancia populacional ca s2 s2 p p ; 2 2 /2, /2,
5.2.3
Vari ancias desiguais
At e agora assumimos que as vari ancias populacionais desconhecidas eram iguais (ou pelo menos aproximadamente iguais). A viola c ao desta suposi c ao leva a problemas te oricos e pr aticos uma vez que n ao e trivial encontrar uma quantidade pivotal para com distribui c ao conhecida. Na verdade, se existem grandes diferen cas de variabilidade entre as duas popula c oes pode ser mais apropriado analisar conjuntamente as consequ encias das diferen cas entre as m edias e as vari ancias. Assim, caso o pesquisador tenha interesse no par ametro deve levar em conta os problemas de ordem te oricas introduzidos por uma diferen ca substancial 2 2 entre 1 e 2 . A literatura estat stica apresenta v arios m etodos para resolver este problema mas nenhum deles e completamente satisfat orio. Um procedimento poss vel (e aproximado) consiste em utilizar a estat stica T = . 2 2 S2 S1 + n1 n2
2 2 No entanto, a distribui c ao exata de T depende da raz ao 1 /2 , que e desconhecida. Se n1 e n2 forem grandes T tem distribui c ao aproximadamente normal padr ao, mas quando eles s ao ambos pequenos uma solu c ao simples e utilizar uma distribui c ao t de Student com k 1 graus de liberdade onde k = min(n1 , n2 ). Outra solu c ao aproximada (m etodo aproximado de Aspin-Welch) consiste em utilizar a estat stica acima com distribui c ao t de Student e n umero de graus de
64 liberdade dado por
onde w1 =
(w1 + w2 )2 2 2 w2 w1 + n1 1 n2 1 s2 1 n1 e w2 = s2 2 . n2
No caso de estar utilizando valores tabelados ent ao deve ser arrendondado para o inteiro mais pr oximo. Novamente pode-se construir intervalos de conan ca para a diferen ca entre as m edias populacionais usando esta estat stica.
5.2.4
Compara c ao de vari ancias
Outra situa c ao de interesse e a compara c ao das duas vari ancias populacionais. Neste caso, faz mais sentido utilizar a raz ao de vari ancias ao inv es da diferen ca j a que elas medem a escala de uma distribui c ao e s ao sempre positivas. Ou 2 2 seja estamos interessados em estimar a quantidade 1 /2 construindo intervalos 2 2 de conan ca em torno da estimativa pontual s1 /s2 . Para obter a distribui c ao amostral apropriada usaremos o teorema a seguir. Teorema 5.2 Sejam as vari aveis aleat orias U e W independentes com distribui c oes qui-quadrado com 1 e 2 graus de liberdade respectivamente. Ent ao a vari avel aleat oria dada por U/1 X= W/2 tem distribui c ao F com 1 e 2 graus de liberdade. Usaremos a nota c ao X F (1 , 2 ). Do Teorema 5.1 temos que (ni 1)Si2 2 ni =1 , i = 1, 2 2 i sendo que estas duas vari aveis aleat orias s ao independentes. Ent ao pelo Teorema 5.2 n ao e dif cil mostrar que
2 2 S1 2 F (n1 1, n2 1). 2 2 S2 1
Embora sua fun c ao de distribui c ao n ao possa ser obtida analiticamente os valores est ao tabelados em muitos livros de estat stica e tamb em podem ser obtidos na maioria dos pacotes computacionais. Os percentis podem ent ao ser utilizados na constru c ao de intervalos de conan ca para a raz ao de vari ancias.
65
Uma propriedade bastante u til para calcular probabilidade com a distribui c ao 1 F vem do fato de que se X F (2 , 1 ) ent ao X F (1 , 2 ) por simples invers ao na raz ao de distribui c oes qui-quadrado independentes. Assim, denotando os quantis e 1 da distribui c ao F (1 , 2 ) por F (1 , 2 ) e F (1 , 2 ) respectivamente segue que 1 . F (1 , 2 ) = F (2 , 1 ) Note que e usual que os livros forne cam tabelas com os percentis superiores da distribui c ao F para v arias combina c oes de valores de 1 e 2 devido ` a propriedade acima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter tamb em um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de liberdade. Exemplo 5.5 : Suponha que X F (4, 6) e queremos obter o valor x tal que P (X < x) = 0, 05. Neste caso devemos obter primeiro o valor y tal que P (X 1 > y ) = 0, 05 sendo que X 1 F (6, 4). Este valor e dado por y = 6, 16. Podemos agora calcular x = 1/y 0, 16.
5.2.5
Amostras pareadas
Nas se c oes anteriores zemos a suposi c ao de que as amostras eram independentes, mas esta nem sempre e uma suposi c ao razo avel. Em estudos chamados pareados ou emparelhados, temos duas amostras mas cada observa c ao na primeira amostra e pareada (ou emparelhada) com uma observa c ao da segunda amostra. Tal situa c ao ocorre por exemplo em um estudo de medidas feitas antes e depois no mesmo indiv duo (ou mesma m aquina, ou mesmo processo de produ c ao, etc). Como esperado, as duas observa c oes do mesmo indiv duo s ao mais prov aveis de serem similares, e portanto n ao podem ser consideradas estatisticamente independentes. Analogamente ao caso anterior, as observa c oes pareadas s ao representadas pelas vari aveis aleat orias, X11 , . . . , X1n : medida 1 X21 , . . . , X2n : medida 2 e ent ao escrevemos as diferen cas nas medidas de cada par como Di = X2i X1i , i = 1, . . . , n. Temos agora uma amostra de diferen cas e assumindo que
2 D1 , . . . , Dn N (D , D )
podemos usar os m etodos com os quais j a estamos familiares. Ou seja, podemos calcular um intervalo de conan ca para a diferen ca m edia e testar se a diferen ca
66
m edia e igual a um particular valor (usualmente zero) ou n ao. Nos referimos a tal teste como um teste t pareado. A estat stica (pivot) utilizada ent ao e D D tn1 SD / n e o intervalo de conan ca de 100(1-)% para D e d t/2,n1 sD / n D d + t/2,n1 sD / n. Note que neste caso estamos interessados na diferen ca m edia enquanto que para duas amostras independentes, estamos interessados na diferen ca das m edias. Ainda que numericamente estas quantidades possam ser as mesmas, conceitualmente elas s ao diferentes. Outra observa c ao importante e que estamos assumindo normalidade para as diferen cas e n ao para os dados originais. Lembre-se, mesmo que X1i e X2i sejam normais isto n ao implica que os Di sejam normais j a que aqui n ao h a independ encia. Portanto a hip otese de normalidade deve ser feita nas diferen cas. Exemplo 5.6 : A mudan ca nos n veis de um contaminante numa certa area do in cio ao nal de seis meses de observa c ao foram (em /l): 1, 5 0, 6 0, 3 0, 2 2, 0 1, 2 Aqui n ao estamos interessados nos n veis de contamina c ao mas sim em sua vari = 0, 9 e s = 0, 81 respectia c ao. A m edia e o desvio padr ao amostrais s ao d vamente. Ent ao o erro padr ao e 0, 81/ 6 = 0, 33. Podemos agora construir um intervalo de conan ca para vericar se a perda na concentra c ao m edia e nula. Para = 0,05 e 5 graus de liberdade obt em-se t0,025 = 2.45 e o I.C. de 95% para D ca 0, 9 2.45 0, 81/ 6 D 0, 9 + 2.45 0, 81/ 6 ou seja com 95% de conan ca [-1.75; -0.05]. Neste caso h a ind cios nos dados de que a perda na concentra c ao m edia n ao e nula, ao contr ario e negativa.
5.2.6
Coment ario
Os intervalos de conan ca obtidos nesta se c ao dependem fortemente da suposi c ao de independ encia e normalidade dos dados (ou das diferen cas). Na pr atica dicilmente poderemos garantir que os dados seguem um modelo te orico simples e que estas suposi c oes est ao corretas.
5.3. INTERVALOS DE CONFIANCA PARA UMA PROPORC AO
67
5.3
Intervalos de conan ca para uma propor c ao
Seja X1 , . . . , Xn uma amostra aleat oria de uma distribui c ao de Bernoulli com par ametro . Assim, n 1 Y = Xi n i=1 e a propor c ao amostral de sucessos e ser a o nosso estimador pontual da verdadeira probabilidade de sucesso . Vamos considerar agora a constru c ao de um intervalo de conan ca para . Pelo Teorema Central do Limite, para n grande e n ao muito pr oximo de 0 ou 1, a distribui c ao de Y ser a aproximadamente normal com m edia e um desvio padr ao dado por (1 ) . n j a que E (Xi ) = e V (Xi ) = (1 ). Ou seja, a quantidade pivotal ser a dada por Y N (0, 1). (1 ) n Assim, ap os observar a amostra o intervalo de conan ca de 100(1-)% para ca y z/2 (1 ) , y + z/2 n (1 ) n .
Note que os limites do intervalo dependem do valor desconhecido de e aqui duas abordagens s ao poss veis. Podemos usar o fato de que o valor m aximo de (1 ) e atingido para = 1/2, logo (1 ) 1/4, ou equivalentemente (1 )/n 1/ 4n. Neste caso, um intervalo de conan ca conservativo e dado por 1 1 , y + z/2 . y z/2 4n 4n No entanto, se o verdadeiro valor de estiver afastado do seu valor m aximo e estiver pr oximo de 0 ou de 1 ent ao este intervalo tem amplitude desnecessariamente grande porque substituimos (1 ) pelo seu valor m aximo. Um enfoque mais otimista consiste em substituir pela sua estimativa de m axima verossimilhan ca, i.e. a propor c ao amostral de sucessos y e utilizar o intervalo y z/2 y (1 y ) , y + z/2 n y (1 y ) n .
68
Note que, para n e 1 xos a amplitude do intervalo conservativo ser aa mesma para todas as poss veis amostras de tamanho n. Por outro lado, usando-se esta u ltima express ao o intervalo ter a amplitude 2z/2 y (1 y )/n que varia de amostra para amostra. Uma fun c ao geral pode ser escrita no R para se obter o intervalo de conan ca. > ic.binom = function(dados, nivel = 0.95) { + x = sum(dados) + n = length(dados) + alpha = 1 - nivel + xbar = x/n + EP = sqrt(xbar * (1 - xbar)/n) + q = qnorm(c(alpha/2, 1 - (alpha/2))) + IC = xbar + q * EP + return(IC) + }
5.4
Intervalos de Conan ca Assint oticos
Utilizando os conceitos do m etodo da quantidade pivotal e a propriedade de normalidade assint otica dos estimadores de m axima verossimilhan ca podemos construir intervalos de conan ca para . Para isto ser ao usadas as deni c oes de medida de informa c ao de Fisher e fun c ao escore vistas no Cap tulo 1. Vimos em estima c ao pontual que, para grandes amostras, o estimador de n para um par m axima verossimilhan ca ametro tem distribui c ao aproximadamente normal com m edia sob condi c oes de regularidade gerais. Assim, mesmo que n seja viesado para n xo ele ser a assintoticamente n ao viesado. A vari ancia assint otica e dada por 1/nI (). Ou seja, para n grande n tem distribui c ao aprox1 imadamente N (, (I ()) ) e podemos construir intervalos de conan ca aproximados para . Neste caso, n ) ( I () N (0, 1)
pode ser tratado como uma quantidade pivotal aproximada e se for poss vel isolar na desigualdade n ) I () < z/2 z/2 < ( teremos um intervalo de conan ca com coeciente de conan ca aproximado igual a 1 . Exemplo 5.7 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponen-
5.4. INTERVALOS DE CONFIANCA ASSINTOTICOS cial com par ametro . A fun c ao de densidade conjunta e dada por
n
69
p(x|) = n et , Tomando-se o logaritmo obt em-se
> 0,
onde t =
i=1
xi .
log p(x|) = n log() t de modo que as derivadas de primeira e segunda ordem s ao log p(|) n = t e 2 log p(|) n = 2 2
e a informa c ao esperada de Fisher baseada na amostra e I () = n/2 . Sabemos tamb em que o estimador de m axima verossimilhan ca de e 1/X e portanto, c ao aproximadamente normal com m edia e para n grande, 1/X tem distribui 2 vari ancia /n. Assim, o intervalo de conan ca aproximado e obtido fazendo-se P Isolando obtemos que P n/X n/X << n + z/2 n z/2 1 . z/2 < 1/X 2 /n < z/2 1 .
Exemplo 5.8 : Os dados abaixo (simulados) formam uma amostra aleat oria de X Exp(), com = 0, 5. Deseja-se construir um intervalo de conan ca de 95% para . 5.02 1.11 0.04 0.48 1.59 0.75 5.1 0.38 2.33 0.68 Aplicando o resultado do exemplo anterior devemos obter z/2 tal que P z/2 < 1/X 2 /n < z/2 = 0, 95
isto e, z/2 = 1, 96. Da amostra obtemos que x = 1.7 e isolando na desigualdade acima segue que 1/1.7 1/1.7 << 1 + 1, 96 1 1, 96 e o I.C. de 95% e [0.36; 1.55].
70
Um fato importante e que, em geral, na distribui c ao assint otica normal do es1 timador de m axima verossimilhan ca a sua vari ancia (I ()) pode ser substituida 1 )) sem afetar muito a acur pelo seu estimador (I ( acia da aproxima c ao. Este fato, que n ao ser a provado aqui, simplica bastante a convers ao das desigualdades para obten c ao de intervalos de conan ca aproximados. Assim, P ) I ( ) < z/2 z/2 < ( 1
e facilmente convertido para P z/2 ))1 < < + z/2 (I ( ))1 (I ( 1 .
Note que este resultado foi utilizado na Se c ao 5.3 para construir um intervalo de conan ca aproximado para uma propor c ao. Naquele caso, (1 )/n era a vari ancia de X que foi substituida pelo seu estimador de m axima verossimilhan ca.
5.4.1
Usando a Fun c ao Escore
Em algumas situa c oes n ao se tem uma forma expl cita para o estimador de m axima verossimilhan ca e neste caso a fun c ao escore ser a particularmente u til. Lembrando que a fun c ao escore de X tem m edia zero e vari ancia igual a I () ent ao n temos pelo teorema central do limite que i=1 U (Xi ; ) converge em distribui c ao para uma N (0, I ()). Podemos usar este resultado para fazer infer encia aproximada sobre e assim o intervalo de conan ca aproximado de 100(1 )% e obtido fazendo-se P 1 I ()
n
U (Xi ; ) < z/2

i=1
1 .
Finalmente, vale ressaltar que todos os resultados desta se c ao podem ser estendidos para o caso de um vetor param etrico = (1 , . . . , k ). Neste caso, a distribui c ao assint otica do estimador de m axima verossimilhan ca ser a normal multivariada com vetor de m edias e matriz de vari ancia-covari ancia igual a 1 I ( ) onde I ( ) e a matriz de informa c ao de Fisher.
5.5
Problemas
p(x|) = x1 , 0 < x < 1, > 0.
1. Seja X uma u nica observa c ao de uma distribui c ao com densidade
5.5. PROBLEMAS (a) Mostre que log X e uma quantidade pivotal.
71
(b) Use este pivot para construir um intervalo de conan ca para com coeciente de conan ca 0,90. 2. No problema anterior, se Y = ( log X )1 e (Y /2, Y ) e o intervalo de conan ca para , calcule o coeciente de conan ca. 3. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao Exponencial(). Obtenha uma quantidade pivotal e mostre como construir um I.C. para . (Dica: mostre que min{Xi } Exponencial(n). 4. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, ). Obtenha uma quantidade pivotal para construir um intervalo de conan ca para . 5. Se X11 , . . . , X1n1 e X21 , . . . , X2n2 s ao amostras aleat orias independentes das 2 2 distribui c oes N (1 , 1 ) e N (2 , 2 ) mostre que (X 1 X 2 ) (1 2 ) 1 1 Sp + n1 n2 tem distribui c ao t-Student com n1 + n2 2 graus de liberdade. 6. Os dados abaixo s ao uma amostra aleat oria da distribui c ao Bernoulli(p), com P (sucesso)=p. Construa os IC de 90% e 99% para p. 0001101111011011110111111 7. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma m edia de 72,9 batidas por minuto (bpm) e um desvio padr ao de 11,0 bpm foram obtidos. Construa um intervalo de conan ca de 95% para a pulsa c ao m edia em repouso de pessoas sadias com base nesses dados. 8. Tendo sido medido o eixo maior de 9 gr aos de quartzo de um corpo arenoso em uma l amina de arenito, obteve-se um comprimento amostral m edio de 1,5mm e um desvio padr ao de 0,3mm. Deseja-se construir um intervalo de conan ca para o comprimento m edio dos gr aos de quartzo do corpo arenoso. 9. O tempo m edio, por oper ario, para executar uma tarefa, tem sido de 100 minutos com desvio padr ao de 15 minutos. Foi introduzida uma modica c ao para reduzir este tempo e ap os alguns meses foi selecionada uma amostra de 16 oper arios medindo-se o tempo de execu c ao de cada um. Obteve-se um tempo m edio amostral de 90 minutos e um desvio padr ao de 16 minutos. (a) Estime o novo tempo m edio de execu c ao por um intervalo com 95% de conan ca.
72
POR INTERVALOS CAP ITULO 5. ESTIMAC AO (b) Inteprete o I.C. obtido no item anterior. Voc e diria que a modica c ao surtiu efeito? (Justique). (c) Estime a nova vari ancia populacional por um intervalo com 98% de conan ca. E razo avel concluir que a vari ancia populacional se alterou?
10. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI m edio foi 108,08, e o desvio padr ao foi 14,38. (a) Calcule um intervalo de conan ca de 95% para o QI m edio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados. (b) Interprete o intervalo de conan ca com palavras. (c) Foi necess ario assumir que os QIs t em distribui c ao normal neste caso? Por qu e? 11. Em um experimento sobre o efeito do alcool na habilidade perceptual, 10 indiv duos s ao testados duas vezes, uma depois de ter tomado dois drinks e uma depois de ter tomado dois copos de agua. Os dois testes foram realizados em dois dias diferentes para evitar inu encia do efeito do alcool. Metade dos indiv duos tomou a bebida alco olica primeiro e a outra metade agua. Os escores dos 10 indiv duos s ao mostrados abaixo. Escores mais altos reetem uma melhor performance. Verique se a bebida alco olica teve um efeito signicativo com 99% de conan ca. 1 2 3 4 5 6 7 8 9 10 agua 16 15 11 20 19 14 13 15 14 16 alcool 13 13 12 16 16 11 10 15 9 16
12. Em um estudo de captura e recaptura a massa de 10 p assaros migrat orios foi medida em duas ocasi oes distintas. Os dados obtidos est ao na tabela abaixo. Construa um intervalo de conan ca para a diferen ca m edia de massas e verique se houve ganho, redu c ao ou manuten c ao de massa. p assaro 1 2 3 4 5 6 7 8 9 10 medi c ao 1 10,3 11,4 10,9 12,0 10,0 11,9 12,2 12,3 11,7 12,0 medi c ao 2 12,2 12,1 13,1 11,9 12,0 12,9 11,4 12,1 13,5 12,3
5.5. PROBLEMAS
73
13. Para decidir se uma moeda e balanceada (honesta) ela e lan cada 40 vezes e cara aparece 13 vezes. Construa um intervalo de 95% de conan ca para a verdadeira propor c ao de caras p. O que voc e conclui? 14. Numa pesquisa eleitoral, 57 dentre 150 entrevistados armaram que votariam no candidato X. Com uma conan ca de 90%, o que voc e pode dizer acerca da propor c ao real de votos aquele candidato ter a? 15. Dentre 100 peixes capturados num certo lago, 18 n ao estavam apropriados para consumo devido aos n veis de polui c ao do ambiente. Construa um intervalo de conan ca de 99% para a verdadeira propor ca o de peixes contaminados. 16. Uma ind ustria compra componentes eletr onicos dos fornecedores A e B , mas o fornecedor A garante que o tempo m edio de vida (em horas) do seu produto supera o da marca B em 300 horas. Para testar esta arma c ao foram selecionadas duas amostras de 5 e 4 componentes, das marcas A e B respectivamente. As m edias amostrais foram 1492 e 1182 e as vari ancias amostrais foram 770 e 3892. (a) Compare as vari ancias dos tempos de vida atrav es de um intervalo de conan ca de 98%. E razo avel assumir igualdade de vari ancias? (b) Construa um intervalo de conan ca de 95% para a diferen ca entre os tempos m edios de vida. (c) Este intervalo d a alguma indica c ao sobre a arma c ao do fornecedor A? Explique. 17. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao normal com m edia 2 desconhecida e vari ancia conhecida. Qual deve ser o tamanho da amostra tal que exista um intervalo de conan ca para com coeciente de conan ca 0,95 e comprimento menor do que 0,01 ? 18. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponencial com m edia desconhecida. Descreva um m etodo para construir um intervalo de conan ca de 100(1 )% para . (Sugest ao: Determine as constantes c1 e n c2 tais que P (c1 < (1/) i=1 Xi < c2 ) = 1 ). 19. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao Beta(, 1). Obtenha o intervalo de conan ca aproximado de 100(1 )% baseando-se na distribui c ao assint otica da fun c ao escore. 20. Se uma vari avel aleat oria X tem distribui c ao de Poisson com m edia obtenha a informa c ao esperada de Fisher I () atrav es de X .
74
21. Suponha que uma vari avel aleat oria X tem distribui c ao normal com m edia zero e desvio-padr ao desconhecido . Obtenha a informa c ao esperada de Fisher I ( ) atrav es de X . Suponha agora que a vari ancia seja o par ametro 2 de interesse e obtenha a informa c ao de Fisher de atrav es de X . 22. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (0, 2 ). Construa um intervalo de conan ca aproximado para o desvio-padr ao baseado no seu estimador de m axima verossimilhan ca. 23. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao Exponencial(). Construa um intervalo de conan ca aproximado para E (X ) e V ar(X ).
5.6
Intervalos Bayesianos
Do ponto de Bayesiano, todas as quantidades desconhecidas (par ametros, dados omissos, etc) s ao vari aveis aleat orias. Em princ pio, a forma mais adequada de expressar a informa c ao que se tem sobre um par ametro e atrav es de sua distribui c ao a posteriori. Nesta se c ao vamos introduzir um compromisso entre o uso da pr opria distribui c ao a posteriori e uma estimativa pontual. Ser a discutido o conceito de intervalo de credibilidade (ou intervalo de conan ca Bayesiano) baseado no distribui c ao a posteriori. Deni c ao 5.1 C e um intervalo de credibilidade de 100(1-)%, ou n vel de credibilidade (ou conan ca) 1 , para se P ( C ) 1 . Note que a deni c ao expressa de forma probabil stica a pertin encia ou n ao de ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada e a distribui c ao do par ametro, ou seja o tamanho do intervalo informa sobre a dispers ao de . Al em disso, a exig encia de que a probabilidade acima possa ser maior do que o n vel de conan ca e essencialmente t ecnica pois queremos que o intervalo seja o menor poss vel, o que em geral implica em usar uma igualdade. Ou seja, queremos obter c1 e c2 tais que,
c2 c1
p(|x)d = 1 .
No entanto, a desigualdade ser au til se tiver uma distribui c ao discreta onde nem sempre e poss vel satisfazer a igualdade. Outro fato importante e que os intervalos de credibilidade s ao invariantes a transforma c oes 1 a 1, (). Ou seja, se C = [a, b] e um intervalo de credibilidade 100(1-)% para ent ao [(a), (b)] e um intervalo de credibilidade 100(1-)% para (). Note que esta propriedade tamb em vale para intervalos de conan ca na infer encia cl assica.
75
poss E vel construir uma innidade de intervalos usando a deni c ao acima mas estamos interessados apenas naquele com o menor comprimento poss vel. Pode-se mostrar que intervalos de comprimento m nimo s ao obtidos tomando-se os valores de com maior densidade a posteriori, e esta id eia e expressa matematicamente na deni c ao abaixo.
Deni c ao 5.2 Um intervalo de credibilidade C de 100(1-)% para e de m axima densidade a posteriori (MDP) se C = { : p(|x) k ()} onde k () e a maior constante tal que P ( C ) 1 . Usando esta deni c ao, todos os pontos dentro do intervalo MDP ter ao densidade maior do que qualquer ponto fora do intervalo. Al em disso, no caso de distribui c oes com duas caudas, e.g. normal, t de Student, o intervalo MDP e obtido de modo que as caudas tenham a mesma probabilidade. Um problema com os intervalos MDP e que eles n ao s ao invariantes a transforma c oes 1 a 1, a n ao ser para transforma c oes lineares. O mesmo problema ocorre com intervalos de comprimento m nimo na infer encia cl assica.
5.7
Estima c ao no Modelo Normal
Os resultados desenvolvidos nos cap tulos anteriores ser ao aplicados ao modelo normal para estima c ao da m edia e vari ancia em problemas de uma ou mais amostras e em modelos de regress ao linear. A an alise ser a feita com priori conjugada e priori n ao informativa quando ser ao apontadas as semelhan cas com a an alise cl assica. A abordagem aqui e introdut oria, um tratamento mais completo do enfoque Bayesiano em modelos lineares pode ser encontrado em Broemeling (1985) e Box e Tiao (1992). Nesta se c ao considere uma amostra aleat oria X1 , , Xn tomada da dis2 tribui c ao N (, ).
5.7.1
Vari ancia Conhecida
2 ) ent ao, do Teorema Se 2 e conhecido e a distribui c ao a priori de e N (0 , 0 4.1, obt em-se que distribui c ao a posteriori de tamb em e normal com m edia 1 2 e vari ancia 1 dados por 2 0 0 + n 2 x 2 0 + n 2 2 2 e 1 = 0 + n 2 .
1 =
76 Assim temos que,
X1 , , Xn N (, 2 )
2 |x N (1 , 1 )
2 N (0 , 0 )
Portanto, intervalos de conan ca Bayesianos para podem ent ao ser constru dos usando o fato de que 1 |x N (0, 1). 1 Assim, usando uma tabela da distribui c ao normal padronizada podemos obter o valor do percentil z/2 tal que P z/2 1 z/2 1 =1
e ap os isolar , obtemos que P 1 z/2 1 1 + z/2 1 = 1 . Portanto 1 z/2 1 ; 1 + z/2 1 e o intervalo de credibilidade 100(1-)% MDP para , devido ` a simetria da normal. A priori n ao informativa pode ser obtida fazendo-se a vari ancia da priori 2 tender a innito, i.e. 0 . Neste caso, e f acil vericar que
2 1 n 2
e 1 x,
ou seja a m edia e a precis ao da posteriori convergem para a m edia e a precis ao amostrais. M edia, moda e mediana a posteriori coincidem ent ao com a estimativa ca Bayesiano de cl assica de m axima verossimilhan ca, x. O intervalo de conan 100(1-)% para e dado por x z/2 ; x + z/2 n n e tamb em coincide numericamente com o intervalo de conan ca cl assico. E importante notar que esta coincid encia e apenas num erica uma vez que a interpreta c ao do intervalo Bayesiano e como uma arma ca o probabil stica sobre . Exemplo 5.9 : Sejam X1 , . . . , Xn os tempos (em minutos) de execu c ao de uma tarefa medidos para 16 oper arios selecionados ao acaso. Sabe-se que o desvio padr ao populacional destes tempos e igual a 15 minutos e obteve-se um tempo
NO MODELO NORMAL 5.7. ESTIMAC AO m edio amostral de 90 minutos.
77
Assumindo que X N (, 2 ) com = 15 e usando uma distribui c ao a priori n ao informativa para segue que a sua distribui c ao a posteriori e |x1 , . . . , xn N (x, 2 /n) e para construir o I.C. Bayesiano de 95% para obtemos de uma tabela da normal padr ao que z0,025 = 1.96. Assim, o intervalo ca 15 15 = [82.65; 97.35]. 90 1.96 ; 90 + 1.96 16 16 Ou seja, ap os observar os dados a probabilidade do tempo m edio de execu c ao estar neste intervalo e 0,95, i.e. P (82.65 < < 97.35) = 0.95. Uma fun c ao geral pode ser escrita no R para se obter o intervalo MDP e opcionalmente fazer os gr acos das densidades. > ic.mdp = function(x, sigma, mu0, tau0, plot = F, conf = 0.95) { + n = length(x) + xbar = mean(x) + ep = sigma/sqrt(n) + sigma2 = sigma^2 + precisao = n * (1/sigma2) + (1/tau0) + mu1 = (n * (1/sigma2) * xbar + (1/tau0) * mu0)/precisao + tau1 = 1/precisao + if (plot) { + curve(dnorm(x, xbar, ep), xbar - 3 * ep, xbar + 3 * ep) + curve(dnorm(x, mu0, sqrt(tau0)), add = T, col = 2) + curve(dnorm(x, mu1, 1/sqrt(precisao)), add = T, col = 3) + } + z = qnorm((1 - conf)/2, lower = F) + c(mu1 - z * sqrt(tau1), mu1 + z * sqrt(tau1)) + }
Exemplo 5.10 : No Exemplo 5.9 sabe-se que o tempo m edio de execu c ao tem sido de 100 minutos com desvio padr ao igual a 10 minutos. Podemos usar esta 2 informa c ao como priori para o tempo m edio ou seja N (0 , 0 ) com 0 = 100
78 e 0 = 10. Assim, segue que
2 |x1 , . . . , xn N (, 1 ) 1 16 2 + = 0.0811 1 = 152 102 (16/152 )(90) + (1/102 )(100) 1 = = 91.245 0.0811
e o I.C. Bayesiano de 95% ca [91.245 1.96 1 ; 91.245 + 1.96 0.0811 1 ] = [82.65; 97.35]. 0.0811
Usando a fun c ao ic.mdp obtemos ic.mdp(x=rep(90,16),sigma=15,mu0=100,tau0=100,plot=F,conf=0.95) [1] 84.35098 98.11477
5.7.2
M edia e Vari ancia desconhecidas
Neste caso deve-se obter uma distribui c ao a posteriori para os 2 par ametros (, 2 ) via teorema de Bayes, i.e. p(, 2 |x) p(x|, 2 ) p(, 2 ). Come caremos especicando uma priori n ao informativa e uma forma de fazer isto e assummir que e s ao a priori independentes e que (, log( )) tem distribui c ao uniforme. Isto equivale a dizer que p(, 2 ) 1/ 2 . A fun c ao de verossimilhan ca e dada por p(x|, ) = (2 ) = (2 )
2 2 n/2
1 exp 2 2 1 exp 2 2
i=1
(xi )2
n
2 n/2
i=1
(xi x)2 + n(x )2
n exp
1 (n 1)s2 + n(x )2 2 2
sendo s2 a vari ancia amostral. Aplicando o teorema de Bayes obtemos ent ao que p(, 2 |x) n2 exp 1 (n 1)s2 + n(x )2 2 2 . (5.1)
79
Da express ao (5.1) e usando novamente o Teorema 4.1 n ao e dif cil vericar 2 que a densidade a posteriori de condicionada em ca p(|x, 2 ) p(, 2 |x) exp ou seja, |x, 2 N (x, 2 /n). n (x )2 2 2
Distribui c ao Marginal de 2
O pr oximo passo e obter a distribui c ao a posteriori marginal de 2 e para isto basta integrar a densidade a posteriori conjunta em rela c ao a . Assim, p( |x) =
2
1 [(n 1)s2 + n(x )2 ] d 2 2 n 1 exp 2 (x )2 d = n2 exp 2 (n 1)s2 2 2 n2 exp
Nesta u ltima integral temos o n ucleo de uma fun c ao de densidade normal com 2 ancia /n, portanto ela e dada simplesmente por m edia x e vari

exp
n (x )2 d = 2 2
2 2 /n.
Conclui-se ent ao que p( 2 |x) ( 2 )(n+1)/2 exp e portanto (ver Ap endice A) 2 |x GI n 1 (n 1)s2 , 2 2 . (n 1)s2 2 2 .
Finalmente, pelo teorema de transforma c ao de vari aveis pode-se mostrar que 2 |x Gama ou equivalentemente, n 1 (n 1)s2 , 2 2
(n 1)s2 |x 2 n1 . 2
Agora podemos ent ao construir um intervalo de probabilidade para 2 .
80
e 2 Obtenha os percentis 2 c ao qui-quadrado tais que /2,n1 desta distribui /2,n1 P 2 /2,n1 (n 1)s2 2 /2,n1 2 = 1 .
O intervalo de credibilidade de 100(1 )% para 2 e dado ent ao por (n 1)s2 (n 1)s2 , 2 2 /2,n1 /2,n1 .
Exemplo 5.11 : No Exemplo 5.9 suponha agora que a vari ancia populacional e 2 desconhecida e sua estimativa amostral foi s = 16. Neste caso a distribui c ao a 2 posteriori de (15)(16)/ e qui-quadrado com 15 graus de liberdade e os percentis de ordem 0.025 inferior e superior s ao 6.2621 e 27.4884 respectivamente, i.e. P (6.2621 < (15)(16)/ 2 < 27.4884) = 0.95. Assim, o intervalo de probabilidade ca (15)(16) (15)(16) ; = [8.73; 38.33]. 27.4884 6.2621 Note que este intervalo n ao e sim etrico em torno de s2 = 16, P (8, 73 < (15)(16)/ 2 < 15) = 0, 4398 P (15 < (15)(16)/ 2 < 38, 33) = 0, 4506.
Exemplo 5.12 : Ainda no Exemplo 5.9, recebemos a informa c ao de que em outro setor da empresa o tempo de execu c ao desta mesma tarefa tem vari ancia igual a 10. Ap os introduzir algumas altera c oes foram observados 16 oper arios 2 e seus tempos de execu c ao em minutos resultaram em s = 16. O intervalo, tanto cl assico quanto Bayesiano, de 95% para 2 e exatamente [8,73; 38,33]. O estat stico cl assico diria que n ao indica c ao nos dados de que a vari ancia tenha se
NO MODELO NORMAL 5.7. ESTIMAC AO alterado (de 10 para outro valor). No entanto, P (8.73 < 2 < 10) = P = P P (10 < 2 < 38.33) = P = P A situa c ao est a descrita na Figura 5.2. 15 16 15 16 15 16 < < 2 10 8.73 15 16 24 < < 27.49 = 0.04 2 15 16 15 16 15 16 < < 38.33 2 10 15 16 < 24 = 0.91. 6.26 < 2
81
0.00 0
0.02
0.04
0.06
0.08
10
20
30
40
50
Figura 5.2: Intervalo de 95% de probabilidade para (n 1)s2 / 2 .
Distribui c ao Marginal de
Tipicamente estaremos interessados em estimar a m edia do processo, i.e. o par ametro . Do ponto de vista Bayesiano, todo a infer encia e feita com base na
82
distribui c ao a posteriori marginal de obtida como

p(|x) =
p(, |x)d =
p(|x, 2 )p( 2 |x)d 2 .
Usando a express ao (5.1) segue que
p(|x)
( 2 )(n/2+1) exp
1 (n 1)s2 + n(x )2 2 2
d 2
e do Ap endice A pode-se notar que o integrando e o n ucleo de uma densidade 2 Gama Inversa com par ametros n/2 e (n 1)s + n(x )2 . Portanto a integral e dada por p(|x) [(n 1)s2 (n/2) [(n 1)s2 + n(x )2 ]n/2 + n(x )2 ]n/2
n/2
n(x )2 (n 1) + s2
que e o n ucleo da distribui c ao t de Student com n 1 graus de liberdade, par ametro de loca c ao x e par ametro de escala s2 /n (ver Ap endice A). Ou seja, |x tn1 (x, s2 /n). ou equivalentemente, x |x tn1 (0, 1). s/ n
A conclus ao nal e que mais uma vez um intervalo Bayesiano ir a coincidir numericamente com um intervalo de conan ca cl assico. O intervalo de probabilidade 100(1-)% de MDP e dado por s s x t/2,n1 ; x + t/2,n1 n n e a probabilidade de pertencer a este intervalo e 1 . Mais uma vez vale enfatizar que esta coincid encia com as estimativas cl assicas e apenas num erica uma vez que as interpreta c oes dos intervalos diferem radicalmente. Exemplo 5.13 : Voltando ao Exemplo 5.9, usando priori n ao informativa o intervalo Bayesiano ser a exatamente o mesmo, i.e. [82,65; 97,35], por em com
NO MODELO NORMAL 5.7. ESTIMAC AO uma interpreta c ao probabil stica, P ( [82, 65; 97, 35] | x) = 0, 95.
83
5.7.3
O Caso de duas Amostras
Nesta se c ao vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 s ao amostras 2 2 aleat orias das distribui c oes N (1 , 1 ) e N (2 , 2 ) respectivamente e que as amostras s ao independentes. 2 2 Para come car vamos assumir que as vari ancias 1 e 2 s ao conhecidas. Neste caso, a fun c ao de verossimilhan ca e dada por p(x1 , x2 |1 , 2 ) = p(x1 |1 ) p(x2 |2 ) n1 exp 2 (1 x1 )2 21
exp
n2 ( x2 )2 2 2 22
isto e, o produto de verossimilhan cas relativas a 1 e 2 . Assim, se assumirmos que 1 e 2 s ao independentes a priori ent ao eles tamb em ser ao independentes a posteriori j a que, pelo Teorema de Bayes p(1 , 2 |x1 , x2 ) = p(x1 |1 ) p(1 ) p(x2 |2 ) p(2 ) p(x1 ) p(x2 )
= p(1 |x1 )p(2 |x2 ) Se usarmos a classe de prioris conjugadas da Se c ao 5.7.1 ou seja i N (i , i2 ) ent ao as distribui c oes a posterioris independentes ser ao
i |xi N ( i , i ), i = 1, 2
2
sendo a m edia e a vari ancia dadas por i =

2 i2 i + ni i xi 2 2 i + ni i 2 e i = 1/(i2 + ni i ),
2
i = 1, 2.
Em geral estaremos interessados em comparar as m edias populacionais, i.e queremos estimar = 1 2 . Neste caso, a posteriori de e facilmente obtida, devido ` a independ encia, como
|x1 , x2 N ( 1 2 , 1 + 2 )
2 2
84
e podemos usar ca e tamb em 1 2 como estimativa pontual para a diferen construir um intervalo de credibilidade MDP para esta diferen ca. Note que se 2 usarmos priori n ao informativa, i.e. fazendo i , i = 1, 2 ent ao a posteriori ca 2 2 |x1 , x2 N x1 x2 , 1 + 2 n1 n2
e o intervalo obtido coincidir a mais uma vez com o intervalo de conan ca cl assico. Podemos escrever ent ao que o intervalo de credibilidade MDP digamos de 95% e x1 x2 1, 96
2 1 2 + 2 ; x1 x2 + 1, 96 n1 n2 2 1 2 + 2. n1 n2
Vari ancias Desconhecidas

2 No caso de vari ancias populacionais desconhecidas por em iguais, temos que 1 = 2 2 2 = e novamente podemos denir a vari ancia amostral combinada
s2 p =
2 (n1 1)s2 1 + (n2 1)s2 . n1 + n2 2
Vejamos agora como ca a an alise usando priori n ao informativa. Neste caso, pode-se mostrar que a distribui c ao a priori e dada por p(1 , 2 , 2 ) 1/ 2 e as distribui c oes a posteriori marginais de 1 2 e 2 s ao 1 2 |x1 , x2 tn1 +n2 2 x1 x2 , s2 p ou equivalentemente, 1 2 (x1 x2 ) tn1 +n2 2 1 1 sp + n1 n2 e
2
1 1 + n1 n2
Gamma
n1 + n2 2 (n1 + n2 2)s2 p , 2 2
ou equivalentemente,
(n1 + n2 2)s2 p 2 n1 +n2 2 . 2 O intervalo de 100(1 )% para 2 e obtido de maneira an aloga ao caso de uma amostra usando a distribui c ao qui-quadrado, agora com n1 + n2 2 graus de
5.8. PROBLEMAS liberdade, i.e.

2 (n1 + n2 2)s2 p (n1 + n2 2)sp , 2 2
2 2
85
Vari ancias desiguais

At e agora assumimos que as vari ancias populacionais desconhecidas eram iguais (ou pelo menos aproximadamente iguais). Na infer encia cl assica a viola c ao desta suposi c ao leva a problemas te oricos e pr aticos uma vez que n ao e trivial encontrar uma quantidade pivotal para com distribui c ao conhecida ou tabelada. Do ponto de vista Bayesiano o que precisamos fazer e combinar informa c ao a priori com a verossimilhan ca e basear a estima c ao na distribui c ao a posteriori. A fun c ao de verossimilhan ca agora pode ser fatorada como
2 2 2 2 ). , 2 ) = p(x1 |1 , 1 )p(x2 |2 , 2 p(x1 , x2 |1 , 2 , 1
A an alise usando priori n ao informativa pode ser feita assumindo que

2 2 2 2 , 2 ) 1 2 p(1 , 2 , 1 2 2 e a obten c ao das posterioris marginais de (1 2 ), 1 e 2 ser a deixada como exerc cio.
5.8
Problemas
1. Refa ca o Exemplo 5.9 sabendo que o tempo m edio de execu ca o tem sido de 100 minutos com desvio padr ao igual a 10 minutos. Use esta informa c ao como priori para o tempo m edio e construa um I.C. Bayesiano de 95%. 2. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao normal com m edia 2 desconhecida e vari ancia conhecida. Usando uma priori n ao informativa para , obtenha o tamanho da amostra tal que P (a < < b|x) = 0, 95 e o comprimento do intervalo (a, b) seja menor do que 0,01 . 3. Seja X1 , . . . , Xn uma amostra aleat oria de tamanho 16 da distribui c ao N (, 1). Sabendo-se que foi observado n x = 160 e usando uma priori i=1 i n ao informativa, obtenha um intervalo de credibilidade MDP de 95% para . Interprete este intervalo. 4. Repita o problema 3 supondo agora que a vari ancia populacional ( 2 ) tamb em e desconhecida, assumindo uma priori n ao informativa e sabendo que foi observado s2 = 1. Construa tamb em um intervalo de credibilidade para 2.
86
POR INTERVALOS CAP ITULO 5. ESTIMAC AO 5. Suponha que X1 , . . . , Xn N (, ) sendo conhecido e = 2 (o inverso da vari ancia) desconhecido. Se a distribui c ao a priori de for Gama(a, b) mostre que a sua distribui c ao a posteriori ser a 1 n |x Gama a + , b + 2 2
n
i=1
(xi )2
6. Seja X1 , . . . , Xn uma amostra aleat oria de tamanho 10 da distribui c ao P oisson() sendo cada Xi o n umero de defeitos por m2 de uma placa met alica. Usando uma distribui c ao a priori n ao informativa para dada 1/2 por p() , (a) Verique que a distribui c ao a posteriori de e dada por
n
|x Gama
i=1
1 xi + , n . 2
(b) Obtenha um intervalo de credibilidade de 95% para o n umero m edio de defeitos sabendo que o total observado de defeitos foi 10. (c) Repita os itens anteriores usando uma priori p() a1 exp(b) com a > 0 e b > 0. 7. Uma moeda cuja probabilidade de cara e desconhecida foi lan cada 10 vezes e observou-se 7 caras e 3 coroas. Usando uma distribui c ao a priori uniforme no intervalo (0,1) calcule um intervalo Bayesiano de 90% para a probabilidade de cara. 8. O n umero de defeitos em um item manufaturado tem distribui c ao de Poisson com par ametro . Atribui-se uma distribui c ao a priori exponencial com par ametro 1 para . Se em 5 itens selecionados ao acaso observou-se um total de 8 defeitos calcule o intervalo Bayesiano de 90% para .
Cap tulo 6 Testes de Hip oteses

6.1 Introdu c ao e nota c ao
Em geral, intervalos de conan ca s ao a forma mais informativa de apresentar os achados principais de um estudo. Contudo, algumas vezes existe um particular interesse em vericar determinadas arma c oes ou conjecturas. Por exemplo, podemos estar interessados em determinar se uma moeda e honesta, se certas quantidades s ao independentes, ou se popula c oes distintas s ao similares do ponto de vista probabil stico. Cada uma destas arma c oes constitui uma hip otese que pode ser associada a um modelo, i.e. pode ser parametrizada. O material deste cap tulo e fortemente baseado em DeGroot (1989), Migon and Gamerman (1999) e DeGroot and Schervish (2002). A teoria cl assica de testes de hip oteses e apresentada a um n vel mais formal em Lehman and Romano (2005). Chamamos de hip otese estat stica qualquer arma c ao que se fa ca sobre um par ametro populacional desconhecido. A id eia b asica e que a partir de uma amostra da popula c ao iremos estabelecer uma regra de decis ao segundo a qual rejeitaremos ou aceitaremos a hip otese proposta. Esta regra de decis ao e chamada de teste. Normalmente existe uma hip otese que e mais importante para o pesquisador que ser a denotada por H0 e chamada hip otese nula. Qualquer outra hip otese diferente de H0 ser a chamada de hip otese alternativa e denotada por H1 . Exemplo 6.1 : (Teste Binomial) Um professor aplica um teste do tipo certoerrado com 10 quest oes. Queremos testar a hip otese de que o aluno est a advinhando. Nossa hip otese nula e que o aluno acerta as quest oes ao acaso e a hip otese alternativa e que ele tem algum conhecimento da mat eria. Denotando por p a probabilidade (desconhecida) do aluno acertar cada quest ao a hip otese estat stica de interesse pode ser formulada como H0 : p = 1/2. Neste caso, a hip otese alternativa mais adequada e H1 : p > 1/2 indicando que o aluno tem algum conhecimento 87
88
CAP ITULO 6. TESTES DE HIPOTESES
sobre o assunto. Temos ent ao 10 repeti c oes do experimento com p constante e vamos assumir tamb em que as quest oes s ao resolvidas de forma independente. Portanto a vari avel aleat oria X = n umero de acertos tem distribui c ao binomial com par ametros n = 10 e p desconhecido. Suponha que adotamos a seguinte regra de decis ao: o aluno n ao est a advinhando se acertar 8 ou mais quest oes. Isto equivale a
rejeitar H0 se X 8 (regi ao de rejei c ao ou regi ao cr tica) e aceitar H0 se X < 8 (regi ao de aceita c ao).
No entanto, e poss vel que um aluno acerte 8 ou mais quest oes e esteja advinhando, isto e podemos rejeitar H0 quando ela e verdadeira. A probabilidade de que isto ocorra e
10
P (X 8 | p = 1/2) =
k=8
0.5k (1 0.5)10k 0.055.
Esta probabilidade e chamada n vel de signic ancia e ser a denotada por . Fica claro ent ao que o valor de depende da regra de decis ao, por exemplo se a regi ao cr tica fosse X 7 teriamos 0, 171. No pr oximo exemplo veremos como usar o n vel de signic ancia para construir uma regra de decis ao. Exemplo 6.2 : Um fornecedor garante que 90% de sua produ c ao n ao apresenta defeito. Para testar esta arma c ao selecionamos ao acaso 10 itens de um lote e contamos o n umero de defeituosos. Com base nesta amostra tomaremos uma bem intuitivo que devemos decidir decis ao: comprar ou n ao comprar o lote. E n ao comprar o lote se o n umero observado de n ao defeituosos for muito pequeno. O nosso problema e denir o qu ao pequeno. Seja a vari avel aleat oria X = n umero de n ao defeituosos na amostra de 10 itens. Temos ent ao uma distribui c ao binomial com par ametros n = 10 e p desconhecido, e queremos testar H0 : p = 0.9. Aqui p e a propor c ao de itens n ao defeituosos no lote e portanto a hip otese alternativa deve ser H1 : p < 0.9. Suponha que decidimos manter 0.025 e a partir deste valor vamos estabelecer a nossa regra de decis ao, ou seja obter o valor da constante c tal que H0 e rejeitada
E NOTAC 6.1. INTRODUC AO AO se X c. Para isto vamos calcular para diferentes regi oes cr ticas,
5
89
P (X 5 | p = 0.9) = P (X 6 | p = 0.9) = P (X 7 | p = 0.9) =
k=0 6
0.9k (1 0.9)10k = 0.002 0.9k (1 0.9)10k = 0.013 0.9k (1 0.9)10k = 0.07.
k=0 7
k=0
Portanto, devemos usar a regi ao cr tica X 6. Isto e, vamos rejeitar o lote se o n umero de itens defeituosos na amostra for maior ou igual a 4. Nestes dois exemplos os testes s ao chamados de unilaterais porque somente valores de um lado do espa co amostral foram utilizados para construir a regi ao cr tica. As regi oes cr ticas s ao mostradas nos gr acos da Figura 6.1. Podemos ter tamb em testes bilaterais aonde os dois extremos do espa co amostral s ao usados como regi ao cr tica. A vari avel aleat oria X e chamada estat stica de teste, sua distribui c ao deve ser conhecida e ela deve depender do par ametro que est a sendo testado. No caso geral ent ao temos uma amostra aleat oria X = (X1 , . . . , Xn ) tomada de uma distribui c ao que envolve um par ametro desconhecido, denido em um espa co param etrico . Assim, as hip oteses podem ser denidas como H0 : 0
H1 : 1
sendo que 0 e 1 s ao subconjuntos disjuntos de . Um teste e especicado particiondo-se o espa co amostral em dois subconjuntos. Um sobconjunto cont em os valores de X para os quais H0 ser a rejeitada e e chamado regi ao cr tica do teste, e o outro contem os valores de X para os quais H0 ser a aceita e e chamado regi ao de aceita c ao do teste. Em resumo, um teste ca determinado quando especicamos sua regi ao cr tica. Al em disso, uma hip otese pode ser classicada da seguinte maneira. Se o subconjunto i , i = 0 ou i = 1 cont em um u nico valor ent ao Hi e uma hip otese simples. Caso contr ario, se i cont em mais de um valor ent ao Hi e uma hip otese composta. Nos Exemplos 6.1 e 6.2 H0 e uma hip otese simples enquanto H1 e comao de rejei c ao e aceita c ao respectivamente posta. Ou seja, se C e C denotam a regi ent ao P (X C | 0 ) = e P (X C | 1 ) =
90
0.00 0
0.15
10
0.0 0
0.2
0.4
10
Figura 6.1: Probabilidades binomiais e regi oes criticas para os Exemplos 6.1 e 6.2.
E NOTAC 6.1. INTRODUC AO AO
91
6.1.1
Tipos de Decis ao
Ao tomar uma decis ao a favor ou contra uma hip otese existem dois tipos de erros que podemos cometer. Podemos rejeitar a hip otese nula quando de fato ela e verdadeira (erro tipo I) ou podemos falhar em rejeitar H0 quando de fato ela e falsa (erro tipo II). Frequentemente denotamos as probabilidades destes dois tipos de erro como e respectivamente. Existe um balan co entre esses dois tipos de erros, no sentido de que ao tentar-se minimizar , aumenta-se . Isto e, n ao e poss vel minimizar estas duas probabilidades simultaneamente e na pr atica e costume xar um valor (pequeno) para . Na Tabela 6.1 est ao descritos as decis oes que podemos tomar e os tipos de erro associados. Tabela 6.1: Tipos de decis ao e tipos de erro associados a testes de hip oteses. Decis ao Verdade Aceitar H0 Rejeitar H0 H0 verdadeira Decis ao correta Erro Tipo I (probabilidade 1 ) (probabilidade ) H0 falsa Erro Tipo II Decis ao correta (probabilidade ) (probabilidade 1 )
6.1.2
A Fun c ao Poder
As caracter sticas probabil sticas de um teste podem ser descritas atrav es de uma fun c ao que associa a cada valor de a probabilidade () de rejeitar H0 . A fun c ao () e chamada fun c ao de poder (ou pot encia) do teste. Assim, denotando por C a regi ao cr tica a fun c ao de poder e denida como () = P (X C | ), .
A fun c ao de poder e a ferramenta utilizada para vericar a adequa c ao de um teste ou para comparar dois ou mais testes. E claro que uma fun c ao de poder ideal seria tal que () = 0 para satisfazendo H0 e () = 1 para satisfazendo H1 . Em um problema pr atico no entanto raramente existir a um teste com estas caracter sticas. Na Figura 6.2 abaixo est a representada a fun c ao poder para o Exemplo 6.2, i.e. P (X 6 | p), para 0 < p < 1 com X Binomial(10, p). Note que neste exemplo se p for maior do que digamos 0,8 ent ao o teste quase certamente aceitar a H0 , indicando que o teste e adequado. Por outro lado, para valores de p entre 0,7 e 0,8 o teste ainda rejeita H0 com probabilidade baixa.
92
(p) 0.0 0.0 0.2 0.4
0.6
0.8
1.0
0.2
0.4 p
0.6
0.8
1.0
Figura 6.2: Gr aco da fun c ao de poder para o Exemplo 6.2. O tamanho ou n vel de signic ancia de um teste e denido como sup ().
0
Assim como no caso de n veis de conan ca na Se c ao 5.1, a desigualdade acima e essencialmente t ecnica j a que estaremos interessados em valores de t ao pequenos quanto poss vel. Na pr atica isto implicar a em usar uma igualdade e o tamanho do teste ent ao ser a a probabilidade m axima, para 0 , de tomar uma decis ao errada. A desigualdade ser a u til principalmente no caso de espa cos amostrais discretos. Exemplo 6.3 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 2 ) com 2 = 25 e suponha que queremos testar H0 : 17. Suponha que a regra de decis ao consiste em rejeitar H0 se somente se X > 17 + / n. Neste caso a fun c ao poder e dada por 17 + / n () = P (rejeitar H0 | ) = P (X > 17 + / n) = P Z > / n
E NOTAC 6.1. INTRODUC AO AO onde Z N (0, 1). Para n = 25 segue que, () = P (Z > 18 )
93
e calculando esta probabilidade para v arios valores de podemos construir o gr aco da Figura 6.3 para a fun c ao poder do teste. Note que o valor m aximo da fun c ao quando H0 e verdadeira ( 17) e obtido para = 17 e portanto o tamanho do teste e dado por 17 + / n = (17) = P (Z > 1) 0, 159. sup P Z > / n 17
() 0.0 14 0.2 0.4
0.6
0.8
1.0
16
18
20
22
Figura 6.3: Gr aco da fun c ao de poder para o Exemplo 6.3.
Coment ario
Fica claro que os testes de hip oteses cl assicos dependem basicamente da probabilidade de X pertencer a uma determinada regi ao do espa co amostral. Isto signica que os testes dependem da probabilidade de dados que poderiam ter
94
sido observados mas na realidade n ao foram. Portanto, estes testes violam o princ pio da verossimilhan ca.
6.1.3
Problemas
1. Suponha que X1 , . . . , Xn e uma amostra aleat oria da distribui c ao U (0, ), > 0 e queremos testar as hip oteses H0 : 2 H1 : < 2. Seja Yn = max(X1 , . . . , Xn ) e um teste que rejeita H0 se Yn 1. (a) Determine a fun c ao poder do teste. (b) Determine o tamanho do teste. 2. Um aluno faz um teste de m ultipla escolha com 10 quest oes, cada uma com 5 alternativas (somente uma alternativa correta). O aluno acerta 4 poss quest oes. E vel deduzir (estatisticamente) que este aluno sabe alguma coisa da mat eria? 3. Suponha que a propor c ao p de itens defeituosos em uma popula c ao de itens e desconhecida e queremos testar as hip oteses H0 : p = 0, 2 H1 : p = 0, 2. Uma amostra aleat oria de 20 itens e tomada desta popula c ao e a regra de decis ao consiste em rejeitar H0 se o n umero amostral de defeituosos for menor ou igual a 1 ou maior ou igual a 7. (a) Fa ca um esbo co do gr aco da fun c ao poder para p = 0; 0, 1; 0, 2, . . . , 1 (b) Determine o tamanho do teste.
6.2
Testando Hip oteses Simples
mais u E til come car o estuda da teoria de testes de hip oteses considerando apenas hip oteses simples. Isto equivale a dizer que uma amostra aleat oria X1 , . . . , Xn foi tomada de uma dentre duas poss veis distribui c oes e queremos decidir de qual delas vem a amostra. Neste caso o espa co param etrico cont em apenas dois pontos, digamos 0 e 1 e queremos testar H 0 : = 0 H 1 : = 1 . Neste caso, as probabilidades dos dois tipo de erro s ao dadas por = P (rejeitar H0 | = 0 ) = P (aceitar H0 | = 1 )
6.2. TESTANDO HIPOTESES SIMPLES
95
e gostariamos de poder construir um teste para o qual estas probabilidades fossem as menores poss veis. Na pr atica e imposs vel encontrar um teste que minimize e simultaneamente mas pode-se construir testes que minimizam combina c oes lineares destas probabilidades. Assim, para constantes positivas a e b queremos encontrar um teste para o qual a( ) + b ( ) seja m nima. Teorema 6.1 (Teste Otimo) Seja X1 , . . . , Xn uma amostra aleat oria de uma distribui c ao com fun c ao de (densidade) de probabilidade p(x|) e dena pi = p(x|i ). Se um teste rejeita H0 quando p0 /p1 < k , aceita H0 quando p0 /p1 > k e nada decide se p0 /p1 = k , ent ao qualquer outro teste e tal que a( ) + b ( ) a( ) + b ( ). A raz ao p0 /p1 e chamada raz ao de verossimilhan cas (RV). O teorema estabelece ent ao que um teste otimo, no sentido de minimizar a( ) + b ( ), rejeita H0 quando a raz ao de verossimilhan cas e pequena e aceita H0 quando esta raz ao e grande. Outro resultado vem do fato de que a hip otese H0 e o erro tipo I s ao em geral privilegiados em problemas pr aticos. Assim, e usual considerar testes tais que ( ) n ao seja maior do que um n vel especicado, digamos 0 , e tentar minimizar (). Lema 6.1 (Neyman-Pearson) Seja X1 , . . . , Xn uma amostra aleat oria de uma distribui c ao com fun c ao de (densidade) de probabilidade p(x|) e dena pi = p(x|i ). Se um teste rejeita H0 quando p0 /p1 < k , aceita H0 quando p0 /p1 > k e nada decide se p0 /p1 = k , ent ao para qualquer outro teste tal que ( ) ( ), ( ) ( ). E tamb em, ( ) < ( ) implica em ( ) > ( ). Exemplo 6.4 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 1) e queremos testar H0 : = 0 H1 : = 1. Neste caso a raz ao de verossimilhan cas e dada por (2 )n/2 exp((1/2) p0 = p1 (2 )n/2 exp((1/2) = exp 1 2
n i=1 n 2 i=1 xi ) n i=1 (xi
1)2 )
x2 i 1 2
i=1
(xi 1)2
= exp n x
Portanto rejeitar H0 quando p0 /p1 < k e equivalente a rejeitar H0 quando x > (1/2) (1/n) log k = c.
96
N ao e dif cil obter o valor da constante c tal que P (X > c | = 0) = P (Z > c n) = com Z N (0, 1).
Por exemplo para = 0, 05 obtemos da tabela da normal padronizada que c n = 1, 645 e o teste otimo (que minimiza ) consiste em rejeitar H0 se X > 1, 645/ n.
Exemplo 6.5 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponencial com par ametro e queremos testar H0 : = 0 H1 : = 1 , com 1 > 0 . A raz ao de verossimilhan cas e dada por p0 = p1 0 1
n n
exp (0 1 )
xi
i=1
ent ao, pelo lema de Neyman-Pearson, o teste mais poderoso (teste otimo) rejeita H0 se p0 /p1 < k ou equivalentemente se
n
i=1
1 xi < log k 0 1
1 0
=c
A constante c e obtida xando-se o valor de , ou seja calcule c tal que

n
=P
i=1
Xi < c | = 0
.
n i=1
Note que se Xi Exp() ent ao quando = 0 temos que n c ao 2 e portanto 20 i=1 Xi tem distribui 2n .
Xi Gama(n, 0 )
Exemplo 6.6 : Seja X1 , . . . , X10 Exp() uma amostra aleat oria de tempos (em horas) at e a falha de equipamento eletr onicos. Suponha que queremos testar H0 : = 1 H1 : = 2 ao n vel de 5%. Do exemplo anterior, devemos obter o valor de uma constante c tal que
n
2
i=1
Xi < 2c
= 0, 05
2 sendo que 2 n c ao qui-quadrado i=1 Xi 20 . Usando uma tabela da distribui com 20 graus de liberdade obtemos que 2c = 10.85. Assim, a regra de decis ao n consiste em rejeitar H0 se i=1 Xi < 5.425, ou equivalentemente se X < 0.5425.
6.3. PROBABILIDADE DE SIGNIFICANCIA (P -VALOR)
97
6.2.1
Problemas
1. Sejam as hip oteses H0 : = 1/2 e H1 : = 2/3 sendo a probabilidade de sucesso em um experimento de Bernoulli. O experimento e repetido 2 vezes e aceita-se H0 se forem obtidos 2 sucessos. Calcule as probabilidades de erro tipo I e II. 2. Sabe-se que uma caixa cont em 3 bolas vermelhas e 5 pretas ou 5 vermelhas e 3 pretas. Um experimento consiste em retirar 3 bolas da caixa. Se menos do que 3 bolas retiradas forem vermelhas a decis ao ser a que a caixa cont em 3 bolas vermelhas e 5 pretas. Calcule as probabilidades de erro (tipo I e tipo II). 3. Com base em uma amostra de tamanho n da vari avel aleat oria X sendo f (x|) = ( + 1)x I[0,1] (x), > 0, deseja-se testar as hip oteses H0 : = 0 contra H1 : = 1 com 0 > 1 . Construa um teste otimo (use o Lema de Neyman-Pearson). 4. Deseja-se testar H0 : = 0 contra H1 : = 1 (1 > 0 ) com base em uma amostra de tamanho n da vari avel aleat oria X sendo f (x|) = exp(x)I[0,) (x), > 0. Construa um teste otimo usando o Lema de Neyman-Pearson. 5. Uma v.a. X e tal que f (x|) = (1 )x1 , para x {1, 2, . . . } e (0, 1). Encontre uma regi ao cr tica para testar H0 : = 3/4 contra H1 : = 2/3 com base em um u nico valor de X e que satisfa ca 0, 5. 6. Disp oe-se de uma amostra aleat oria de tamanho 50 da v.a. X N (, 25). Sabendo que a m edia amostral foi x = 28 teste H0 : = 30 contra H1 : = 29 com = 0, 05.
6.3
Probabilidade de signic ancia (P -valor)
Vimos que a escolha do n vel de signic ancia do teste e completamente arbitr aria. Al em disso, quando a distribui c ao da estat stica de teste e discreta, como no Exemplo 6.2 da binomial, o n vel escolhido pode nem mesmo ser atingido. Por outro lado, a decis ao de aceitar ou rejeitar H0 claramente depende desta escolha. Na maioria das aplica c oes pr aticas o valor escolhido e 0,05 ou 0,01 mas n ao h a nada que justique formalmente o uso destes valores em particular.
98
Um enfoque alternativo consiste em calcular uma quantidade chamada n vel cr tico, probabilidade de signic ancia ou p-valor. Em geral, se T e uma estat stica de teste e H0 e rejeitada por exemplo para T > c ent ao o p-valor e a probabilidade P (T > t | H0 ) onde t e o valor observado de T . Exemplo 6.7 : No Exemplo 6.1 suponha que o n umero observado de quest oes certas foi X = 9. Ent ao o p-valor ser a P (X 9 | p = 1/2) = 10 10 0, 510 + 0, 510 = 0, 0107 9 10
e rejeitaremos H0 para todo n vel de signic ancia maior do que este valor. Por exemplo, rejeitaremos H0 para os valores usuais = 0, 025 ou = 0, 05. Por outro lado, H0 seria aceita para = 0, 01. Exemplo 6.8 : No Exemplo 6.2 suponha que o n umero observado de n ao defeituosos foi X = 4. Neste caso o p-valor e dado por P (X 4 | p = 0, 90) = 0, 000146 ou seja, rejeitaremos H0 para praticamente todos os n veis de signic ancia usuais.
Portanto, o p-valor e a probabilidade de observar resultados t ao extremos quanto aqueles que foram obtidos se a hip otese nula for verdadeira. A id eia e que se o p-valor for grande ele fornece evid encia de que H0 e verdadeira, enquanto que um p-valor pequeno indica que existe evid encia nos dados contra H0 . As seguintes interpreta c oes de p-valores (P ) podem ser u teis, P 0, 10 0, 05 P < 0, 10 0, 01 P < 0, 05 0, 001 P < 0, 01 P < 0, 001 N ao existe evid encia contra H0 Fraca evid encia contra H0 Evid encia signicativa . . . Evid encia altamente signicativa . . . Evid encia extremamente signicativa . . .
Coment arios
Da forma como a metodologia cl assica de testes de hip oteses foi desenvolvida podemos ter a impress ao de que estamos calculando probabilidades a respeito de uma hip otese. De fato, algumas vezes e incorretamente armado que rejeitar H0 ao n vel indica que a probabilidade de H0 ser verdadeira e menor do que .
6.4. TESTES UNIFORMEMENTE MAIS PODEROSOS
99
Esta interpreta c ao n ao e v alida e o p-valor calculado em um teste n ao fornece nenhuma indica c ao sobre qualquer probabilidade a respeito de H0 . Por exemplo, um p-valor pr oximo de zero nos fornece (do ponto de vista cl assico) muita evid encia contra H0 por em isto n ao signica de maneira alguma que P (H0 ser verdadeira) seja tamb em pr oxima de zero. Esta u ltima arma c ao probabil stica sequer faz sentido na infer encia cl assica, embora seja exatamente isto que gostariamos de calcular. Para que esta interpreta c ao fosse v alida teriamos que usar a abordagem Bayesiana. Basicamente, ter amos que atribuir uma probabilidade a priori, i.e. antes de observar os dados, para a hip otese H0 . Ap os a observa c ao dos dados amostrais esta probabilidade seria atualizada, segundo regras da infer encia Bayesiana, e ter amos uma probabilidade a posteriori para a hip otese H0 . Para maiores detalhes ver por exemplo Migon and Gamerman (1999) ou DeGroot (1989).
6.4
Testes Uniformemente mais Poderosos
Na Se c ao 6.2 foram denidos testes otimos para testar hip oteses simples. Nesta se c ao os resultados ser ao generalizados para hip oteses compostas. Considere ent ao um teste em que H0 pode ser uma hip otese simples ou composta e H1 e sempre uma hip otese composta. Deni c ao 6.1 Um teste de H0 : 0 H1 : 1 e dito ser uniformemente mais poderoso (UMP) de tamanho se e somente se sup () =
0
e para qualquer outro teste que satisfa ca esta igualdade (| ) (| ), 1 .
Assim, de acordo com esta deni c ao, precisamos especicar um teste cuja probabilidade m axima de rejeitar H0 quando ela e verdadeira seja e que ao mesmo tempo maximize a probabilidade de rejeitar H0 quando ela e falsa. Veremos a seguir que os testes UMP s o existem em situa c oes especiais, por exemplo quando a distribui c ao pertence ` a fam lia exponencial vista na Se c ao 1.3.1. Teorema 6.2 Se X1 , . . . , Xn e uma amostra aleat oria de um membro da fam lia exponencial e for estritamente crescente em ent ao o teste UMP de n vel para testar H0 : 0 H1 : > 0 rejeita H0 se T (x) > c. Se as hip oteses forem invertidas ou for estritamente decrescente em ent ao o teste UMP rejeita H0 se T (x) < c. Se ambas as condi c oes ocorrerem o teste ca inalterado.
100
Um fato importante e que, em qualquer condi c ao estes testes t em fun c ao poder crescente em e portanto seu valor m aximo sob H0 e atingido em = 0 . Assim a constante c acima e obtida de modo que P (rejeitar H0 | = 0 ) , com igualdade no caso cont nuo. Exemplo 6.9 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Bernoulli com par ametro . Suponha que queremos testar H0 : 0, 1 H1 : > 0, 1 ao n vel m aximo de 5% com base em uma amostra de tamanho n = 15. Ent ao, denindo t(x) = n i=1 xi p(x|) = t(x) (1 )nt(x) = exp[t(x) log + (n t(x)) log(1 )] + n log(1 ) . = exp t(x) log 1 Logo, a distribui c ao pertence ` a fam lia exponencial e () = log(/(1 )) e uma fun c ao estritamente crescente de . Assim, um teste UMP deve rejeitar n H0 se i=1 Xi > c onde c e tal que P ( n i=1 Xi > c | = 0, 1) . Como n Y = i=1 Xi Binomial(n, ) segue que P (Y > 4 | = 0, 1) = 0, 013 P (Y > 3 | = 0, 1) = 0, 056
P (Y > 6 | = 0, 1) = 0, 0003. e a regra de decis ao consiste em rejeitar H0 se

n i=1
P (Y > 5 | = 0, 1) = 0, 002
Xi > 4.
Exemplo 6.10 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao exponencial com par ametro e queremos testar H0 : 0 H1 : > 0 . Denindo n t(x) = i=1 xi a fun c ao de densidade conjunta e p(x|) = n e t(x) = exp(n log t(x)). Portanto a distribui c ao pertence ` a fam lia exponencial e () = e uma fun c ao estritamente decrescente de . Ent ao pelo Teorema 6.2 o teste UMP deve ren jeitar H0 se i=1 Xi < c. Fixando o valor de a constante c e a solu c ao da n n equa c ao P ( i=1 Xi < c | = 0 ) = com i=1 Xi Gama(n, 0 ) e portanto 2 20 n i=1 Xi 2n . A propriedade que garante a exist encia de testes UMP na fam lia exponencial pode ser estendida a fam lias de distribui c oes com raz ao de verossimilhan ca mon otona.
6.4. TESTES UNIFORMEMENTE MAIS PODEROSOS
101
Deni c ao 6.2 A fam lia de distribui c oes com fun c ao de (densidade) de probabilidade p(x|) e dita ter raz ao de verossimilhan ca mon otona se existe uma estat stica T (X ) tal que 1 , 2 , com 1 < 2 , a raz ao p(x|2 )/p(x|1 ) e uma fun c ao mon otona em t(x). Intuitivamente, quanto maior for a raz ao de verossimilhan ca mais plaus vel e o valor 2 em rela c ao a 1 . Assim, se queremos testar H0 : 0 H1 : > 0 e se a RV for uma fun c ao crescente de T (X ) ent ao e razo avel rejeitar H0 para valores grandes de T (X ). Pode-se mostrar que neste caso o teste UMP rejeita H0 se T (X ) > c. Analogamente, se as hip oteses forem invertidas ou se a RV for uma fun c ao decrescente de T (X ) ent ao o teste UMP rejeita H0 se T (X ) < c. Se ambas as condi c oes ocorrerem o teste ca inalterado. Em qualquer destas condi c oes o fato importante e que a fun c ao poder e sempre crescente em . Portanto, a constante c acima e obtida de modo que P (rejeitar H0 | = 0 ) , com igualdade no caso cont nuo. Exemplo 6.11 : Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao de Bernoulli com par ametro e queremos testar H0 : 0 H1 : > 0 . Ent ao, n denindo t(x) = i=1 xi temos que p(x|) = t(x) (1 )nt(x) e para 1 < 2 a raz ao de verossimilhan ca ca (1 2 )nt(x) 2 (1 1 ) = t(x) 1 (1 2 ) 1 (1 1 )nt(x) 2
t(x) t
1 2 1 1
= t n .
Como 2 > 1 e 1 1 > 1 2 ent ao > 1 e a RV e uma fun c ao crescente em t. n Portanto, o teste UMP rejeita H0 se i=1 Xi > c conrmando assim o resultado no Exemplo 6.9.
6.4.1
Problemas
1. Para cada uma das distribui c oes abaixo considere uma amostra aleat oria X1 , . . . , Xn e obtenha o teste UMP para testar as hip oteses H0 : 0 H 0 : > 0 . (a) Poisson com par ametro . (b) Normal com m edia conhecida e vari ancia desconhecida. (c) Gama com par ametro desconhecido e conhecido. (d) Gama com par ametro conhecido e desconhecido.
102
2. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (0, 2 ) com 2 desconhecido. Obtenha o teste UMP para testar as hip oteses H0 : 2 2 H0 : 2 > 2 com n = 10 e = 0, 05. 3. Suponha que X1 , . . . , Xn seja uma amostra aleat oria da distribui c ao exponencial com par ametro e queremos testar H0 : 1/2 H0 : < 1/2. Obtenha o teste UMP para estas hip oteses com n = 10 e = 0, 05. 4. Suponha que X1 , . . . , Xn seja uma amostra aleat oria da distribui c ao de Poisson com par ametro e queremos testar H0 : 1 H0 : > 1. Obtenha o teste UMP para estas hip oteses com n = 10 e = 0, 05. 5. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao com fun c ao de den 1 sidade p(x|) = x , para x (0, 1) e > 0 desconhecido. Encontre o teste UMP para as hip oteses H0 : 1 H1 : > 1 com n vel de signic ancia = 0, 05. 6. A propor c ao p de itens defeituosos em um grande lote de manufaturados e desconhecida. Uma amostra aleat oria de 20 itens foi selecionada e inspecionada, e queremos testar as hip oteses H0 : p 0, 1 H1 : p > 0, 1. Obtenha o teste UMP. 7. Suponha que X1 , . . . , Xn seja uma amostra aleat oria da distribui c ao de Poisson com m edia desconhecida e queremos testar H0 : 1 H1 : < 1. Para n = 10, verique para quais n veis de signic ancia no intervalo 0 < < 0, 03 existem testes UMP. 8. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao N (, 1) com desconhecido e queremos testar as hip oteses H0 : 0 H1 : > 0. Sejam o teste UMP ao n vel = 0, 025 e (| ) fun c ao poder do teste. (a) Determine o menor valor de n para o qual (| ) 0, 9 para 0, 5. (b) Determine o menor valor de n para o qual (| ) 0, 001 para 0, 1. 9. Seja X1 , . . . , Xn uma amostra aleat oria da distribui c ao 2 com n umero de graus de liberdade desconhecido, = 1, 2, . . . . Suponha que queremos testar as hip oteses H0 : 8 H1 : 9 ao n vel de signic ancia . Mostre que existe um teste UMP que rejeita H0 se n log X > k para i i=1 uma constante k .
6.5. TESTES BILATERAIS
103
6.5
Testes Bilaterais
Suponha agora que queremos testar hip oteses do tipo H 0 : = 0 H 1 : = 0 , (6.1)
ou seja H0 e uma hip otese simples e H1 e uma alternativa bilateral. Como veremos nas pr oximas se c oes este tipo de teste pode ser u til na compara c ao de tratamentos. O problema e que neste caso n ao existe um teste UMP para estas hip oteses, i.e. n ao e poss vel construir um teste cuja probabilidade de rejeitar H0 seja maximizada quando ela e falsa. Um procedimento alternativo seria construir testes tais que as chances de rejeitar H0 sejam maiores quando ela e falsa do que quando ela e verdadeira. Isto nos leva ` a deni c ao de testes n ao viesados a seguir.
Deni c ao 6.3 Um teste e dito ser n ao viesado para as hip oteses H0 : 0 H1 : 1 se 0 e 1 ent ao () ( ). Caso contr ario o teste e dito viesado. Ou seja, em testes n ao viesados a probabilidade de rejeitar H0 quando ela e falsa e no m nimo t ao grande quanto para H0 verdadeira. Podemos agora tentar construir testes para hip oteses bilaterais que sejam UMP dentro da classe de testes n ao viesados. Se a distribui c ao pertence ` a fam lia exponencial, pode-se mostrar que se () for uma fun c ao estritamente crescente em ent ao o teste UMP n ao viesado de n vel para as hip oteses (6.1) aceita H0 quando c1 < T (X ) < c2 . As constantes c1 e c2 s ao obtidas de modo que P (c1 < T (X ) < c2 | = 0 ) = 1 . Note que existe uma innidade de valores de c1 e c2 satisfazendo a esta condi c ao. Em muitas situa c oes e conveniente tomar valores tais que P (T (X ) < c1 | = 0 ) = P (T (X ) > c2 | = 0 ) = /2 e se T (X ) tem uma distribui c ao sim etrica em torno de um ponto isto implica em escolher c1 e c2 simetricamente em rela c ao a este ponto. No entanto, nada impede que outros valores possam ser considerados. Por exemplo, o pesquisador pode considerar mais grave aceitar H0 quando < 0 do que quando > 0 e neste caso e melhor considerar testes com fun c ao poder assim etrica.
104
6.5.1
Testes Gerais
Em muitas situa c oes n ao e poss vel obter nem mesmo um teste n ao viesado. Um procedimento geral para testar H0 : 0 H1 : 1 e baseado na estat stica da raz ao de m axima verossimilhan ca (RMV) dada por (X ) = sup0 p(X |) . sup1 p(X |)
Deste modo estaremos comparando o valor m aximo atingido pela fun c ao de verossimilhan ca quando 0 com o valor m aximo atingido quando 1 . Neste caso, e razo avel decidir pela rejei c ao de H0 se (X ) < c onde a constante c e obtida de modo que sup P ((X ) < c | ) .
Novamente, a igualdade ser a usada sempre que poss vel cando a desigualdade para o caso de distribui c oes discretas. Equivalentemente, podemos usar o logaritmo da verossimilhan ca
2 log = 2( 1 0 )
e neste caso, a regi ao de rejei c ao ser a {X : 2 log (X ) > k }.
Existem duas diculdades pr aticas associadas a estes testes: 0 e 1 que maximizam a verossimilhan obter os valores ca sob H0 e H1 . determinar a distribui c ao amostral de (X ) (ou 2 log (X )).
Este segundo problema ser a discutido em mais detalhes quando falarmos de testes assint oticos na Se c ao 6.7.
6.6
Testes de Hip oteses no Modelo Normal
Os resultados desenvolvidos nas se c oes anteriores ser ao aplicados ao modelo normal para testes sobre m edia e vari ancia em problemas de uma ou mais amostras e em modelos de regress ao linear. Nesta se c ao considere uma amostra aleat oria 2 X1 , , Xn tomada da distribui c ao N (, ). Suponha que queremos testar H0 : = 0 H1 : = 0 e inicialmente vamos
6.6. TESTES DE HIPOTESES NO MODELO NORMAL assumir que 2 e conhecida. Neste caso, p(x|) = (2 )
2 n/2
105
1 exp 2 2 1 2 2
i=1 n
(xi )2 x2 i exp xn n2 2 2 2
= (2 2 )n/2 exp
i=1
e como n e uma fun c ao estritamente crescente de segue que o teste UMP n ao vel de signic ancia podemos viesado rejeita H0 se X < c1 ou X > c2 . Ao n obter as constantes c1 e c2 tais que P (X < c1 | = 0 ) + P (X > c2 | = 0 ) = . Conforme discutido anteriormente, existe uma innidade de valores que satisfazem esta condi c ao. Na maioria dos experimentos envolvendo o modelo normal ser a conveniente tomar c1 e c2 sim etricos em rela c ao a E (X ). Assim, usando uma tabela da distribui c ao normal padronizada podemos obter o valor do percentil z/2 tal que n(X 0 ) z/2 = 1 P z/2 e o teste bilateral UMP n ao viesado rejeita H0 se X < 0 z/2 / n ou X > 0 + z/2 / n. No caso em que a vari ancia populacional e tamb em desconhecida o espa co dos 2 2 par ametros e = {(, ) : R, > 0} e vamos obter o teste da RMV. Note que, como H0 e uma hip otese simples ent ao 0 = {(0 , 2 ) : 2 > 0} e n ao e 2 dif cil vericar que o valor de que maximiza a verossimilhan ca para 0 xo e n 2 2 0 = i=1 (xi 0 ) /n (fa ca as contas). Portanto, sup
(, 2 )
0
2 p(X |, 2 ) = p(x|0 , 0 ).
= x e Para = 0 a fun c ao de verossimilhan ca e maximizada em (, 2 ) onde n 2 = i=1 (xi x)2 /n. Portanto sup
(, 2 )
1
p(X |, 2 ) = p(x|, 2 ).
Assim, a estat stica da RMV e dada por

2 n/2 (2 0 ) exp{ (X ) = 2 n/ 2 (2 ) exp{ n i=1 (Xi n i=1 (Xi 2 0 )2 /2 0 } 2 2 } X ) /2
106
2 e substituindo as somas de quadrados obtemos que (X ) = ( 0 / 2 )n/2 . Mas, 2 0 = 2 n i=1 (Xi
onde T =
n(X 0 )/S e ent ao podemos reescrever a RMV como (X ) = 1+ T2 n1

n/2
X )2 + n(X 0 )2 n(X 0 )2 T2 = 1 + = 1 + n 2 (n 1)S 2 n1 i=1 (Xi X )
Finalmente, o teste da RMV rejeita H0 se (X ) < c ou equivalentemente se T 2 > c ou |T | > c. Como T tn1 a constante c e simplesmente o percentil t/2,n1 desta distribui c ao. O teste desenvolvido acima e conhecido como teste t e talvez um dos mais utilizados em Estat stica. Pode-se mostrar que o teste t e n ao viesado j a que o valor m nimo da fun c ao poder ocorre em = 0 . Al em disso, as propriedades 2 do teste n ao s ao afetadas pelo valor de (par ametro de dist urbio) j a que 2 foi substituido pelo seu estimador S 2 e T e uma quantidade pivotal. O teste tamb em e invariante a transforma c oes lineares das observa c oes. 2 2 2 2 Testes bilaterais do tipo H0 : = 0 H1 : = 0 para a vari ancia podem ser constru dos fazendo-se analogia com intervalos de conan ca. Vimos na Se c ao 2 5.2.1 do Cap tulo 5 que o intervalo de conan ca de 100(1 )% para e dado por (n 1)s2 (n 1)s2 , q2 q1 sendo q1 e q2 s ao os quantis /2 e 1 /2 da distribui c ao 2 n1 . Assim, o teste 2 deve aceitar H0 se e somente se 0 estiver contido neste intervalo. Ser a deixado como exerc cio mostrar que este e o teste da raz ao de m axima verossimilhan ca para as hip oteses acima.
6.6.1
Testes para V arias M edias
Para come car vamos assumir que temos duas amostras aleat orias X11 , . . . , X1n1 2 2 e X21 , . . . , X2n2 das distribui c oes N (1 , 1 ) e N (2 , 2 ) respectivamente e que as 2 2 amostras s ao independentes. Neste caso o vetor de par ametros e (1 , 2 , 1 , 2 )e em geral estaremos interessados em testar as hip oteses
2 2 H0 : 1 = 2 , 1 > 0, 2 >0 2 2 > 0, 2 >0 H1 : 1 = 2 , 1
(6.2)
2 2 Se pudermos assumir que as vari ancias populacionais s ao iguais, i.e. 1 = 2 = 2 , o problema de constru c ao do teste se torna relativamente simples usando a
6.6. TESTES DE HIPOTESES NO MODELO NORMAL
107
estat stica da raz ao de m axima verossimilhan ca. Neste caso, como as amostras s ao independentes, podemos escrever a fun c ao de verossimilhan ca como p(x1 , x2 |1 , 2 , 2 ) = p(x1 |1 , 2 )p(x2 |2 , 2 ) e ap os algum algebrismo segue que a verossimilhan ca de (1 , 2 , 2 ) e dada por (2 2 )(n1 +n2 )/2 exp 1 2 2 (n1 1)S1 + n1 (1 x1 )2 + (n2 1)S2 + n2 (2 x2 )2 2 2 .
Quando 1 = 2 as estimativas de m axima verossimilhan ca de 1 , 2 e 2 s ao respectivamente x1 , x2 e 2 =

2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2
2 2 onde S1 e S2 s ao as vari ancias amostrais. Quando 1 = 2 = segue que as estimativas de m axima verossimilhan ca de e 2 s ao
= n1 x 1 + n2 x 2 n1 + n2
2 e 0 = 2 +
n1 n2 (x1 x2 )2 . (n1 + n2 )2
Substituindo estas express oes na raz ao de verossimilhan cas pode-se mostrar que o teste da RMV rejeita H0 se (X 1 X 2 ) > c. 1 1 + n1 n2
|T | =
Pode-se mostrar que T tem distribui c ao t de Student com = n1 + n2 2 graus de liberdade de modo que a constante c e simplesmente o percentil t/2, desta distribui c ao. Este teste e conhecido como teste t para duas amostras.
6.6.2
Vari ancias Desconhecidas e Desiguais
O procedimento visto na se c ao anterior para vari ancias iguais pode ser estendido facilmente para o caso de vari ancias desconhecidas e desiguais, desde que a raz ao 2 2 2 2 de vari ancias 1 /2 seja conhecida. Suponha por exemplo que 1 = k2 onde k e uma constante positiva conhecida. Denindo-se 2 =
2 2 (n1 1)S1 + (n2 1)S2 /k n1 + n2 2
108
ent ao pode-se mostrar que quando 1 = 2 a vari avel aleat oria U= (X 1 X 2 ) 1 k + n1 n2
tem distribui c ao t de Student com n1 + n2 2 graus de liberdade. Finalmente, se mesmo a raz ao de vari ancias for desconhecida ent ao o problema de testar as hip oteses 6.2 torna-se bastante complexo. Este problema e conhecido na literatura como o problema de Behrens-Fisher. V arios procedimentos de teste j a foram propostos e a maioria foi objeto de controv ersia em rela c ao a sua utilidade e corre c ao.
6.6.3
Compara c ao de Vari ancias
Em problemas com duas ou mais amostras de distribui c oes normais e natural que se tenha interesse em comparar as vari ancias populacionais. Neste caso, a distribui c ao F e utilizada para testar as hip oteses associadas. No caso de duas amostras suponha que queremos testar
2 2 H0 : 1 2 2 2 H1 : 1 > 2
Pode-se mostrar que n ao existe teste UMP para estas hip oteses e e pr atica comum utilizar-se o chamado teste F . Este teste e n ao viesado e na verdade e UMP dentro da classe de testes n ao viesados. Usando a estat stica da raz ao de m axima verossimilhan ca pode-se mostrar que o teste F rejeita H0 se
n1 i=1 (x1i n2 i=1 (x2i
x1 )2 /(n1 1) s2 1 = > c. 2 2 s2 x2 ) /(n2 1)
Vimos na Se c ao 5.2.4 que

2 2 2 S1 F (n1 1, n2 1). 2 2 S2 1
e portanto a constante c pode ser obtida tal que P

2 2 S1 2 2 2 > c | 1 = 2 2 2 S2 1
=P
2 S1 >c 2 S2
usando os valores tabelados da distribui c ao F com n1 1 e n2 1 graus de liberdade.
6.6. TESTES DE HIPOTESES NO MODELO NORMAL No caso de testes bilaterais, i.e.

2 2 H0 : 1 = 2 2 2 H1 : 1 = 2
109
2 2 2 2 o teste F rejeita H0 se S1 /S2 < c1 ou S1 /S2 > c2 onde as constantes c1 e c2 s ao mais uma vez obtidas como percentis da distribui c ao F com n1 1 e n2 1 graus de liberdade. Analogamente ao teste t, e pr atica comum escolher c1 e c2 tal que as probabilidades nas caudas sejam iguais, i.e. /2.
6.6.4
Problemas
1. Suponha que X1 , . . . , Xn e uma amostra aleat oria da distribui c ao N (, 1) e queremos testar as hip oteses H0 : = 0 H1 : = 0 . Considere um teste que rejeita H0 se X c1 ou X c2 . (a) Determine os valores de c1 e c2 tais que (0 ) = 0, 10 e () seja sim etrica em torno de 0 . (b) Determine os valores de c1 e c2 tais que (0 ) = 0, 10 e o teste seja n ao viesado. (c) Suponha que c1 = 0 1, 96/ n. Determine c2 tal que (0 ) = 0, 10. (d) Determine o menor valor de n para o qual (0 ) = 0, 10 e (0 + 1) = (0 1) 0, 95. 2. Suponha que X1 , . . . , Xn e uma amostra aleat oria da distribui c ao N (, 1) e queremos testar as hip oteses H0 : 0, 1 0, 2
H1 : < 0, 1 ou > 0, 2.
Considere um teste que rejeita H0 se X c1 ou X c2 . (a) Para n = 25 determine c1 e c2 tais que tais que (0, 1) = (0, 2) = 0, 07. (b) Idem para (0, 1) = 0, 02 e (0, 2) = 0, 05. 3. Os comprimentos de bras met alicas (em mil metros) produzidas por uma m aquina t em distribui c ao normal com m edia e vari ancia 2 desconhecidos. Suponha que queremos testar as seguintes hip oteses H0 : 5, 2
H1 : > 5, 2.
110
CAP ITULO 6. TESTES DE HIPOTESES Os comprimentos de 15 bras selecionadas ao acaso foram medidos e obteve2 se a m edia amostral x = 5, 4 e n i=1 (xi x) = 2, 5. (a) Construa um teste t ao n vel de 0,05 baseado nestes resultados. (b) Repita o item anterior para as hip oteses H0 : = 5, 2 H1 : = 5, 2. Qual a conclus ao do exerc cio?
4. Suponha que foi selecionada uma amostra aleat oria de 9 observa c oes da 2 distribui c ao N (, ) com par ametros desconhecidos. Obteve-se X = 22 e n 2 i=1 (Xi X ) = 72. (a) Teste as hip oteses H0 : 20 H1 : > 20 ao n vel de signic ancia 0,05. (b) Teste as hip oteses H0 : = 20 H1 : = 20 ao n vel de signic ancia 0,05. Use um teste sim etrico com probabilidade 0,025 em cada cauda. 5. O tempo m edio, por oper ario, para executar uma tarefa, tem sido de 100 minutos com desvio padr ao de 15 minutos. Foi introduzida uma modica c ao para reduzir este tempo e ap os alguns meses foi selecionada uma amostra de 16 oper arios medindo-se o tempo de execu c ao de cada um. Obteve-se um tempo m edio amostral de 90 minutos e um desvio padr ao amostral de 16 minutos. Estabele ca claramente as suposi c oes que precisam ser feitas. (a) Verique se existem evid encias, ao n vel de signic ancia 0,05, de que a modica c ao surtiu efeito? (b) Verique se h a evid encias, ao n vel de signic ancia 0,05, de que a modica c ao alterou a vari ancia populacional. 6. Uma ind ustria compra componentes eletr onicos dos fornecedores A e B , mas o fornecedor A garante que o tempo m edio de vida (em horas) do seu produto supera o da marca B em 300 horas. Para testar esta arma c ao foram selecionadas duas amostras de componentes, uma de cada fornecedor, e obteve-se os seguintes tempos de vida: marca A marca B 1500 1450 1480 1520 1510 1100 1200 1180 1250
Ap os estabelecer claramente as suposi c oes que precisam ser feitas, (a) teste a hip otese de igualdade das vari ancias dos tempos de vida, ao n vel de signic ancia 0,02; (b) teste a arma c ao do fornecedor A, ao n vel de signic ancia 0,05.
6.7. TESTES ASSINTOTICOS
111
7. Uma droga A foi administrada em um grupo de 8 pacientes selecionados ao acaso. Ap os um per odo xo de tempo a concentra c ao da droga em certas c elulas de cada paciente foi medida (em unidades apropriadas). O procedimento foi repetido em um outro grupo de 6 pacientes selecionados ao acaso usando uma droga B . As concentra c oes obtidas foram droga A droga B 1,23 1,42 1,41 1,62 1,55 1,51 1,60 1,76 1,76 1,41 1,87 1,49 1,67 1,81
Ap os estabelecer claramente as suposi c oes que precisam ser feitas, (a) teste a hip otese de que a concentra c ao m edia de droga A entre todos os pacientes e pelo menos t ao grande quanto da droga B ; (b) teste a hip otese de que as concentra c oes m edias das duas drogas s ao iguais. 8. Mostre que o teste bilateral para a vari ancia dado na Se c ao 6.6 e o teste da RMV.
6.7
Testes Assint oticos
Vimos que a constru c ao de um teste envolve a obten c ao de constantes atrav es da distribui c ao de probabilidades de uma estat stica. Em muitas situa c oes, particularmente para a raz ao de m axima verossimilhan ca, estas distribui c oes n ao podem ser determinadas de forma exata e precisamos recorrer a resultados aproximados. Nesta se c ao ser ao desenvolvidos testes baseados em distribui co es assint oticas das estat sticas de teste envolvidas. Iremos nos concentrar em testes baseados na distribui c ao assint otica da raz ao de m axima verossimilhan ca, do estimador de m axima verossimilhan ca e da fun c ao escore. Suponha que uma amostra aleat oria X1 , . . . , Xn e tomada de uma distribui c ao com par ametro R desconhecido e queremos testar H0 : = 0 . Expandindo em s erie de Taylor a fun c ao L(0 ) = log p(x|0 ) em torno do estimador de m axima verossimilhan ca obtemos )(0 )2 ) + U (x; )(0 ) 1 J ( L(0 ) L( 2 sendo que J e a informa c ao observada de Fisher e podemos desprezar os termos est de ordem mais alta j a que, sob H0 , 0 e ao pr oximos para n grande. Mas a fun c ao escore avaliada em e igual a zero por deni c ao. Al em disso, a
112
raz ao de m axima verossimilhan ca neste caso e (X ) = e podemos escrever ent ao que 2 log (X ) = 2 log p(X |0 ) ) p(X | )] J ( )(0 )2 . = 2[L(0 ) L( p(X |0 ) ) p(X |
Lembrando que e assint oticamente normal com m edia e usando o fato de que J ()/n converge quase certamente para o seu valor esperado I (0 )/n quando H0 e verdadeira ent ao a distribui c ao assint otica de 2 log (X ) e 2 1 . Assim, um teste com n vel de signic ancia assint otico rejeita H0 se 2 log (X ) > c onde c e tal que P (2 log (X ) > c| = 0 ) = . Este resultado pode ser generalizado para o caso de um vetor de par ametros = (1 , . . . , k ) de dimens ao k . Neste caso, a estat stica 2 log (X ) tem 2 distribui c ao assint otica k .
6.7.1
Teste Qui-quadrado
Um caso de particular interesse em Estat stica e quando os dados s ao tais que cada observa c ao pode ser classicada de acordo com um n umero nito de poss veis categorias. Por isso, observa c oes deste tipo s ao chamadas dados categ oricos e estaremos interessados em fazer infer encia sobre as probabilidades de cada categoria. Suponha que uma popula c ao consiste de itens que podem ser classicados em k diferentes categorias. Seja i a probabilidade de que um item selecionado ao acaso perten ca ` a categoria i, i = 1, . . . , k . Assumimos tamb em que i 0, n 0 0 i = 1, . . . , k e i=1 i = 1. Sejam agora os valores espec cos 1 , . . . , k tais que n 0 0 i > 0, i = 1, . . . , k e i=1 i = 1 e queremos testar as hip oteses
0 H 0 : i = i ,
i = 1, . . . , k para ao menor um valor de i. (6.3)
H 0 : i =
0 i ,
Suponha agora que uma amostra aleat oria de tamanho n e tomada desta popula c ao e as hip oteses (6.3) ser ao testadas com base nesta amostra. Para isto vamos denotar por Ni o n umero amostral de observa c oes na categoria i, k i.e. N1 , . . . , Nk s ao inteiros n ao negativos tais que i=1 Ni = n. Quando H0 0 e verdadeira, o n umero esperado de observa c oes do tipo i e ni e a diferen ca entre o n umero observado e o n umero esperado tende a ser menor quando H0 e verdadeira do que quando ela e falsa. Parece razo avel ent ao basear o teste nas
6.7. TESTES ASSINTOTICOS
113
magnitudes relativas destas diferen cas. Neste caso, usando-se a fun c ao escore pode-se mostrar que o teste assint otico rejeita H0 se
k
Q=
i=1
0 2 (Ni ni ) >c 0 ni
onde a estat stica Q tem distribui c ao assint otica 2 em s ao k1 . Estes testes tamb conhecidos na literatura como testes de qualidade de ajuste ou testes de ader encia e est ao entre os mais utilizados em Estat stica.
0 Uma observa c ao de ordem pr atica e que as frequ encias esperadas ni n ao 2 devem ser muito pequenas para que a distribui c ao seja uma boa aproxima c ao da distribui c ao de Q. Especicamente, pode-se mostrar que a aproxima c ao ser a 0 0 muito boa se ni 5 e apenas razo avel ni 1, 5.
V arias aplica c oes para dados categ oricos e m etodos n ao param etricos que utilizam testes qui-quadrado podem ser vistas por exemplo em DeGroot (1989).
Testes de Ader encia

Suponha agora que deseja-se testar a hip otese de que a amostra foi tomada de uma certa distribui c ao indexada por um vetor de par ametros = (1 , . . . , m ). Neste caso a hip otese alternativa e que a amostra foi tomada de alguma outra distribui c ao. Al em disso, suponha que foram observados k valores de uma vari avel categ orica ou os dados foram agrupados em k classes de valores. Agora, para calcular as probabilidades de que um item perten ca a cada uma das classes ou categorias precisamos dos valores estimados dos par ametros 1 , . . . , m . Se usarmos estimativas de m axima verossimilhan ca pode-se mostrar que a estat stica Q tem distribui c ao assint otica qui-quadrado com k 1 m graus de liberdade sendo m o n umero de par ametros estimados no modelo te orico. Uma condi c ao de validade desta distribui c ao e que ei 5, i = 1, . . . , k . Exemplo 6.12 : A propor c ao p de itens defeituosos em um grande lote e desconhecida e deseja-se testar as hip oteses H0 : p = 0, 1 H1 : p = 0, 1 com base em uma amostra aleat oria de 100 itens dos quais 16 s ao defeituosos. Podemos usar o teste qui-quadrado com duas categorias (defeituoso e n ao de-
114
feituoso) reformulando as hip oteses acima como H0 : p1 = 0, 1 e p2 = 0, 9 H1 : H0 e falsa sendo p1 e p2 as probabilidades de um item ser defeituoso ou n ao defeituoso respectivamente. As frequ encias observadas e esperadas sob H0 s ao
0 N1 = 16, N2 = 84, np0 1 = 10, np2 = 90
e portanto o valor observado da estat stica de teste e Q= (16 10)2 (84 90)2 + = 4. 10 90
Usando uma tabela da distribui c ao qui-quadrado com 1 grau de liberdade obt emse que 0,025 < P -valor < 0,05 e assim H0 deve ser rejeitada ao n vel de 5% e aceita ao n vel de 2,5%. Exemplo 6.13 : O teste 2 tamb em pode ser aplicado no estudo da rela c ao entre duas variaveis categ oricas com p e k poss veis categorias. Neste caso queremos testar se as vari aveis s ao independentes (hip otese nula). A estat stica de teste e a mesma por em com n umero de graus de liberdade igual a (p 1)(k 1) Considere por exemplo a Tabela 6.3 na qual est ao apresentados os n umero de alunos matriculados nos col egios A e B, em rela c ao ` a sua classe social. Se as Tabela 6.2: Classe social Col egio Alta Media Baixa Total A 20 40 40 100 B 50 40 30 120 Total 70 80 70 220
vari aveis Col egio e Classe social forem independentes espera-se que as frequ encias de alunos das 3 classes sejam as mesmas nos 2 col egios, i.e. 70/220, 80/220 e 70/220. As frequ encias esperadas sob a hip otese de independ encia s ao ent ao dadas por Col egio A: 100 Col egio B: 120 80 70 70 = 31, 82 100 = 36, 36 100 = 31, 82 220 220 220 80 70 70 = 38, 18 120 = 43, 64 120 = 38, 18 220 220 220
6.8. PROBLEMAS e podemos construir a tabela abaixo. Tabela 6.3: Frequ encias esperadas sob a hip otese de independ encia. Classe social Col egio Alta Media Baixa A 31,82 36,36 31,82 B 38,18 43,64 38,18
115
Podemos agora avaliar a estat stica de teste T = (20 31, 82)2 (40 36, 36)2 (40 31, 82)2 + + + 31, 82 36, 36 31, 82 (50 38, 18)2 (40 43, 64)2 (30 38, 18)2 + + = 12, 57. 38, 18 43, 64 38, 18
Ao n vel de signic ancia 0,05 obtemos da tabela 2 com (p 1)(k 1) = 2 graus de liberdade que P (T > 5, 99) = 0, 05 e como 12, 57 > 5, 99 a hip otese de independ encia e rejeitada. Para calcular o P -valor, note que a tabela quiquadrado com 2 graus de liberdade nos fornece, P (T > 12, 429) = 0, 002 e portanto podemos concluir que P -valor < 0,002. Ou seja, existe forte evid encia contra a hip otese de independ encia entre as vari aveis Col egio e Classe social.
6.8
Problemas
1. Em uma amostra de 100 lotes com 5 itens cada um, vericou-se que o n umero de itens defeituosos tem a distribui c ao de frequ encias abaixo. Teste a adequa c ao do modelo binomial. no de defeituosos 0 1 2 3 4 5 total 75 21 3 1 0 0 100 no de lotes 2. Em uma amostra de 300 itens, o n umero de defeitos observados em cada um deles tem a distribui c ao de frequ encias dada na tabela abaixo. Teste a adequa c ao do modelo Poisson. no de defeitos 0 1 2 3 4 total o 80 122 53 31 14 300 n de itens
116
3. Em seus experimentos com ervilhas, Mendel ao cruzar plantas de sementes amarelas lisas com plantas de sementes verdes enrugadas observou c ao: 315 plantas com sementes amarea seguinte descend encia na 2a gera las lisas, 108 com sementes amarelas enrugadas, 101 com sementes verdes lisas e 32 com sementes verdes enrugadas. De acordo com os postulados de Mendel a segrega c ao esperada nesta gera c ao deveria seguir a propor c ao de 9:3:3:1. Verique se a teoria de Mendel explica a segrega c ao observada. 4. Em uma amostra de 1800 valores no intervalo (0,1) obteve-se 391 valores entre 0 e 0,2, 490 valores entre 0,2 e 0,5, 580 entre 0,5 e 0,8; e 339 maiores do que 0,8. Teste a hip otese de que a amostra foi tomada de uma distribui c ao uniforme no intervalo (0,1) (neste caso a probabilidade de um valor cair no intervalo (a, b) e b a).
6.9. TESTES BAYESIANOS
117
6.9
Testes Bayesianos
Do ponto de vista Bayesiano, podemos atribuir probabilidades a priori p(H0 ) e p(H1 ) para um par de hip oteses estat sticas H0 e H1 . Ap os observar uma amostra aleat oria X1 , . . . , Xn e aplicando o teorema de Bayes obtemos as probabilidades a posteriori p(H0 |x) = p(x|H0 )p(H0 ) p(x) e p(H1 |x) = p(x|H1 )p(H1 ) . p(x)
Tomando-se a raz ao das posterioris (e notando que o termo p(x) se cancela) obtemos P (H0 |x) P (x|H0 ) P (H0 ) . = P (H1 |x) P (x|H1 ) P (H1 )
raz ao de chances a posteriori fator de Bayes raz ao de chances a priori
O fator de Bayes (FB) ser a usado para testar as hip oteses e pode ser reescrito como p(|H0 )p(x|, H0 )d P (x|H0 ) FB = . = P (x|H1 ) p(|H1 )p(x|, H1 )d Note que o fator de Bayes e similar ` a raz ao de verossimilhan cas por em ao inv es de maximizar a verossimilhan ca toma-se uma m edia ponderada com pesos p(|Hi ). Na escala logar tmica o fator de Bayes e algumas vezes chamado de for ca (ou peso) da evid encia fornecido pelos dados para H0 contra H1 . Um fator de Bayes grande indica evid encia a favor de H0 e a seguinte escala pode ser usada, FB <1 [1, 3] (3, 12] (12, 150] > 150 log FB <0 [0, 5] (5, 11] (11, 22] > 22 For ca da evid encia negativa (suporta H1 ) fraca positiva forte muito forte
Ap endice A Lista de Distribui c oes

Neste ap endice s ao listadas as distribui c oes de probabilidade utilizadas no texto para facilidade de refer encia. S ao apresentadas suas fun c oes de (densidade) de probabilidade al em da m edia e vari ancia. Uma revis ao exaustiva de distribui c oes de probabilidades pode ser encontrada em Johnson et al. (1992, 1995) e Evans et al. (1993).
A.1
Distribui c ao Normal
X tem distribui c ao normal com par ametros e 2 , denotando-se X N (, 2 ), se sua fun c ao de densidade e dada por p(x|, 2 ) = (2 2 )1/2 exp[(x )2 /2 2 ], < x < ,
para < < e 2 > 0. Quando = 0 e 2 = 1 a distribui c ao e chamada normal padr ao. A distribui c ao log-normal e denida como a distribui c ao de eX . No caso vetorial, X = (X1 , . . . , Xp ) tem distribui c ao normal multivariada com vetor de m edias e matriz de vari ancia-covari ancia , denotando-se X N (, ) se sua fun c ao de densidade e dada por p(x|, ) = (2 )p/2 ||1/2 exp[(x ) 1 (x )/2] para Rp e positiva-denida. 118
GAMA A.2. DISTRIBUIC AO
119
A.2
Distribui c ao Gama
X tem distribui c ao Gama com par ametros e , denotando-se X Ga(, ), se sua fun c ao de densidade e dada por 1 x x e , p(x|, ) = () para , > 0. E (X ) = / e V (X ) = / 2 . Casos particulares da distribui c ao Gama s ao a distribui c ao de Erlang, Ga(, 1), a distribui c ao exponencial, Ga(1, ), e a distribui c ao qui-quadrado com graus de liberdade, Ga(/2, 1/2). x > 0,
A.3
Distribui c ao Gama Inversa
X tem distribui c ao Gama Inversa com par ametros e , denotando-se X GI (, ), se sua fun c ao de densidade e dada por p(x|, ) = para , > 0. E (X ) = 1 2 e V (X ) = . ( 1)2 ( 2) (+1) /x x e , () x > 0,
N ao e dif cil vericar que esta e a distribui c ao de 1/X quando X Ga(, ).
A.4
Distribui c ao Beta
X tem distribui c ao Beta com par ametros e , denotando-se X Be(, ), se sua fun c ao de densidade e dada por p(x|, ) = para , > 0. E (X ) = + e V (X ) = ( + )2 ( + + 1) . ( + ) 1 x (1 x) 1 , ()( ) 0 < x < 1,
120
APENDICE A. LISTA DE DISTRIBUIC OES
A.5
Distribui c ao de Dirichlet
O vetor aleat orio X = (X1 , . . . , Xk ) tem distribui c ao de Dirichlet com par ametros 1 , . . . , k , denotada por Dk (1 , . . . , k ) se sua fun c ao de densidade conjunta e dada por p(x|1 , . . . , k ) = para 1 , . . . , k > 0 e 0 = E (Xi ) = i , 0 V (Xi ) = (0 ) k 1 x 1 1 . . . x , k (1 ), . . . , (k ) 1
k i=1 k
xi = 1,
i=1
i . e Cov (Xi , Xj ) = i j 2 0 (0 +
(0 i )i , 2 0 (0 + 1)
1)
Note que a distribui c ao Beta e obtida como caso particular para k = 2.
A.6
Distribui c ao t de Student
X tem distribui c ao t de Student (ou simplesmente t) com m edia , par ametro 2 de escala e graus de liberdade, denotando-se X t (, ), se sua fun c ao de densidade e dada por (( + 1)/2) /2 (x )2 p(x|, , ) = + 2 (/2)
2 ( +1)/2
x R,
para > 0, R e 2 > 0. E (X ) = , para > 1 e V (X ) = 2 , 2 para > 2.
Um caso particular da distribui c ao t e a distribui c ao de Cauchy, denotada por 2 C (, ), que corresponde a = 1.
A.7
Distribui c ao F de Fisher
X tem distribui c ao F com 1 e 2 graus de liberdade, denotando-se X F (1 , 2 ), se sua fun c ao de densidade e dada por p(x|1 , 2 ) = ((1 + 2 )/2) 1 /2 2 /2 1 /21 2 x (2 + 1 x)(1 +2 )/2 (1 /2)(2 /2) 1
BINOMIAL A.8. DISTRIBUIC AO x > 0, e para 1 , 2 > 0. E (X ) = 2 , 2 2 para 2 > 2 e V (X ) =

2 22 (1 + 2 2) , 1 (2 4)(2 2)2
121
para 2 > 4.
A.8
Distribui c ao Binomial
X tem distribui c ao binomial com par ametros n e p, denotando-se X bin(n, p), se sua fun c ao de probabilidade e dada por p(x|n, p) = para n 1 e 0 < p < 1. E (X ) = np e V (X ) = np(1 p) e um caso particular e a distribui c ao de Bernoulli com n = 1. n x p (1 p)nx , x x = 0, . . . , n
A.9
Distribui c ao Multinomial
O vetor aleat orio X = (X1 , . . . , Xk ) tem distribui c ao multinomial com par ametros n e probabilidades 1 , . . . , k , denotada por Mk (n, 1 , . . . , k ) se sua fun c ao de probabilidade conjunta e dada por n! xk x 1 , . . . , k , p(x|1 , . . . , k ) = x1 !, . . . , xk ! 1
k
xi = 0, . . . , n,
i=1
xi = n,
para 0 < i < 1 e k c ao binomial e um caso i=1 i = 1. Note que a distribui especial da multinomial quando k = 2. Al em disso, a distribui c ao marginal de cada Xi e binomial com par ametros n e i e E (Xi ) = ni , V (Xi ) = ni (1 ) , e Cov (Xi , Xj ) = ni j .
A.10
Distribui c ao de Poisson
X tem distribui c ao de Poisson com par ametro , denotando-se X P oisson(), se sua fun c ao de probabilidade e dada por p(x|) = x e , x! x = 0, 1, . . .
122 para > 0.
APENDICE A. LISTA DE DISTRIBUIC OES
E (X ) = V (X ) = .
A.11
Distribui c ao Binomial Negativa
X tem distribui c ao de binomial negativa com par ametros r e p, denotando-se X BN (r, p), se sua fun c ao de probabilidade e dada por p(x|r, p) = para r 1 e 0 < p < 1. E (X ) = r(1 p)/p e V (X ) = r(1 p)/p2 . Um caso particular e quando r = 1 e neste caso diz-se que X tem distribui c ao geom etrica com par ametro p. r+x1 r p (1 p)x , x x = r, r + 1, . . .
Ap endice B Propriedades de Algumas Distribui c oes de Probabilidade

Nos resultados a seguir assume-se que X1 , . . . , Xk s ao k vari aveis aleat orias independentes.
1. Se Xi Binomial(ni , p), i = 1, . . . , k . Ent ao

k k
Y =
i=1
Xi Binomial
ni , p .
i=1
2. Se Xi P oisson(i ), i = 1, . . . , k . Ent ao
k k
Y =
i=1
Xi P oisson
i
i=1
3. Se Xi Geometrica(p), i = 1, . . . , k . Ent ao
k
Y =
i=1
Xi Binomial N egativa(k, p).
2 4. Se Xi N ormal(i , i ), i = 1, . . . , k . Ent ao para constantes a1 , . . . , ak e b diferentes de zero, k k k
Y =b+
i=1
ai Xi N ormal b + 123
ai i ,
i=1 i=1
2 a2 i i
124
APENDICE B. PROPRIEDADES DE DISTRIBUIC OES
5. Se Xi Gama(i , ), i = 1, . . . , k . Ent ao
k k
Y =
i=1
Xi Gama
i ,
i=1
6. Se Xi Exponencial( ), i = 1, . . . , k . Ent ao Y = min{Xi } Exponencial(k ).
Ap endice C Solu c oes de Exerc cios Selecionados

Cap tulo 4
Se c ao 4.4
10. n = 396 5. (a) a = 4 e b = 1
Se c ao 4.6
3. (a) m edia 0, 17, (b) moda 0, 15 4. m edia 2, 67 4. m edia 175, 86
Cap tulo 5
Se c ao 5.5
1. (a) Denindo Y = log X segue por transforma c ao de vari aveis que p(y ) = p(x(y ))| dx ey/ | = [ey/ ]1 = ey , y > 0 (pois log x < 0). dy
Portanto, Y Exp(1) e um pivot.
(b) Se Y Exp(1) ent ao Y Gama(1, 1) e portanto 2 log X 2 2 . Para construir o intervalo pedido obter na tabela da distribui c ao qui-quadrado 125
126
APENDICE C. SOLUC OES DE EXERC ICIOS SELECIONADOS com 2 graus de liberdade c1 e c2 tais que P (c1 < 2 log X < c2 ) = 0, 90.
3. Se X1 , . . . , Xn Exp() ent ao Xi Gama(1, ), i = 1, . . . , n e como n os Xi s s ao independentes segue que i=1 Xi Gama(n, ) e portanto n 2 2 i=1 Xi 2n . Assim, basta obter as constantes c1 e c2 tais que P (c1 < 2 n i=1 Xi < c2 ) = 1 em uma tabela qui-quadrado com 2n graus de liberdade. Isolando segue que c1 2
n i=1
Xi
<<
c2 2
n i=1
Xi
11. O I.C. de 99% para a diferen ca m edia e [0,2143177; 4,185682]. Com 99% de conan ca podemos armar que a bebida teve efeito signicativo pois em m edia houve aumento nos escores ap os ingest ao de agua. 12. O I.C. de 95% para a diferen ca m edia de massas e [0,1178474; 1,642153]. Com 95% de conan ca podemos armar que houve ganho de massa j a que o intervalo cont em somente valores positivos.
Se c ao 5.8
6. (b) Usando a distribui c ao a posteriori do item (a) com n i=1 xi = 10 e n = 10, segue que |x Gama(10, 5; 10). Portanto, 20|x 2 21 . Da tabela quiquadrado com 21 graus de liberdade obtemos que, P (20 < 10.283) = 0.025 e P (20 > 35.479) = 0.025 e segue ent ao que 10.283/20 < < 35.479/20 com probabilidade 0.95 e o intervalo de credibilidade e 0.51415 < < 1.77395.
Cap tulo 6
Se c ao 6.1.3
1. (a) A fun c ao poder e dada por () = P (max{Xi } 1) = P (X1 n 1, . . . , Xn 1) = i=1 P (Xi 1) = 1/n . (b) O tamanho do teste e dado por sup2 () = (2) = 1/2n .
127
Se c ao 6.4
1. (a)
n i=1
Xi > c, (b)
n i=1 n i=1
n i=1 (Xi
)2 > c, (c)
n i=1
Xi > c, (d) X > c.
2. Rejeitar H0 se 3. Rejeitar H0 se
Xi2 > 36, 62. Xi > 31, 41. log Xi <
5. Teste UMP rejeita H0 se log Xi > c ou equivalentemente se c sendo que log Xi Exp().
Se c ao 6.6.4
6 Da Tab. A.7 obtemos P (Y > 28.71)=0,01 sendo Y F (4, 3) ent ao FSU P =28,71 Da Tab. A.7 obtemos P (Z > 16.69)=0,01 sendo Z 2 2 F (3, 4) ent ao FIN F =1/16,69 SA /SB = 770/3892 = 0.1978417 e como 0, 0599 < 0, 197841 < 28, 71 aceita-se H0 ao n vel de 2%.
Refer encias
Broemeling, L. (1985). Bayesian Analysis of Linear Models. New York: Marcel Dekker. DeGroot, M. H. (1989). Probability and Statistics (2nd ed.). Addison Wesley. DeGroot, M. H. and M. J. Schervish (2002). Probability and Statistics (3rd ed.). Addison Wesley. Evans, M., N. Hastings, and B. Peacock (1993). Statistical Distributions, Second Edition (Second ed.). Wiley Interscience. Johnson, N. L., S. Kotz, and N. Balakrishnan (1995). Continuous Univariate Distributions (2nd ed.), Volume 2. John Wiley, New York. Johnson, N. L., S. Kotz, and A. W. Kemp (1992). Univariate Discrete Distributions (2nd ed.). John Wiley, New York. Lehman, E. and J. P. Romano (2005). Testing Statistical Hypothesis (Third ed.). Springer. Migon, H. S. and D. Gamerman (1999). Statistical Inference: An Integrated Approach. Arnold.
128

Inferencia UFPR PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Inferencia UFPR PDF

Загружено:

Авторское право:

Доступные форматы

NCIA ESTAT INFERE ISTICA

SUMARIO . . . . . . . . . . . . . . . . . . . . 47 49 49 50 53 55 56 59 59 61 63 64 65 66 67 68 70 70 74 75 75 78 83 85 87 87 90 90 92 94 96 97 98 101 102 103 104 106 107

6.7 6.8 6.9

C Solu c oes de Exerc cios Selecionados References

Cap tulo 1 Introdu c ao

CAP ITULO 1. INTRODUC AO

Princ pios de estima c ao

DE VEROSSIMILHANCA 1.2. FUNC AO

e denido como e o k - esimo momento amostral em torno de X

Exemplo 1.4 : Se X Binomial (2, ) ent ao p(x|) = l(; x) = 2 x (1 )2x , x x = 0, 1, 2 (0, 1)

e a integral da fun c ao de verossimilhan ca em rela c ao a e dada por l(; x)d = 2 x

(x + 1)(3 x) x!(2 x)! = . (x + 1 + 3 x) 3!

CAP ITULO 1. INTRODUC AO

DE VEROSSIMILHANCA 1.2. FUNC AO

x=0 x=1 x=2

x=0 x=1 x=2 x=8

x=0.5 x=1 x=2 x=5

CAP ITULO 1. INTRODUC AO 2 log p(x|) . 2

e portanto a fun c ao de densidade conjunta e dada por

exp() xi 1 = exp(n) t , xi ! x! i=1 i

e portanto a informa c ao esperada de Fisher e 1 I () = 2 E

CAP ITULO 1. INTRODUC AO

Suci encia e fam lia exponencial

Xi e uma estat stica suciente para .

p(x|) = p(x1 , , xn |) = Denindo as estat sticas de ordem

Y1 = X(1) = min Xi Yn = X(n) = max Xi

e como a cada xi corresponde um u nico yi ent ao

p(yi |) = g (x)f (t, )

1.3. SUFICIENCIA E FAM ILIA EXPONENCIAL

com g (x) = 1, f (t, ) =

Fam lia Exponencial

p(x| ) = a(x) exp

CAP ITULO 1. INTRODUC AO

e quando se tem uma amostra aleat oria X1 , . . . , Xn , i.e.

+ n log(1 ) Ix ({0, 1}n )

Teorema Central do Limite

1.5. TEOREMA CENTRAL DO LIMITE

Cap tulo 2 Propriedades dos Estimadores

Assim, a esperan ca do estimador e dada por 1 E ( )= n

e conclui-se que 2 n ao e um ENV para 2 . Por em, lim n1 n 2 = 2

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

ent ao E (T 2 ) = c(n 1) 2 e V ar(T 2 ) = c2 2(n 1) 4

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

Estimadores baseados em estatisticas sucientes

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

e segue que 2 e um estimador consistente para 2 .

(b) Obtenha o limite inferior para a vari ancia deste estimador.

CAP ITULO 2. PROPRIEDADES DOS ESTIMADORES

Cap tulo 3 M etodos de Estima c ao

CAP ITULO 3. METODOS DE ESTIMAC AO

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA que maximiza

[xi log + (1 xi ) log(1 )]

= n[ x log + (1 x ) log(1 )]. Assim, a primeira derivada e dada por n x (1 x ) (1 )

(2 )1/2 exp((x )2 /2)

e o logaritmo da verossimilhan ca e dado por n log l(; x) = log(2 ) 2

Tomando a primeira derivada e igualando a zero obt em-se a equa c ao de verossimilhan ca

CAP ITULO 3. METODOS DE ESTIMAC AO

e Conclui-se ent ao que X

EMV e estat sticas sucientes

CAP ITULO 3. METODOS DE ESTIMAC AO

O EMV n ao depende do plano amostral

3.1. ESTIMADORES DE MAXIMA VEROSSIMILHANCA

Observa c oes incompletas