Вы находитесь на странице: 1из 113

Cap.

1 - Amostragem e Distribuicoes Amostrais


February 27, 2009
1 Introducao
O objetivo deste captulo e introduzir o conceito de amostragem e apresentar alguns resultados de
distribui coes teoricas geradas pela amostragem.

E um captulo de liga cao, ele junta a teoria de dis-
tribui coes estudada em probabilidade com a teoria de inferencia estatstica atraves da apresenta cao
de algumas distribui coes associadas `a amostragem que serao necessarias no curso. Desta forma,
quando elas aparecerem mais tarde nao sera necessario parar o curso para deriv a-las. Inicialmente
sera vista uma discussao de popula coes, amostras, estatstica e momentos amostrais. Depois serao
revistos alguns resultados ligados a medias amostrais, tais como lei dos grandes n umeros, teorema
central do limite e algumas distribui coes de famlias parametricas. Amostras de famlias normais
serao estudadas com maior cuidado, quando serao apresentadas as distribui coes qui-quadrado, F
de Snedecor e t de Student. Finalmente serao discutidas as estatsticas de ordem.
1.1 Inferencia Indutiva e Inferencia Dedutiva
Nos 2 tipos de inferencia queremos inferir um resultado a partir de um conjunto de informa coes.
Se as informa coes forem sucientes para inferir com certeza o resultado nal temos uma inferencia
dedutiva, caso contrario uma inferencia indutiva. Considere os seguintes problemas:
Exemplo 1.1: Sabe-se o angulo entre 2 lados de um triangulo e que estes 2 lados s ao iguais; quais
os outros dois angulos?
Exemplo 1.2: Quer-se descobrir a propor cao de eleitores da cidade de Campinas que apoia um
certo candidato em uma elei cao. Para tanto foi realizada uma pesquisa eleitoral. O conjunto de
informa coes disponveis e a metodologia utilizada na pesquisa e o resultado da pesquisa.
Exemplo 1.3: Um engenheiro propoe uma modica cao na composi cao da liga utilizada nos la-
mentos das l ampadas. Um experimento e realizado com 100 l ampadas medindo-se o tempo de vida
das 75 primeiras l ampadas que queimam. A partir deste experimento queremos estimar o tempo
medio de vida das l ampadas e vericar se com o novo lamento o tempo medio de vida aumenta.
Exemplo 1.4: A m de descobrir quanto e impopular a volta do IPMF a m de arrecadar recur-
sos para a sa ude, a DataFolha entrevistou 2000 pessoas no Estado de Sao Paulo e encontrou 1740
destas pessoas contrarias `a volta do imposto. Isto nos diz que, nesta amostra, 87% das pessoas s ao
contrarias ao imposto. O que isto diz a respeito da popula cao do Brasil? Sera que a percentagem
de pessoas contrarias ao IPMF e proxima de 87%? Se sim, qual a margem de erro desta estimativa?
Sera que ha evidencia signicativa que o valor verdadeiro e maior que 85%?
Exemplo 1.5: Uma ind ustria produtora de fornos de microondas gostaria de saber quanto tempo
deve-se dar de garantia a seus produtos de modo que somente 1% de seus produtos demandem
1
reparos no prazo de garantia. Atraves de testes acelerados, pode-se obter os tempos de vida de 50
fornos de microondas e com base nestes dados estimar o prazo de garantia.
Exemplo 1.6: Elabora cao de uma carta de controle utilizando os dados disponveis.
Exemplo 1.7: Uma ind ustria de sucos concentrados est a desenvolvendo um novo procedimento
para retirar a agua do suco de laranja de modo que o suco reconstitudo seja mais agrad avel ao
paladar. O sabor do suco varia em uma escala de 1 a 10. Pelo procedimento atual este ndice
pode ser considerado como uma variavel aleat oria normalmente distribuda com media 7 e desvio
padrao 1. Como descobrir se o novo metodo e realmente melhor?
Nestes 7 exemplos e facil vericar onde temos ums inferencia dedutiva ou indutiva. Neste curso
estaremos interessados em inferencia indutiva em modelos parametricos (Inferencia Parametrica),
principalmente dentro da abordagem frequentista. As deni coes destes novos termos aparecerao
mais tarde.
Um diagrama do processo de aprendizado e dos objetivos da inferencia s ao apresentados no
diagrama a seguir.
Processo de Aprendizagem:
Experimentacao
Dados
Inducao Hipotese 2
Hipotese 1 Deducao Consequencias
Objetivo da Inferencia:
Amostra Inferencia
Verdadeiro estado Dados Estado inferido da natureza (?)
1.2 Populacao e amostra:
O objetivo de uma investiga cao cientca e descobrir (entender, estudar) alguma caracterstica
de certa popula cao. Como, em geral, e impossvel ou impratic avel examinar toda a popula cao,
examinamos parte dela e com base nestes dados procuramos fazer inferencias a respeito de toda
popula cao. Temos que distinguir entre popula cao alvo e popula cao amostrada.
Deni cao 1.1: Popula cao alvo: A totalidade dos elementos que est ao sob discussao e para os
quais queremos informa coes sera chamada de popula cao alvo.
2
Na pratica nem sempre os elementos escolhidos para analise pertencem `a popula cao alvo. Por
exemplo, para testar a eciencia de uma nova vacina s ao selecionados alunos pertencentes `a rede
p ublica, mas quer-se inferir o resultado para todas as crian cas dentro de uma certa faixa de idade.
Neste caso os alunos da rede p ublica formam a popula cao amostrada. Normalmente a inferencia da
popula cao amostrada para a popula cao alvo e realizada atraves de conhecimentos nao (puramente)
estatsticos; pelo menos nao na abordagem frequentista.
O motivo de se utilizar uma popula cao amostral e analisar-se apenas alguns elementos da pop-
ula cao e econ omica. No caso em que o teste de aceita cao de lote e do tipo destrutivo alem da perda
de todas as pe cas teramos o custo da amostragem. A (forma da) escolha dos elementos a serem
analisados forma grande parte do objeto da Amostragem e sera apenas tratado supercialmente
aqui. O nosso interesse centralizar-se- a na inferencia.
Deni cao 1.2: Popula cao amostrada: aquela da qual retiramos a nossa amostra. No Exemplo
1.4, a popula cao amostrada s ao adultos que moram em Sao Paulo enquanto a popula cao alvo s ao
todas as pessoas atingidas pelo IPMF no Brasil.
Como comentado anteriormente, se a popula cao amostrada nao e a mesma que a popula cao
alvo, as conclus oes (inferencias) obtidas atraves da amostra, a princpio, s o s ao v alidas para a
popula cao amostrada.
Em Estatstica tambem e chamado de popula cao o conjunto de todos os valores da variavel
de interesse dos elementos da popula cao amostrada, e a dsitribui cao de probabilidade associada a
estes valores. Amostra seria os valores observados nos elementos observados.
Em cada um dos exerccios seguintes dena a popula cao alvo e a popula cao amostral. Verique
se a amostragem e utilizada em todos os casos. Discuta ent ao como cam os coment arios realizados
anteriormente.
Exerccio 1.1: Discuta nos exemplos anteriores as amostras e as popula coes no sentido estatstico
usualmente adotado.
Exerccio 1.2: Teste de um novo produto para tratamento de AIDS e iniciado. Foram seleciona-
dos voluntariamente 2100 volunt arios.
Exerccio 1.3: Experimento e realizado em laboratorio para testar se a ingest ao de certo tipo de
dieta reduz o peso. No experimento foram utilizados 35 ratos.
Pergunta: Como selecionar uma amostra?
O tamanho da amostra e xado atraves do nvel de precis ao desejado.
Os requisitos de uma amostra e que seja nita e representativa da popula cao, embora o termo
representativa ainda nao esteja clara por enquanto.
Vamos voltar ao Exemplo 1.4, que trata da pesquisa do DataFolha para ilustrar como e realizada
a modelagem estatstica. Para simplicar e quanticar este exemplo dena:
X
i
=
_
1, se o i-esimo entrevistado e contrario ao IPMF
0, caso contrario
Apos retirar a amostra temos disponveis 2000 respostas 0 ou 1. Se p = propor cao de votos
contrarios ao IPMF, como utilizar os 2000 dados para estimar p?
3
Note que X
1
, X
2
, . . . , X
2000
s ao variaveis aleat orias, nao sendo possvel predizer com certeza
seus valores antes de observar a amostra.
Depois de retirar a amostra: x
1
, x
2
, . . . , x
2000
s ao valores observados, realiza coes das v.as.
Nota cao: As letras mai usculas serao utilizadas para denotar variaveis aleat orias (v.as.) enquanto
as min usculas para valores assumidos pelas v.as.
Qual a distribui cao conjunta de X
1
, X
2
, . . . , X
n
? Suponha que n = 2.
X
1
=
_
1, se a primeira pessoa entrevistada e contraria ao IPMF
0, caso contrario
X
2
=
_
1, se a segunda pessoa entrevistada e contraria ao IPMF
0, caso contrario
Neste caso, para i = 1, 2,
P(X
i
= x) = p
x
(1 p)
1x
, x = 0 ou 1,
isto e, X
1
e X
2
s ao identicamente distribudas.
Caso 1: Supondo que a amostra e feita com reposi cao:
P(X
1
= x, X
2
= y) = P(X
1
= x)P(X
2
= y).
Isto e, X
1
e X
2
s ao independentes.
Caso 2: Supondo que a amostra e feita sem reposi cao:
P(X
1
= x, X
2
= y) = P(X
1
= x)P(X
2
= y).
Isto e, X
1
e X
2
nao s ao independentes.
O caso 2 e mais difcil de ser estudado. Vamos nos concentrar no caso 1 porque alem de mais
facil ele ocorre, pelo menos de forma aproximada, com uma certa freq uencia na pr atica. Verique
se a fun cao de probabilidade conjunta satisfaz a deni cao abaixo.
Deni cao 1.3: Amostra Aleatoria
(1) X
1
, X
2
, . . . , X
n
formam uma amostra aleat oria de tamanho n de uma variavel aleat oria X, ou
de uma popula cao com fun cao distribui cao F
X
(.), se, e somente se, a fun cao distribui cao conjunta
de X
1
, X
2
, . . . , X
n
e:
F
X1,...,Xn
(x
1
, . . . , x
n
) =
n

i=1
F
X
(x
i
),
isto e, X
1
, X
2
, . . . , X
n
s ao independentes e identicamente distribudas (i.i.d.) com com fun cao dis-
tribui cao F
X
(.). Dizemos que eles formam muma amostra aleat oria de tamanho n da popula cao
(com fun cao de distribui cao) F
X
(.) Para os casos onde X e uma variavel aleat oria discreta ou
contnua temos as deni coes equivalentes.
4
(2) X
1
, X
2
, . . . , X
n
formam uma amostra aleat oria de tamanho n de uma variavel aleat oria disc-
reta X, ou de uma popula cao com fun cao de probabilidade p
X
(.), se, e somente se, a fun cao de
probabilidade conjunta de X
1
, X
2
, . . . , X
n
e:
p
X1,...,Xn
(x
1
, . . . , x
n
) =
n

i=1
p
X
(x
i
),
isto e, X
1
, X
2
, . . . , X
n
s ao independentes e identicamente distribudas (i.i.d.) com fun cao de prob-
abilidade p
X
(.),. Dizemos que eles formam muma amostra aleat oria de tamanho n da popula cao
(com fun cao de probabilidade p
X
(.)
(3)X
1
, X
2
, . . . , X
n
formam uma amostra aleat oria de tamanho n de uma variavel aleat oria contnua
X, , ou de uma popula cao com fun cao densidade de probabilidade f
X
(.), se, e somente se, a fun cao
de densidade conjunta de X
1
, X
2
, . . . , X
n
e
f
X1,...,Xn
(x
1
, . . . , x
n
) =
n

i=1
f
X
(x
i
).
Isto e, X
1
, X
2
, . . . , X
n
s ao independentes e identicamente distribudas (i.i.d.) com fun cao de den-
sidade f
X
(.). Dizemos que eles formam muma amostra aleat oria de tamanho n da popula cao (com
fun cao de densidade ) f
X
(.). No texto e no curso nao faremos distin cao em termos de nota cao e
nomenclatura entre variaveis aleat orias discretas e contnuas e nos referiremos `a fun cao densidade,
sempre que isto nao causar confusao.
Deni cao 1.4: Popula cao Amostrada: Seja X
1
, X
2
, . . . , X
n
, uma amostra aleat oria de uma
popula cao com densidade f
X
(.); ent ao esta popula cao e chamada de popula cao amostrada.
Exerccio 1.4: Suponha que estamos interessados em estudar o tempo de vida X de certo com-
ponente eletr onico. Sabe-se que nao ha envelhecimento neste componente, portanto h a raz oes para
supor que X e exponencialmente distribuda com media 1/ . Isto e,
f
X
(x) = e
x
I
(0,+)
(x) > 0.
A m de determinar o valor de , 10 destes componentes foram selecionados ao acaso e seus tem-
pos de vida anotados. Seja X
i
= tempo de vida do i-esimo componente eletr onico, i = 1, . . . , 10.
Ache a densidade da amostra. Qual a probabilidade que todos os componentes vivam mais de
10 horas? Se todos os componentes viveram mais de 10 horas, voce acharia razo avel supor que
= 1/5? Quais as suposi coes adotadas?
Exerccio 1.5: Verique no experimento anterior em que situa coes temos uma amostra aleat oria.
Na inferencia estaremos interessados em realizar inferencias sobre f
X
(.) ou sobre alguma car-
acterstica de f
X
(.); por exemplo, sua media e variancia. Alem disso, no caso em que a popula cao
amostrada e popula cao alvo forem diferentes esperamos que as duas fun coes f
X
(.) sejam iguais, da
termos adotado o mesmo nome. Quando nos referirmos `a popula cao f
X
(.) estaremos nos referindo
`a popula cao amostrada com densidade f
X
(.). Observe que e necessario denir claramente a pop-
ula cao alvo, a informa cao a ser coletada X
i
, i = 1, . . . , n, a forma que esta informa cao e coletada
e, como veremos mais tarde, o nosso interesse na popula cao alvo.
Exemplo 1.8 : No Exemplo 1.4 vimos que no caso de uma amostra com reposi cao f
X
(.) tem uma
distribui cao Bernoulli com par ametro p, onde p e a propor cao de eleitores que apoiam o candidato,
5
e e a caracterstica da popula cao alvo de interesse sendo tambem uma caracterstica de f
X
(.).
Neste caso e claro que X da informa cao sobre p porque f
X
(.) e fun cao de p.
Exemplo 1.9: Suponha que um certo produto e testado antes de ser lan cado no mercado. Para
tanto escolhe-se algumas casas aleatoriamente de uma cidade-piloto. Neste caso, como existe in-
teresse em lan car o produto em todo o pas, a popula cao alvo e o pas, enquanto que a popula cao
amostrada s ao as famlias da cidade-piloto. Como colocado anteriormente, a inferencia da amostra
para a popula cao amostrada e baseada nos metodos da inferencia estatstica, enquanto que a ex-
trapola cao para a popula cao alvo e baseada em outros julgamentos.
Exerccio 1.6: De exemplos especicando de forma clara a popula cao alvo, a popula cao amostrada,
f(.) e possveis caractersticas de interesse de f(.)
2 Estatsticas
Quando queremos estudar um fenomeno aleat orio, devemos tirar uma amostra aleat oria X
1
, . . . , X
n
da variavel de interesse. Como estas caractersticas numericas s ao aleat orias, o melhor que pode-
mos fazer para descreve-las e utilizar sua lei de probabilidade. Se as v.a.s s ao discretas isto e feito
atraves de sua fun cao de probabilidade e se elas s ao contnuas podemos utilizar a sua densidade de
probabilidade. Primeiramente precisamos determinar a forma da distribui cao. Isto e feito atraves
de considera coes teoricas sobre o experimento em quest ao, como por exemplo, se a distribui cao e
contnua, discreta, simetrica ou nao, etc. Se isto nao for possvel e necessario utilizar inferencia nao
parametrica. Se podemos determinar a forma da distribui cao, em geral, faltam alguns par ametros
numericos que precisam ser determinados com base na amostra. Por exemplo, se estamos estu-
dando tempo de vida de l ampadas uorescentes, podemos argumentar que o tempo de vida de
l ampadas e uma v.a. contnua, positiva e como nao ha envelhecimento pode ser considerada expo-
nencial. Assim se tiramos uma a.a. X
1
, . . . , X
n
de uma distribui cao exp(), falta ainda determinar
, como isso nao e possvel de ser feito exatamente, utilizaremos a a.a. da melhor forma possvel
para estimar o par ametro .

E, portanto, natural que a estimativa seja dada atraves de uma fun cao
da amostra aleat oria X
1
, X
2
, . . . , X
n
. Para que tenham utilidade estas fun coes tem que obedecer
certas restri coes dadas pela deni cao a seguir.
Deni cao 2.1: Estatstica: Qualquer fun cao dos elementos de uma amostra, aleat oria ou nao,
que nao depende de par ametros desconhecidos e chamada de estatstica.
Exemplo 2.1: Se X
1
, X
2
, . . . , X
n
e uma amostra de uma distribui cao com densidade (ou fun cao
de probabilidade) f(x, ), ent ao
X
1
+X
2
;
X
3
X
4
;

X
n
=
n

i=1
X
i
;
n

i=1
X
2
i
;
n

i=1
X
i
S
2
X
=
n

i=1
(X
i


X)
2
;
n

i=1
log(X
i
); max(X
1
, . . . , X
n
); min(X
1
, . . . , X
n
)
s ao estatsticas.
Exemplo 2.2: Sejam X
1
, . . . , X
n
i.i.d. N(,
2
) par ametros desconhecidos e . Temos que
X
1
,

X ,

,
n

i=1
(X
i
)
2
6
nao s ao estatsticas, pois dependem de par ametros desconhecidos e .
Obs.: Estatsticas s ao v.a.s e portanto tem distribui cao de probabilidade. Por exemplo, se temos
X
1
, . . . , X
n
i.i.d. N(,
2
) ent ao

X =
1
n
n

i=1
X
i
e uma estatstica e a sua distribui cao e dada por:

X N(,

2
n
).
Note que
T =

X
S
X
/

n
t(n 1)
tem distribui cao independente de par ametros desconhecidos mas nao e uma estatstica.
2.1 Momentos amostrais
Quando foram estudadas as distribui coes de probabilidade uma das caractersticas estudadas foram
os momentos, centrais e nao centrais, das distribui coes. Alem da interpreta cao intutitiva de alguns
dos seus momentos como medidas de loca cao, dispersao, assimetria e curtose, uma das justicativas
do seu estudo e o fato delas (caso existam todas) caracterizarem a distribui cao (lembrem-se das
propriedades da fun cao geratriz de momentos que serao revistas mais tarde).
Denote por

k
= E(X
k
)
o k-esimo momento da v.a. X.
Deni cao 2.2: Momento Amostral: Se X
1
, . . . , X
n
e a.a. com a mesma distribui cao de X, o
k-esimo momento amostral e:
M
k
=
1
n
n

i=1
X
k
i
para k = 1, 2, . . ..
Note que para cada k xo M
k
e uma v.a. e e estatstica.
Nota cao: m
k
e o k-esimo momento amostral observado (isto e, apos retirarmos a amostra).
Nota: Alguns momentos amostrais tem especial importancia:
M
1
=

X =
1
n
n

i=1
X
i
e a media amostral. A estatstica
S
2
=
1
n 1
n

i=1
(X
i


X)
2
=
n
n 1
(M
2
M
2
1
)
e a variancia amostral, onde M
2
=
1
n

n
i=1
X
2
i
.
7
Teorema 2.1:
S
2
=
n
n 1
[M
2


X
2
].
Nota cao: S =
_
(S
2
) e o desvio padrao amostral.
2.1.1 Distribui cao dos momentos amostrais
Teorema 2.2: Sejam X
1
, . . . , X
n
uma amostra aleat oria de uma popula cao X. Temos,
E[M
k
] =
k
, k = 1, 2, . . .
e
Var[M
k
] =
1
n
[
2k

2
k
].
Prova:
E[M
k
] = E[
1
n
n

i=1
X
k
i
] =
1
n
n

i=1
E[X
k
i
]
=
1
n
n

i=1

k
=
k
Var[M
k
] = Var[
1
n
n

i=1
X
k
i
] =
1
n
2
n

i=1
Var[X
k
i
]
=
1
n
Var[X
k
] =
1
n
[E[X
2k
i
] E
2
[X
k
]]
=
1
n
[
2k

2
k
].
Corolario 2.1:
E[

X] = , Var[

X] =

2
n
.
Corolario 2.2:
E[S
2
] =
2
.
Prova:
E[S
2
] =
n
n 1
[E[M
2
] E[

X
2
]]
=
n
n 1
[
2
(

2
n
+
2
)]
=
n
n 1
[
2


2
n
]
=
n
n 1
[
2


2
n
]
=
n
n 1
[
n 1
n

2
] =
2
.
Teorema 2.3: Se X
1
, . . . , X
n
s ao i.i.d. N(,
2
).
(a)

X N(,
2
/n), i.e.,

X
/

n
N(0, 1).
8
(b)
n

i=1
(X
i
)
2

2

2
(n).
(c)
n

i=1
(X
i


X)
2

2

2
(n 1).
(d)

X
S/

n
t(n 1).
Prova: Este teorema est a sendo apresentado aqui, mas as provas aparecerao mais tarde na Se cao
4. O resultado (a) como aplica cao do Teorema 4.2, o (b) no Teorema 4.1, o (c) como Corol ario
4.1 e o resultado (d) como aplica cao do Teorema 4.4.
3 Somas de Variaveis Aleatorias
Vamos agora tornar um pouco mais preciso um coment ario que zemos de forma intuitiva a re-
speito de frequencia relativa: `a medida que o n umero de repeti coes de um experimento cresce, a
freq uencia relativa f
A
de um evento A converge para a probabilidade teorica P(A). Por exemplo,
se uma nova pe ca for ser produzida e nao tivermos conhecimento `a priori sobre o quao prov avel a
pe ca seja defeituosa, podemos proceder a inspe cao de um grande n umero destas pe cas. Seja N =
n umero de pe cas inspecionadas e n = n umero de pe cas defeituosas.
Portanto,
p = P(pe ca defeituosa) n/N.
Entretanto, n/N e uma variavel aleat oria, pois n b(N, p). Da,
n/N p (em algum sentido).
3.1 Lei dos Grandes N umeros
Teorema 3.1: Desigualdade de Chebyshev: Seja X uma variavel aleat oria e g() uma fun cao
nao negativa com domnio na reta real; ent ao
P[g(X) k] E[g(X)]/k para todo k > 0.
Corolario 3.1: Se X e uma variavel aleat oria com variancia nita ent ao
P[|X | r] = P[(X )
2
r
2

2
] 1/r
2
p/ todo r > 0.
Exerccio 3.1: Se uma popula cao tem = 2 e

X e a media de uma amostra de tamanho 90
encontre, utilizando Chebyshev, um intervalo que contenha |

X| com probabilidade, no mnimo,


igual a 0,90.
Teorema 3.2: Lei Fraca dos Grandes N umeros (Bernoulli). Seja E um experimento e A
um evento associado `a E. Considere N repeti coes independentes de E, n o n umero de vezes em
9
que A ocorre nas N repeti coes e p = P(A) (a qual supoe-se seja a mesma para todas as repeti coes).
Da,
P(|n/N p| )
p(1 p)
N
2
0
quando N , para todo > 0.
Teorema 3.3: Lei Fraca dos Grandes N umeros: Seja X
1
, X
2
, . . . uma sequencia de variaveis
aleat orias i.i.d. Sejam = E(X
i
) e
2
= Var(X
i
) e dena

X
n
=

n
i=1
X
i
n
.
Ent ao,
E(

X
n
) = , Var(

X
n
) =
2
/n,
e tambem
P(|

X
n
| )

2
n
2
0
quando n , para todo > 0.
Exemplo 3.1: Um grande n umero de v alvulas eletr onicas s ao testadas. Seja, T
i
o tempo de
vida da i-esima v alvula. suponha tambem que nao ha envelhecimento das pe cas e T
i
exp().
Portanto,
E(T
i
) = 1/, Var(T
i
) = 1/
2
.
Se denimos

T
n
=
T
1
+ +T
n
n
temos pela Lei Fraca dos Grandes N umeros
P(|

T
n
1/ | > ) 0
quando n para todo > 0.
Ou seja, se o tamanho da amostra n e muito grande, sera muito prov avel que o valor obtido
para a media amostral esteja proximo de 1/. Qu ao prov avel?
3.2 Teorema Central do Limite
Teorema 3.4: Seja X
1
, X
2
, . . . uma seq uencia de v.a.s i.i.d. (i.e., uma amostra aleat oria) com
E(X
i
) = e Var(X
i
) =
2
. Dena S
n
= X
1
+ +X
n
, ent ao
E(S
n
) = n, Var(S
n
) = n
2
e
Z
n
=
S
n
E(S
n
)
_
Var(S
n
)
=
S
n
n

n
=

X
n

n
N(0, 1).
Isto e, se G
n
(z) = P(Z
n
z) ent ao
lim
n
G
n
(z) = (z) =
_
z

2
e
x
2
/2
dx.
10
Como trabalhamos com amostras nitas trabalhamos com a distribui cao aproximada. Z
n
tem
distribui cao aproximadamente N(n, n
2
) e X tem distribui cao aproximadamente N(,
2
/n).
Talvez o maior problema com o teorema central do limite seja a diculdade de saber quando
n e sucientemente grande. De forma geral, quanto mais proxima a distribui cao dos X

i
s for
simetrica, unimodal, contnua, isto e, mais parecido com a distribui cao normal mais r apida e
a convergencia. Em particular temos distribui cao exata normal para qualquer n quando a dis-
tribui cao dos X

i
s for normal. Em muitos cursos introdut orios e comum as pessoas utilizarem o
n umero magico 30. Embora este n umero seja adequado para a maioria das situa coes ele nao pode
ser aplicado em todos os casos.
Alguns pontos importantes a serem vericados s ao:
1. simetria
2. nao ter caudas pesadas.
3. aproxima cao relativa melhor proximo `a esperan ca.
Se n for considerado sucientemente grande para se utilizar o teorema central do limite,
mas ainda nao e um n umero enorme, podemos nos perguntar o que ocorre com o calculo da
probabilidade de um n umero, que pode ser bem diferente de zero para a distribui cao discreta e
zero para a distribui cao contnua normal. Como os valores da distribui cao binomial s ao inteiros
adotamos o que chamamos de corre cao de continuidade de 1/2 unidade. Se Y Binomial(n, p) e
X N(np, np(1 p)), ent ao
P[Y k] P[X k + 1/2]
P[Y = k] P[k 1/2 X k + 1/2]
Outras caractersticas do teorema central do limite:
1. Nao e valida apenas para distribui coes Discreta e Contnua: O teorema central do
limite e aplicavel quando X
i
tiver qualquer tipo de distribui cao. Apenas mencionamos certas
nuan cas quando trabalhamos com distribui coes discretas.
2. Condi coes que podem ser Relaxadas: o teorema central do limite assume somente que
X
i
s ao independentes e identicamente distribuidas (iid) com variancia nita (e, portanto,
com media nita). Mas, mesmo as condi coes iid podem ser relaxadas. Por exemplo, se as
variaveis s ao independentes mas nao identicamente distribuidas, mas satisfazem as condi coes
de Lindeberg ou Liapunov (signicando, essencialmente que nenhuma variavel que entra
na soma domine totalmente a soma). Da mesma forma, existem condi coes sob as quais o
teorema central do limite ainda e aplicavel para variaveis dependentes (mas identicamente
distribuidas), se a dependencia cai rapidamente.
3. Extensao para Fun coes da Soma ou Media: O metodo delta, que sera discutido mais
tarde, permite a utiliza cao do teorema central do limite no calculo da distribui cao de fun coes
da soma de variaveis aleat orias de uma maneira direta e simples.
4. Outras limita coes of teorema central do Limite e que - embora as suposi coes de inde-
pendencia e mesma distribui cao possam ser relaxadas - a necessidade de termos as variancias

2
s dos X

i
s serem nitas nao pode ser relaxada. Portanto, o teorema central do limite nao
pode ser aplicado, por exemplo, para a distribui cao Cauchy e para a distribui c ao t-Student
com 2 ou menos graus de liberdade.
11
Exerccio 3.2: Resolva o Exerccio 3.1 anterior utilizando o teorema central do limite. Discuta se
voce pode utilizar o teorema. Por que os dois resultados s ao diferentes? Qual tamanho amostral
voce utilizaria? Justique.
Exerccio 3.3: Em uma pesquisa de opiniao p ublica utilizando amostra aleat oria simples deseja-se
que a probabilidade de que o erro absoluto da estimativa da propor cao verdadeira seja maior do
que 0,03 seja, no maximo igual a 0,05. Calcule o tamanho da amostra utilizando a desigualdade
de Chebyshev e o teorema Central do Limite. Qual resultado voce utilizaria na pratica?
Exerccio 3.4: Verique que, sob certas condi coes as distribui coes Poisson, Gama (Erlang) podem
ser aproximadas pela distribui cao normal. Quais s ao estas condi coes?
Exerccio 3.5: Um pesquisador deve estimar a media de uma popula cao utilizando uma amostra
sucientemente grande para que com probabilidade, no mnimo, igual a 0.95 a media amostral nao
seja diferente da media populacional mais do que 25% do desvio padrao. Qual deve ser o tamanho
da amostra?
Exerccio 3.6: No Exerccio 3.1 discuta se voce poderia utilizar o teorema central do limite. Caso
possa, refa ca as contas e comente os resultados.
Exemplo 3.2: Seja X
1
, X
2
, . . . uma seq uencia de v.a.s de Bernoulli independentes, (P(X
i
= 1) =
p). Ent ao S
n
= n umero de sucessos em n ensaios de Bernoulli independentes e
S
n
b(n, p).
Pelo Teorema Central do Limite (TCL),
S
n
np
_
np(1 p)
N(0, 1).
Suponha que somos produtores de arruelas, cerca de 5% das quais s ao defeituosas. Se num
lote, 100 arruelas s ao inspecionadas, qual a probabilidade de que no maximo 4 sejam defeituosas?
S
100
= n umero de arruelas defeituosas encontradas numa amostra de tamanho 100, temos
S
100
b(100, 0.05)
e
P(S
100
4) =
4

k=0
_
100
k
_
(0.05)
k
(0.95)
100k
= P(
S
100
100 0.05

100 0.05 0.95

4 100 0.05

100 0.05 0.95


)
= P(Z
100

1
2.179
) = P(Z
100
0.459)
(0.459) = 0.3228.
E se encontrarmos 8 defeituosos, ainda acreditamos que p = 0.05?
P(S
100
8) = 1 P(S
100
7)
= 1 P(
S
100
100 0.05

100 0.05 0.95

7 100 0.05

100 0.05 0.95


)
= 1 P(Z
100

2
2.179
)
0.166.
12
Refa ca as contas utilizando a corre cao de continuidade e verique se existe alguma diferen ca e
compare com os valores exatos.
Exemplo 3.3: Considere que a distribui cao do tempo de vida de um componente pode ser aprox-
imado por uma distribui cao exponencial com media igual a 1 dia. Sabe-se que um componente e
substitudo assim que falha, que os tempos de falhas podem ser considerado como independentes,
e que o componente nao falha enquanto nao estiver em uso. Qual o tamanho do estoque necessario
para que o estoque seja suciente para 10 dias com probabilidade, no mnimo igual 0,90.
Vamos denotar por T
i
o tempo de falha do i-esimo componente e por T = T
1
+. . . +T
n
o tempo
de falha total. Queremos que
P[T = T
1
+. . . +T
n
< 10] < 0, 10
a. Distribui cao exata
Sabemos se T
i
tem distribui cao exponencial com media igual a 1 ent ao 2T
i
tem distribui cao expo-
nencial com media igual a 2, que e uma qui-quadrado com 2 g.l. Como a soma de qui-quadrados e
uma qui-quadrado com o g.l. dada pela soma dos g.ls. temos que 2T tem distribui cao
2n
. Logo
queremos encontrar n tal que
P[
2n
< 20] < 0, 10
Pela tabela das distribui coes qui-quadrados temos que 2n = 30; isto e, e necessario no mnimo um
estoque de n = 15 componentes. Discuta a solu cao utilizando a distribui cao de Poisson.
b. Distribui cao aproximada
Pelo TCL temos que a distribui cao de T pode ser aproximada por uma normal N(n, n). Portanto
P[T < 10] = P[N(n, n) < 10] = P[N(0, 1) <
10 n

n
] < 0.10
isto e
10 n

n
= 1.28 n = 15
Observe que nos 2 casos os resultados foram iguais mesmo considerando que a distribui cao expo-
nencial e bastante assimetrica e diferente da normal, e que o tamanho da amostra, n = 15, nao e
muito grande. Por outro lado a distribui cao qui-quadrado com 30 g.l. e a soma de quadrados de
30 normais independentes.
4 Amostragem em popula coes normais
4.1 O Papel da Distribui cao Normal na Estatstica
A importancia da distribui cao normal na estatstica baseia-se principalmente nos seguintes fatos:
Existencia do Teorema Central do Limite;
A distribui cao aproxima v arias das distribui coes encontradas na realidade;
Na inferencia sobre popula coes realizadas a partir de amostras geralmente e necessar ario ter
distribui coes de uma ou mais estatsticas. O problema de se encontrar a distribui cao e mais
facil quando a distribui cao da popula cao e normal. Este fato cresce em importancia devido
aos outros itens ;
13
Suponha que sejam realizadas inferencias utilizando a suposi cao de normalidade. As con-
clus oes estarao proximas da verdadeira se a distribui cao real nao estiver muito distante da
normal. Esta propriedade chama-se robustez. Observe, no entanto, que nem todas as es-
tatsticas baseadas em distribui coes normais s ao robustas.
4.2 Distribui cao Qui-quadrado
Deni cao 4.1: Se Y e uma v.a. contnua, positiva (P(Y > 0) = 1) com densidade
f
Y
(y) =
1
(n/2)
1
2
n/2
y
(n/2)1
e
y/2
, y > 0
dizemos que Y tem distribui cao qui-quadrado com n graus de liberdade.
Nota cao: Y
2
(n).
Temos que E(Y ) = n, e Var(Y ) = 2n, fun cao geradora de momentos m
Y
(t) = (1 2t)
n/2
para t < 1/2.
Teorema 4.1: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao N(,
2
). Ent ao
U =
n

i=1
(
X
i

)
2
tem distribui cao
2
(n).
Prova: Sejam as v.a.s i.i.d.
Z
i
=
X
i

N(0, 1)
e temos U =

n
i=1
Z
2
i
. A qual tem fun cao geradora de momentos,
m
U
(t) = E[e
tU
] = E[e
t

n
i=1
Z
2
i
]
= E[

i = 1
n
e
tZ
2
i
] =
n

i=1
E[e
tZ
2
i
]
mas,
E[e
tZ
2
i
] =
_
+

e
tz
2 1

2
e
z
2
/2
dz
=
_
+

2
e
(1/2)(12t)z
2
dz
=
1

1 2t
_
+

1 2t

2
e
(1/2)(12t)z
2
dz
. .
=1
, t < 1/2
=
1

1 2t
, t < 1/2.
Portanto, m
U
(t) = (1 2t)
n/2
, que e a tem fun cao geradora de momentos da distribui cao

2
(n). Pelas propriedades da fun cao geradora de momentos, temos que U
2
(n).
Notas:
14
o teorema anterior nos diz que a soma dos quadrados de k normais padroes independentes
tem distribui cao qui-quadrado com k g.l.
a soma de qui-quadrados independentes e uma qui-quadrado com o grau de liberdade dado
pela somas dos graus de liberdade.
distribui cao qui-quadrado com 2 g.l. e igual a uma distribui cao exponencial com media igual
a 2.
Exerccio 4.1: Qual a rela cao entre as distribui coes Gama e qui-quadrado?
Exemplo 4.1: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribuiccao exponencial com
media 4. Utilize as distribui coes Gama, Poisson, qui-quadrada e o TCL para calcular a Probabili-
dade de que a media amostral esteja entre 1.5 e 2.5 para n=20.
Se X tem distribui cao exponencial com media 4, X/2 tem distribui cao exponencial com media
2 (par ametro 1/2), ou seja qui-quadrado com 2 graus de liberdade. Portanto, podemos utilizar
os seguintes fatos para calcular as probabilidades.

X
i
/2 tem distribui cao Gama(n,1/2) que e
a distribui cao qui-quadrado com 2n graus de liberdade. Alem disso, a probabilidade de que a
media esteja no intervalo e igual a probabilidade de que o total esteja entre 30 e 50, ou seja, que a
vigesima ocorrencia ocorra entre 30 e 50. Pelo TCL basta lembrar que X tem media e variancia
respectivamente iguais a 4 e 6.
Teorema 4.2: Se Z
1
, Z
2
, . . . s ao v.a.s i.i.d. N(0, 1). Temos:
(i)

Z
n
N(0, 1/n);
(ii)

Z
n
e

n
i=1
(Z
i


Z
n
)
2
s ao v.a.s independentes;
(iii)

n
i=1
(Z
i


Z
n
)
2

2
(n 1).
Prova: Estudar Teorema 6, pagina 241 e Teorema 8, pagina 243 do livro do Mood et al.
Aplica cao: Suponha que temos X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao N(,
2
).
Ent ao
Z
i
=
X
i

N(0, 1)
e por (i)
1
n

Z
i
=
1
n
n

i=1
X
i

=
1
n

n
i=1
X
i
n

N(0, 1/n)
Portanto,

X N(,

2
n
).
Por (ii) temos que

e
n

i=1
(X
i


X)
2

2
s ao independentes e por (iii)
n

i=1
(X
i


X)
2

2

2
(n 1).
15
Nota: Estamos utilizando o fato de que combina coes lineares de variaveis aleat orias normais in-
dependentes tambem tem distribui cao normal. Observe que nem sempre combina coes lineares de
variaveis aleat orias normais tem distribui cao normal. Uma condi cao suciente e que a distribui cao
multivariada do vetor multivariado das variaveis tenha distribui cao normal multivariada.
Corolario 4.1: Seja
S
2
=
n

i=1
(X
i


X)
2
n 1
a variancia amostral. Ent ao
(n 1)S
2

2

2
(n 1).
4.3 Distribui cao F de Snedecor
Deni cao 4.2: Se Z e uma v.a. contnua, positiva (P(Z > 0) = 1) com densidade
f
Z
(z) =
((m+n)/2)
(m/2)(n/2)
(m/n)
m/2
z
(m2)/2
(1 + (mz/n))
(m+n)/2
, z > 0
dizemos que Z tem distribui cao F de Snedecor com m e n graus de liberdade.
Nota cao: Z F(m, n).
Temos que E(Z) = n/(n 2), para n > 2 e Var(Z) = (2n
2
(m + n 2))/(m(n 2)
2
(n 4)),
para n > 4.
Teorema 4.3: Se X
2
(m) e Y
2
(n) s ao v.a.s independentes ent ao
F =
X/m
Y/n
F(m, n).
Aplica cao: SejamX
1
, . . . , X
m
uma amostra aleat oria N(
1
,
2
) e Y
1
, . . . , Y
n
uma amostra aleat oria
N(
2
,
2
) independentes. Se denimos
S
2
X
=
m

i=1
(X
i


X)
2
m1
e S
2
Y
=
n

i=1
(Y
i


Y )
2
n 1
ent ao temos que
(m1)S
2
X

2

2
(m1)
e
(n 1)S
2
Y

2

2
(n 1)
s ao independentes. Portanto,
S
2
X
S
2
Y
F(m1, n 1).
Notas:
16
Se a variavel aleat oria X tem distribui cao F com m e n g.l., ent ao 1/F tem distribui cao F
com n e m g.l.
Se a variavel aleat oria X tem distribui cao F com m e n g.l. ent ao W =
mX/n
1+mX/n
tem
distribui cao Beta(a = m/2, b = n/2).
4.4 Distribui cao t-Student
Deni cao 4.3: Se T e uma v.a. contnua com densidade
f
T
(t) =
((n + 1)/2)
(n/2)

n
[1 +
t
2
n
]
(n+1)/2
, t R
dizemos que T tem uma distribui cao t de Student com n graus de liberdade.
Nota cao: T t(n).
Temos E(T) = 0, se n > 1 e Var(T) = n/(n 2), se n > 2.
Observa cao: (t) =
_

0
x
t1
e
x
dx.
Teorema 4.4: Se Z N(0, 1) e U
2
(n) s ao v.a.s independentes, ent ao
Z
_
U/n
t(n).
Aplica cao: Seja X
1
, . . . , X
n
uma amostra aleat oria N(,
2
), sabemos que

X
/

n
N(0, 1)
e
n

i=1
(X
i


X)
2

2

2
(n 1)
s ao v.a.s independentes. Portanto,
T =

X
/

n
_
(1/(n 1))

n
i=1
(Xi

X)
2

2
=

X
_
1/n
_
(1/(n 1))

n
i=1
(X
i


X)
2
=

X
S/

n
t(n 1).
Por exemplo, para n = 30, pela tabela temos qye
P(T > 1.699) = 0.05
e
P(|

X
S/

n
| 1.699) = 0.90
i.e.,
P(

X 1.699
S

n


X + 1.699
S

n
) = 0.90. qualquer que seja o valor de
2
.
Exerccio 4.2: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma popula cao normal com media e
variancia
2
. A amostra e realizada para se estimar o valor da media. Neste caso podemos dar
um valor como estimativa da media, ou ent ao dar um intervalo.
17
a. Considere que a variancia seja conhecida e que o intervalo seja dado na forma (

Xa,

X+a).
Dado que n = 25, qual o valor de a para que intervalos deste tipo contenham o valor verdadeiro
de com probabilidade igual a 0.90?
b. Suponha agora que a variancia seja desconhecida e voce decide formar intervalos da forma
(

X bS,

X +bS). Encontre o valor de b.
c. Encontre agora o valor da tamanho da amostra tal que nos casos anteriores os valores de a
e b sejam igual a 0,1.
d. Discuta nos casos anteriores a necessidade da suposi cao de termos uma amostra aleat oria
de uma normal.
Nota: No exemplo anterior temos o que chamamos de estimativa por intervalos de conan ca.
Observe que, mesmo nao conhecendo o valor verdadeiro de , intervalos construdos desta forma
incluem o valor verdadeiro, em media, em 90% dos casos, ou com probabilidade 0.90. Desta forma,
dizemos que temos 90% de conan ca no intervalo construdo.
Exerccio 4.3: Em um processo de produ cao o diametro dos parafusos podem ser considerados
independentes com distribui cao normal N(,
2
). Quando o processo est a sob controle temos que
= 10 e = 0, 5. A cada hora 20 parafusos s ao selecionados e calculados a media e variancia
amostral. Estes valores s ao utilizados para vericar se houve aumento da variabilidade ou se a
media se modicou. Foram encontrados os seguintes valores x = 10.5 e s = 0.48. Neste caso que
tipo de conclus ao voce tiraria?
Notas:
Neste caso estamos interessados apenas em vericar se certa hip otese e verdadeira ou nao;
e um caso tpico de teste de hip oteses, que junto com estima cao formam os dois problemas
principais de inferencia estatstica.
Observe que apenas tratamos de estatsticas que s ao fun coes das medias e variancias amostrais.
Mais tarde veremos que as medias e as variancias amostrais contem toda a informa cao quando
amostramos de uma popula cao normal.
Exemplo 4.4: Sejam Z
1
, Z
2
uma amostra aleat oria de tamanho 2 de uma N(0, 1) e X
1
, X
2
uma
amostra aleat oria de tamanho 2 de uma N(1, 1). Suponha que os Z

i
s sejam independentes dos
X

i
s. De as distribui coes das seguintes variaveis aleat orias:
a.

X +

Z.
b. (Z
1
+Z
2
)/
_
[(X
2
X
1
)
2
+ (Z
2
Z
1
)
2
]/2.
c. [(X
2
X
1
)
2
+ (Z
2
Z
1
)
2
+ (Z
2
+Z
1
)
2
]/2
d. (X
2
+X
1
2)
2
/(X
2
X
1
)
2
.
5 Estatsticas de ordem
Deni cao 5.1: Estatsticas de Ordem: Considere uma amostra aleat oria X
1
, . . . , X
n
de uma
popula cao com fun cao distribui cao F(.). Coloque a amostra em ordem crescente
X
(1)
X
(2)
X
(n)
temos
X
(1)
= min(X
1
, . . . , X
n
),
X
(n)
= max(X
1
, . . . , X
n
),
18
X
(i)
= i-esima estatstica de ordem.
Note que X
(1)
, X
(2)
, . . . , X
(n)
s ao v.a.s, mas nao s ao independentes. Pois, por exemplo,
P[X
(1)
y|X
(n)
y] = 1.
Deni cao 5.2: Mediana Amostral : Dada uma amostra aleat oria X
1
, . . . , X
n
a mediana
amostral e dada por:
M
0
= X
(
n+1
2
)
, se n e mpar
1
2
[X
(
n
2
)
+X
(
n+2
2
)
], se n e par.
Teorema 5.1: Em uma amostra aleat oria
F
X
(n)
(t) = P(X
(n)
t) = [F(t)]
n
e
F
X
(1)
(t) = P(X
(1)
t) = 1 [1 F(t)]
n
.
Prova:
F
X
(n)
(t) = P(X
(n)
t) = P(X
1
t, . . . , X
n
t)
(indep) = P(X
1
t) . . . P(X
n
t)
= [F(t)]
n
F
X
(1)
(t) = P(X
(1)
t) = 1 P(X
(1)
> t)
= 1 P(X
1
> t, . . . , X
n
> t)
(indep) = 1 P(X
1
> t) . . . P(X
n
> t)
= 1 [1 F(t)]
n
.
Se as v.a.s X
1
, . . . , X
n
s ao contnuas e tem densidade f temos
f
X
(n)
(t) = n[F(t)]
n1
f(t) e
f
X
(1)
(t) = n[1 F(t)]
n1
f(t).
6 Distribuicoes assintoticas
Um resultado assint otico e o Teorema Central do Limite. Podemos dizer que se X
1
, . . . , X
n
e uma
a.a. com E(X
i
) = , e Var(X
i
) =
2
. Ent ao

n(

X )

N(0, 1).
Exerccio 6.1: Utilizando o MINITAB, verique o Teorema Central do Limite.
Pergunta: Existe distribui cao assint otica da mediana?
Resposta: Sim!
M
0
N(
0.5
,
1
4n[f(
0.5
]
2
)
onde
0.5
e a mediana populacional (F(
0.5
) = 0.5), f e a densidade das v.a.s X
i
.
19
7 Agumas Distribuicoes de Probabilidade
Suponha que X
1
, . . . , X
n
seja uma amostra aleat oria de uma popula cao com distribui cao com f.d.p.
f(.). Estamos interessados na distribui cao da media amostral. Neste caso podemos trabalhar com
a variavel aleat oria

X ou com a variavel aleat oria T
n
= n.

X . A seguir s ao apresentadas algumas
distribui coes, suas propriedades e as distribui coes exatas de algumas delas.
7.1 Distribui coes discretas
a. Distribui cao Uniforme
f(x; N) = N
1
I
{1,2,...,N}
(x)
E(X) = (N + 1)/2 V (X) = (N
2
1)/12
b. Distribui cao de Bernoulli (236)
f(x; p) = p
x
(1 p)
1x
I
{0,1}
(x); 0 p 1
E(X) = p V (X) = pq
- T
n
tem distribui cao Binomial B(n,p) dada a seguir
c. Distribui cao Binomial: B(N,p)
f(x; N, p) =
_
N
p
_
p
k
(1 p)
Nk
I
{0,...,n}
(x); 0 p 1
E(X) = Np V (X) = Npq
- T
n
tem distribui cao Binomial B(nN,p)
d. Distribui cao Hipergeometrica
E(X) = nK/M V (X) =
nK
M
_
(M K)(M n)
M(M 1)
_
e. Distribui cao de Poisson: P()
f(x; ) =
e

x
x!
I
{0,1,...}
(x)
E(X) = V (X) =
- T
n
tem distribui cao de Poisson P(n)
f. Distribui cao Geometrica: G(p)
f(x; l) = p
x
(1 p)
1x
I
{0,1,...}
(x); 0 p 1
E(X) = q/p V (X) = q/p
2
20
- T
n
tem distribui cao Binomial Negativa BN(r,p)
g. Distribui cao Binomial Negativa: BN(r, p)
f(x; r, p) =
_
r +x 1
x
_
p
r
(1 p)
x
I
{0,...}
(x); 0 p 1
E(X) = rq/p V (X) = rq/p
2
- T
n
tem distribui cao Binomial Negativa BN(nr,p)
7.2 Distribui coes contnuas
a Distribui cao Uniforme: U(a, b)
f(x; a, b) = (b a)
1
I
[a,b]
(x)
E(X) = (b +a)/2 V (X) = (b a)/12
f
Tn
(t) =
n1

k=0
1
(n 1)!
_
t
n1

_
n
1
_
(t 1)
n1
+
_
n
2
_
(t 2)
n1
. . . ...
. . . + (1)
k
_
n
k
_
(t k)
nk
_
I
[k,(k+1)]
(x)
b. Distribui cao Normal: N(,
2
)
f(x; ,
2
) =
1

2
2
e

(x)
2

2
E(X) = V (X) =
2
- T
n
tem distribui cao N(n, n
2
) e

X tem distribui cao N(,
2
/n)
c. Distribui cao Exponencial: Exp()
f(x; ) = e
x
I
[0,)
(x); > 0
E(X) = 1/ V (X) = 1/
2
Sem mem oria;
Taxa de falha constante;
T
n
tem distribui cao Gama(n, );
Se o n umero de ocorrencias de um fenomeno tem distribui cao de Poisson homogenea ent ao
o tempo entre ocorrencias tem distribui cao Exponencial.
Se X
T
e o n umero de ocorrencias no intervalo [0,T], ent ao
P[X
T
< n] = P[Tempo da n-esima ocorrencia > T] = P[Gama(n, ) > T]
21
d. Distribui cao Gama: Gama(r, )
f(x; r, ) = [(r)]
1
(x)
r1
exp
x
I
[0,)
(x); r > 0, > 0
E(X) = r/ V (X) = r/
2
- Gama(1, ) = Exp()
- T
n
tem distr. Gama(nr, ) e

X
n
tem distribui cao Gama(nr, n)
e. Distribui cao Beta: Beta(, )
f(x; , ) = [B(, )]
1
x
1
(1 x)
1
I
(0,1)
(x); > 0, > 0
E(X) =

+
V (X) =

( + + 1)( +)
2
- Beta(1,1) = U(0,1)
f. Distribui cao de Cauchy: Cauchy(, )
f(x; , ) =
1
{1 + [(x )/]
2
}
< < , > 0
F(x; , ) = 0.5 +
1
arctan[(x )/]
nao tem nenhum momento denido, logo a fun cao geratriz de momentos nao existe. No
entanto, a fun cao caracterstica sempre existe, o que e uma das vantagens de se trabalhar
com estas fun coes complexas;
Se X
1
e X
2
s ao iid N(0,1) ent ao X
1
/X
2
tem distr. C(0,1)
g. Exponencial Dupla ou de Laplace
h. Distribui cao de Weibull: W(, )
f(x; , ) = x
1
e
x

I
(0,)
(x); > 0, > 0
- W(1, ) = Exp()
- Se X tem distribui cao W(, ) ent ao W

tem distribui cao Exp().


- Taxa de falha Z(t) = t
1
8 Alguns teoremas importantes
Teorema 8.1: Desigualdade de Jensen : Seja X uma variavel aleat oria e g(.) uma fun cao
convexa; ent ao E[g(X)] g(E[X]).
Teorema 8.2: Se X
1
, . . . , X
n
s ao variaveis aleat orias independentes e se g
1
(.), . . . , g
k
(.) s ao k
fun coes tais que Y
j
= g
j
(X
j
), j = 1, . . . , k s ao variaveis aleat orias, ent ao Y
1
, . . . , Y
k
s ao indepen-
dentes.
Teorema 8.3 Seja (X,Y) uma variavel aleat oria bi-dimensional; ent ao E[g(Y)] = E[E[g(Y)/X]].
Em particular
22
E[Y ] = E[E[Y |X]]; e
(p.159) V ar[Y ] = E[V ar[Y |X]] +V ar[E[Y |X]].
Teorema 8.4: Seja (X,Y) uma variavel aleat oria bi-dimensional e g
1
(.) e g
2
(.) fun coes de uma
variavel. Ent ao
E[g
1
(Y ) +g
2
(Y )|X = x] = E[g
1
(Y )|X = x] +E[g
2
(Y )|X = x],
E[g
1
(Y )g
2
(X)|X = x] = g
2
(x)E[g
1
(Y )|X = x].
Teorema 8.5: Sejam X uma variavel aleat oria contnua com f.d.p. f
X
(.) e = {x : f
X
(x) > 0}.
Assuma que
i) y = g(x) dene uma transforma cao um a um de em D.
ii) A derivada de x = g
1
(y) com respeito a y seja contnua e nao zero para y D.
Ent ao Y = g(X) e uma variavel aleat oria contnua com f.d.p.
f
Y
(y) = |
d
dy
g
1
(y)|f
X
[g
1
(y)]I
D
(y)
.
Teorema 8.6: Se X e uma variavel aleat oria com fun cao distribui cao contnua F
X
(x), ent ao
U = F
X
(X) e uniformemente distrbuido sobre o intervalo (0,1). Conversamente, se U e uniforme-
mente distribudo sobre o intervalo (0,1) ent ao X = F
1
X
(U) tem fun cao distribui cao F
X
(.).
Teorema 8.7: Sejam X
1
e X
2
variaveis aleat orias conjuntamente contnuas com fun cao densidade
f
(X1,X2)
(x
1
, x
2
). Seja = {(x
1
, x
2
) : f
(X1,X2)
(x
1
, x
2
) > 0}. Assuma que
(i) y
1
= g
1
(x
1
, x
2
) e y
2
= g
2
(x
1
, x
2
) dene uma transforma cao 1-1 de em D; onde D e o conjunto
de pontos (y
1
, y
2
) para os quais existem (x
1
, x
2
) tais que (y
1
, y
2
) = (g
1
(x
1
, x
2
), g
2
(x
1
, x
2
)).
(ii) As primeiras derivadas de x
1
= g
1
1
(y
1
, y
2
) e x
2
= g
1
2
(y
1
, y
2
) s ao contnuas em D.
(iii) O Jacobiano da transforma cao e nao zero para (y
1
, y
2
) D.
Ent ao a densidade conjunta de Y
1
= g
1
(X
1
, X
2
) e Y
2
= g
2
(X
1
, X
2
) e dada por:
f
(Y1,Y2)
(y
1
, y
2
) = |J|f
(X1,X2)
(g
1
1
(y
1
, y
2
), g
1
2
(y
1
, y
2
))I
D
(y
1
, y
2
).
Este teorema pode ser generalizado para um vetor de qualquer dimensao.
Exemplo 8.1: Considere uma amostra aleat oria de uma uniforme U(0,1). Encontre a f.d.p. de
X
1
+X
2
e de X
1
+X
2
+X
3
utilizando o teorema anterior.
Para n = 2 considere a transforma cao
y = x
1
+x
2
,
z = x
1
,
que tem a seguinte inversa:
x
2
= y z,
x
1
= z.
23
Como a f.d.p. conjunta da variavel aleat oria (X
1
, X
2
) e uma uniforme e o Jacobiano igual a 1
temos que a f.d.p. conjunta da variavel aleat oria (Y, Z) e dada por
f
(Y,Z)
(y, z) = I
A
(y, z),
onde A = {(y, z); 0 z 1, z y z + 1}
e a f.d.p. marginal de Y e dada por
f
Y
(y) =
_
_
y
z=0
1dz = y, se 0 y 1
_
1
z=y1
1dz = 2 y, se 1 < y 2
Para o caso da soma de 3 uniformes tanto podemos encontrar a f.d.p. utilizando a soma Y +X
3
como podemos aplicar o teorema diretamente utilizando uma transforma cao adequada. Como a
primeira abordagem e semelhante ao caso anterior vamos utilizar a segunda abordagem. Considere
o seguinte sistema de transforma coes:
y = x
1
+x
2
+x
3
,
z = x
1
,
w = x
2
.

E facil encontrar a inversa e vericar que o Jacobiano e igual a 1. Logo a f.d.p. conjunta da variavel
aleat oria (Y, Z, W) e dada por:
f
(Y,Z,W)
(y, z, w) = I
A
(y, z, w),
onde A = {(y, z, w); 0 z 1, 0 z 1, z +w y z +w + 1}
e a f.d.p. marginal de Y e dada pela integral em z e w. Isto e:
Para 0 Y 1
f
Y
(y) =
_
y
z=0
(
_
yz
w=0
1dw)dz =
_
y
z=0
(y z)dz = y
2
/2.
Para 1 Y 2
f
Y
(y) =
_
y1
z=0
(
_
1
w=yz1
1dw)dz +
_
1
z=y+1
(
_
yz
w=0
1dw)dz
=
_
y1
z=0
(2 y +z)dz +
_
1
z=y+1
(y z)dz
= y
2
+ 3y 1.5,
onde a primeira parcela e para (y z) > 1, isto e z < (y 1), enquanto a segunda parcela e para
y z < 1, isto e z > y 1.
Para 2 Y 3
f
Y
(y) =
_
1
z=y2
(
_
1
w=y1z
1dw)dz =
_
1
z=y2
(2 +z y)dz
= y
2
/2 3y + 4.5.
Exerccio 8.1: Sejam X
1
e X
2
variaveis aleat orias independentes com distribui coes Gama com
par ametros (n
1
, ) e (n
2
, ), respectivamente. Mostre que a distribui cao da variavel aleat oria
Y
1
= X
1
/(X
1
+X
2
) tem distribui cao Beta(n
1
, n
2
), e que e independente de (X
1
+X
2
) . Utilize as
tranforma coes Y
1
= X
1
/(X
1
+X
2
) e Y
2
= X
1
+X
2
24
Cap. 2 - Estima cao Parametrica Pontual
1 Introducao
Assuma que alguma caracterstica de interesse dos elementos de uma popula cao amostrada possa
ser representada por uma v.a. X, cuja densidade (ou fun cao de probabilidade) e f(, ), onde a
forma da densidade e assumida ser conhecida, exceto por um par ametro desconhecido . Nesta
situa cao vamos considerar que tomamos uma amostra de tamanho n de X (em geral temos uma
amostra aleat oria, i.e. X
1
, . . . , X
n
e i.i.d. com densidade f(, )). Com base nos valores observados
x
1
, . . . , x
n
, deseja-se um bom chute do valor ou de uma fun cao ().
Exemplo 1.1:

E razo avel supor que o n umero de clientes que v ao ao Banespa no hor ario das 12 ` as
14h e uma v.a. Poisson com media (desconhecida) . A m de dimensionar o n umero de pessoas
(caixas), que devem trabalhar nesse hor ario, observamos o movimento do banco durante 10 dias.
Baseado nessas observa coes desejamos estimar e a probabilidade de que em um intervalo de 15
minutos compare cam pelo menos 10 clientes.
Exemplo 1.2: Um partido poltico realiza pesquisas periodicamente para acompanhar a popular-
idade do partido entre os eleitores. Em cada pesquisa procura-se estimar a propor cao de eleitores
que aprovam as atividades do partido.
A estima cao de um par ametro de interesse pode ser feita de duas formas:
(i) Estima cao Pontual: Tomamos o valor de alguma estatstica T(X
1
, . . . , X
n
) para representar,
ou estimar, (). Tal estimativa e chamada estimativa pontual;
(ii) Estima cao por intervalo: Denimos duas estatsticas T
1
(X
1
, . . . , X
n
) e T
2
(X
1
, . . . , X
n
) onde
T
1
(X
1
, . . . , X
n
) < T
2
(X
1
, . . . , X
n
)
de modo que [T
1
(X
1
, . . . , X
n
), T
2
(X
1
, . . . , X
n
)] constitui um intervalo aleat orio para o qual e
possvel se calcular a probabilidade que este intervalo contenha (). Este intervalo aleat orio,
bem como o intervalo obtido pela substitui cao dos valores observados s ao chamados de intervalos
de conan ca.
Exemplo 1.3: Se queremos descobrir a massa de um objeto e queremos ter uma ideia da con-
an ca no resultado podemos pesar o objeto n vezes; chame os resultados de X
1
, . . . , X
n
.

E
razo avel supor que X
i
N(,
2
), onde e o valor procurado e = (,
2
) e o vetor de par ametros
desconhecidos. Estamos interessados em estimar () = . A estatstica

X =
1
n
n

i=1
X
i
e um estimador pontual para e
_

X 2
_
S
2
n
;

X + 2
_
S
2
n
_
e um intervalo de conan ca para . Assim como existe um n umero incont avel de estimadores
pontuais existe um um n umero incont avel de estimadores por intervalo. Temos ent ao os seguintes
problemas:
25
Como encontrar um bom estimador?
Como selecionar o melhor estimador?
2 Metodos para se encontrar estimadores
Assuma que X
1
, . . . , X
n
e uma amostra com fun cao distribui cao F
X
(, ) ( no caso de amostra
aleat oria, de uma popula cao com fun cao (densidade) de probabilidade f(, )) e = (
1
, . . . ,
k
) e
um vetor de n umeros reais (podemos ter k = 1).
Deni cao 1.1: Espa co Parametrico : O conjunto de valores possveis que pode assumir e
chamado de espa co parametrico, e geralmente e denotado por .
Objetivo: Queremos, a partir das informa coes da amostra estimar alguma fun cao de F
X
(, ) ou
f(, ). Esta fun cao e fun cao de , denote a por (). A estima cao e realizada atraves de fun coes
da amostra que nao podem depender de valores desconhecidos. Estas fun coes foram denidas an-
teriormente como Estatstica. Logo,
Deni cao 1.2: Estimador: Qualquer estatstica cujos valores s ao usados para estimar () e
dita ser um estimador de ().
Exemplo 1.4: Suponha que os pesos dos frangos de um certo galp ao possam ser considera-
dos como tendo distribui cao aproximadamente normal. Podemos estar interessados em estimar
o peso medio dos frangos, a variancia ou a propor cao de frangos acima de um peso P
0
. Caso
n frangos sejam escolhidos aleatoriamente, chamando de X
i
o peso do i-esimo frango, podemos
considerar X
1
, . . . , X
n
i.i.d. N(,
2
). Temos como par ametro = (,
2
) e o espa co parametrico
= {(,
2
); > 0,
2
> 0}. Neste caso, as fun coes () seriam iguais a ,
2
e P[N(,
2
) > P
0
],
respectivamente. Como estimadores podemos, por exemplo, utilizar

X para estimar , S
2
para
estimar
2
e P[N(

X, S
2
) > P
0
] para estimar a propor cao.
2.1 Metodo dos momentos
Este metodo e o mais antigo, proposto por Karl Pearson em 1894. Este e um metodo simples que
produz resultados razo aveis na maioria dos casos. Iremos considerar que temos ums amostra
(nao necessariamente aleat oria) de tamanho n, isto e, X
1
, , X
n
, e tal que X
i
, i = 1, n tem
distribui cao f(,
1
, . . . ,
k
). Seja X uma v.a. com distribui cao f(, ). Dena

r
= E[X
r
]
o r-esimo momento de X. Em geral,
r
e fun cao de
1
, . . . ,
k
. Seja X
1
, . . . , X
n
uma amostra de
f(, ) e denote
M
r
=
1
n
n

i=1
X
r
i
o r-esimo momento amostral. Sabemos que
E[M
r
] =
r
(
1
, . . . ,
k
),
26
da e intuitivo utilizar os valores de
M
r
=
r
(

1
, . . . ,

k
)
para estimar os par ametros.
Existem v arias formas de denir estes estimadores; come caremos pelos mais simples, que s ao
utilizados nos textos mais introdut orios.
Deni cao 1.3.a: O estimador pelo metodo dos momentos (EMM) de , denotado por (

1
, . . . ,

k
)
e dada pela solu cao do sistema de equa coes:
M
i
=
i
(

1
, ,

k
), i = 1, , k,
isto e, iguala-se os k primeiros momentos amostrais aos k primeiros momentos populacionais.
Esta deni cao tem a vantagem de levar, quase sempre, a uma solu cao unica. No entanto, nem
sempre leva a uma solu cao. Por exemplo, tome uma amostra aleat oria de uma popula cao nor-
mal com media conhecida, onde o par ametro desconhecido e a variancia, ou ent ao a distribui cao
exponencial dupla. Para evitar o problema de nao levar a nenhum estimador pode-se generalizar
a deni cao escolhendo-se de forma adequada k momentos amostrais e populacionais para serem
igualados. A deni cao ca
Deni cao 1.3.b: Um estimador pelo metodo dos momentos e qualquer solu cao de um sistema de
equa coes dado por
M
i
=
i
(

1
, ,

k
), i I, I = {i
i1
, , i
ik
}
para uma escolha adequada de forma que se tenha uma solu cao unica.
Em geral procura-se utilizar os momentos de mais baixa ordem. Isto se deve ao fato dos mo-
mentos amostrais com menor ordem terem menor variabilidade e serem menos afetados por valores
aberrantes. Dada a liberdade de escolha dos momentos utilizados esta deni cao nao produz um
estimador unico.
Exemplo 1.5: Seja X
1
, . . . , X
n
uma a.a. de uma distribui cao N(,
2
). Neste caso,

1
= ,
2
=
2

2
1
.
Da, utilizando-se os dois primeiros momentos temos:
M
1
= , M
2
=
2
+
2
,
cuja solu cao e:
= M
1
=

X e =
_
M
2
M
2
1
=
_

(X
i


X)
2
n
.
Exemplo 1.6: Seja X
1
, . . . , X
n
uma a.a. de uma Poisson(). Queremos estimar pelo metodo de
momentos. Como temos somente um par ametro, uma equa cao e suciente. Por exemplo, tomando
o primeiro momento temos:
M
1
=

X =

.
Exemplo 1.7: Seja X
1
, . . . , X
n
uma a.a. de uma exp(). Lembre-se que
1
= 1/. Queremos
estimar pelo metodo de momentos. Como antes temos somente um par ametro. Tomando-se o
primeiro momento temos:
M
1
=

X = 1/



=
1

X
.
27
Verique a solu cao caso fosse escolhido o segundo momento.
Exemplo 1.8: Sejam X
1
, . . . , X
n
i.i.d. U[a, b], onde o par ametro de interesse e (
1
,
2
) = (a, b).
Neste caso,

1
=
a +b
2
,
2
=
a
2
+ab +b
2
3
.
Assim, um estimador pelo metodo dos momentos e dado pela solu cao de:
M
1
=
1
=
a +

b
2
, M
2
=
a
2
+ a

b +

b
2
3
.
Exemplo 1.9: Sejam X
1
, . . . , X
n
i.i.d. U[0, ], o par ametro de interesse e . Neste caso,

1
=

2


= 2

X.
Suponha que x
1
= 4, x
2
= 6, x
3
= 50 e assim x = 20. Assim,

= 40.
Este e um resultado absurdo pois sabemos que 50 = x
(n)
; ou seja, o metodo dos mo-
mentos pode produzir pessimas estimativas. Um estimador melhor seria, por exemplo, T

(X) =
max(X
(n)
, 2X).
Deni cao 1.3.c: Suponha que queremos estimar = () e que ela possa ser expressa como uma
fun cao contnua dos r primeiros momentos populacionais, isto e, que
() = g(
1
, ,
r
).
Neste caso dizemos que um estimador de pelo metodo dos momentos e dado por
T(X) = g(M
1
(X), , M
r
(X))
Exemplo 1.10: Considere uma amostra aleat oria de tamanho n de uma Poisson com media .
De alguns estimadores pelo metodo dos momentos.
Sabemos que
1
= ,
2
= +
2
. Logo, alguns dos estimadores pelo metodo dos momento s ao
dados por
=
1


= M
1
=
2

2
1


= M
2
M
2
1
=
2
/
1
1

= M
2
/M
1
1.
Note que nao e especicado que r deve ser o mnimo valor para a qual existe uma fun cao g.
Caso isto fosse especicado no exemplo anterior teramos um unico estimador pelo metodo dos
momentos. No entanto, a unicidade nao estaria garantida mesmo tendo esta restri cao.
Exemplo 1.11: Considere uma amostra aleat oria de tamanho n de uma uma distribui cao logstica,
isto e, da densidade:
f(x; ) =
e
(y)
{1 +e
(y)
}
2
.
28
Como a esperan ca existe ele e igual ao ponto de simetria, isto e, . Logo um estimador pelo metodo
dos momentos e dado pela media amostral. Este e um caso tpico onde a estimativa pelo metodo
dos momentos e facilmente encontrado, mas nao o de maxima verossimilhan ca (sera denido mais
tarde), que nao tem solu cao analtica. Neste caso, a estimativa pelo metodo dos momentos pode
ser utilizada como ponto inicial em uma rotina de maximiza cao para encontrar a estimativa de
maxima verossimilhan ca.
*Deni cao 1.3.d - Metodo dos Momentos Generalizados: Vamos considerar agora que
temos uma amostra X, com f.d.p. f(x|). A amostra pode ser aleat oria ou nao. Considere
adicionalmente que temos fun coes g
i
(X, ) com media igual a zero. Desta forma, dada uma amostra
gostaramos que g
i
(x, ) fosse o mais proximo possvel de zero. Se considerarmos mais fun coes g do
que a dimesao de nao conseguiremos fazer esta distancia igual a zero. O metodo dos momentos
generalizados diz que qualquer valor de que minimiza a distancia:
g(x, )

S(x, x)
1
g(x, )
onde g(x, ) = (g
1
(x, ), , g
k
(x, )), e um estimador pelo metodo dos momentos. S(x, x) de ser
tal que convirja em probabilidade para um valor nao aleat orio S
0
quando o tamanho da amostra
vai para innito. Em geral escolhe-se S(x, x) uma matriz simetrica positiva denida.
Observe que se tomarmos g
i
(x, ) = m
i

i
(), i = 1, , k e a matriz S igual a identidade
temos a Deni cao 1.3.a de estimador do metodo dos momentos. Em nenhuma das deni coes o
metodo dos momentos e invariante em rela cao a transforma coes nao lineares. Por exemplo con-
sidere uma amostra aleat oria de uma U(0, ). Neste caso vimos que um estimador pelo metodo dos
momentos e 2X. Procure agora o estimador pelo metodo dos momentos se voce tivesse observado
o quadrado das observa coes e trabalhasse com a distribui cao do quadrado da U(0, ).
Exerccio 1.1: Nos exemplos anteriores procure outros estimadores pelo metodo dos momentos.
2.2 Metodo de maxima verossimilhanca
O metodo de maxima verossimilhan ca para gerar estimadores de um par ametro desconhecido foi
introduzido por Sir R.A. Fisher.
Este metodo geralmente produz muito bons estimadores. Veremos mais tarde as boas pro-
priedades dos estimadores de maxima verossimilhan ca e alguns exemplos onde o metodo produz
pessimos estimadores.
Considere o seguinte problema: temos duas moedas, uma e honesta e a outra e viciada (tem
probabilidade de cara igual a 0.70). O problema e que misturamos as duas moedas e nao sabemos
diferencia-las. Para decidir isto, tomamos uma das moedas e jogamos n vezes. Seja:
X = n umero de caras nas n repeti coes;
Da, X b(n, p), isto e:
P(X = k) =
_
n
k
_
p
k
(1 p)
nk
= f(k, n)
Aqui, p = 0.5 ou p = 0.7, isto e, = {.5; .7}. Se n = 3, temos
29
Valores Possveis k 0 1 2 3
f(k;0.5) 0.125 0.375 0.375 0.125
f(k;0.7) 0.027 0.189 0.441 0.343
Note que se tiramos 3 caras em 3 lan camentos da moeda nao acreditamos muito que p = 0.5, e
mais verossmil que p = 0.7. Por outro lado, se tirassemos 0 caras em 3 lan camentos p = 0.5 seria
mais verossmil, embora a probabilidade de sair este resultado ainda seja baixa. O que importa,
portanto, s ao os valores relativos.
Neste caso,
Se tiramos 0 ou 1 cara dizemos que p = 0.5;
Se tiramos 2 ou 3 caras dizemos que p = 0.7
Isto e, escolhemos p que faz com que f(k, p) seja maximo:
p = arg max
p
f(k, p).
Da forma geral, para um tamanho de amostra n e = [0, 1] temos
f(k; p) = P(X = k) =
_
n
k
_
p
k
(1 p)
nk
.
Queremos p = arg max
p
f(k; p), para tanto derivamos f(k; p), igualamos a derivada a zero e
procuramos os pontos crticos no intervalo paramtrico.
d
dp
f(k; p) =
_
n
k
_
kp
k1
(1 p)
nk

_
n
k
_
p
k
(n k)(1 p)
nk1
=
_
n
k
_
p
k1
(1 p)
nk1
[k(1 p) (n k)p]
=
_
n
k
_
p
k1
(1 p)
nk1
[k np].
Igualando a zero e resolvendo a equa cao temos como razes os pontos 0, 1 e k/n. Se 0 < k < n,
analisando a segunda derivada nestes pontos temos que 0 e 1 s ao pontos de mnimo. Analise a
fun cao de verossimilhana quando k e igual a zero ou n. Voce vericar a que em todos os casos a
solu cao de ponto de maximo pode ser escrita como p = k/n. Portanto, o estimador de maxima
verossimilhan ca e:
p =
K
n
.
Deni cao 1.4: Fun cao de Verossimilhan ca:
Seja X
1
, . . . , X
n
uma amostra de uma variavel aleat oria discreta (contnua) X e que a fun cao (den-
sidade) de probabilidade conjunta e dada por f
X
(, ), que depende de um par ametro desconhecido
. Se x
1
, . . . , x
n
s ao os valores observados, a fun cao de verossimilhan ca da amostra e
L(; x
1
, . . . , x
n
) = f
X
(x
1
, . . . x
n
, ), .
No caso de uma amostra aleat oria de uma popula cao com fun cao (densidade) de probabilidade
f(., ) a fun cao de verossimilhan ca dada por:
L(; x
1
, . . . , x
n
) = f(x
1
, ) . . . f(x
n
, ), .
30
Deni cao 1.5: Estimador de Maxima Verossimilhan ca: Seja L() = L(; x
1
, . . . , x
n
) a
fun cao de verossimilhan ca para as v.a.s X
1
, . . . , X
n
. Se

=

(x
1
, . . . , x
n
) e uma fun cao das ob-
serva coes e e o valor de no espa co parametrico que maximiza L(), ent ao

= arg max

L()
e a estimativa de maxima verossimilhan ca de e

=

(X
1
, . . . , X
n
) e o estimador de
maxima verossimilhan ca de .
Antes de olhar alguns exemplos, vamos relembrar um teorema de calculo que e muito util para
encontrar maximos de fun coes. Geralmente, como L() e um produto de fun coes de probabilidade
ou densidades, e sempre positiva. Assim, l() = log(L()) sempre pode ser denida e o valor de
que maximiza L() tambem maximiza l(). Observa que no caso de termos uma amostra aleat oria
o produto das densidades transforma-se na soma da log-densidade ao aplicarmos a tranforma cao
logaritmica.
Exemplo 1.12: Suponha que retiramos uma amostra aleat oria de tamanho n de uma distribui cao
de Bernoulli
f(x, p) = p
x
(1 p)
1x
I
{0,1}
(x), 0 p 1.
Os valores amostrais x
1
, . . . , x
n
serao uma seq uencia de 0s e 1s e a fun cao de verossimilhan ca
e:
L(p) =
n

i=1
p
xi
(1 p)
1xi
I
{0,1}
(x
i
) = p

xi
(1 p)
n

xi
.
Podemos denir,
l(p) =

x
i
log(p) + (n

x
i
) log(1 p).
Como l e uma fun cao contnua e diferenciavel de p, se existir um valor ( p) tal que
d
dp
l( p) = 0,
d
2
dp
2
l( p) < 0
ent ao este valor maximiza a fun cao l:
d
dp
l(p) =

x
i
p

n

x
i
1 p
Assim,

x
i
p

n

x
i
1 p
= 0.
Para

x
i
diferentes de zero e n temos,
p =

x
i
n
.
Como,
d
2
dp
2
=

x
i
p

n

x
i
1 p
< 0
para todos os valores de p temos que p corresponde a um ponto de maximo. Portanto, o estimador
de maxima verossimilhan ca de e:

P =

X
i
n
.
Discuta, de forma analoga a realizada no Exemplo da binomial quando temos

x
i
igual a
zero ou n. Note que, se o espa co parametrico for (0, 1) o estimador de maxima verossimilhana nao
existe quando

x
i
igual a zero ou n.
31
Exemplo 1.13: Suponha que retiramos uma amostra aleat oria de tamanho n de uma distribui cao
normal com media e variancia 1. Se X
1
, . . . , X
n
e a amostra aleat oria, a fun cao de verossimilhan ca
da amostra e:
L() =
n

i=1
f(x
i
, ) =
n

i=1
1

2
e
(xi)
2
/2
= (2)
n/2
exp[

(x
i
)
2
/2]
cujo logaritmo e:
l() =
n
2
log(2)

(x
i
)
2
2
e
d
d
l() =

(x
i
) =

x
i
n
d
2
d
2
l() = n < 0.
Assim,
=
1
n

x
i
= x
e a estimativa de maxima verossimilhan ca de e o estimador de maxima verossimilhan ca e:
=

X
i
n
=

X.
Se a fun cao de verossimilhan ca contem k par ametros, isto e, se:
L(
1
, . . . ,
k
) =
n

i=1
f(x
i
;
1
, . . . ,
k
),
ent ao os estimadores de maxima verossimilhan ca s ao as estatsticas

1
(X
1
, . . . , X
n
), . . . ,

k
(X
1
, . . . , X
n
) onde

1
, . . . ,

k
s ao os valores em que maximizamL(
1
, . . . ,
k
).
Se certas condi coes de regularidade s ao satisfeitas, o ponto onde a fun cao de verossimilhan ca e
maxima e a solu cao das k equa coes:

1
L(
1
, . . . ,
k
) = 0, . . . ,

k
L(
1
, . . . ,
k
) = 0
ou equivalentemente,

1
l(
1
, . . . ,
k
) = 0, . . . ,

k
l(
1
, . . . ,
k
) = 0.
Exemplo 1.14: Uma amostra aleat oria de tamanho n da distribui cao normal de media e desvio
padrao tem densidade:
f(x
1
, . . . , x
n
, ,
2
) =
n

i=1
1

2
e
1
2
2
(xi)
2
e
L(,
2
) = (2
2
)
n/2
exp{
1
2
2

(x
i
)
2
},
seu logaritmo sendo:
l(,
2
) =
n
2
log(2)
n
2
log
2

1
2
2

(x
i
)
2
,
32
onde = {(,
2
); < < ,
2
> 0}. Portanto,

l(,
2
) =
1

(x
i
)

2
l(,
2
) =
n
2
1

2
+
1
2
4

(x
i
)
2
.
Da,
1

2

(x
i
) = 0

(x
i
) = 0 =

x
i
n

n
2
1

2
+
1
2
4

(x
i
)
2
= 0
2
=
n

i=1
(x
i
x)
2
n
e os estimadores de maxima verossimilhan ca s ao:
=

X
i
n
e
2
=
n

i=1
(X
i


X)
2
n
.
Exemplo 1.15: Seja uma variavel aleat oria tendo densidade uniforme dada por:
f(x, ) = I
[0.5;+0.5]
(x),
onde = (, ). A fun cao de verossimilhan ca para uma amostra aleat oria de tamanho n e
dada por:
L() =
n

i=1
I
[0.5;+0.5]
(x
i
)
= I
[x
(n)
0.5;x
(1)
+0.5]
(),
onde x
(1)
= min{x
1
, . . . , x
n
} e x
(n)
= max{x
1
, . . . , x
n
} e temos a ultima igualdade pois
n

i=1
I
[0.5;+0.5]
(x
i
) = 1 x
i
[ 0.5; + 0.5], para todo i = 1, . . . , n
0.5 x
(1)
e + 0.5 x
(n)
x
(1)
+ 0.5 e x
(n)
0.5
Da,
L() =
_
1, se x
(n)
0.5 x
(1)
+ 0.5
0, caso contrario.
Assim, qualquer estatstica com valor

satisfazendo X
(n)
0.5

X
(1)
+ 0.5 e estimador
de maxima verossimilhan ca de . Por exemplo, X
(n)
0.5, X
(1)
+ 0.5 ou (X
(1)
+ X
(n)
)/2, etc...;
ou seja, o estimador de maxima verossimilhan ca neste caso nao e unico.
Exemplo 1.16: Seja X uma variavel aleat oria com densidade uniforme no intervalo [0, ]. En-
contre o EMV de .
f(x, ) =
1

I
[0;]
(x)
33
onde = (0, ). A fun cao de verossimilhan ca para uma amostra aleat oria de tamanho n e dada
por:
L() =
n

i=1
f(x
i
, )
=
n

i=1
1

I
[0;]
(x
i
)
=
n
I
[0;]
(x
(n)
)
=
n
I
[x
(n)
;]
(),
onde x
(n)
= max{x
1
, . . . , x
n
}. Da,
L() =
_

n
, se x
(n)

0, caso contrario;
ou seja, L() = 0 para < x
(n)
; igual a x
n
(n)
(valor positivo) no ponto x
(n)
e depois decresce a
partir deste ponto. Assim, o valor de que maximiza L() e

= x
(n)
e portanto o EMV de e X
(n)
.
Teorema 1.1: Propriedade de Invariancia dos Estimadores de Maxima Verossimi-
lhan ca: Seja

=

(X
1
, . . . , X
n
) o estimador de maxima verossimi-
lhan ca de . Se () = (
1
(), . . . ,
r
()), 1 r k, e uma transforma cao no espa co parametrico
, ent ao o estimador de maxima verossimilhan ca de () e: (

) = (
1
(

), . . . ,
r
(

)).
Exemplo 17: Na densidade normal, seja = (,
2
). Suponha () = + z
q
onde z
q
e tal que
(z
q
) = q, i.e. () e o q-esimo quartil. Portanto, o estimador de maxima verossimilhan ca de ()
e:

X +z
q
_
1
n

(X
i


X)
2
.
Exemplo 18: Considere uma amostra de tamanho 1 de uma popula cao que tem densidade massa
discreta igual a e
/2
no ponto zero e uma parte contnua em (0, ) com densidade dada por:
f

(t) =
1
t
e
(+t)/2

k=1
(t/4)
k
k!(k 1)!
.
A verossimilhan ca e dada por
L(t; ) =
_
f

(t), se t > 0
e
/2
, se t = 0.
Se o valor da observa cao for igual a zero ent ao a verossimilhan ca e igual a e
/2
que e maxi-
mizado quando = 0. Caso a observa cao seja um valor t > 0 ent ao o EMV e dado pela solu cao
unica da equa cao:
df

(t)
d
=

k=1
(/2)
k1
(t/2)
k
(k 1)!(k 1)!
_
1

2k
_
= 0
vemos que para para qualquer valor de t > 0 a derivada sera negativa para < 2 pois todos
os termos serao negativos. Logo a solu cao de maxima verossimilhanca e maior do que 2. Este
estimador tem umas caractersticas estranhas. Embora possa adotar qualquer valor positivo o
estimador nunca assume valores no intervalo (0, 2). Alem disso
lim
t0
+
(t) 2, mas (0) = 0,
34
ou seja, existe um ponto de descontinuidade no ponto zero.
Exerccio 1.2: Suponha que X seja uma variavel normal com media 10 e variancia
2
descon-
hecida. Qual o EMV do primeiro quartil baseado em uma amostra aleat oria de n observa coes de X?
Exerccio 1.3: Suponha X P(). Dada uma amostra aleat oria de tamanho n de X, qual o
EMV de P[X > 0]?
Exerccio 1.4: Se X Geom(p) qual o EMV de V ar(X) baseado em uma amostra de tamanho n?
Exerccio 1.5: Se X Exp() qual o EMV de P[X > t
0
] baseado em uma amostra aleat oria de
n observa coes?
Exerccio 1.6: Considere uma popula cao com tres tipos de elementos denominados 1, 2 e 3 que
ocorrem com a propor cao de Hardy-Weinberg; i.e
p(1, ) =
2
, p(2, ) = 2(1 ), p(3, ) = (1 )
2
onde 0 < < 1 e p(1, ) e a probabilidade de um elemento ser do tipo i. Dada uma amostra
aleat oria de tamanho n onde se verica qual o tipo do elemento selecionado encontre o EMV de .
2.3

Outros metodos
Existem outros metodos para se encontrar estimadores. Entre eles podemos citar o Metodo
Bayesiano, o Metodo dos Mnimos Quadrados, o Metodo de Mnimo Qui-Quadrado, e o Metodo
da Distancia Mnima. Nesta subse cao discutiremos rapidamente os dois ultimos metodos. Existe
tambem uma classe de estimadores, os Estimadores N ao Viciados de Mnima Variancia, para o
qual existe toda uma metodologia para encontra-los e que sera objeto de estudo da Se cao 3.
Deni cao 1.6: Estimador pelo Metodo do Mnimo Qui-Quadrado ): Seja X
1
, . . . , X
n
uma
amostra aleat oria de uma densidade dada por f
X
(x; ), e seja P
1
, . . . , X
k
uma parti cao do conjunto
de variabilidade de X. A probabilidade de que uma observa cao caia na cela P
i
, i = 1, . . . , k
denotada por p
i
() pode ser encontrada. Por exemplo, se f
X
(x; ) e uma fun cao densidade de uma
variavel aleat oria contnua, ent ao p
i
() = P[X caia na cela P
i
] =
_
Pi
f
x
(x; )dx. Seja N
j
o n umero
de X s que caem na cela P
j
, j = 1, . . . , k; ent ao n =

n
j=1
N
j
e o tamanho amostral. A estimativa
de mnimo qui-quadrado de e o valor

que minimiza a seguinte soma:

2
=
k

j=1
[n
j
np
j
()]
2
np
j
()
.
O estimador de mnimo qui-quadrado e o valor de que faz com que o valor esperado de ob-
serva coes na cela P
j
seja o mais proximo possvel do valor observado. A medida de proximidade
e dada pela formula acima. Mais tarde veremos o motivo do nome qui-quadrado. O estimador
depende da parti cao utilizada. Muitas vezes ca difcil encontrar o estimador e a causa desta
diculdade est a no denominador, da ter se proposto na literatura uma modica cao onde no de-
nominador aparece o valor n
j
, isto e, o valor esperado e substituido pelo valor observado.
Deni cao 1.7: Estimador Pelo Metodo da Distancia Mnima : Seja X
1
, . . . , X
n
uma
amostra aleat oria de uma distribui cao dada pela fun cao distribui cao acumulada F
X
(x; ) = F(x; ),
e seja d(F, G) uma medida da distancia entre duas fun coes distribui coes acumuladas F e G. Um
35
exemplo de medida de distancia e d(F, G) = sup|F(x) G(x)|, que e a maior distancia verti-
cal entre F e G. A estimativa de mnima distancia de e o valor de , pertencente ao espa co
parametrico para o qual d(F(x; ), F
n
(x)) e minimizada, onde F
n
(x) e a fun cao distribui cao acu-
mulada emprica. Embora este estimador tenha um apelo intuitivo bastante forte ja que F
n
(x)
converge para F
X
(x), ele nao e pratico porque e muito difcil de ser encontrado.
3 Propriedades de estimadores pontuais
Ja vimos v arios metodos de constru cao de estimadores pontuais para par ametros desconhecidos.
Em muitos casos os metodos obtem o mesmo estimador, mas em muitos outros casos importantes
nao. Tambem ha outros metodos ainda nao estudados para a obten cao de estimadores. As quest oes
que nos vem a mente agora s ao: Qual estimador devo utilizar?, Como selecionar o melhor es-
timador?, Quais as propriedades que um bom estimador deve ter?. Se pudessemos encontrar
uma escala de bondade de estimadores, sempre poderamos escolher o melhor estimador para
cada caso. Entretanto, nao ha uma escala universal de bondade.
O estimador (

) de um par ametro desconhecido () e uma estatstica e como tal uma v.a.


que tem uma lei de probabilidade; portanto, e sujeita a variabilidade e nao e razo avel de se es-
perar que a estimativa seja igual ao valor verdadeiro do par ametro para todas as amostras
retiradas. Se consideramos dois estimadores

e

para o mesmo par ametro , podemos derivar
as distribui coes de probabilidade dos estimadores e compara-las de algum modo. Por exemplo, se

U( 0.5; +0.5) e

U( 0.01; +0.01), certamente preferiramos

como estimador de
. Infelizmente as compara coes nao s ao t ao diretas e faceis como nesse caso.
Intuitivamente, queremos um estimador que forne ca uma estimativa pr oxima do verdadeiro
valor do par ametro com grande probabilidade. Seja

=

(X
1
, . . . , X
n
) uma v.a. e portanto
com uma distribui cao de probabilidade. A distribui cao de

nos diz como os valores observados
(estimativas) est ao distribudos, e gostaramos de ter valores de

distribudos proximos de .
Sabemos que a media e a variancia de uma distribui cao s ao medidas de loca cao e dispersao, da o
sentido de

ser pr oximo de com grande probabilidade poderia ser dada pelas condi coes :
E(

) pr oxima de ;
Var(

) pr oxima de 0.
Uma propriedade desejavel para um estimador e que sua media seja igual ao valor verdadeiro
do par ametro, independentemente do valor verdadeiro.
Deni cao 2.1: Estimador Nao Viciado: Um estimador

de um par ametro e nao viciado
se E(

) = , para todo ao espa co parametrico. Alguns autores utilizam os nomes Estimador


Nao Tendencioso e Nao Viesado.
Exemplo 2.1: Se X
1
, . . . , X
n
forma uma amostra (nao necessariamente aleat oria) de uma dis-
tribui cao tal que E(X
i
) = ent ao sabemos que E(

X) = . Portanto,

X e um estimador nao
viciado de se X
i
N(,
2
), de p se X
i
b(1, p), de se X
i
Poisson().
A propriedade de ser nao viciado, embora desejavel para um estimador, nao deve ser o unico
criterio utilizado para se comparar estimadores; tambem devemos ter estimadores mais concen-
36
trados em torno do verdadeiro valor do par ametro. Para isto eles dever ter variancia pequena.
Deni cao 2.2: Estimador Mais Eciente: Se

e

s ao dois estimadores nao viciados de ,
dizemos que

e mais eciente que

se
Var(

) < Var(

).
Exemplo 2.2: Suponha que X
1
, . . . , X
n
e uma amostra aleat oria de uma distribui cao Poisson().
Portanto,

=

X e

= (X
1
+X
2
)/2 s ao ambos estimadores nao viciados de , entretanto,
Var(

) =

n
, Var(

) =

2
.
Assim, se n > 2,

e mais eciente que

.
Exemplo 2.3: Considere X uma amostra de tamanho 1 de uma Poisson com media > 0. Mostre
que a estatstica T(X) = (2)
X
e um estimador nao viciado de () = e
3
.
E(T) =

x=0
(2)
x

x
e

x!
= e

x=0
(2)
x
x!
= e

e
2
= e
3
.
Este estimador e ridculo porque assume valores negativos quando o valor observado e mpar. Por
exemplo, se o valor observado for 10 temos uma estimativa igual a 1024 enquanto se o valor obser-
vado for 11 a estimativa e igual a 2048, o que e ridculo. O pior e que, como veremos mais tarde
no Exemplo 3.19, ele e o unico estimador nao viciado de e
3
.
Exemplo 2.4: Considere X
1
, . . . , X
n
fun coes indicadoras de n ensaios de Bernoulli independentes
com probabilidade de sucesso . Ja vimos que este modelo pode ser utilizado em v arias situa coes.
A fun cao () = /(1 ) e chamada de risco relativo e bastante utilizado em bioestatstica e
epidemiologia. Mostre que nao existe um estimador nao viciado para o risco relativo.
Os possveis resultados do experimento s ao as 2
n
distintas combina coes de zeros e uns. Qualquer
estatstica T dene um valor real t
j
para cada um dos pontos do espa co amostral, onde j = 1, . . . , 2
n
enumera os resultados possveis. Para esta estatstica geral a esperan ca e dada por:
E(T) =
2
n

j=1
t
j

nj
(1 )
nnj
,
onde n
j
e o n umero de sucessos obtidos no j-esimo ponto do espa co amostral. Para que T seja nao
viciado precisamos ter a seguinte condi cao:
2
n

j=1
t
j

nj
(1 )n n
j
=

1
para todo (0, 1)
Esta igualdade nos diz que um polin omio em de ordem 2
n
deve ser igual a /(1 ) para todo
em um intervalo. Claramente isto nao pode ocorrer e, portanto, nao podemos ter um estimador
nao viciado para o risco relativo.
Os dois exemplos anteriores mostram que nem sempre podemos, ou e desejavel, nos restringir-
mos aos estimadores nao viciados.
37
3.1 Erro Quadratico Medio
Nem sempre um estimador viciado e ruim
`
As vezes, o que perdemos por ter um vcio pequeno pode
ser compensado pela concentra cao em torno do valor verdadeiro. De alguma forma temos que com-
binar os dois fatores mencionados anteriormente: E(

) pr oxima de e Var(

) pr oxima de 0.
Isto pode ser obtido atraves de uma medida muito util de proximidade chamada erro quadr atico
medio (EQM).
Deni cao 2.3: Erro Quadratico Medio: Seja

=

(X
1
, . . . , X
n
) um estimador de baseado
em uma amostra X
1
, . . . , X
n
. O erro quadratico medio (EQM) de

e:
EQM(

, ) = E

[(

)
2
].
Obs.: Para uma amostra aleat oria de uma popula cao com distribui cao dada pela fun cao densidade
de probabilidade f(, ),
E

[(

)
2
] =
_
. . .
_
[( (x
1
, . . . , x
n
) )
2
]f(x
1
, ) . . . f(x
n
, )dx
1
. . . dx
n
.
Como EQM(

, ) = Var

+ [ E

]
2
ent ao se

e nao viciado, EQM(

, ) = Var

) e
EQM(

, ) pode ser pensado como uma medida de espalhamento de



em torno de .
Se formos comparar estimadores baseados em seus EQM, naturalmente iremos preferir aquele
com menor EQM. Geralmente, EQM depende de (par ametro desconhecido) e nao temos um
estimador com EQM uniformemente menor. Em geral, como dado no Exemplo 2.5 se A
1
e
melhor do que
2
em termos de EQM; se B
2
e melhor do que
1
; e na regi ao complementar
os dois estimadores tem o mesmo EQM. Desta forma, nao temos base para escolher um estimador
em detrimento do outro utilizando o criterio do EQM.
Exemplo 2.5: Sejam X
1
, X
2
, . . . , X
n
i.i.d. exp com taxa de falha . Considere
T
1
= (
n

i=1
X
i
)/n
e
T
2
=
n

i=1
a
i
X
i
,
onde

n
i=1
a
i
= 1, estimadores de () = 1/, a media populacional. Portanto, T
1
e T
2
s ao esti-
madores nao viciado de ().
Calcule EQM(T
1
, ) e EQM(T
2
, ) e verique se preferimos T
1
ou T
2
com base neste criterio.
Como T
1
e T
2
s ao nao viciados temos que
EQM(T
1
, ) = Var(
1
n
n

i=1
X
i
)
=
1
n
2
Var(
n

i=1
X
i
)
=
1
n
Var(X
1
) =
1
n
2
38
e
EQM(T
2
, ) = Var(
n

i=1
a
i
X
i
)
=
n

i=1
a
2
i
Var(X
i
)
=
1

2
n

i=1
a
2
i
Da, EQM(T
1
, ) EQM(T
2
, ) se (1/n)

n
i=1
a
2
i
. Mas min

n
i=1
a
2
i
sujeito a

n
i=1
a
i
= 1
ocorre quando a
i
= 1/n para todo i = 1, . . . , n. Portanto, T
1
e sempre melhor que T
2
.
Exemplo 2.6: Sejam X
1
, X
2
, . . . , X
n
i.i.d. Poisson(). Sejam T
1
= 1 e T
2
=

X dois estimadores
de . Da,
EQM(T
1
, ) = E

(1 )
2
= (1 )
2
EQM(T
2
, ) = E

(

X )
2
= Var(

X) = /n
Vamos supor que n = 2, assim,
e temos que se:
Se [1/2; 2] temos T
1
prefervel a T
2
;
Se [1/2; 2] temos T
2
prefervel a T
1
.
Mas, em = 1, EQM(T
1
, 1) = 0 < EQM(T, 1) para qualquer estimador T = 1 de . Assim,
quando = 1 o estimador T
1
= 1 sera prefervel a qualquer estimador. Assim vemos que nao
existe um estimador

de que possa ser o melhor que qualquer outro estimador, em todo
o espa co parametrico, considerando-se o criterio de EQM.
O problema de encontrar um estimador que tenha uniformemente o menor EQM nao tem
solu cao (uniformemente signica para qualquer valor do par ametro pertencente ao espa co parametrico).
Ja vimos que o pior estimador possvel, tem um EQM de zero para um valor particular do
par ametro. Isto ocorre porque estamos procurando estimadores numa classe muito ampla. Al-
gumas vezes pode-se encontrar estimadores com mnima variancia na classe dos estimadores nao
39
viciados (veja ENVUMV); mas exceto pelo fato de que nesta classe o problema de minimalidade
de EQM tem solu cao, a restri cao a estimadores nao viciados algumas vezes excluem estimadores
que s ao bons.
Exemplo 2.7: Ja vimos que se temos uma amostra aleat oria de uma distribui cao N(,
2
), o
estimador de maxima verossimilhan ca de
2
e
2
= (1/n)

(X
i


X)
2
e
E[
2
] =
2
(1
1
n
).
Portanto,
2
tem um pequeno vcio. Seu erro quadr atico medio e:
EQM(
2
; ,
2
) = Var(
2
) + (E(
2
)
2
)
2
=
2
4
(n 1)
n
2
+ (

2
n
)
2
=
2n 1
n
2

4
.
Um estimador nao viciado de
2
e S
2
= (n 1)
1

(X
i


X)
2
(a variancia amostral) e seu
EQM e:
EQM(S
2
; ,
2
) = Var(S
2
)
=
1
(n 1)
2
2(n 1)
4
=
2
4
n 1
>
2n 1
n
2

4
.
Portanto, neste caso, o estimador nao viciado tem um EQM maior que um estimador um
pouco viciado.
Apesar de depender de par ametros desconhecidos o EQM e util na Estatstica. Em particular,
quando estamos estudando a performance dos estimadores para grandes amostras. Neste caso,
gostaramos de ter estimadores cujos EQMs sejam proximos a zero quando o tamanho amostral
cresce.
3.2 Consistencia
Um estimador, em geral, depende do tamanho da amostra. Por exemplo, os momentos amostrais
dependem de n e s ao denidos para todos os tamanhos amostrais, e.g.,

X
n
= (1/n)

n
i=1
X
i
. Assim
temos uma seq uencia de estimadores

n
que dependem do tamanho da amostra.

E intuitivo dese-
jar que quanto maior a amostra melhor seja o nosso estimador; assim um bom estimador

n
tem
EQM que decresce a 0 quanto mais elementos contiver a amostra, da a deni cao de consistencia
em media quadr atica.
Deni cao 2.4: Estimador Consistente em Media Quadratica: Uma seq uencia de esti-
madores {

n
} e dita ser consistente em media quadratica se a seguinte condi cao ocorre:
lim
n
EQM(

n
, ) = lim
n
E(

n
)
2
= 0.
Note que a condi cao e verdadeira se, e somente se, o vcio do estimador e a variancia do esti-
mador tende a 0 quando n . Uma outra condi cao um pouco mais fraca e dada pela deni cao
40
seguinte.
Teorema 2.1: Se uma seq uencia de estimadores e Consistente em media quadratica ent ao ela e
consistente (convergencia em probabilidade), mas o inverso nao e necessariamente verdadeiro.
Prova: Seja {

n
} uma seq uencia de estimadores de .
P[|

n
| < ] = P[|

n
|
2
<
2
]
(pela desigualdade de Chebyshev) 1
E

[(

n
)
2
]

2
.
Como {

n
} e consistente em media quadr atica temos que E

[(

n
)
2
] vai para zero quando
n tende ao innito. Logo
lim
n
P(|

n
| ) = 0, para todo > 0
Para mostrar que o contrario nao e necessariamente verdadeiro basta dar um contra-exemplo.
Veja o exemplo 5.15 do livro de Romano e Siegel (Counterexamples in Probability and Statistics).
Exemplo 2.8: Os momentos amostrais M
n,k
= (1/n)

n
i=1
X
k
i
s ao estimadores consistentes em
media quadr atica dos correspondentes momentos populacionais
k
quando
k
e
2k
forem nitos.
Basta mostrar que os estimadores s ao nao viciados e que sua variancia tende a zero.
E(M
n,k
) = E(
1
n
n

i=1
X
k
i
)
=
1
n
n

i=1
E(X
k
i
) =
k
.
Portanto, o vcio e zero. Mais ainda,
Var(M
n,k
) = Var(
1
n
n

i=1
X
k
i
)
=
1
n
2
n

i=1
Var(X
k
i
)
=
1
n
Var(X
k
1
) =

2k

2
k
n
0
quando n 0. Em particular,

X e um estimador consistente de e
2
e estimador consistente de

2
. A variancia amostral tambem e um estimador consistente de
2
(por que?).
3.3 Normalidade Assintotica
Novamente vamos considerar uma sequencia de estimadores

n
do par ametro desconhecido .
Deni cao 2.5: Melhor Seq uencia Assintoticamente Normal: Uma sequencia de esti-
madores

n
de e denida como sendo a melhor sequencia assintoticamente normal (best
asymptotically normal, BAN) se, e somente se, as 3 condi coes abaixo s ao satisfeitas:
41
(i)

n(

n
) N(0,
2
()), quando n ;
(ii) Para todo > 0
lim
n
P

[|

n
| > ] = 0
para todo . (

n
e fracamente consistente).
(iii) Seja S
n
uma outra seq uencia de estimadores fracamente consistentes de tal que

n(S
n
) N(0,
2
())
quando n , Ent ao
2
() <
2
(), para todo .
A utilidade desta deni cao se deriva parcialmente dos teoremas que garantem a existencia de
estimadores BAN e do fato que estimadores razo aveis e comuns s ao assintoticamente normalmente
distribudos.
Exemplo: 2.9

X
n
=
1
n

n
i=1
X
i
e BAN para . De fato,
P[|

X
n
| > )
Var(

X
n
)

2
=

2
n
2
0, quando n
e

n(

X
n
) N(0,
2
), quando n
e nenhum outro estimador com essas propriedades possui variancia assint otica menor que
2
. Mas
ha muitos outros estimadores S
n
que tambem s ao BAN, e.g.
S
n
=
1
n + 1
n

i=1
X
i
tambem e BAN para .
3.4 Robustez
O conceito de robustez e bastante importante em Estatstica. Por exemplo, dizemos que um
estimador e robusto em rela cao `a valores aberrantes quando o estimador nao depende muito forte-
mente em rela cao a um valor ou a um grupo de valores. Tome a media e a mediana amostrais como
estimadores da media populacional. Caso o valor de uma unica observa cao v a para o innito a
estimativa dada pela media vai para o innito, enquanto a estimativa dada pela mediana modica
pouco ou nem se modica. Para que a estimativa dada pela mediana v a para innito e necessario
que pelo menos metade dos valores v a para o innito. Dizemos que a mediana e mais robusta
do que a media em termos de valores aberrantes. Um outro ponto importante importante e a
robustez em termos de distribui cao da popula cao, onde estamos interessados nas conseq uencias de
se considerar uma distribui cao errada para a distribui cao da popula cao. A robustez sera visto com
mais cuidado nos outros captulos.
4 ENVUMV - Estimadores Nao Viciados Uniformemente
de Mnima Variancia
Nesta se cao vamos nos restringir ao estudo dos estimadores nao viciados. Neste caso, os criterios de
EQM e variancia s ao equivalentes. Portanto, vamos procurar metodos para encontrar estimadores
42
nao viciados uniformemente de mnima variancia (ENVUMV). Para isto precisamos introduzir
os conceitos de suciencia, minimalidade, completitude e famlias exponenciais. Embora estes
conceitos sejam utilizados aqui basicamente para encontrar ENVUMV sua import ancia e mais
abrangente em estatstica e por isto em muitos livros textos eles merecem captulos proprios.
A principal raz ao para nos atermos aos estimadores nao viciados e o fato de conseguirmos en-
contar, em casos importantes, estimadores que sejam otimos nesta classe de estimadores. Veremos
mais tarde tambem que esta restri cao pode ser exagerada: pode nao existir um unico estimador
nao viciado, ou o otimo dentro desta classe ser pessimo.
4.1 Suciencia
Quando realizamos um experimento e nos deparamos com uma amostra, em geral, temos um con-
junto de dados os quais nao est ao sucientemente organizados para que possamos tirar qualquer
informa cao. Neste ponto, fazemos uma analise exploratoria de dados e reduzimos os dados de
tal forma que possamos entender o fenomeno de interesse. Por exemplo, calculamos as medidas
de tendencia central e de dispersao, fazemos ramo e folhas, histogramas, etc. Sabemos que este
procedimento pode implicar em uma perda de informa cao, mas a pergunta a ser feita e se podemos
reduzir os dados em uma cole cao de estatsticas sem perda de informa cao sobre o par ametro. Nos
problemas de Estatstica, em particular em estima cao, temos um conjunto de dados observados
x
1
, . . . , x
n
e queremos condensar esta informa cao em alguns n umeros sem perder informa cao sobre
o par ametro de interesse. Isto e, queremos ser capazes de encontrar uma fun cao da amostra que
nos diga tudo sobre o par ametro como se olhassemos a amostra como um todo. Tal fun cao seria
suciente para propositos de inferencia e e chamada estatstica suciente.
Seja X
1
, . . . , X
n
uma amostra, que possue uma distribui cao conhecida, exceto por um par ametro
. Gostaramos de encontrar estatsticas, isto e fun coes da amostra: T
i
= t
i
(X
1
, . . . , X
n
), i =
1, , k que contem as mesmas informa coes que a amostra sobre o par ametro. Enfatizamos que o
tipo de informa cao que estamos falando e sobre dado que conhecemos a forma da distribui cao
(e.g., normal, exponencial, Poisson, etc). Ao fazer isto em geral perdemos outras informa coes; por
exemplo, para vericar se a disitribui cao considerada e correta.
Deni cao 3.1 Estatstica Suciente (para o caso uniparametrico): Seja X
1
, . . . , X
n
uma
amostra com fun cao distribui cao F
X
(, ), onde pode ser um vetor. Uma estatstica S =
s(X
1
, . . . , X
n
) e dita ser uma estatstica suciente para se, e somente se, a distribui cao condi-
cional de X
1
, . . . , X
n
dado que S = s nao depende de qualquer que seja o valor de s.
Note que a ideia e que se soubermos o valor da estatstica suciente, ent ao os valores amostrais
por si mesmos nao s ao mais necessarios e nao nos dao nenhuma informa cao adicional a respeito de
. N ao podemos esperar aprender nada sobre amostrando uma distribui cao que nao depende de .
Exemplo 3.1: Seja X
1
, X
2
, X
3
uma amostra aleat oria de tamanho 3 de uma distribui cao de
Bernoulli, isto e:
f
X1,X2,X3
(t
1
, t
2
, t
3
) = p
t1+t2+t3
(1 p)
3t1t2t3
para t
i
= 0 ou 1, i = 1, 2, 3.
Considere as estatsticas:
S = X
1
+X
2
+X
3
T = X
1
X
2
+X
3
43
Vamos mostrar que S e suciente mas T nao e.
X
1
, X
2
, X
3
) S T f
X1,X2,X3|S
f
X1,X2,X3|T
(0,0,0) 0 0 1
1p
1+p
(0,0,1) 1 1 1/3
1p
1+2p
(0,1,0) 1 0 1/3
p
1+p
(1,0,0) 1 0 1/3
p
1+p
(0,1,1) 2 1 1/3
p
1+2p
(1,0,1) 2 1 1/3
p
1+2p
(1,1,0) 2 1 1/3
p
1+2p
(1,1,1) 3 2 1 1
A densidade condicional dada por:
f
X1,X2,X3|S=1
(0, 1, 0) = P(X
1
= 0, X
2
= 1, X
3
= 0|S = 1)
=
P(X
1
= 0,
2
= 1, X
3
= 0, S = 1)
P(S = 1)
=
P(X
1
= 0, X
2
= 1, X
3
= 0)
P(S = 1)
=
(1 p)p(1 p)
3p(1 p)
2
=
1
3
e
f
X1,X2,X3|T=1
(1, 0, 1) = P(X
1
= 1, X
2
= 0, X
3
= 1|T = 1)
=
P(X
1
= 1, X
2
= 0, X
3
= 1, T = 1)
P(T = 1)
=
P(X
1
= 1, X
2
= 0, X
3
= 1)
P(T = 1)
=
p
2
(1 p)
p(1 p)
2
+ 3p
2
(1 p)
=
p
1 p + 3p
=
p
1 + 2p
Pois,
P(T = 1) = P(X
1
= 0, X
2
= 0, X
3
= 1) +P(X
1
= 0, X
2
= 1, X
3
= 1)
+P(X
1
= 1, X
2
= 1, X
3
= 0) +P(X
1
= 1, X
2
= 0, X
3
= 1)
= p(1 p)
2
+p
2
(1 p) +p
2
(1 p) +p
2
(1 p)
A distribui cao condicional de (X
1
, X
2
, X
3
) dado os valores de S e independente de p, assim S
e estatstica suciente.
A distribui cao condicional de (X
1
, X
2
, X
3
) dado os valores de T nao independe de p, portanto,
T nao e estatstica suciente.
A distribui cao condicional s o e trabalh avel em poucos casos. Primeiro, nos temos que chutar
uma estatstica a ser tratada e depois calcular a distribui cao condicional que n ao e muito facil,
principalmente no caso contnuo.
44
Temos assim que achar alguns criterios que nos ajudem a encontrar estatsticas sucientes.
Antes, note que se tivermos mais de um par ametro, e improv avel que uma unica estatstica possa
ser suciente para (
1
, . . . ,
k
). Entretanto, sempre existira um conjunto de estatsticas que serao
conjuntamente sucientes, a propria amostra.
Deni cao 3.2 Estatsticas Conjuntamente Sucientes: Seja X
1
, . . . , X
n
) uma amostra com
fun cao distribui cao F
X
(, ). As estatsticas S
1
, . . . , S
r
s ao ditas serem conjuntamente sucientes se,
e somente se, a distribui cao condicional de X
1
, . . . , X
n
dado S
1
= s
1
, . . . , S
r
= s
r
nao depende de .
Generalizando o resultado do exerccio anterior seja X
1
, . . . , X
n
uma amostra aleat oria de uma
Bernoulli; por exemplo, para testar a propor cao de pe cas defeituosas. Seja a propor cao real que
queremos descobrir. Neste caso o n umero de pe cas defeituosas concentra toda a informa cao? Isto,
no entanto, somente e correto se partirmos do princpio que o modelo e adequado. Se quisermos
vericar se o modelo est a correto, isto e, independencia e probabilidade constante precisaramos ter
cada uma das respostas. No entanto, se o modelo for considerado correto nao perdemos nenhuma
informa cao.
Observe que o conjunto de varia cao de X = (X
1
, . . . , X
n
) e a cole cao de todos os vetores n-
dimensionais com os componentes iguais a 0 ou 1. A Estatstica dene uma parti cao de X. (Uma
parti cao de X e um conjunto de subconjuntos disjuntos cuja uni ao e X. Desta forma, para n =
3, o subconjunto relativo ao valor da estatstica igual a 1 e dado por {(0, 0, 1), (0, 1, 0), (1, 0, 0)};
ou seja, se a Estatstica T e suciente e t = 1, a informa cao de qual dos tres possveis pontos
ocorreu nao traz nenhuma informa cao adicional sobre o par ametro. Como cada estatstica induz
uma parti cao podemos tambem falar em parti cao suciente. Observe que uma estatstica induz
apenas uma parti cao, mas que uma mesma parti cao pode ser induzida por diferentes estatsticas.
Por exemplo qualquer estatstica T

= g(T) tal que g() seja uma fun cao 1 1 no conjunto de


varia cao das estatsticas induz a mesma parti cao. Um resultado equivalente e dado pelo teorema
seguinte.
Teorema 3.3: Se S
1
, . . . , S
r
s ao conjuntamente sucientes para e h : R
d
R
d
e uma fun cao
bijetora ent ao (T
1
, . . . , T
r
) = h(S
1
, . . . , S
r
) tambem s ao conjuntamente sucientes.
Por exemplo, se S
1
=

n
i=1
X
i
e S
2
=

n
i=1
X
2
i
s ao conjuntamente sucientes para (
1
,
2
)
ent ao

X e S
2
tambem s ao conjuntamente sucientes para (
1
,
2
). Mesmo que possa ser esti-
mado somente pela estatstica S
1
(mais tarde veremos que S
1
e o ENVUMV de ) nao podemos
dizer que S
1
seja suciente para . O conceito de suciencia est a relacionado ao conjunto dos
par ametros do modelo.
4.2 Criterio da Fatorizacao
A deni cao de estatstica suciente e conjuntamente sucientes s ao dadas por deni coes nao muito
faceis de serem vericadas; portanto e desejavel ter criterio mais facil.
Teorema 3.2: Seja X
1
, . . . , X
n
uma amostra de tamanho n com distribui cao F
X
(, ), onde
pode ser um vetor. Um conjunto de estatsticas S
1
= s
1
(X
1
, . . . , X
n
), . . . , S
r
= s
r
(X
1
, . . . , X
n
) s ao
conjuntamente sucientes para se, e somente se, a distribui cao conjunta de X
1
, . . . , X
n
puder ser
fatorada como:
F
X
(x
1
, . . . , x
n
, ) = g(s
1
(x
1
, . . . , x
n
), . . . , s
r
(x
1
, . . . , x
n
); ) h(x
1
, . . . , x
n
),
onde h(x
1
, . . . , x
n
) e uma fun cao nao negativa e nao envolve o par ametro e a fun cao g(t
1
, . . . , t
r
, )
e nao negativa e depende de x
1
, . . . , x
n
somente atraves das func oes s
1
, . . . , s
r
. No caso de dis-
45
tribui cao discreta (contnua) podemos substituir a fun cao distribui cao pela fun cao (densidade) de
probabilidade no termo a ser fatorado.
Obs.: Se r = 1 temos uma estatstica suciente unidimensional.
Note que ha um conjunto nao enumeravel de conjuntos de estatsticas sucientes. O teorema
acima nos da um metodo relativamente facil de vericar se uma certa estatstica e suciente ou se
um conjunto de estatsticas e conjuntamente suciente. Entretanto, o metodo n ao nos diz quando
uma estatstica nao e suciente pois pode ser que a fatoriza cao exista mas foi possvel encontra-la.
Exerccio 3.1: Qual a estatstica suciente para o par ametro nos casos a seguir?
(1) X
1
, . . . , X
n
i.i.d. b(1, );
(2) X
1
, . . . , X
n
i.i.d. N(, 1), = ;
(3) X
1
, . . . , X
n
i.i.d. N(,
2
), = (,
2
);
(4) X
1
, . . . , X
n
i.i.d. U(
1
,
2
), = (
1
,
2
.
Teorema 3.3: Se o estimador de maxima verossimilhan ca e unico ele s o depende da amostra
atraves das estatsticas sucientes.
Prova: Se S
1
= s
1
(X
1
, . . . , X
n
), . . . , S
r
= s
r
(X
1
, . . . , X
n
) s ao conjuntamente sucientes para
ent ao a fun cao de verossimilhan ca pode ser escrita como
L(; x
1
, . . . , x
n
) = g(s
1
(x
1
, . . . , x
n
), . . . , s
r
(x
1
, . . . , x
n
); )h(x
1
, . . . , x
n
)
e max L() sera atingido no mesmo ponto que max g(s
1
(x
1
, . . . , x
n
), . . . , s
r
(x
1
, . . . , x
n
); ). Caso o
estimador seja unico ele depende de x
1
, . . . , x
n
somente atraves das fun coes s
1
, . . . , s
r
.
O ultimo teorema est a anunciado incorretamente no livro; est a faltando a condi cao de unicidade.
Como contra-exemplo considere uma uniforme U( 1/2, + 1/2).

E facil vericar que (X
1
, X
n
)
e suciente para , e que qualquer valor no intervalo (X
n
0, 5, X
1
+ 0, 5) e um estimador de
maxima verossimilhan ca. Em particular, a estatstica {(X
n
0.5) +[cos(X
2
)]
2
(X
1
X
n
+1)} e um
estimador de maxima verossimilhan ca porque seus valores est ao no intervalo (X
n
0, 5, X
1
+0, 5),
mas ele depende de X
2
. A necessidade da unicidade vem do fato de que no caso de termos mais
de um ponto de maximo a escolha do ponto de maximo pode nao ser uma fun cao das estatsticas
sucientes. Este e o caso no exemplo.
Note que os estimadores pelo metodo dos momentos podem nao ser fun cao somente de es-
tatsticas sucientes.
4.3 Estatsticas Sucientes Minimais
Quando introduzimos o conceito de suciencia, nosso objetivo era condensar a informa cao contida
na amostra sem perder informa cao sobre o par ametro. Ja vimos que ha mais de um conjunto
de estatsticas sucientes. Por exemplo, no caso da normal, temos que as estatsticas de ordem
(X
(1)
, . . . , X
(n)
) s ao conjuntamente sucientes para e
2
, mas tambem

X e S
2
tambem o s ao.
Mas estas ultimas condensam mais a informa cao. Pergunta: Sera que podemos condensar os dados
mais ainda? Como veremos a seguir a resposta e nao. Quando isto ocorre temos as estatsticas
sucientes minimais.
Deni cao 3.3: Estatstica suciente minimal: Um conjunto de estatsticas conjuntamente
sucientes e dito ser minimal se, e somente se, e uma fun cao de todo outro conjunto de estatsticas
sucientes.
46
Note que a deni cao acima e pouco pratica para se realmente encontrar as estatsticas sucientes
minimais. Uma deni cao equivalente pode ser conseguida atraves de parti cao mais grossa. Este
conceito est a por tras de um dos teoremas que auxiliam a procurar estatsticas sucientes min-
imais. Mais tarde estudaremos uma classe de distribui coes, a famlia exponencial, onde o fato
da densidade ser propriamente fatorada, nos da um conjunto de estatsticas sucientes minimais.
Inicialmente veremos o teorema
Teorema 3.4: Teorema: Seja (X
1
, . . . , X
n
) uma amostra aleat oria de tamanho n de uma den-
sidade f(; ). Suponha que exista uma fun cao T(X
1
, . . . , X
n
) tal que para dois pontos x =
{x
1
, . . . , x
n
} e y = {y
1
, . . . , y
n
} a raz ao f
c
(x; ) = f
c
(y; ) e constante como fun cao de se e
somente se T(x) = T(y). Ent ao T(X) e uma estatstica suciente minimal. f
c
(; ) e a fun cao
densidade conjunta.
Exemplo 3.2: Seja (X
1
, . . . , X
n
) uma amostra aleat oria de uma N(, ), onde os dois par ametros
s ao desconhecidos. Sejam x e y dois pontos amostrais e ( x, s
2
x
) e ( y, s
2
y
) as medias e variancias
amostrais dos pontos x e y, respectivamente. Ent ao a raz ao das duas densidades conjuntas e dada
por
f
c
(x; ,
2
)
f
c
(y; ,
2
)
=
(2
2
)
n/2
exp{[(n x )
2
+ (n 1)s
2
x
]/(2
2
)}
(2
2
)
n/2
exp{[(n y )
2
+ (n 1)s
2
y
]/(2
2
)}
.
A raz ao sera constante como uma fun cao de e se e somente se x = y e s
2
x
= s
2
y
. Ent ao pelo
teorema anterior (

X, S
2
) e um conjunto de estatsticas suciente minimal para (, ).
4.4 Famlias Exponenciais
Muitas das distribui coes que estamos interessados em estudar tem caractersticas e propriedades co-
muns e s ao agrupadas em uma classe de distribui coes chamada famlia exponencial. (nao confundir
com a distribui cao exponencial que sera um caso particular desta classe). Para uma distribui cao na
classe da famlia exponencial sera muito facil encontrar a estatstica suciente minimal completa
(que veremos a seguir) e a partir delas encontrar ENVUMVs. Estes modelos tambem s ao impor-
tantes pois eles tem muita coisa em comum quando queremos fazer inferencias a respeito deles.
Reconhece-los como casos especiais de modelos mais gerais torna possvel derivar os resultados em
comum que teriam que ser obtidos caso a caso.
Deni cao 3.4: Famlia Exponencial de Distribui coes Uniparametrica: Uma famlia de
distribui coes uniparametrica que pode ser escrita (atraves de uma escolha adequada de fun coes)
como:
f(x; ) = B()h(x) exp[Q()T(x)]
e dita pertencer `a famlia exponencial de distribuic oes uniparametrica.
A maioria das distribui coes que encontramos ate o presente momento pertencem a esta famlia.
Exemplo 3.3:
(1) Bernoulli: f(x; p) = p
x
(1 p)
1x
.
B(p) = 1 p; Q(p) = log
p
1 p
; T(x) = x; h(x) = 1.
47
(2) Binomial: f(x; p) =
_
n
x
_
p
x
(1 p)
nx
.
B(p) = (1 p)
n
; Q(p) = log
p
1 p
; T(x) = x; h(x) =
_
n
x
_
.
(3) Geometrica: f(x; p) = p(1 p)
x
.
B(p) = p; Q(p) = log(1 p); T(x) = x; h(x) = 1.
(4) Binomial Negativa: f(x; p) =
_
r +x 1
x
_
p
r
(1 p)
x1
.
B(p) = p
r
(1 p)
1
; Q(p) = log(1 p); T(x) = x; h(x) =
_
r +x 1
x
_
.
(5) Poisson: f(x; ) = e

x
x!
.
B() = e

; Q() = log ; T(x) = x; h(x) =


1
x!
.
(6) Exponencial: f(x; ) = e
x
.
B() = ; Q() = ; T(x) = x; h(x) = 1.
(7) Normal (N(0, )): f(x; ) = (2)
1/2
exp[x
2
/2].
B() = (2)
1/2
; Q() = (2)
1
; T(x) = x
2
; h(x) = 1.
(8) Normal (N(, 1)) : f(x; ) = (2)
1/2
exp[
1
2
(x )
2
].
B() = (2)
1/2
exp[
1
2

2
]; Q() = ; T(x) = x; h(x) = exp[
1
2
x
2
].
(9) Gama: f(x; ) =
n
x
n1 e
x
(n1)!
.
B() =

n
(n 1)!
; Q() = ; T(x) = x; h(x) = x
n1
.
(10) Raleigh: f(x; ) =
x

2
exp[x
2
/2
2
].
B() =
1

2
; Q() = (2
2
)
1
; T(x) = x
2
; h(x) = x.
Deni cao 3.5: Famlia Exponencial de Distribui coes: Uma famlia de distribui coes index-
ada por um par ametro = (
1
, . . . ,
k
) que pode ser escrita (atraves de uma escolha adequada de
fun coes) como:
f(x; ) = B()h(x) exp[(Q
1
()T
1
(x) + +Q
k
()T
k
(x))]
e dita pertencer `a famlia exponencial de distribui coes.
Na deni cao X pode ser uma variavel aleat oria multivariada.
Exemplo 3.4: Considere a distribui cao normal N(,
2
) indexada pelo par ametro = (,
2
):
f(x; ,
2
) =
1

2
2
exp(
(x )
2
2
2
)
=
1

2
2
exp(

2
2
2
) exp[
x
2
2
2
+x

2
].
48
A qual pertence `a famlia exponencial com a seguinte identica cao:
B(,
2
) =
1

2
2
exp(

2
2
2
); h(x) = 1;
Q
1
(,
2
) =
1
2
2
; R
1
(x) = x
2
;
Q
2
(,
2
) =

2
; T
2
(x) = x.
Exerccio 3.2: Verique que a distribui cao Beta com densidade:
f(x; r, s) =
(r)(s)
(r +s)
x
r1
(1 x)
s1
, 0 < x < 1
pertence `a famlia exponencial.
Note que nem todas as distribui coes pertencem a famlia exponencial. Alguns exemplos s ao a
distribui cao de Cauchy e a distribui cao uniforme. Na verdade, qualquer famia de densidades na
qual o conjunto de valores, para os quais a densidade e positiva depende de (suporte da fun cao),
nao pertence `a classe exponencial.
Teorema 3.5: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma densidade exponencial dada por
f(x; ) = B()h(x) exp[(Q
1
()T
1
(x) + +Q
k
()T
k
(x))].
Ent ao
(S
1
, . . . , S
k
) = (
n

i=1
T
1
(x
i
), . . . ,
n

i=1
T
k
(x
i
))
e conjuntamente suciente para .
Prova: A densidade conjunta de n observa coes independentes a densidade conjunta e dada por:
f(x
1
, . . . , x
n
; ) =
n

i=1
B()h(x
i
) exp[(Q
1
()T
1
(x
i
) + +Q
k
()T
k
(x
i
))]
= B()
n
n

i=1
h(x
i
) exp[(Q
1
()
n

i=1
T
1
(x
i
) + +Q
k
()
n

i=1
T
k
(x
i
))]
e tambem pertence `a famlia exponencial e mais ainda, se
h(x
1
, . . . , x
n
) =
n

i=1
h(x
i
)
e
g(s
1
, . . . , s
k
; ) = B()
n
exp[(Q
1
()s
1
+ +Q
k
()s
k
)]
temos que
f(x
1
, . . . , x
n
; ) = g(s
1
, . . . , s
k
; )h(x
1
, . . . , x
n
)
e portanto
(S
1
, . . . , S
k
) = (
n

i=1
T
1
(x
i
), . . . ,
n

i=1
T
k
(x
i
))
49
e conjuntamente suciente para .
Pode-se mostrar tambem que e conjuntamente suciente completa (deni cao dada a seguir) e min-
imal caso a regi ao de varia cao de (Q
1
(), . . . , Q
k
()) contenha um interior nao vazio. Pode-se
tambem mostrar que se uma estatstica e conjuntamente suciente e completa ent ao tambem e
minimal, mas que uma estatstica e conjuntamente suciente e minimal nao necessariamente e
completa.
Exemplo 3.5: No caso da normal vimos que o vetor (x, x
2
) e conjuntamente suciente para (,
2
).
Dada uma amostra aleat oria, pela propriedade anterior, (

x
i
,

x
2
i
) e um vetor conjuntamente
suciente minimal para (,
2
). Temos que este vetor e uma transforma cao 1-1 do vetor (

X, S
2
)
e portanto nao existe contradi cao com o Exemplo onde deduzimos que este vetor era suciente
minimal. Observe que embora

X seja utilizado para estimar e S
2
para estimar
2
nao podemos
dizer que

X seja suceinte para e S
2
seja sucente para
2
. Verique se poderamos fazer estas
arma coes se um dos estimadores e conhecido.
Existem v arias formas de se escrever uma densidade pertencente `a famlia exponencial. Por
exemplo, fazendo-se uma reparametriza cao, = (), a densidade de uma distribui cao da famlia
exponencial pode ser escrita da forma:
f(x; ) = A()b(x) exp[
k

i=1

i
d
i
(x)],
esta reparametriza cao e chamada de parametriza cao natural da famlia exponencial.
Outra forma de representar uma densidade de uma famlia exponencial uniparametrica
na forma natural e dada por
f(x; ) = {exp[T(x) +d() +S(x)}I
A
(x)
Neste caso temos que, se e um ponto interior, a fun cao geratriz de momentos de T(X) existe e
e dada por
(s) = exp[d() d(s +)]
para s em alguma vizinhan ca de 0. Uma aplica cao imediata e que
E[T(X)] = d

() e V [T(X)] = d

(h).
Exemplo 3.6: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao de Rayleigh (utilizada
para modelar tempo de falha de certos equipamentos)
f(x; ) = (x/
2
) exp(x/2
2
) , x > 0 , > 0
= exp{(2
2
}
1
x
2
log() + log x}I
(0,)
(x)
na forma anterior temos = 1/(2
2
, ou seja
2
= 1/2, d() = nlog(2). Portanto,
E(X
2
i
) = 1/ = 2
2
e V (X) = 1/
2
= 4
4
.
4.5

Estatsticas Ancilares
Ao introduzir o conceito de estatstica suciente comentamos que certas estatsticas dao informa cao
sobre o par ametro porque sua distribui cao depende do par ametro . Devemos tomar cuidado, no
50
entanto, para olhar para toda a informa cao. Considere os seguintes exemplos:
Exemplo 3.7: Considere a distribui cao uniforme U(, + 1). Neste caso temos que (X
(n)

X
(1)
, X
(n)
+X
(1)
) e uma estatstica suciente minimal. No entanto e facil vericar que a distribui cao
da diferen ca entre as estatsticas de ordem extremais independe de , mas que condicionado em
toda a informa cao na amostra ela depende de . Estas estatsticas cuja distribui cao independe do
par ametro s ao chamadas de estatsticas ancilares, e desempenham um papel importante em certas
areas de inferencia estatstica.
Exemplo 3.8 : Suponha que uma variavel aleat oria X tem a mesma probabilidade de vir de uma
normal N(,
2
1
) ou da N(,
2
2
). Considere a variavel aleat oria C que ira decidir de onde vira a
variavel aleat oria. Se ela for igual a 1 a amostra vira da primeira normal e se C for igual a 2 vira
da segunda. Temos P[C = 1] = P[C = 2] = 1/2. A verossimilhan ca no caso e dada por
f
C,X
(c, x) =
exp
_

(x)
2
2
2
c
_
2(2)
0.5

2
c
.
Pelo teorema da fatoriza cao temos que (C, X) e suciente para quando as variancias s ao
conhecidas. Embora a distribui cao de C seja xa e conhecida temos que X nao e suciente.
Observe que a raz ao f
(C,X)
(1, x)/f
(C,X)
(2, x) deveria ser independente de para qualquer x se X
fosse suciente. Calcule a raz ao para X igual a zero e veque se esta condi cao e satisfeita. A
raz ao deveria ser constante porque deveramos estar no mesmo subconjunto da parti cao gerada
pela estatstica suciente X.
4.6 Cota Inferior Para Variancia
Como ja vimos estimadores que tenham uniformemente mnimo EQM nao existem e se queremos
usar este criterio devemos restringir a classe de estimadores sob estudo. Vamos nos restringir a
classe de estimadores n ao viciados.
Deni cao 3.6: Estimador Nao Viciado Uniformemente de Mnima Variancia (EN-
VUMV): Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao f(x; ). Um estimador

(X
1
, . . . , X
n
) de () e denido como sendo um estimador n ao viciado uniformemente de
mnima vari ancia (ENVUMV) se, e somente se:
(i) E

) = (), isto e,

e nao viciado;
(ii) Var

] Var

[S] para qualquer outro estimador S nao viciado de ().


O problema agora e como encontrar um ENVUMV. Um bom incio seria termos uma ideia da
mnima variancia que poderia ser atingido pelos estimadores nao viciados. Se tivermos este limite e
encontrarmos um estimador nao viciado que atinge este limite teremos encontrado um ENVUMV.
Este limite existe, mas como veremos mais tarde ele e mais importante em outras aplica coes e nao
para encontrar o ENVUMV.
Seja X
1
, . . . , X
n
uma amostra com fun cao densidade de probabilidade conjunta f
X
(.; ), onde
. Assuma que e univariado. Seja T = t(X
1
, . . . , X
n
), um estimador nao viciado de ().
Estamos supondo que estamos tratando com um vetor aleaatorio contnuo, procure vericar quais
as condi coes equivalente para o caso discreto. Assuma que as seguintes condic oes de regularidade
s ao satisfeitas:
(i)

f
X
(x
1
, . . . , x
n
; ) existe para todo x e ;
51
(ii)

_

_
f
X
(x
1
, . . . , x
n
; )dx
1
. . . dx
n
=
_

_

f
X
(x
1
, . . . , x
n
; )dx
1
. . . dx
n
(iii)

_

_
t(x
1
, . . . , x
n
)f
X
(x
1
, . . . , x
n
; )dx
1
. . . dx
n
=
_

_
t(x
1
, . . . , x
n
)

f
X
(x
1
, . . . , x
n
; )dx
1
. . . dx
n
(iv) 0 < E[[

log f
X
(X
1
, . . . , X
n
; )]
2
] < , para todo .
Teorema 3.6: Desigualdade de Cramer- Rao. sob as condi coes de regularidade acima temos
que:
Var

[T]
[

()]
2
E[[

log f
X
(X; )]
2
]
,
onde T = t(X
1
, . . . , X
n
) e um estimador nao viciado de ().
A equa cao acima e chamada de desigualdade de Cramer-Rao e a expressao `a direita e
chamada cota inferior de Cramer-Rao para a variancia de estimadores nao viciados de ().
O numerador e chamada de informa cao de Fisher. O termo informa cao e adequado porque quanto
maior e este termo menor pode ser a variancia.
Teorema 3.7: Sob certas condi coes de regularidade que englobam a existencia de segundas
derivadas da f.d.p. e a validade de se trocar as ordens de certas derivadas e integrais temos:
E

{[

log f
X
(X; )]
2
} = E

[

2

2
log f
X
(X; )].
No caso de termos uma amostra aleat oria de uma densidade f(., ) temos que
E[[

log f
X
(X; )]
2
] = nE[[

log f(X; )]
2
].
O teorema pode ser utilizado de duas formas:
(1) O teorema nos da uma cota inferior para a variancia de estimadores nao viciados e portanto
se temos um estimador nao viciado cuja variancia atinge a cota inferior de Cramer-Rao, sabemos
que temos o ENVUMV. Infelizmente este nem sempre e o caso.
(2) Por outro lado, se nao conseguimos achar o ENVUMV, mas temos um estimador nao viciado
cuja variancia esteja perto da cota inferior de Cramer-Rao sabemos que temos um bom esti-
mador.
(3) O fato de um estimador ter uma variancia muito longe da cota inferior de Cramer-Rao nao
signica que ele seja ruim porque a variancia do ENVUMV tambem pode estar longe da quota
inferior. Este coment ario vale para pequenas amostras porque como veremos mais tarde, dentro de
certas condi coes de regularidade, para grandes amostras os estimadores de maxima verossimilhan ca
tem vcio pequeno e sua variancia e proxima `a quota inferior.
52
Exemplo 3.9: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao exponencial com
par ametro , suponha que desejamos estimar . Pode-se mostrar facilmente que as condi coes de
regularidade s ao satisfeitas (tente!). Neste caso,

() = 1 e
Var

[T]
1
nE[[

log f(X; )]
2
]
.
Note que,

log f(x; ) =

(log x) = 1/ x, e portanto,
E[[

log f(X; )]
2
] = E[(
1

X)
2
] = Var(X) =
1

2
Assim, a cota inferior de Cramer-Rao para a variancia de estimadores nao viciados de e dada
por:
Var

[T]
1
n(1/
2
)
=

2
n
.
Teorema 3.8: Se a estimativa de maxima verossimilhan ca de , digamos,

=

(x
1
, . . . , x
n
) e
dada pela solu cao da equa cao

log L(; x
1
, . . . , x
n
) =

log
n

i=1
f(x
i
; ) = 0
e se

e um estimador nao viciado de () que atinge a cota inferior de Cramer-Rao, ent ao

= (

(X
1
, . . . , X
n
)).
Exerccio 3.3: Considere uma amostra aleat oria de tamanho n de uma popula cao com distribui cao
exponencial com taxa de falha . Ache a cota inferior de Cramer-Rao para a variancia dos esti-
madores nao viciados de
1

e verique que

X e ENVUMV para
1

.
Nem sempre a cota inferior de Cramer-Rao pode ser atingida, portanto precisamos de outros
metodos para encontrar ENVUMVs. Para isto precisamos do conceito de estatstica suciente e
completa.
4.7 Suciencia e Completitude
Uma ilustra cao para o tipo de problemas que podemos resolver com os resultados desta se cao.
Suponha que X
1
, . . . , X
n
seja uma amostra aleat oria de uma distribui cao N(,
2
) onde = (, ).
Em 1920, uma aposta surgiu entre o fsico A. Eddington e um dos fundadores da estatstica, Sir
R.A. Fisher, sobre qual o melhor estimador para . Fisher argumentava que um m ultiplo do desvio
padrao amostral
=

_
1
n
n

i=1
(X
i


X)
2
deveria ser utilizado, enquanto que Eddington propunha que um m ultiplo do desvio medio amostral
=
1
n
n

i=1
|X
i


X|.
Os m ultiplos naturais a serem considerados s ao aqueles que dao um estimador nao viciado para
. Sejam,
1
= a e
1
= c . Vamos mostrar que
1
e ENVUMV. Portanto,
1
e sempre melhor
53
que
1
e a aposta foi ganha por Fisher.
Na proxima subse cao iremos mostrar que, ao procurarmos estimadores nao viciados, devemos
nos ater aqueles que sejam fun coes somente da estatsticas sucientes. Caso o estimador encon-
trado seja fun cao somente de estatsticas suciente, que tenham a propriedade de completitude,
propriedade esta que sera denida a seguir, teremos encontrado um ENVUMV.
Deni cao 3.7: Completitude: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao
f(, ) com espa co parametrico , e seja T = t(X
1
, . . . , X
n
) uma estatstica. A famlia de dis-
tribui cao de T e dita ser completa se, e somente se, a unica fun cao g que satisfaz
E

[g(T)] = 0, para todo ,


e a fun cao g(T) = 0.
Um outro modo de dizer que T e completa e dizer o seguinte: T e completa se, e somente se, o
unico estimador nao viciado de 0 que e uma fun cao de T e a estatstica que e identicamente zero.
Exemplo 3.10: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma densidade Bernoulli. A estatstica
T = X
1
X
2
nao e completa porque E

[X
1
X
2
] = 0 e X
1
X
2
nao e igual a zero com probabilidade
1. Considere agora a estatstica T =

n
i=1
X
i
. Seja g(T) qualquer estatstica que e fun cao de T
e para a qual E

[g(T)] = 0 para todo , isto e, para 0 1. Para mostrar atraves da


deni cao que T e completa precisamos mostrar que g(t) = 0 para um conjunto de valores de T
com probabilidade igual a 1, isto e, para t = 0, 1, . . . , n. Mas
E

[g(T)] =
n

t=0
g(t)
_
n
t
_

t
(1 )
nt
= (1 )
n
n

t=0
g(t)
_
n
t
__

1
_
t
como E

[g(T)] 0 para todo 0 1 isto implica que


n

t=0
g(t)
_
n
t
__

1
_
t
0 isto e
n

t=0
g(t)
_
n
t
_

t
0
para todo , onde = /(1 ). Para que o polin omio em seja identicamente zero cada coe-
ciente de
t
tem que ser zero, isto e, g(t)
_
n
t
_
= 0 para t = 0, . . . , n; mas como
_
n
t
_
= 0
temos que g(t) = 0 para t = 0, . . . , n.
Exemplo 3.11: Suponha que X
1
, . . . , X
n
seja uma amostra aleat oria de uma distribui cao Poisson().
Sabemos que T =

n
i=1
X
i
e suciente para e tambem que soma de v.a.s independentes
Poisson() e Poisson(n). Vamos vericar que T e completa. Suponha que g seja uma fun cao
tal que E

[T] = 0 para todo > 0. Ent ao:


e
n

k=0
g(k)(n)
k
k!
= 0
para todo > 0. Sabemos dos teoremas de calculo que uma serie de potencia que e identicamente
zero em um intervalo deve ter todos os seus coecientes iguais a zero. Portanto, g(k) = 0, para
54
todo k = 0, 1, . . .,c.q.d.
Exemplo 3.12: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao U[0, ] onde =
(0, ). Mostre que a estatstica X
(n)
= max{X
1
, . . . , X
n
} e completa.
Seja g uma fun cao tal que E

[X
(n)
] = 0 para todo > 0. Sabemos a densidade de X
(n)
e
portanto,
E

[X
(n)
] =
_

0
g(y)
n
ny
n1
dy
e temos E

[X
(n)
] = 0 para todo > 0 se, e somente se,
n

n
_

0
g(y)y
n1
dy = 0, para todo > 0,
ou equivalentemente,
_

0
g(y)y
n1
dy = 0, para todo > 0.
Quando derivamos ambos os lados desta igualdade com respeito `a temos que g()
n1
= 0
para todo > 0 o que implica que g() = 0 para todo > 0.
Como podemos ver, descobrir se uma estatstica e completa nao e tarefa muito facil, entretanto,
para famlias exponenciais vimos no Teorema 3.5 como encontrar a estatstica suciente completa
minimal.
Exerccio 3.4: Utilize o Teorema 3.5 para vericar se as estatsticas encontradas nos Exemplos
3.3 e 3.4 s ao completas e minimais.
4.8 Metodos Para Encontrar ENVUMV
Nesta subse cao serao dados alguns metodos para encontrar ENVUMV. O primeiro teorema mostra
como a partir de qualquer estimador nao viciado, que nao seja fun cao da estatstica suciente e
possvel encontrar outro estimador nao viciado, fun cao somente da estatstica suciente e e que
tenha menor variancia que o estimador inicial. O segundo teorema mostra que se a estatstica
suciente utilizada for completa o estimador encontrado e um ENVUMV.
Teorema 3.9 Rao-Blackwell Seja X
1
, X
2
, . . . , X
n
uma amostra com fun cao distribui cao F
X
(, )
e sejam S
1
= s
1
(X
1
, . . . , X
n
), . . . , S
k
= s
k
(X
1
, . . . , X
n
) conjuntamente sucientes para . Seja a
estatstica T = t(X
1
, . . . , X
n
) um estimador nao viciado de (). Dena um outro estimador T

por T

= E[T|S
1
, . . . , S
k
]. Ent ao,
(i) T

e uma estatstica e e uma fun cao das estatsticas sucientes S


1
, . . . , S
k
. Portanto, pode-
mos escrever T

= t

(S
1
, . . . , S
k
).
(ii) E

[T

] = (); isto e, T

e um estimador nao viciado de ().


(iii) Var

[T

] Var

[T] para todo , e Var

[T

] < Var

[T] para algum a menos que


P[T

= T] = 1 .
Prova: (i) S
1
, . . . , S
k
s ao estatsticas sucientes; portanto a distribui cao condicional conjunta da
amostra , e consequentemente a distribui cao condicional de T, dado S
1
, . . . , S
k
e independente de
55
. Portanto, T

e independente de e como e uma fun cao de S


1
, . . . , S
k
e uma estatstica.
(ii) Pela deni cao de T

e propriedades de esperan ca condicional temos:


E

[T

] = E

[E[T|S
1
, . . . , S
k
]] = E

[T] = ()
(iii) Pelas propriedades de variancia e esperan ca condicional temos que:
Var

[T] = E[(T E

[T])
2
] = E[(T E

[T

])
2
]
= E[(T T

+T

[T

])
2
]
= E[(T T

)
2
] + 2E[(T T

)(T

[T

])] +E[(T

[T

])
2
]
= E[(T T

)
2
] + 2E[(T T

)(T

[T

])] + Var[T

],
Entretanto,
E[(T T

)(T

[T

])] = E

[E[(T T

)(T

[T

])|S
1
, . . . , S
k
]] = 0,
e portanto,
Var

[T] = E[(T T

)
2
] + Var[T

] Var

[T

].
Geralmente, temos um ou dois par ametros desconhecidos e a distribui cao condicional e possvel
de ser encontrada. Pode ou nao ser facil de ser encontrada.
Exemplo 3.13: Considere uma amostra aleat oria de tamanho n de uma Bernoulli com par ametro
. No teorema anterior podemos tomar T = X
1
porque sabemos que X
1
e um estimador nao
viciado de . Ja vimos que S =

n
i=1
X
i
e uma estatstica suciente para a Bernoulli. Para
aplicar o teorema de Rao-Blackwell precisamos calcular T

= E(X
1
|

n
i=1
X
i
= s). Como X
1
e
uma fun cao indicadora temos que T

= P(X
1
= 1|

n
i=1
X
i
= s). Dada a independencia sabemos
que os sucessos est ao uniformemente distribudos, e como existem s sucessos em n ensaios
temos que T

= s/n.

E facil vericar que este estimador e nao viciado, tem variancia menor do
que o estimador inicial e e fun cao somente da estatstica completa. Pode-se vericar que atinge o
LICR e portanto temos um ENVUMV. Resultados posteriores permitem dizer que ele e o unico
ENVUMV. Verique no livro do Mood et al. na pagina 322-3 como se chega a este resultado
calculando a distribui cao de probabilidade de X
1
condicionada `a estatstica suciente.
Obs.:
(1) Se um estimador T nao viciado de () ja e uma fun cao das estatsticas sucientes ent ao
T

= E[T|S
1
, . . . , S
k
] e igual a T e nao podemos esperar uma diminui cao da variancia.
(2) Para aplicar o teorema acima, podemos utilizar qualquer conjunto de estatsticas sucientes,
mas e natural utilizar um conjunto de estatsticas sucientes minimal.
Se aplicassemos o Teorema de Rao-Blackwell aos nossos estimadores
1
e
1
, sabemos que
(

n
i=1
X
i
,

n
i=1
X
2
i
) s ao as estatsticas sucientes e como
1
e fun cao de (

n
i=1
X
i
,

n
i=1
X
2
i
), mas

1
nao e, temos que podemos melhorar
1
mas nao
1
. Mas ainda nao podemos concluir que
1
e ENVUMV, para isso precisamos do conceito de completitude denido na subse cao anterior e o
proximo teorema.
Teorema 3.10: Lehmann-Schee Seja X
1
, . . . , X
n
uma amostra com distribui cao F
X
(, ),
. Se S = s(X
1
, . . . , X
n
) e uma estatstica suciente e completa e se T

= t

(S) e um esti-
mador nao viciado de (), ent ao T

e um ENVUMV de ().
Prova: Seja T

qualquer outro estimador nao viciado de () que seja fun cao de S, digamos
T

= t

(S). Ent ao
E

[T

] = 0, para todo
56
Mas, T

e uma fun cao de S e como S e completa temos que T

= T

. Assim, ha um unico
estimador nao viciado de () que e fun cao de S. Sabemos que se T e qualquer outro estimador
nao viciado de () ent ao E[T|S] = T

e da, pelo teorema de Rao-Blackwell temos que


Var

[T

] Var

[T]
para todo e portanto um ENVUMV para ().
Resultados analogos (que nao serao enunciados aqui) valem para famlias multiparametricas.
Pode-se mostrar que existe um unico ENVUMV caso a variancia do estimador seja nito para todo
o espa co parametrico.
Metodos para encontrar ENVUMV: A interpreta cao dos teoremas de Rao-Blackwell e Lehmann-
Schee nos da os seguintes metodos para encontrar estimadores NVUMV:
Metodo 1: Aplica cao direta do teorema de Lehmann-Schee. Se temos um estimador nao viciado
fun cao somente da estatstica suciente e completa, ent ao ele e um ENVUMV.
Metodo 2: Se T e um estimador nao viciado S e uma estatstica suciente e completa ent ao
T

= E[T|S] pelos 2 teoremas e um ENVUMV. Este metodo e bastante utilizado quando quere-
mos encontrar um ENVUMV de P[X A]. Neste caso sabemos que a fun cao indicadora I
A
(X) e
um estimador nao viciado da probabilidade procurada.
Metodo 3: Dado um estimador fun cao somente da estatstica suciente e completa podemos en-
contrar a sua esperan ca. Se o estimador for nao viciado ja temos um ENVUMV. Caso o estimador
tenha um vcio que pode ser corrigido continuando um estimador fun cao somente da estatstica
suciente e completa temos um ENVUMV.
Metodo 4:
`
As vezes queremos encontrar o ENVUMV de () e temos um estimador T fun cao
somente da estatstica suciente e completa. Neste caso podemos considerar o estimador (T).
Claramente este estimador e fun cao somente da estatstica suciente e completa e podemos tentar
aplicar o metodo anterior.
Metodo 5: Este metodo nao e aplica cao dos 2 teoremas, mas aplica cao do limite inferior de
Cramer-Rao. Caso um estimador nao viciado atinja o LICR ele e o ENVUMV.
Nota: Observe que sempre colocamos um ENVUMV. No entanto, se a variancia for nita para
todo o espa co parametrico temos o ENVUMV.
Exemplo 3.14: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao N(,
2
). Como ja
vimos no Exerccio 3.4 que a distribui cao f(; ,
2
) pertence `a famlia exponencial biparametrica
e que T(X) = (

n
i=1
X
i
,

n
i=1
X
2
i
) e uma estatstica suciente, completa e minimal.

X e uma fun cao de T e estimador nao viciado de . Portanto,



X e o ENVUMV de . Sempre
procuraremos adotamos o artigo denido quando a variancia do estimador for nito para todo o
espa co parametrico.
S
2
=
1
n1

n
i=1
(X
i


X)
2
e uma fun cao de T e estimador nao viciado de
2
; portanto S
2
e um
ENVUMV de
2
. Aplicamos aqui o Metodo 1. Ele e o unico ENVUMV porque sabemos que a
variancia de uma qui-quadrada e nita.
57
Exemplo 3.15: No problema anterior encontre um ENVUMV do desvio padrao.
Sabemos que S
2
e um estimador de
2
fun cao somente da estatstica completa. Sabemos que S e
um estimador viciado de , mas se pudermos corrigir o vcio conforme sugerido antes teremos um
ENVUMV de . Estamos aqui tentando aplicar o Metodo 4. Temos que
E(S) =
(n/2)
(
n1
2
)
_
n1
2
;
logo,
(
n1
2
)
_
n1
2
(n/2)
S
e um ENVUMV de como sugeria Fisher.
Exemplo 3.16 Estimando a probabilidade de falha precoce. Algumas vezes e razo avel se pensar
que o tempo de vida (tempo para o primeiro conserto) de um equipamento e uma variavel aleat oria
exponencialmente distribuda com par ametro o qual e desconhecido.
Suponha que n equipamentos identicos s ao selecionados e seus tempos de falha X
1
, . . . , X
n
s ao
observados. Desejamos estimar a probabilidade de uma falha precoce, isto e, P

[X
1
x] = 1e
x
para algum valor x pre-xado.
Observe que estamos tentando estimar a probabilidade de um evento A denido como falha ate
o tempo x. Como comentado antes podemos tentar o Metodo 2, a partir da fun cao indicadora
S(X
1
) = I
[X1x]
, que e um estimador nao viciado de (), mas nao e fun cao da estatstica suciente.
Ja vimos que a distribui cao exponencial pertence `a famlia exponencial e que T =

n
i=1
X
i
e
suciente e completa para . Um ENVUMV pode ser encontrando calculando
t

= E

[S(X
1
)|T = t]
= E[I
[X1x]
|T = t] = P(X
1
x|T = t)
=
_
x
0
f
(X1|T)
(y|t)dy.
Mas,
f
(X1|T)
(y|t) =
f
(X1,T)
(y, t)
f
T
(t)
f
(X1,T)
(y, t) = f
X1
(y)f
(T|X1)
(t|y).
Como
_
n

i=1
X
i
t|X
1
= x
_
=
_
n

i=2
X
i
t x
_
e a soma de (n 1) exp() e uma Gama(n 1, ) temos que
f
(T|X1)
(t|x) =

(n 1)
[(t x)]
n2
e
(tx)
I
[0,)
(t x)
f
X1
(x) = e
x
I
[0,)
(x)
f
(T,X1)
(t, x) =

n
(n 1)
(t x)
n2
e
t
I
[x,)
(t)I
[0,)
(x)
f
T
(t) =

(n)
(t)
n1
e
t
I
[0,)
(t).
58
Portanto,
f
(X1|T)
(y|t) =
n 1
t
_
1
y
t
_
n2
I
[0,t]
(y),
e obtemos,
T

=
_
1 (1
x

n
i=1
Xi
)
n1
, se

n
i=1
X
i
x
1, caso contrario.
Esta estimativa difere muito da obtida pelo metodo de maxima verossimilhan ca onde o esti-
mador de () e 1 e

x
onde

= (1/

X). O EMV tambem e fun cao da estatstica suciente e
como nao e igual ao ENVUMV T

, isto signica que o EMV e viciado.


Exemplo 3.17: No exemplo anterior encontre o ENVUMV da taxa de falha, isto e, de .
Utilizando o Metodo 4 vamos chutar que o estimador e da forma
c

Xi
.
Como T tem distribui cao Gama(n, ) temos que
E[T
1
] =
_

0
t
1
1
(n)

n
t
n1
e
t
dt
=
1
(n)
_

0

n
t
n2
e
t
dt
utilizando a trasforma cao u = t temos du = dt e
E[T
1
] =

(n)
_

0
u
n2
e
u
du
=

(n)
(n 1) =

n 1
.
Logo
n1

Xi
e o ENVUMV de .
Exemplo 3.18: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma U(0, ). Encontre o ENVUMV
de .
Vimos no exemplo que o maximo amostral, X
(n)
, que e o estimador de maxima verossimilhan ca
de e uma estatstica suciente e completa. Vamos calcular E[X
n
] para ver se e possvel aplicar
o Metodo 3.
E[X
(n)
] =
_

0
y
n
ny
n1
dy
=
n

n
_

0
y
n
dy
=
n
n + 1
;
ou seja, X
(n)
e um estimador viciado. Porem o seu vcio pode ser corrigido e aplicado o metodo 3.
Note que
T

=
n + 1
n
X
(n)
fun cao somente da estatstica suciente e completa e nao viciado e portanto o ENVUMV. Ele e
unico porque qualquer que seja sua variancia e limitada.
59
Exerccio 3.5: Mostre que o estimador ridculo encontrado no Exemplo 2.3 e o ENVUMV de
e
3
.
Exerccio 3.6: No Exemplo 18 encontramos o ENVUMV de na U(0, ). Encontre o estimador
T
1
= aX
(n)
que minimiza o erro quadr atico medio. Compare o valor encontrado com os erros
quadr aticos medios do ENVUMV e do estimador de maxima verrossimilhan ca e mostre que os dois
ultimos estimadores s ao inadmissveis.
Exerccio 3.7: Assuma que l ampadas `a v acuo tem tempos de vida que s ao exponencialmente
distribuidas com par ametro , isto e, tempo medio de vida 1/. Se nos tomamos uma amostra
aleat oria de n desses tubos denotando X
i
= tempo de vida do i-esimo tubo, i = 1, 2, . . . , n, (a)
Se nosso interesse e estimar a mediana do tempo de vida, isto e, quero o valor de c tal que
P(X > c) = P(X < c) = 0.5. Encontre o EMV e o ENVUMV de c.
Exerccio 3.8: O raio de um crculo e medido com um erro aleat orio o qual tem distribui cao
N(0,
2
), desconhecido. Dadas n medidas independentes do raio (R
1
, . . . , R
n
), ache um esti-
mador nao viciado para a area do crculo. Esse estimador e o ENVUMV?
Exerccio 3.9: Para uma amostra aleat oria de tamanho n de uma popula cao com distribui cao de
Poisson com par ametro , encontre um estimador nao viciado de () = (1 + )e

. Encontre o
EMV de (). Encontre o ENVUMV de ().
Exerccio 3.10: Deseja-se estimar a propor cao de moradores de Campinas que s ao a favor do
programa de reciclagem de lixo. Para isso entrevista-se 500 pessoas e para cada pessoa anota-se
se ela e contra ou a favor do programa. Com base nesta amostra aleat oria:
(a) Qual seria o ENVUMV para a propor cao de pessoas a favor? Chame este estimador de T
1
.
(b) Qual o ENVUMV para a variancia do estimador T
1
obtido em (a)? Chame o estimador da
variancia de T
2
.
(c) Qual a cota inferior de Cramer-Rao para estimadores da variancia de T
1
? Esta cota e atingida
por T
2
?
Exerccio 3.11 Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao N(, ).
(a) Qual o espa co parametrico?
(b) Ache a estatstica suciente e completa.
(c) Argumente que

X nao e ENVUMV para .
(d) Como voce acharia o ENVUMV para . Se voce nao conseguir achar explicitamente, pelo
menos indique como este poderia ser encontrado.
Exerccio 3.12: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma popula cao com densidade
f(x, ) = e
(x)
I
[,)
(x)
para < < .
(a) Ache uma estatstica suciente para .
(b) A estatstica obtida em (a) e completa?
(c) Ache o ENVUMV de se tal existir.
Exerccio 3.13: Encontre o LICR dos estimadores nao viciados da media populacional da Poisson,
Binomial, Normal com variancia conhecida. Mostre que em todos os casos as medias amostrais
atingem o LICR. Como estes estimadores s ao nao viciados eles s ao ENVUMV. Neste caso estamos
adotando o Metodo 5 para encontrar o ENVUMV.
60
5 Propriedades

Otimas dos Estimadores de Maxima Veros-
similhan ca
Apesar da apresenta cao de v arios metodos o estimador mais utilizado, na pratica, e o de maxima
verossimilhan ca. Esta enfase sera parcialmente justicada nesta se cao ao considerarmos algumas
propriedades otimas dos estimadores de maxima verossimilhan ca.
Embora nao seja necessario termos uma amostra aleat oria para aplicarmos o metodo, apenas por
simplicidade, vamos considerar que temos uma amostra aleat oria de uma densidade f(; ), onde e
um n umero real. Tambem por simplicidade vamos considerar que estamos interessados em estimar
o proprio par ametro e denote o estimador de maxima verossimilhanca por

= (X
1
, . . . , X
n
).
Algumas das propriedades dos estimadores denidos anteriormente como nao tendenciosidade e
uniformemente de mnima variancia s ao v alidas para qualquer tamanho de amostra nita, e s ao
chamadas de propriedades de pequenas amostras. Este nome pode trazer confusao ja que as pro-
priedades s ao v alidas para qualquer tamanho de amostra xa, pequena ou nao. Este nome, na
verdade, vem em contrapartida a algumas propriedades assint oticas como consistencia e otimo entre
os assintoticamente normais, propriedades estas chamadas de propriedades para grandes amostras
ou de propriedades assint oticas. Observe, no entanto, que estas mesmas propriedades podem ser
v alidas, ou aproximadamente v alidas, mesmo para pequenas amostras. Porem ao contrario das
propriedades para pequenas amostras, que s ao v alidas para qualquer tamanho da amostra, as pro-
priedades assint oticas podem nao ser, nem aproximadamente, v alidas para pequenas amostras.
Ja vimos que os estimadores de maxima verossimilhan ca podem ser viciadas ou nao, e que as
nao viciadas podem ser ou nao ENVUMV. O teorema a seguir da as propriedades assint oticas dos
estimadores de maxima verossimilhan ca quando f(; ) satisfaz certas condi coes de regularidade.
Teorema 4.1:. Se a densidade f(; ) satisfaz certas condi coes de regularidade e se

= (X
1
, . . . , X
n
)
e o estimador de maxima verossimilhan ca de para uma amostra aleat oria de tamanho n de f(x; ),
ent ao:
(i)

tem distribui cao assint otica normal com media e variancia igual ao LICR, isto e,
_
nE

{[

log f(X; )]
2
}
_
1
.
(ii) A sequencia de estimadores de maxima verossimilhan ca {

n
} e o melhor entre os assintoti-
camente normais (BAN).
Nota: O teorema garante que:
1. A grosso modo, para grandes amostras, nao existe estimador melhor do que o estimador de
maxima verossimilhan ca, se utilizarmos o criterio de vcio e variancia porque ele e assintotica-
mente nao viciado e atinge o limite inferior de Cramer-Rao.
2. A distribui cao assint otica depende apenas da densidade da popula cao, isto e, nao e necessario
encontrar a forma analtica do estimador de maxima verossimilhan ca para saber sua distribui cao.
Esta e uma das grandes vantagens do EMV sobre o ENVUMV. Enquanto este ultimo em muitos
casos nao e encontrado no caso do EMV para encontrar a estimativa de maxima verossimilhan ca
basta utilizar um algoritmo numerico conavel que encontre o maximo de uma fun cao. Tome
cuidado porque o maximo pode nao existir. Nestes algoritmos normalmente e necessario utilizar
um valor inicial. Muitas vezes a estimativa pelo metodo dos momentos e utilizado como valor inicial.
61
3. Uma das diculdades poderia ser encontrar o LICR. No entanto, neste caso pode-se aproxi-
mar a esperan ca da segunda derivada pela valor da derivada no ponto da estimativa de maxima
verossimilhan ca (a justicativa para se utilizar a segunda derivada dada pelo Teorema 4.3).
Exemplo 4.1: Em muitos casos o estimador de maxima verossimilhan ca da media populacional,
como visto para o caso da Poisson, normal, exponencial, binomial , etc e a media amostral. Nestes
casos ja e possvel vericar que a aplica cao do teorema central do limite garante a distribui cao
assint otica normal e para qualquer tamanho amostral o EMV nao e viciado e suas variancias
atingem o LICR. Portanto, para estes, e em muitos outros casos e facil vericar que o Teorema 4.1
se aplica.
Os resultados valem tambem para o caso de termos par ametros n-dimensionais. Neste caso
basta utilizar as derivadas em rela cao ao vetor = (
1
, . . . ,
r
).
Teorema 4.2: Vimos anteriormente que o estimador de maxima verossimilhan ca de () e dada
por (

). Se () for diferenciavel ent ao temos que (

) tem assintoticamente uma distribui cao


normal com media () e variancia
[

)]
2
nE

{[

log f(X; )]
2
}
que e o LICR.
Exemplo 4.2: Considere a estimativa da taxa de falha da distribui cao exponencial que foi tratada
no Exemplo 3.17. Caso voce tenha feito os exerccios anteriores ja saberia que o estimador de
maxima verossimilhan ca da taxa de falha e dada pela estatstica T = n/

X. Uma aplica cao imedi-
ata dos resultados do Exemplo 3.17 nos mostra que E(T) = [n/(n 1)] que tem vcio assint otico
igual a zero. Vamos calcular para tamanho da amostra igual a 20 e = 0, 5 a probabilidade de
que o erro da estimativa seja menor do que 0,05.
No Exemplo 3.9 ja havamos calculado atraves do teorema inicial que o denominador do LICR
e igual a
2
. Vamos agora calcula-lo utilizando o Teorema 4.2.
Do Exemplo 3.9 temos

log f(x; ) = 1/ x
ou seja,

2
log f(x; ) =
1

2
,
que e analogo ao resultado anterior.
Pelo Teorema 4.1 temos que T tem distribui cao assint otica com media igual a 0,5 e variancia igual
a 0, 5
2
/20 = 0, 0125, e
P[|T | < 0, 05] P[|N(0, 5; 0, 0125) 0, 5| < 0, 05] =
P[|Z| < 0, 447] = 0, 345
Exerccio 4.1 No caso anterior estime a probabilidade exata utilizando simula cao e compare com
o resultado encontrado.
Exerccio 4.2 No caso da distribui cao exponencial de a distribui cao aproximada do estimador de
maxima verossimilhan ca de falha precoce quando os tempos s ao exponenciais independentes.
62
Exerccio 4.3 Encontre a distribui cao aproximada do estimador de maxima verossimilhan ca de
e
3
no caso da distribui cao de Poisson.
63
Cap. 3 - Estima cao Por Intervalo
1 Introducao
Quando apresentamos um estimador de um par ametro populacional, por exemplo,

X como um
estimador da media populacional, nao ha indica cao da conabilidade deste estimador quando
anunciamos o valor estimado baseado na amostra. Dar o tamanho da amostra utilizado ajuda
bastante caso a pessoa que est a lendo o trabalho conhe ca um pouco de estatstica e consiga inter-
pretar a precis ao da estimativa utilizando o tamanho da amostra. Isto nao e o caso, em geral, e
precisamos de uma arma cao mais precisa e facil de entender.
Portanto, parece desejavel que o valor da estimativa viesse acompanhado de alguma medida do
possvel erro de estimativa. Por exemplo, a estimativa pontual poderia vir acompanhado de algum
intervalo sobre a estimativa pontual com alguma medida de seguran ca de que o valor verdadeiro
esteja dentro do intervalo. Em vez de fazer inferencia atraves da estimativa do par ametro por
um ponto consideramos a inferencia atraves da estimativa de que o verdadeiro valor do par ametro
esteja dentro de um intervalo. Falamos ent ao de estimativa por intervalo de conan ca.
Assim como em estima cao pontual, o problema de estima cao por intervalo de conan ca tem
dois aspectos. Primeiro existe o problema de encontrar estimadores e depois o de determinar
estimadores bons, ou otimos. O tratamento dado a estes dois problemas neste captulo sera in-
completo. Maiores considera coes serao apresentadas no proximo captulo, dada a rela cao existente
entre intervalos de conan ca e testes de hip oteses. A rela cao e tal que um pode ser utilizado para
introduzir o outro, nao havendo uma ordem para tal.
Embora a discussao sobre intervalos de conan ca nao seja t ao detalhada quanto sobre estima cao
pontual isto nao implica que ela seja menos importante. Na pratica ocorre o contrario, mas e que
a teoria sobre estimativas pontuais otimas (dentro de uma deni cao adequada de otimalidade) e
mais facil e a teoria est a mais desenvolvida para estimativa pontual. Em parte isto e tambem
explicada pelo fato do estimador pontual ser um bom ponto de partida para a constru cao de um
estimador por intervalo.
Exemplo 1.1: Considere uma amostra de tamanho n de uma popula cao normal com variancia
unitaria. Isto e, X
1
, . . . , X
n
s ao v.a.s i.i.d N(, 1). O intervalo de

X 2/

n `a

X + 2/

n tem
4 desvios padroes de comprimento e com grande chance deveria conter o verdadeiro valor do
par ametro . O que podemos dizer e que o intervalo aleat orio de e

X 2/

n `a

X + 2/

n tem
a propriedade que
P(

X
2

n
< <

X +
2

n
) = P(
2

n
<

X <
2

n
) = 0, 9544.
Isto e, um intervalo calculado desta maneira vai cobrir o verdadeiro valor do par ametro 95,44%
das vezes em que for calculado. Tal intervalo aleat orio e chamado um intervalo com 95,44% de
conan ca para .
Note o efeito do tamanho amostral neste exemplo - quanto maior o tamanho da amostra, menor
o intervalo de conan ca. Tambem, escolhendo um coeciente de conanca que nao fosse 95.44%
resultaria em outro intervalo de conan ca. Por exemplo, um coeciente de conan ca de 95% nos
daria um intervalo de conan ca:
[

X
1, 96

n
;

X +
1, 96

n
].
64
Quanto maior o coeciente de conan ca maior o comprimento do intervalo, quanto menor o coe-
ciente, mais curto sera o intervalo de conan ca. Assim, pode-se sentir mais conante em sua
habilidade de achar um par ametro dentro de um intervalo maior.
Deve car bem claro que um intervalo de conan ca e um intervalo aleat orio, antes de tirar-
mos a amostra. Depois que tiramos a amostra temos um intervalo numerico, digamos um IC de
95% e [9, 1; 9, 7] que pode ou nao conter o verdadeiro valor do par ametro. O que podemos armar
e que se repetirmos a amostragem um n umero muito grande de vezes e calculamos o IC, em cerca
de 95% das vezes, ele cobrir a o verdadeiro valor do par ametro.
Exemplo 1.2: Estamos interessados na pressao media de ruptura de cabos de a co utilizados na
constru cao civil. Uma amostra de n = 32 cabos de a co foi examinada e sabe-se, que a v.a. X =
ponto de ruptura de cabo de a co e uma v.a. com distribui cao normal e desvio padr ao = 5 kcq
(kg por cm quadrado). Apos a retirada da amostra temos que x = 42, 19 kcq. Construmos o IC de
nvel 90%, obtendo [

X 1.645/

n]. Substituindo o valor da media amostral temos o intervalo:


[42, 19 1, 645/

32] = [41, 61; 42, 77].


Neste ponto usaremos de certa liberdade da linguagem ja que tanto o intervalo aleat orio [

X
1, 645/

n] como o intervalo [41, 61; 42, 77] serao chamados de intervalos de conan ca, ou mais
precisamente de intervalos de conan ca 90%. Note que no caso de estima cao pontual utilizamos
os nomes de estimador e estimativa. Interpretando os resultados queremos dizer que estamos 90%
condentes que este intervalo numerico contenha o verdadeiro valor da pressao media de ruptura.
Isto e, se repetimos o experimento de retirar 32 amostras de cabo de a co e medir seu ponto de
ruptura um grande n umero de vezes e todas as vezes construirmos o IC como zemos acima, em
90% dos casos o verdadeiro valor do par ametro estara no intervalo construido.
Observe que alem da liberdade de se escolher o coeciente de conan ca poderamos tambem
ter escolhido um intervalo assimetrico em rela cao `a media amostral, i.e., intervalos do tipo:
[

X a/

n;

X +b/

n] ,
ou seja, apenas utilizando este tipo de intervalo existe um n umero nao cont avel de intervalos
possveis para um mesmo coeciente de conan ca.

E natural que entre intervalos de mesma con-
an ca procuramos aquele de largura mnima, que neste caso ocorre quando a = b quaisquer que
sejam os valores amostrais.
O metodo para encontrar um intervalo de conan ca que acabamos de ilustrar e um metodo
geral. O metodo procura, se possvel, uma fun cao (a quantidade Z =

X
/

n
utilizada nos exem-
plos anteriores. Por que nao podemos chamar a quantidade Z de estatstica?) da amostra e do
par ametro a ser estimado, que tenha uma distribui cao independente do par ametro de interesse e
de qualquer outro par ametro. Ent ao seremos capazes de calcular P[a Z b] = para a e b
xos e conhecidos, ou ent ao encontrar a e b para um dado . Como Z e uma fun cao da amostra se
formos capazes de encontrar um intervalo aleat orio [T
1
(X
1
, . . . , X
n
), T
2
(X
1
, . . . , X
n
)] equivalente
a [a Z b] teremos um intervalo de conan ca 100%. Este metodo, ou tecnica, descrita na
subse cao 2.2 e e chamado de metodo da quantidade pivotal. Entretanto, este metodo nem sempre e
aplicavel, seja porque nao podemos encontrar uma fun cao na forma desejavel, ou ent ao e impossvel
reescrever a expressao na forma de intervalo de conan ca.
A ideia da constru cao de intervalos de conan ca pode ser estendida para o caso onde temos
a estima cao de v arios par ametros. Por exemplo, se no caso da distribui cao normal, temos e
como par ametros desconhecidos, neste caso, queremos uma regi ao aleat oria (regi ao de conanca)
do espa co parametrico = {(, ); R, > 0} que cubra o verdadeiro valor do par ametro
= (, ) com probabilidade 95%. Depois de retirada a amostra temos o IC de nvel 95%.
65
2 Construcao de Intervalos de Conanca
2.1 Deni cao de Intervalo de Conanca
Nas subse coes anteriores tentou-se dar uma ideia do conceito de intervalo de conan ca atraves de
um simples exemplo. Nesta subse cao deniremos, de forma geral, o que e um intervalo de conan ca
e na proxima subse cao sera descrito um metodo para encontrar intervalos de conan ca.
Assuma que temos uma amostra X
1
, . . . , X
n
com fun cao distribui cao F
X
(; ) parametrizada
por . Assim como em estima cao pontual estaremos interessados em estimar uma fun cao real de
denotada por ()
Deni cao 2.1a Intervalo de Conan ca: Seja X
1
, . . . , X
n
uma amostra com fun cao distribui cao
F
X
(; ). Sejam T
1
= t
1
(X
1
, . . . , X
n
) e T
2
= t
2
(X
1
, . . . , X
n
) duas estatsticas satisfazendo T
1
T
2
para as quais P[T
1
< () < T
2
] , onde nao depende de ; ent ao o intervalo aleat orio [T
1
, T
2
]
e chamado intervalo de conan ca 100% para (); e chamado de coeciente de conan ca; e T
1
e
T
2
s ao chamados, respectivamente, de limites, ou cotas, inferior e superior de conan ca para ().
Um valor (t
1
, t
2
) para o intervalo (bilateral) (T
1
, T
2
) e tambem chamado de intervalo de conan ca
(bilateral) 100% para ().
Uma das estatsticas T
1
ou T
2
pode ser tomada como constante. Quando uma das constantes
e o menor ou o maior valor do espa co parametrico temos os intervalos de conan ca unilaterais.
Deni cao 2.2 Intervalo de Conan ca Unilateral: Seja X
1
, . . . , X
n
uma amostra com fun cao
distribui cao F
X
(; ) Seja T
1
(X
1
, . . . , X
n
) uma estatstica para o qual P[T
1
< ()] ; ent ao T
1
e
chamado de limite inferior, ou quota inferior de conanca (unilateral) 100% para (). Similar-
mente, seja T(X
1
, . . . , X
n
) uma estatstica para a qual P[() < T
2
] ; ent ao T
2
e chamado de
limite superior, ou quota superior de conanca (unilateral) 100% para (). ( nao depende de ).
As deni coes de intervalo dadas pelas Deni c oes 2.1 e 2.2 s ao um pouco restritivas. Por exem-
plo, em uma amostra aleat oria de uma Bernoulli B(p), que corresponde a uma amostra aleat oria
simples para estimar propor coes, utilizada com muita freq uencia em pesquisa de opiniao p ublica,
o intervalo aleat orio (X 0, 03, X +0, 03) nao seria considerado um intervalo de conan ca. Desta
forma daremos duas deni coes alternativas. Iremos utilizar a Deni c ao 2.1.c. A Deni c ao 2.1.b,
dada a seguir e a mais geral. A Deni c ao 2.1.a e a mais restritiva, mas e utilizada com maior
freq uencia, e e um caso particular da Deni c ao 2.1.c com a sugestao de se utilizar o supremo.
Deni cao 2.1b Intervalo de Conan ca: Seja X
1
, . . . , X
n
uma amostra com fun cao distribui cao
F
X
(; ). Sejam T
1
= t
1
(X
1
, . . . , X
n
) e T
2
= t
2
(X
1
, . . . , X
n
) duas estatsticas satisfazendo T
1
T
2
para as quais P[T
1
< () < T
2
] = (). Ent ao o intervalo aleat orio [T
1
, T
2
] e chamado intervalo
de conan ca para () com coeciente de cobertura ().
Deni cao 2.1c Intervalo de Conan ca: Seja X
1
, . . . , X
n
uma amostra com fun cao distribui cao
F
X
(; ). Sejam T
1
= t
1
(X
1
, . . . , X
n
) e T
2
= t
2
(X
1
, . . . , X
n
) duas estatsticas satisfazendo T
1
T
2
para as quais P[T
1
< () < T
2
] , . Ent ao o intervalo aleat orio [T
1
, T
2
] e chamado intervalo
de conan ca para () com coeciente de conan ca .
Desta deni cao temos que se um intervalo tem coeciente de conan ca tambem tem coeciente
de conan ca
1
, onde
1
< . Por isso, sempre que for possvel calcular
0
= sup

adotamos
0
como coeciente de conan ca.
Ao encontrarmos um intervalo para , na verdade encontramos toda uma famlia de intervalos
de conan ca. Mais especicamente, dado um intervalo de conan ca 100% para um estimador
66
por intervalo de conan ca 100% para () pode ser encontrado facilmente para qualquer fun cao
estritamente monotona (). Por exemplo, se () e uma fun cao monotona crescente e [T
1
, T
2
] e
um intervalo de conan ca 100% para , ent ao [(T
1
), (T
2
)] e um intervalo de conan ca 100%
para () porque
P[(T
1
) < () < (T
2
)] = P[T
1
< < T
2
] = .
2.2 Quantidade Pivotal
Deni cao 2.3 Quantidade Pivotal : Seja X
1
, . . . , X
n
uma amostra com fun cao distribui cao
F
X
(; ). Seja Q = q(X
1
, . . . , X
n
; ); isto e, seja Q uma fun cao de X
1
, . . . , X
n
e . Se a distribui cao
de Q nao depende de , ent ao Q e denida como uma quantidade pivotal.
Metodo da Quantidade Pivotal : Se Q = q(X
1
, . . . , X
n
; ) e uma quantidade pivotal e tem
uma fun cao densidade de probabilidade, ent ao para qualquer valor xo 0 < < 1 existe q
1
e q
2
,
que dependem de , tal que P[q
1
< Q < q
2
] = . Agora, se para cada possvel valor amostral
(x
1
, . . . , x
n
), q
1
< q(x
1
, . . . , x
n
) < q
2
, se e somente se t
1
(x
1
, . . . , x
n
) < () < t
2
(x
1
, . . . , x
n
) para
fun coes t
1
e t
2
, que nao dependem de , ent ao (T
1
, T
2
) e um intervalo de conan ca 100% para
(), onde T
i
= t
i
(X
1
, . . . , X
n
), i = 1,2.
Notas:
1. Observe que q
1
e q
2
independem de , ja que a distribui cao de Q independe de .
2. Para cada valor xo de podem existir v arios pares de valores (q
1
, q
2
) que podem ser
selecionados tal que P[q
1
< Q < q
2
] = . Cada par dar a origem a diferentes t
1
e t
2
.
Em geral procuramos pares de valores tal que t
1
e t
2
sejam os mais proximos possveis (em
alguma medida de proximidade). Por exemplo, se t
1
(X
1
, . . . , X
n
) t
2
(X
1
, . . . , X
n
), que e a
largura do intervalo, nao for aleat orio, ent ao selecionamos valores de q
1
e q
2
que tornem o
intervalo o menor possvel. Mesmo em certos casos em que a largura do intervalo e aleat orio
podem existir valores de q
1
e q
2
que produzem IC com menor largura quaisquer que sejam os
valores amostrais. Quando isto nao e possvel procuram-se valores tais que o valor esperado
da largura do intervalo seja o menor possvel. Nem sempre isto leva a uma solu cao.
3. A caracterstica principal do metodo da quantidade pivotal e que a desigualdade q
1
<
q(x
1
, . . . , x
n
) < q
2
pode ser invertida, ou pivotado como t
1
(x
1
, . . . , x
n
) < () < t
2
(x
1
, . . . , x
n
)
para quaisquer valores amostrais x
1
, . . . , x
n
. Observe, no entanto, que nem toda quantidade
pivotal pode ser pivotada, o que indica que o nome `as vezes pode ser enganoso.
Exemplo 2.1: Se X
1
, . . . , X
n
forma uma amostra aleat oria de uma distribui cao U[0, ] ent ao
temos que a distribui cao de X
(n)
= max X
i
e dada por:
F
X
(n)
(u) = (u/)
n
, 0 u
e portanto a distribui cao de X
(n)
/ nao depende de e e dada por:
F
X
(n)
/
(u) = u
n
, 0 u 1.
Portanto, temos como piv o, X
(n)
/. Assim, se o coeciente de conan ca e = 0, 95 temos que:
P(a
X
(n)

b) = b
n
a
n
= 0, 95,
ou equivalentemente, para todo ,
P(
X
(n)
b

X
(n)
a
) = 0, 95.
67
Uma solu cao e tomarmos b
n
= 0, 975 e a
n
= 0, 025, de forma que o intervalo aleat orio [
X
(n)
(0,975)
1/n
;
X
(n)
(0,025)
1/n
]
e um intervalo de conan ca de nvel 95% para .
Suponha agora que em uma amostra de tamanho 10 foram obtidas os seguintes valores: 1,363
1,085 1,430 4,661 4,132 2,494 3,602 3,681 0,441 0,071. Neste caso um IC 95% e igual a [4,673; 6,740].
Exemplo 2.2: No caso de uma amostra aleat oria da distribui cao normal com variancia conhecida
, podemos utilizar como estimador o EMV

X. Neste caso, sabemos que a distribui cao de:

X
/

n
e N(0, 1) e portanto esta quantidade pode ser utilizada como piv o. Neste caso, se = 0, 95 temos
que
P

(1, 96

X
/

n
1, 96) = 0, 95
e o IC de nvel 0,95 e:
[

X
1, 96

n
;

X +
1, 96

n
].
A constru cao de um intervalo de conan ca nao e unico. Podemos escolher diferentes estimadores
T, podemos escolher diferentes piv os, podemos alocar as probabilidades para as caudas de T nao
simetricas, etc. Em geral, e melhor usar o EMV ou o ENVUMV, ou pelo menos um estimador
baseado nas estatsticas sucientes.
Existe um metodo geral que pode ser utilizado para encontrar uma quantidade pivotal. Con-
sidere X
1
, ..., X
n
uma amostra aleat oria de f(; ). Se a correspondente fun cao distribui cao acumu-
lada F(; ) e contnua em x, ent ao F(X; ) tem uma distribui cao uniforme em (0, 1). Considere
agora a variavel aleat oria Y
i
= log F(X
i
; ). Temos
P[Y
i
u] = P[log F(X
i
; ) u] = P[log F(X
i
; ) u]
= P[F(X
i
; ) e
u
] = e
u
, u > 0.
Logo Y
i
tem distribui cao exponencial e

Y
i
tem distribui cao Gama com par ametros n e 1; ou seja,
tanto

log F(X
i
; ) como

F(X
i
; ) s ao quantidades pivotais. Resta agora saber se elas po-
dem ser pivotadas convenientemente. Isto podera sempre ser realizado se

F(x
i
; ) for monotona
em (neste caso

log F(X
i
; ) tambem sera monotona) para qualquer x; por exemplo, se for
monotona crescente temos que q
1
<

log F(x
i
; ) < q
2
se somente se t
1
(x
1
, ..., x
n
) < () <
t
2
(x
1
, ..., x
n
).
Exemplo 2.3: Considere novamente o Exemplo 2.1.
Temos que F(X; ) =
X

I
[0,]
(X) +I
(,)
(X). Pelo metodo descrito devemos escolher q
1
e q
2
tais
que
P[q
1

log F(x
i
; ) q
2
] = 0, 95
onde q
1
e q
2
devem satisfazer:
P[q
1
Y q
2
] = 0, 95,
onde Y tem distribui cao Gamma(10, 1). Como

log F(x
i
, ) =

log X+nlog e facil pivotar


e obter o IC:
[exp{n
1

log X +q
1
/n}; exp{n
1

log X +q
2
/n}
68
Utilizando valores q
1
e q
2
tais que P[Y q
1
] = 0, 025 e P[Y q
2
] = 0, 975 encontramos o IC 95%
de dado por [2,347; 8,855].
Compare com o IC dado no Exemplo 2.1.
Um intervalo de conan ca pode ser encontrado mesmo que o piv o nao seja evidente. Novamente,
come camos com o estimador T, se escolhemos t
1
e t
2
dependente de tal que
_
1 F
T
(t
2
, ) =
1
2
(1 )
F
T
(t
1
, ) =
1
2
(1 )
ent ao
P

[t
1
() < T < t
2
()] = F
T
(t
2
, ) F
T
(t
1
, ) = ,
para todo , e o conjunto
I

(T) {|t
1
() < T < t
2
()}
tem probabilidade de cobrir o verdadeiro valor do par ametro , qualquer que seja este. O prob-
lema e que nao necessariamente o conjunto I

(T) e um intervalo. O metodo descrito e chamado


de Metodo Estatstico
Exerccio 2.1: Considere os intervalos aleat orios: [X,2X], [|X|, 2|X|]. Discuta se eles s ao interva-
los de conan ca para , e de os coecientes de cobertura quando:
a. X e uma observa cao de uma normal N(, 1).
b. X e uma observa cao de uma exponencial com media 1/.
Exerccio 2.2: Considere uma amostra aleat oria de tamanho n de uma distribui cao exponencial
com media 1/.
a. Utilize uma quantidade pivotal baseada na media amostral para construir IC para a media
populacional, para a variancia populacional e para P[X > 1].
b. Refa ca o item anterior utilizando agora uma quantidade pivotal baseada na primeira estatstica
de ordem.
Exerccio 2.3: Utilize o metodo geral da quantidade pivotal para encontrar um IC para a partir
de uma amostra aleat oria de f(x : ) = x
1
I
(0,1)
(x).
Exerccio 2.4: Utilizando a quantidade pivotal do Exemplo 2.1 mostre o menor intervalo de con-
an ca ocorre quando b = 1 e a
n
= 1 .
3 Inferencia para Popula cao Normal
3.1 Inferencia para a media
Ja vimos que se temos X
1
, . . . , X
n
forma uma amostra aleat oria de uma distribui cao N(,
2
) com
conhecido podemos utilizar como piv o
U =

X
/

n
e conseguimos o IC para . O que acontece se e desconhecido? A distribui cao de U ainda nao
depende de , mas se tentamos usar como piv o descobrimos que o IC obtido depende de uma
69
quantidade desconhecida . Neste caso, o metodo do piv o nao funciona? Sera que conseguimos
uma quantidade piv o que s o depende de ? A resposta e sim, use
T =

X
S/

n
que ja vimos tem uma distribui cao t
n1
, (S
2
= (

(X
i


X)
2
)/(n 1)). Agora queremos, q
1
e q
2
tais que
P(q
1
T q
2
) = .
Isto e, um IC de nvel 100% e dado por:
[

X
q
2
S

n
;

X
q
1
S

n
].
Como escolher q
1
e q
2
? Um criterio seria o de ter um intervalo com menor comprimento. Neste
caso, devemos escolher q
1
e q
2
tal que q
2
q
1
seja mnimo. Intuitivamente, vemos que q
1
e q
2
devem ser simetricos, isto e q
1
= q
2
, os quais podem ser facilmente obtidos de uma tabela t como
q
1
= t(n 1; /2).
Vamos agora mostrar que o intervalo simetrico realmente da o IC com menor largura. A largura
do intervalo e aleat orio e igual a (q
2
q
1
)(S/

n). Para qualquer amostra a largura do intervalo


sera mnima quando L

= (q
2
q
1
) for mnimo. Queremos, portanto, minimizar L

sujeito a
_
q2
q1
f
T
(t)dt =
onde f
T
(t) e a densidade da distribui cao t com (n-1) graus de liberdade. Diferenciando-se a integral
em rela cao a q
1
temos (observe que e constante e f
T
(t) nao depende de q
1
)
f
T
(q
2
)
q
2
q
1
f
T
(q
1
) = 0
Para minimizar L

tomamos
L

q
1
=
q
2
q
1
1 = 0
As duas igualdade ocorrem se, e somente se, f
T
(q
1
) = f
T
(q
2
), isto e, se e somente se q
2
= q
1
ou q
1
= q
2
. Como a primeira solu cao est a descartada porque a integral entre q
1
e q
2
deve ser
diferente de zero temos que a solu cao e q
1
= q
2
.
Nota: Na solu cao estamos utilizando a seguinte formula:

_
_
h2()
h1()
g(x; )dx
_
=
_
h2(t)
h1(t)
g(x; )

dx + g(h
2
(); )
h
2
()

g(h
1
(); )
h
1
()

Na constru cao do intervalo de conan ca partimos das suposi coes de que temos uma amostra
aleat oria de uma popula cao com distribui cao normal. Sera que todas estas suposi coes s ao necessarias
para que o intervalo de conan ca tenha realmente a conan ca desejada? Observe que para isto
basta que a distribui cao da quantidade pivotal T possa ser aproximada pela distribui cao t-Student
para calcular q
1
e q
2
. Para n sucientemente grande podemos utilizar a aproxima cao mesmo quando
a distribui cao da popula cao nao e normal. O teorema central do limite mostra a aproxima cao em
termos assint oticos. Mas quando podemos considerar n sucientemente grande? Isto depende de
v arios fatores como a existencia de valores aberrantes, grau de conan ca desejavel e simetria das
70
observa coes. Os 2 primeiros pontos s ao os mais importantes. Quanto menos valores aberrantes
tivermos, quanto menor o grau de conan ca e quanto mais simetrico for a distribui cao da pop-
ula cao (e a simetria das observa coes e uma indica cao da simetria da popula cao) menor o tamanho
da amostra necessario. A aproxima cao pela distribui cao t-Student nao depende muito fortemente
da simetria, mas pode depender bastante da existencia de valores aberrantes. Esta propriedade e
chamada de robustez, ou seja o procedimento e robusta `a suposi cao de normalidade desde que a
verdadeira distribui cao nao tenha caudas muito pesadas (alta curtose) e acabe produzindo valores
aberrantes. O intervalo de conan ca tambem nao e robusto `a existencia de valores aberrantes -
observe que podemos ter valores aberrantes mesmo que a distribui cao da popula cao nao tenha
cauda pesada. Finalmente, a independencia e importante, sendo, no entanto, permitida pequena
correla cao.
Mesmo que o tamanho da amostra nao seja muito pequeno e interessante utilizar a distribui cao
t e nao a normal. Como a distribui cao t-Student tem uma cauda mais pesada do que a normal
acabamos construindo um intervalo com largura um pouco maior. Porem e mais aconselhavel
correr o risco de pecar por excesso de cautela do que por falta.
3.2 Inferencia para a variancia
Mas agora podemos nos perguntar sobre um IC para a variancia populacional
2
. Novamente
temos dois casos: conhecido (fazer como exerccio!) ou desconhecido. Neste caso, precisamos
de uma quantidade pivotal que s o depende de . Ja vimos que
Q =

n
i=1
(X
i


X)
2

2
=
(n 1)S
2

2
tem distribui cao qui-quadrado com n 1 graus de liberdade. Portanto, a distribui cao de Q nao
depende de (, ) e Q pode ser utilizado como piv o. Assim, queremos q
1
e q
2
tais que:
= P(q
1
Q q
2
)
= P(q
1

(n 1)S
2

2
q
2
)
= P(
(n 1)S
2
q
2

2

(n 1)S
2
q
1
)
e temos que
[
(n 1)S
2
q
2
;
(n 1)S
2
q
1
]
e IC de nvel 100% para
2
. Como escolher q
1
e q
2
? Podemos escolhe-los de tal forma que:
P(Q < q
1
) = P(Q > q
2
) =
1
2
que podem ser encontrados na tabela
2
. Este, no entanto, nao e o que da a menor largura de
intervalo. A largura do intervalo e dada por:
L = (n 1)S
2
_
1
q
1

1
q
2
_
= (n 1)S
2
L

Minimizar L e analogo a minimizar L

. A minimiza cao deve obedecer a restri cao:


_
q2
q1
f
Q
(t)dt =
71
onde f
Q
(t) e a densidade da distribui cao
2
com (n-1) graus de liberdade. Utilizando o mesmo
procedimento anterior temos
f
Q
(q
2
)
q
2
q
1
f
Q
(q
1
) = 0
L

q
1
=
1
q
2
1
+
1
q
2
2
q
2
q
1
=
1
q
2
1
+
1
q
2
2
f
Q
(q
1
)
f
Q
(q
2
)
= 0
o que implica que eles devem satisfazer:
q
2
1
f
Q
(q
1
) = q
2
2
f
Q
(q
2
) e
_
q2
q1
f
Q
(t)dt = .
A solu cao s o pode ser conseguida numericamente atraves de tentativa e erro. Dada a esta dicul-
dade normalmente toma-se a solu cao dada anteriormente.
3.3 Regiao de conan ca simultanea para media e variancia
Uma regi ao de valores para (,
2
) pode ser construdo atraves dos estimadores (

X, S
2
) (fun coes
das estatsticas sucientes e completas). Esta regi ao aleat oria ter a probabilidade de cobrir o
verdadeiro valor (,
2
). Apos retirada a amostra e calculada a regi ao esta ter a nvel de conan ca
.
Denote por z

e
2

os percentis das distribui coes normal padrao e chi-quadrada com n 1


graus de liberdade. Dado escolha e tais que = (1 2)(1 2). Ent ao:
P{(

X
/

n
)
2
< z
2
1
e
2

<
(n 1)S
2

2
<
2
1
} =
= P{(

X
/

n
)
2
< z
2
1
}P{
2

<
(n 1)S
2

2
<
2
1
}
= (1 2)(1 2) = .
As desigualdades acima denem uma regi ao de conan ca. Esta regi ao nao e somente o ret angulo
denido pelos intervalos de conan ca para e
2
separadamente. Estes intervalos de conan ca in-
dividuais nao devem ser combinados para produzir uma regi ao de conan ca, entretanto veja como
elas podem ser consideradas boas aproxima coes.
Exemplo 3.1: Suponha que desejamos construir uma regi ao de conan ca de nvel 90% para (,
2
)
baseado em uma amostra de tamanho 20, na qual

X = 11, 2 e S
2
= 7, 16. Como 0, 90 0, 950, 95,
tome 2 = 2 = 0, 05. As desigualdades que denem a regi ao de conan ca s ao:
(11, 2 )
2
< (1, 96)
2

2
20
e 8, 91 <
136

2
< 32, 9.
As fronteiras dessa regi ao se encontra colocando-se = no lugar de < e obtemos:
72
Tambem na gura acima temos os intervalos de conan ca individuais para e
2
.
3.4 Compara cao de duas populacoes
Um problema comum em estatstica e a compara cao de duas popula coes com respeito a alguma ca-
racterstica. Estas popula coes podem existir naturalmente, tais como, homens e mulheres, destros
e canhotos, pneus traseiros e dianteiros. Em outros casos, uma popula cao recebe um tratamento e
e comparada com uma popula cao piloto padrao para se julgar a ecacia do tratamento: por exem-
plo, um grupo de crian cas e comparado consigo mesmo antes e apos algum processo educacional;
pacientes s ao tratados com um medicamento novo para a cura de Aids, etc.
Tratando o problema estatisticamente, compara coes s ao feitas comparando-se amostras reti-
radas de duas popula coes. Estas amostras podem ser independentes, ou podem ser emparelhadas.
Assim, notas para um aluno no vestibular antes e depois do cursinho s ao naturalmente em-
parelhadas, bem como o consumo de pneus traseiros e dianteiros de um carro. Emparelhamento e
utilizado como uma forma de diminuir variabilidade.
Compara coes entre caractersticas numericas de duas popula coes podem ser feitas com respeito
`a loca cao e dispersao. Isto e feito, em geral, calculando-se as medidas de loca cao e dispersao de
cada popula cao e combinando-as de alguma forma. A compara cao das duas popula coes pode ser
feita se conhecermos a distribui cao da estatstica de compara cao.
Amostras Independentes. Vamos assumir que popula coes 1 e 2 s ao normalmente distribuidas
com medias
1
e
2
respectivamente e variancia comum
2
. Amostras aleat orias independentes
s ao obtidas de cada popula cao. Seja X
1
, . . . , X
n1
uma amostra aleat oria de uma popula cao normal
N(
1
,
2
) e Y
1
, . . . , Y
n2
uma amostra aleat oria de uma popula cao normal N(
2
,
2
). Temos as
seguintes estatsticas sucientes (

X, S
2
X
,

Y , S
2
Y
). Queremos o IC de nvel para
2

1
. Temos
que

Y

X N(
2

1
;

2
n
1
+

2
n
2
)
(n
1
1)S
2
X

2

2
n11
(n
2
1)S
2
Y

2

2
n21
Da,
(n
1
1)S
2
X
+ (n
2
1)S
2
Y

2

2
n1+n22
.
Portanto, dada as independencias,
Q
1
=
(

Y

X) (
2

1
)
_
(
1
n1
+
1
n2
)S
2
p
t
n1+n22
onde
S
2
p
=
(n
1
1)S
2
X
+ (n
2
1)S
2
Y
n
1
+n
2
2
e chamada variancia amostral pooled, por estimar a variancia utilizando os dados conjuntos.
Com isto temos que ( = 1 ):
= P[t
n1+n22;/2
< Q
1
< t
n1+n22;/2
]
73
= P[(

Y

X) +t
n1+n22;/2
_
(
1
n
1
+
1
n
2
)S
2
p
<
2

1
< (

Y

X) t
n1+n22;/2
_
(
1
n
1
+
1
n
2
)S
2
p
Quando as variancias s ao diferentes nao existe problema em conseguir uma quantidade pivotal.
Isto e problematico quando as variancias s ao diferentes e desconhecidas. Neste caso e proposto a
seguinte quantidade:
Q
2
(X) =
(

Y

X) (
2

1
)
_
S
2
Y
n2
+
S
2
X
n1
que para tamanhos da amostra sucientemente grande tem distribui cao normal padr ao e, portanto,
e uma quantidade pivotal. Quando isto nao ocorre podemos aproximar a distribui cao de uma Q
2
por uma t

, onde depende da rela cao entre as variancias. Como as variancias nao s ao conhecidas
utiliza-se as estimativas, e e estimado por:
=
_
1
n1
+
a
n2
_
2
1
n
2
1
(n11)
+
a
n
2
2
(n21)
,
onde a = min{s
2
y
/s
2
x
, s
2
x
/s
2
y
}. Como geralmente nao e inteiro aproxima-se pelo inteiro mais
proximo, ou caso queira ser conservador, pelo maior inteiro menor do que .
Dadas as duas quantidades pivotais ca a mesma pergunta que zemos anteriormente: quais
suposi coes s ao importantes e, agora adicionalmente, qual quantidade pivotal devo utilizar. A res-
posta para a primeira quest ao e parecida com a dada anteriormente no caso de uma amostra. A
independencia e importante, mas a da distribui cao normal nao muito importante, a menos que
os tamanhos das amostras sejam pequenos e se queira uma alta conan ca. De qualquer forma,
dada a diculdade de se testar normalidade para pequenas amostras e aconselhavel nunca construir
intervalos com alto coeciente de conan ca.
Primeiro vamos analisar o caso para variancias iguais.

E claro que para tamanhos amostrais
sucientemente grandes podemos utilizar o teorema central do limite. Para tamanhos amostrais
nao muito pequenos podemos ainda utilizar a aproxima cao, desde que nao haja valores aberrantes.
Como no caso de apenas uma amostra devemos olhar os valores aberrantes, o grau de conan ca
e a simetria. E em rela cao `a igualdade de variancias? Se estivermos na d uvida se utilizamos as
quantidades Q
1
ou Q
2
e aconselhavel utilizar Q
2
. Quando, na verdade, as variancias s ao iguais
a utiliza cao da quantidade Q
2
normalmente produz intervalos de conan ca mais conservadores
do que os intervalos utilizando a quantidade correta Q
1
. Caso as variancias sejam diferentes a
utiliza cao de Q
1
vai levar a intervalos que nao tem a conan ca desejavel. Considerando que, como
dizemos antes, e melhor pecar por cautela, desde que a cautela nao implique em um pre co muito
alto e aconselhavel utilizar Q
2
na d uvida. N ao se deve esquecer, no entanto, que os estimadores
da variancia em geral tem grande variabilidade e que o procedimento tem uma certa robustez
utilizando Q
1
quando os tamanhos amostrais s ao iguais ou proximos; isto e para variancias e soma
dos tamanhos amostrais xos a aproxima cao, em geral, e melhor quando as duas amostras tem
tamanhos iguais. Uma discussao sobre este problema pode ser encontrado no artigo de B.K. Moser
e G.R. Stevens no artigo Homogeneity of variance in the two sample means test (The American
Statistician, 1992, v 46(1), 19-21).
Amostras emparelhadas. Assuma agora que temos os dados emparelhados. Neste caso, X
i
e
Y
i
nao s ao independentes. Podemos pensar que (X
1
, Y
1
), . . . (X
n
, Y
n
) forma uma amostra aleat oria
74
de uma distribui cao normal bivariada N
2
(
1
,
2
,
2
1
,
2
2
, ). Queremos o IC de nvel para
2

1
.
Seja D
i
= X
i
Y
i
, i = 1, . . . , n, e temos D
1
, . . . , D
n
i.i.d. N(
D
,
2
D
) onde
D
=
2

1
e

2
D
=
2
1
+
2
2
2
1

2
e queremos o IC de nvel para
D
com
2
D
desconhecido, o que ja
obtivemos anteriormente:
_

D +t
n1;/2
_
S
2
D
n
;

D t
n1;/2
_
S
2
D
n
_
.
Exerccio 3.1: Em uma amostra de abacates de um lote foram encontrados os seguintes valores
em gramas:
481 537 513 583 453 510 570 500 457 555 618 327 350 643 499 421 505 637 599 392
De o IC 90% para a media do lote utilizando a distribui cao t-Student. Discuta se e razo avel a
utiliza cao desta distribui cao.
Exerccio 3.2: Um experimento foi realizado para comparar o tempo de rea cao `as cores vermelha
e verde. Ao ser acesa uma l ampada vermelha ou verde a pessoa testada deve apaga-la.

E medido
o tempo que a pessoa demora para apagar a luz. Os seguintes resultados foram obtidos:
indivduo luz vermelha luz verde
1 0,30 0,43
2 0,23 0,32
3 0,41 0,58
4 0,53 0,46
5 0,24 0,27
6 0,36 0,41
7 0,38 0,38
8 0,51 0,61
a) Discuta se o experimento deveria ser mesmo emparelhado.
b) De um IC 90% para a diferen ca entre as medias, e discuta os resultados e as suposi coes adotadas
para a constru cao do IC.
Exerccio 3.3: Em uma amostra aleat oria de uma popula cao normal compare a largura media dos
intervalos de conan ca da media populacional construdos sob a hip otese de variancia conhecida e
desconhecida.
Exerccio 3.4: Considere o planejamento para retirar uma amostra aleat oria de uma popula c ao
normal com o objetivo de construir um intervalo de conan ca da media populacional. Qual deve
ser o tamanho da amostra se quero que com probabilidade 0,95 o IC 90% tenha comprimento
menor do que /5?
4 Intervalos de conanca baseados em grandes amostras
Ja vimos, quando estudamos estima cao pontual, que e possvel encontrar uma sequencia de esti-
madores T
n
= t
n
(X
1
, . . . , X
n
) de em uma densidade f(, ) que s ao normalmente distribuidos.
Isto e, T N(,
2
n
). Em particular, isto e verdade para os estimadores de maxima verossimilhan ca

. Portanto,

n
(

)
pode ser usado como piv o.
75
Exemplo 4.1: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao exponencial com
par ametro . Sabemos que o EMV de e 1/

X
n
e tem distribui cao normal com media e variancia

2
n
() =
1
nE

[{(/) log f(X; )}


2
]
=

2
n
.
Portanto, se = 1
P[z
/2
<
1/

X
n

2
/n
< z
/2
]
= P[
z
/2

n
<
1

X
n
<
z
/2

n
]
= P[
1/

X
n
1 +z/

n
< <
1/

X
n
1 z/

n
]
e assim
[
1/

X
n
1 +z/

n
;
1/

X
n
1 z/

n
]
e um intervalo de conan ca de nvel aproximado .
Exemplo 4.2: Considere uma amostra aleat oria de uma distribui cao de Bernoulli com par ametro
. O EMV de e

=

X
n
e tem variancia
2
n
() = (1 )/n. Um intervalo de conan ca de nvel
aproximado e obtido invertendo as desigualdades ( = 1 ) :
P[z
/2
<

_
(1 )/n
< z
/2
]
obtendo-se
P[
2n

+z
2
/2
z
/2
_
4n

z
2
/2
4n

2
2(n +z
2
)
< <
2n

+z
2
/2
+z
/2
_
4n

+z
2
/2
4n

2
2(n +z
2
/2
)
] .
Na pratica z
2
/2
<< n, e temos o IC
[

+z
/2
_

(1

)/n;

z
/2
_

(1

)/n].
Observe que teramos chegado ao mesmo resultado se desde o incio substitussemos a variancia
pelo seu estimador, isto e, por

(1

)/n.
Exemplo 4.3: Considere agora que voce quer construir um IC 95% para a propor cao de pessoas
que apoiam um certo candidato. Caso voce queira que a largura do intervalo seja no maximo igual
a 0, 06 qual o tamanho da amostra necessario?
No exemplo anterior vimos que a largura do intervalo igual a 2|z
/2
|
_

(1

)/n. Como queremos
que ele seja no maximo igual a 0, 06 e = 0, 05 temos que
1, 96
_

(1

)/n 0, 06
76
Entretanto

e uma variavel aleat oria e para previnirmos para o pior caso utilizamos o valor
de

que da o maior valor do tamanho da amostra. Isto ocorre quando

= 0, 5, e neste caso
o tamanho da amostra e igual a 1068. Outra forma de interpretar este valor seria considerar na
primeira formula do Exemplo 4.2 o caso em que a variancia e maxima, isto e, quando e igual a 0, 5.
Exerccio 4.1: Uma pesquisa realizada na Inglaterra mostrou que apenas 23% das pessoas que
utilizam bengala tem bengalas do tamanho correto. Suponha que voce queira fazer uma pesquisa
semelhante no Brasil. Qual deve ser o tamanho da amostra se voce quer que com 90% de conan ca
o erro maximo da estimativa da propor cao seja 0.04?
Exerccio 4.2: A seguinte quest ao foi colocada por uma pesquisa realizada por Newsweek: voce
prefere morar em um bairro onde a maioria e branca, onde a maioria e negra, ou onde as propor coes
s ao aproximadamente iguais? Sejam p
1
e p
2
as propor coes de negros e brancos, respectivamente,
que responderam que preferem um bairro com propor coes aproximadamente iguais. Se 207 entre
305 negros e 291 entre 632 brancos entrevistados escolheram um bairro misto,
(a) Encontre um estimador e estimativa pontual para p
1
p
2
. Coloque que tipo de estimador voce
est a utilizando.
(b) De um IC 90% para p
1
p
2
.
Exerccio 4.3: Durante um perodo eleitoral um jornal divulga que um candidato tem a pre-
ferencia de 7% do eleitorado. Apos 4 semanas o mesmo jornal divulga que a preferencia caiu para
5, 5%. Segundo o jornal, na primeira pesquisa, foram entrevistados 1206 eleitores e na segunda
foram entrevistados 1192 eleitores, sendo a margem de erro de 5%. Apos lembrar a margem de erro
o candidato, em uma entrevista coletiva, refuta o coment ario de um analista poltico de que a pre-
ferencia pelo seu nome esteja diminuindo. Comente quem tem raz ao, o candidato ou o comentarista.
Exerccio 4.4: O tempo de vida de certo equipamento pode ser considerado como tendo dis-
tribui cao exponencial. Um experimento foi realizado com este experimento para estimar o tempo
medio e a taxa de falha. Utilize a distribui cao exata e a aproxima cao normal para os estimadores de
maxima verossimilhan ca para encontrar as estimativas. Considere que, para tamanho da amostra
igual a 25, foram obtidos os seguintes resultados: x = 10, 3, s = 9, 8.
Exerccio 4.5: Utilize o intervalo encontrado no Exemplo 4.1 para construir um intervalo de
conan ca 100% para a media da popula cao, isto e de () = 1/ . Construa agora outro intervalo
partindo do estimador de maxima verossimilhan ca de (). Onde voce acredita que a aproxima cao
e melhor? Este exemplo mostra a importancia de se utilizar uma boa parametriza cao.
77
Cap. 4 - Teste de Hipoteses
1 Introducao
Existem duas grandes areas na inferencia estatstica: estima cao de par ametros e teste de hip oteses.
Estudaremos a segunda area neste captulo. Nosso objetivo sera apresentar os conceitos e desen-
volver metodos gerais para testes de hip oteses e aplica-los a alguns problemas comuns.
Em uma pesquisa experimental o objetivo pode ser simplesmente o de estimar par ametros; por
exemplo, podemos estar interessados em estimar a produtividade media de uma nova linhagem
de milho hbrido. Porem, o objetivo nal pode ser a utiliza cao desta estimativa para outras
inferencias. Podemos, por exemplo, comparar esta produtividade com uma linhagem padr ao e
talvez recomendar que a linhagem padrao seja substituda pela nova. Esta e uma situa cao comum
na pesquisa. Em outras situa coes podemos estar interessados em determinar se uma nova liga para
lamentos de l ampadas e melhor que o utilizado atualmente; se um novo germicida e mais ecaz
que um padrao; se o novo metodo empregado pela concorrencia para preservar comidas e mais
efetivo em termos de manuten cao de vitaminas; e assim por diante.
Observe que em alguns exemplos anteriores nao foram colocados de forma clara o que determina
se um novo metodo e melhor do que o anterior. Por exemplo, no caso das l ampadas, poderamos
levar em considera cao v arios objetivos: tempo medio de vida, custo medio de produ cao, propor cao
de l ampadas que duram pelo menos 1000 horas, consumo de energia, etc. Neste captulo e durante
o curso nao discutiremos com detalhes a escolha das caractersticas a serem testadas, sendo sem-
pre considerado que sabemos de antemao a caracterstica de interesse e que esta caracterstica e
unidimensional. Isto deve-se somente aos objetivos do curso e nao por acreditarmos que este e o
ponto mais importante; geralmente a outra discussao e mais importante.
Dado ao exposto no par agrafo anterior considere que no caso das l ampadas estamos interes-
sados no tempo medio de vida das l ampadas com lamentos padrao e o novo. Fica claro que no
modelo estatstico estamos tratando de duas popula coes de l ampadas. Se sabemos de experiencias
passadas que o tempo medio de vida da popula cao padrao e de 1400 horas a quest ao e saber se
o tempo medio da nova popula cao e maior do que 1400 horas. Tradicionalmente, para responder
a esta quest ao nos estamos procurando evidencias em favor da hip otese de que o novo lamento
e melhor. Para testar a hip otese, uma certa quantidade de l ampadas e fabricada com o novo l-
amento e medidos os seus tempos de vida. Suponha que o tempo medio da amostra seja de 1550
horas. A indica cao e de que o novo processo e melhor, mas suponha que a estimativa do desvio
padrao da media, /

n = 150, (n sendo igual ao tamanho da amostra). Ent ao o IC 95% para a


media da segunda popula cao (assumindo normalidade caso n seja pequeno e utilizando o TCL caso
n seja sucientemente grande) e aproximadamente 1300 a 1800 horas. Como e bastante verossmel
observar uma media amostral maior ou igual a 1550 de uma popula cao com media 1400 horas nao
temos grande evidencia para rejeitar a hip otese de que o novo tipo de liga nao e melhor do que
o padrao. Se, por outro lado, /

n = 25, poderamos com bastante conan ca dizer que a nova


liga e superior. Novamente lembramos que o novo lamento e superior levando-se em considera cao
somente o tempo medio de vida. O exemplo mostra que teste de hip oteses est a estreitamente
relacionado com o problema de estima cao. No entanto, apenas por uma quest ao did atica, sera
interessante, pelo menos no incio, desenvolver a teoria de teste de hip oteses independentemente
da de estima cao. No proximo exemplo consideramos o problema do ponto de vista puramente de
teste de hip oteses.
Exemplo 1.1: Na abordagem tradicional de Neyman-Pearson precisamos ter uma regra de decisao
e a teoria de Teste de hip oteses est a intimamente relacionado `a procura desta regra de decisao.
Inicialmente vamos considerar uma regra de decisao bastante intutitiva: Se o tempo medio
78
amostral, aqui denotado por

T, for maior do que uma constante c
0
, isto e, se

T c
0
decido que o
tempo medio com o novo lamento e melhor. Resta ainda escolher o valor de c
0
Para entender melhor esta regra de decisao devemos estudar os tipos de erros possveis:
erro A: Concluir que o com o novo lamento o tempo medio de vida das l ampadas aumentou
quando, na realidade, isto nao ocorreu;
erro B: Concluir que com o novo lamento o tempo medio de vida das l ampadas nao aumentou
quando, na realidade, existe um aumento. Portanto, podemos denir as seguintes probabilidades
de erros:
P[erro A|nao ocorreu melhora] = P[

T c
0
|nao ocorreu melhora] = , e
P[erro B|ocorreu melhora] = P[

T < c
0
|ocorreu melhora] = .
Note que para calcularmos as probabilidade precisamos precisar melhor as suposi coes (quais?),
mas mudando o valor de c
0
mudamos os valores de e . A teoria de teste de hip oteses trata da
escolha da regra de deciso, incluindo a escolha do valor de c
0
e do tamanho da amostra. Os valores
de e irao ter uma inuencia importante nesta decisao.
2 Conceituacao de Teste de Hipoteses
Cientistas, engenheiros de controle de qualidade, pesquisadores de mercado, tecnicos governamen-
tais, entre outros prossionais, freq uentemente levantam hip oteses em seus campos de interesse,
hip oteses estas que precisam ser vericadas ou substanciadas. Para este m, eles coletam dados e
vericam se os dados conrmam ou rejeitam a hip otese considerada. Este processo e chamado de
teste de hip oteses e e uma das principais areas da inferencia estatstica. Para facilitar a discussao
inicialmente serao introduzidas algumas linguagens, nota coes e deni coes. Como em estima cao,
muitas vezes, assumiremos que podemos obter uma amostra aleat oria de uma densidade f(; ).
Deni cao 2.1 Hip otese Estatstica: Uma hip otese estatstica e uma arma cao ou conjectura
sobre a distribui cao de uma ou mais variaveis aleat orias. Se a hip otese especica completamente
a distribui cao, ent ao ela e chamada de hip otese simples; caso contrario ela e chamada de hip otese
composta.
A hip otese de que a media populacional de uma popula cao normal assume um certo valor xo
(H
0
: =
0
) e uma hip otese simples se a variancia e conhecida e composta se a variancia e
desconhecida.
Deni cao 2.2 Teste de Uma Hip otese Estatstica : Um teste de uma hip otese estatstica
H e uma regra ou procedimento, para decidir se rejeitamos ou nao a hip otese H. Vamos sempre
considerar que a regra de decisao sera baseada nos dados amostrais
Exemplo 3.1: Julgamento Um juri deve decidir com base em evidencias se o acusado e culpado
ou inocente.
Neste caso e evidente que existem duas hip oteses sendo consideradas. Na primeira hip otese o reu
e inocente e na segunda o reu e o culpado. Partindo da maxima da justi ca que o a reu e considerado
inocente a menos que haja forte evidencia de culpa vemos que inicialmente a primeira hip otese
e aceita antes do julgamento. Alem disso nos camos com ela a menos que haja forte evidencia
em contrario. Por outro lado, o julgamento e realizado exatamente para procurar evidencias de
que a outra hip otese e verdadeira. O que est a por tras deste comportamento e que e prefervel
79
cometer o erro de nao condenar um culpado (nao rejeita a primeira hip otese quando ela e falsa)
do que cometer o erro de condenar um inocente (rejeitar primeira hip otese quando ela e verdadeira).
Exemplo 2.2: Estamos testando o efeito de uma nova droga para emagrecimento. Durante uma
fase preliminar este medicamento sera testado em ratos. Um grupo de ratos recebera a ra cao
sem a nova droga enquanto um outro grupo ter a a droga adicionada na ra cao. A pesquisa com o
novo medicamento s o prosseguir a se conseguirmos evidencias de que a nova droga e promissora.
Podemos denotar as hip oteses como:
H
A
: a droga e efetiva em termos de emagrecimento;
H
B
: a droga nao e efetiva em termos de emagrecimento.
Note que rejeitar inadequadamente a hip otese H
A
implica em perder a oportunidade em desco-
brir uma droga eciente enquanto rejeitar inadequadamente a hip otese H
B
implica em continuar
a pesquisa uma droga que nao traz melhoras.
Na maioria dos problemas de teste de hip oteses, como os discutidos ate aqui, duas hip oteses s ao
discutidas o que da origem a dois tipos de erros. A discussao dos dois exemplos anteriores mostrou
que os dois tipos de erros normalmente levam a custos diferentes. Na tomada de decisao as hip oteses
s ao denominadas de hip oteses nula e alternativa. Antes da realiza cao do experimento temos uma
hip otese que e considerada como correta, e ela deve ser mantida a menos que os dados mostrem
evidencias sucientes (sucientemente forte) para rejeita-la. Por exemplo, em um julgamento o
reu e considerado inocente a menos que haja evidencias que o j uri ou juiz aceitem como sucientes
para refutar a inocencia do reu. Esta hip otese conservadora e normalmente chamada de hip otese
nula e denotada por H
0
. Esta denomina cao originou-se em experimentos comparativos em que um
novo produto ou nova tecnica e comparado com um padrao para vericar se a sua superioridade
pode ser comprovada atraves de evidencias experimentais. Neste contexto, a hip otese nula e a
armativa de que a diferen ca entre o produto padrao e o novo e nulo ou zero. A mudan ca para um
novo produto ou tecnica geralmente requer uma grande despesa inicial, e o tomador de decisao nao
deve fazer isto a menos que o novo produto mostre ser claramente melhor do que o antigo. Ent ao a
perda potencial por rejeitar incorretamente a hip otese nula e maior do que aceitar incorretamente
a hip otese nula. Desta forma, procuramos manter a probabilidade de se rejeitar a hip otese nula,
quando ela e verdadeira, sob controle.
Outra forma de distinguir as hip oteses e vericar que todo o experimento (julgamento no Ex-
emplo 2.1 e teste no Exemplo 2.2) e realizado com o objetivo de vericar se existem evidencias em
favor da outra hip otese, a chamada hip otese alternativa. Ou seja, desejamos provar que a hip otese
alternativa e verdadeira. A hip otese nula seria a nega cao da hip otese que queremos provar. A
hip otese alternativa e normalmente denotada por H
1
, H
a
, ou A.
Deni cao 2.3: Se um teste e baseado em uma certa estatstica, T = T(X
1
, . . . , X
n
), ent ao T e
chamada de estatstica do teste. A decisao pode ou nao depender apenas do valor assumido pela
estatstica do teste.
Deni cao 2.4: Teste Nao Aleatorizado e Regiao Crtica : Seja um teste , de uma hip otese
estatstica H
0
, denida como: Rejeite H
0
se e somente se (x
1
, . . . , x
n
) C

, onde C

e um sub-
conjunto de R
n
; ent ao e chamado de Teste N ao Aleatorizado e C

e chamada de Regi ao Crtica


do teste .
Deni cao 2.5: Teste Aleatorizado : Um teste , de uma hip otese estatstica H
0
, e denido
como sendo um Teste Aleatorizado se e denido por uma fun cao

(x
1
, . . . , x
n
) = P[H
0
ser rejeitado|(x
1
, . . . , x
n
) e observado].
80
A fun cao

(x
1
, . . . , x
n
) e chamada Func ao Crtica do Teste.
A aplica cao de um teste nao aleatorizado e bastante simples. Se o resultado amostral cair na
regi ao crtica rejeita-se a hip otese nula, caso contrario nao se rejeita a hip otese nula. No caso
do teste aleatorizado, observada uma amostra (x
1
, , x
n
) e calculado

(x
1
, , x
n
) e necessario
realizar um ensaio de Bernoulli cuja probabilidade de sucesso e igual a

((x
1
, . . . , x
n
). Se o
resultado for sucesso rejeita-se a hip otese nula. Este procedimento e discutvel dado que o resultado
do ensaio e, portanto, da decisao, e independente da informa cao dada pelo experimento e de
quaisquer informa coes sobre o(s) processo(s). Por esta raz ao o teste aleatorizado nao e normalmente
adotado. Quando adotado, geralmente divide o espa co amostral em tres regi oes; uma onde a
hip otese nula e rejeitada, outra onde nao e rejeitada e uma terceira onde a aleatoriza cao e realizada.
Nas duas primeira regi oes existe conan ca para rejeitar ou nao a hip otese nula, enquanto na
terceira, que geralmente ca entre ou na fronteira das duas primeiras, ca difcil decidir por uma
ou outra. Uma alternativa e chamar a terceira regi ao de nao conclusiva e realizar testes adicionais.
Assim como no teste nao aleatorizado a regi ao crtica denia o teste, a fun cao crtica dene o teste
aletorizado. Observe tambem que um teste nao aleatorizado tambem pode ser denido por uma
fun cao crtica que toma apenas valores 0 ou 1. Neste texto, a menos que colocado explicitamente,
sempre trataremos de testes nao aleatorizados.
O procedimento descrito pelas duas deni coes anteriores, que sera utilizado inicialmente na
constru cao de certos testes, considera teste de hip oteses do ponto de vista da teoria da decisao.
O desenvolvimento da sua teoria deve-se muito ao seu mais ilustre defensor, o Professor Neyman.
Uma forma alternativa de procedimento, que sera utilizado com mais freq uencia nas analises real-
izadas durante o curso, s ao os testes de signic ancia. Nesta abordagem nao se trabalha com regras
de decisoes, mas procura se dar uma medida de evidencia da hip otese alternativa ser verdadeira,
e e a abordagem de Fisher.
Deni cao 2.6 Tipos de Erros e Tamanhos de Erros : A rejei cao de H
0
quando ela e ver-
dadeira e chamada de erro do tipo I, e a aceita cao de H
0
quando ela nao e verdadeira e chamada
de erro do tipo II. O tamanho do erro do tipo I (II) e denida como sendo a probabilidade de se
cometer um erro do tipo I (II) quando H
0
(nao) e verdadeira.
Deni cao 2.7 Fun cao Poder : Seja um teste da hip otese H
0
. A fun cao poder do teste ,
denotada por (, ) e denida pela probabilidade de que H
0
seja rejeitada quando a amostra foi
obtida de uma distribui cao parametrizada por .
Considere uma fun cao crtica

(X
1
, . . . , X
n
). Neste caso a hip otese nula sera rejeitada com
probabilidade

(X
1
, . . . , X
n
). Isto e analogo a realizarmos um ensaio de Bernoulli com proba-
bilidade de sucesso

(X
1
, . . . , X
n
), e rejeitarmos a hiptese nula quando o resultado do ensaio,
denotado por Y for igual a 1. Portanto,
(, ) = P[rejeitarH
0
|) = P[Y = 1|] =
= E

(Y ) = E

{E[Y |

(X
1
, . . . , X
n
)]} =
= E

(X
1
, . . . , X
n
)].
Deni cao 2.8 Tamanho de um teste : Seja um teste para a hip otese H
0
:
0
, onde

0
, isto e,
0
e um subconjunto do espa co parametrico. O Tamanho do Teste e denido
como:
t() = sup
0
(, ).
Muitas vezes t() e chamado o Nvel de Signic ancia do Teste . Este termo sera utilizado para
denotar outro valor.
81
Deni cao 2.8 Nvel de Signicancia de um teste : Um teste tem um nvel de signicancia
se seu tamanho for menor ou igual a .
Da deni cao, se um teste tem tamanho este teste tambem tem tamanho
1
se
1
> . Esta
deni cao e utilizada porque muitas vezes nao conseguimos calcular o valor exato do tamanho do
teste mas conseguimos um limitante superior para (, ) quando
0
. Geralmente quando
conseguimos calcular o tamanho do teste adotamos como nvel de signicancia o seu tamanho.
Este procedimento sera adotado neste texto.
O tamanho (nvel de signic ancia) do teste nao aleatorizado tambem e referido como sendo o
tamanho (nvel de signic ancia) da regi ao crtica.
O papel da fun cao poder em teste de hip oteses e analogo ao do erro quadratico medio em
estima cao. Ela e normalmente utilizada na compara cao entre dois testes competitivos. Uma
fun cao poder ideal e igual a zero quando pertence `a hip otese nula, e igual a 1 quando pertence
`a hip otese alternativa. Este teste dicilmente existe.
Em estima cao chegamos que, sob certas considera coes, podemos nos restringir a fun coes de
estatsticas sucientes. O mesmo ocorre em teste de hip oteses quando a fun cao poder e utilizada
como base de compara cao, como mostra o teorema a seguir.
Teorema 2.1: Se X
1
, . . . , X
n
e uma amostra com fun cao distribui cao F
X
(; ), onde , e
S = (S
1
(X
1
, . . . , X
n
), . . . , S
r
= S
r
(X
1
, . . . , X
n
)) e um conjunto de estatsticas sucientes, ent ao
para qualquer teste com fun cao crtica

, existe um teste, digamos,

, e uma correspondente
fun cao crtica, digamos

, dependendo somente do conjunto de estatsticas sucientes, tal que


(, ) = (,

) para todo .
Assim como em estima cao o problema de teste de hip oteses tem dois aspectos: primeiro s ao
necessarios metodos para encontrar testes e depois uma forma de compara-los. Embora estejamos
interessados nestes dois problemas a discussao nao seguira esta ordem. Na Se c ao 3 sera discutido o
teste entre duas hip oteses simples. Serao utilizadas duas abordagens: na primeira a fun cao poder
sera utlizada como criterio de bondade, enquanto no segundo sera utilizada a fun cao perda. Depois
e apresentado e provado o importante lema de Neyman-Pearson. Todos estes testes, que s ao otimos
segundo algum criterio, podem ser expressas na forma da raz ao de verossimilhan ca simples, que e
denida na Subse c ao 3.1.
Os testes para hip oteses compostas s ao discutidos na Se c ao 4. A Subse c ao 4.1 apresenta
o princpio da raz ao de verossimilhan ca generalizada. Esta tecnica tem um papel central em
teste de hip oteses, assim como os estimadores de maxima verossimilhan ca em estima cao. Sua
importancia vem do fato de que a maioria dos testes derivados a partir deste princpio tem boas
propriedades estatsticas. O conceito de teste uniformemente mais poderoso e alguns exemplos
s ao apresentados na Subse c ao 4.2. Como muitas vezes estes testes nao existem, assim como em
estima cao, restringimos a classe de testes de tal forma que possamos encontrar o melhor dentro
desta classe. Uma forma de restringir esta classe e utilizar a propriedade de invariancia e de nao
viciado. Apenas o segundo se a discutido supercialmente mais tarde.
A Se c ao 5 discutir a v arios exemplos de testes de hip oteses em distribui coes normais. A Se c ao
6 discutir a alguns testes classicados sob a designa cao generica de testes chi-quadrados. Entre
eles est ao includos a distribui cao assint otica do teste da raz ao de verossimihan ca generalizada,
o teste de bondade de ajuste, o teste de igualdade entre duas ou mais distribui coes e testes de
independencia em tabelas de contingencia. Finalmente, na Se c ao 7 sera discutida de forma mais
formal a rela cao entre testes de hip oteses e intervalos de conan ca. Na discussao, e normalmente
e introduzido os intervalos de conan ca otimos; porem eles nao s ao objeto de estudo no curso.
Exemplo 2.3: Seja X
1
, . . . , X
25
i.i.d. N(; 25). Queremos testar:
82
H
0
: 17 versus H
1
: > 17. Um teste possvel e:
(X) =
_
Rejeita H
0
se

X > 17 + 5/

25
N ao rejeita H
0
se

X 17 + 5/

25.
Portanto,
(, ) = P

(

X > 18)
= P(

X
5/

25
>
18
5/

25
)
= 1 (18 )
(, )
15 0,0013
16 0,0228
17 0,1587
18 0,5000
19 0,8413
20 0,9772
21 0,9987
Exemplo 2.4: Seja X
1
, . . . , X
n
i.i.d. b(1, ), n = 10. Queremos testar H
0
: 1/2 versus
H
1
: > 1/2.
Vamos utilizar o teste que rejeito H
0
se, e somente se,

10
i=1
X
i
6. Temos que H
0
e H
1
s ao
hip oteses compostas, e
Regiao crtica = RC

= {(x
1
, . . . , x
10
);

10
i=1
x
i
6, x
i
= 0 ou 1}, e
Erro tipo I: Rejeitar H
0
dado que H
0
e verdadeira;
Erro tipo II: N ao rejeitar H
0
quando H
0
e falsa.
P(erro tipo I| =
0
1/2) = P(

X
i
6| =
0
1/2)
P(erro tipo II| =
1
1/2) = P(

X
i
< 6| =
1
> 1/2).
Fun cao poder:
(, ) = P

(rejeitar H
0
)
= P

(
10

i=1
X
i
6)
= P

(Y = 6) +. . . +P

(Y = 10), Y b(10, ).
Neste caso, = [0, 1] e
0
= [0, 1/2]. O tamanho do teste e:
t() = sup
1/2
(, )
83
(, )
0,1 0,000
0,2 0,006
0,3 0,047
0,4 0,166
0,5 0,377
0,6 0,633
0,7 0,850
0,8 0,964
0,9 0,998
Da, t() = 0, 377.
Exerccio 2.1: Considere o seguinte teste para aceita cao de lote: para cada lote recebido s ao es-
colhidos aleatoriamente 20 pe cas e rejeitado o lote quando existe pelo menos uma pe ca defeituosa
na amostra. Segundo o fabricante a propor cao maxima de pe cas defeituosas e de 0,07. Especique
e/ou calcule: hip oteses nula e alternativa, estatstica de teste, regi ao crtica, nvel de signicancia,
poder e tamanho do teste.
Exerccio 2.2: Suponha que aproximadamente 50% das crian cas que nascem s ao do sexo mas-
culino. Um novo tratamento e proposto para aumentar a probabilidade de nascer uma crian ca do
sexo masculino. Um experimento e realizado com 20 mulheres que desejam lhos do sexo mas-
culino.
a. Discuta quais as hip oteses nula e alternativa adequadas.
b. Dados os seguintes testes denidos pelas regi oes crticas:
RC1 = {x; x 13} e RC2 = {x; x 14 ou x 6},
onde X e o n umero de crian cas do sexo masculino (discarte a possibilidade de gemeos) discuta qual
o melhor teste.
c. Discuta o resultado caso no experimento tenham nascido 12 crian cas do sexo masculino.
3 Hipoteses Nula e Alternativa Simples
Embora este caso dicilmente ocorra na pratica ele sera bastante util na introdu cao dos conceitos
e princpios utilizados em teste de hip oteses. Assumiremos que tanto na hip otese nula quanto na
hip otese alternativa as distribui coes est ao completamente especicadas. Nosso objetivo e descobrir
qual hip otese e a verdadeira. Mais precisamente assumiremos que uma amostra X
1
, . . . , X
n
veio
de uma fun cao distribui cao F
0
(x) ou F
1
(x) e desejamos testar a hip otese H
0
: X distribudo como
F
0
(x), abreviado X F
0
() versus H
1
: X F
1
().
3.1 Teste da Razao de Verossimilhanca
Considere que as distribui coes sejam contnuas ou discretas. Nosso objetivo e determinar de qual
distribui cao provem a amostra. Isto e, queremos testar:
H
0
: X f
0
(), versus H
1
: X f
1
(),
onde f
i
(.), i = 1, 2 s ao fun coes (de densidade) de probabilidade. Um criterio muito razo avel seria
84
dizer que :
X f
0
(), se f
0
(x) f
1
(x)
X f
1
(), se f
0
(x) < f
1
(x).
Deni cao 3.1: Seja X
1
, . . . , X
n
uma amostra com uma densidade (ou fun cao de probabilidade)
que pode ser f
0
() ou f
1
(). Um teste para testar H
0
: X f
0
() versus H
1
: X f
1
(), e dito
ser um teste da raz ao de verossimilhanca simples se:
(X) =
_
Rejeita H
0
, se (X) k,
N ao rejeita H
0
, se (X) > k,
onde k e uma constante nao negativa e
(x
1
, . . . , x
n
) =
f
0
(x)
f
1
(x)
=
L
0
(x
1
, . . . , x
n
)
L
1
(x
1
, . . . , x
n
)
.
Para cada k temos um teste diferente. Para um k xo, o teste nos diz que devemos rejeitar
H
0
se a raz ao das verossimilhan cas e pequena, isto e, rejeitamos H
0
se e muito mais verossmel
(L
1
> L
0
) que a amostra tenha vindo de f
1
() do que de f
0
(). Muitos autores denem a raz ao das
verossimilhan cas como f
1
(x)/f
0
(x).
No restante do captulo sempre consideraremos que a amostra uma variavel aleat oria discreta
ou contnua, de forma que a sua distribui cao pode ser caracterizada pela sua fun cao (densidade)
de probabilidade.
3.2 Testes mais poderosos
Seja X
1
, . . . , X
n
uma amostra com fun cao (densidade) de probabilidade f
0
() ou de f
1
(). Vamos
escrever f
0
(x) = f(x,
0
) e f
1
(x) = f(x,
1
). Portanto queremos testar:
H
0
: =
0
versus H
1
: =
1
.
Para qualquer teste para as hip oteses acima, temos associado uma fun cao poder (, ). Um
bom teste deve ter:
(
0
, ) = P[rejeitar H
0
|H
0
verdadeira] pequeno
(
1
, ) = P[rejeitar H
0
|H
0
falsa] grande.
Da e razo avel usar os valores de (
0
, ) = P[erro tipo I] e (
1
, ) = 1 P[erro tipo II] como
criterio para denir um bom teste; ou seja um bom teste deve ter as duas probabilidades de erro pe-
quenas. A partir desse par agrafo, apenas por facilidade, ao colocar P[erro tipo I] ou P[erro tipo II]
estaremos considerando probabilidade condicional.
Deni cao 3.2: Um teste

para
H
0
: =
0
versus H
1
: =
1
e dito ser o teste mais poderoso de tamanho se, e somente se:
(i) (
0
,

) = ;
(ii) (
1
,

) (
1
, ) para todo teste com (
0
, ) .
Teorema 3.1a Lema de Neyman Pearson (Teste Nao Aleatorizado): Seja X
1
, . . . , X
n
uma
amostra com fun cao (densidade) de probabilidade f(, ) com =
0
ou
1
, e seja 0 < < 1 xo.
85
Seja k

uma constante positiva e C

um subconjunto de valores possveis da amostra, tal que:


(i) P
0
[(X
1
, . . . , X
n
) C

] = ;
(ii) (x) =
L(0;x1,...,xn)
L(1;x1,...,xn)
=
L0
L1
k

se (x
1
, . . . , x
n
) C

e (x) > k

se (x
1
, . . . , x
n
) C

.
Ent ao o teste

(X) =
_
Rejeita H
0
, se X C

N ao rejeita H
0
, se X C

;
ou equivalentemente,

(X) =
_
Rejeita H
0
, se (X) k

N ao rejeita H
0
, se (X) > k

e um teste mais poderoso de tamanho para testar:


H
0
: =
0
versus H
1
: =
1
.
A versao acima do Lema de Neyman-Pearson e para o teste nao aleatorizado. Para o caso do
teste aleatorizado temos a seguinte versao:
Teorema 3.1b Lema de Neyman Pearson (Teste Aleatorizado): Considere as mesmas
condi coes dadas anteriormente. Ent ao um teste aleatorizado mais poderoso e dado por:

(X) =
_
_
_
1, se (X) < k

(X), se (X) = k

0, se (X) > k

,
e o nvel de signic ancia dada por:
= E[

(X)/H
0
] = P[(X) < k

] +

xt.q.(x)=k

(x)P[X = x].
Note que no caso contnuo temos P[(X) = k

] = 0. Por isso no caso contnuo nao tem sentido


falar em teste aleatorizado. Fazemos uma aleatoriza cao quando (X) = k

, com probabilidade
(X), de se rejeitar a hip otese nula; onde a probabilidade (x) nao e necessariamente a mesma
para todos os pontos do espa co amostral onde (x) = k

. Observe que o Lema de Neyman-Pearson


e utilizado apenas quando as duas hip oteses s ao simples.
Exemplo 3.1 Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao exponencial com taxa
de falha que sabemos deve ser ou 50 ou 100. Isto e, queremos testar:
H
0
: = 50 versus H
1
: = 100.
Sabemos que:
(x) =
L
0
L
1
=
(50)
n
exp(50

n
i=1
x
i
)
(100)
n
exp(100

n
i=1
x
i
)
= (1/2)
n
exp(50
n

i=1
x
i
),
e de acordo com o Lema de Neyman-Pearson um teste mais poderoso nao aleatorizado e:

(X) =
_
Rejeita H
0
, se (1/2)
n
exp(50

n
i=1
X
i
) k

N ao rejeita H
0
, se (1/2)
n
exp(50

n
i=1
X
i
) > k

,
i.e.,

(X) =
_
Rejeita H
0
, se 100

n
i=1
X
i
2 log(2
n
k

) = k

N ao rejeita H
0
, se 100

n
i=1
X
i
> 2 log(2
n
k

) = k

,
86
e k

e escolhido de modo que:


P
0
[100
n

i=1
X
i
k

] = .
O valor k

e calculado utilizando o fato de que 100

n
i=1
X
i
tem distribui cao qui-quadrado com
(2n) graus de liberdade quando = 50. Pode-se tambem utilizar a distribui cao gama e para n
sucientemente grande podemos utilizar a aproxima cao normal.
Exemplo 3.2: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao Bernoulli com proba-
bilidade de Sucesso, que sabemos deve ser ou
0
ou
1
, onde
0
<
1
. Queremos testar:
H
0
: =
0
versus H
1
: =
1
.
Neste caso,
(x) =
L
0
L
1
=

xi
0
(1
0
)
n

xi

xi
1
(1
1
)
n

xi
,
e de acordo com o Lema de Neyman-Pearson um teste mais poderoso nao aleatorizado, dado pelo
Teorema 3.1.a e:

(X) =
_

_
Rejeita H
0
, se

x
i
0
(10)
n

x
i

x
i
1
(11)
n

x
i
k

N ao rejeita H
0
, se

x
i
0
(10)
n

x
i

x
i
1
(11)
n

x
i
> k

.
Mas,
(x) k

xi
0
(1
0
)
n

xi

xi
1
(1
1
)
n

xi
k

x
i
log
_

0
(1
1
)

1
(1
0
)
_
. .
0
log
_
k

(
1
1
1
0
)
n
_

x
i
k

.
Assim, um teste mais poderoso e:

(X) =
_
Rejeita H
0
, se

n
i=1
X
i
k

N ao rejeita H
0
, se

n
i=1
X
i
< k

,
e k

e escolhido de modo que:


P
0
[
n

i=1
X
i
k

] .
Isto e:
k

= min{k; P
0
[rejeitar H
0
] }
= min{k; P
0
[
n

i=1
X
i
k] },
87
que pode ser facilmente calculado atraves da distribui cao binomial.
O tamanho do teste e dado por:

= P
0
[
n

i=1
X
i
k

].
Observe que como

X
i
assume valores inteiros entre 0 e n,

pode assumir apenas (n+1) valores


diferentes. Desta forma, nao existe um teste nao aleatorizado mais poderoso de tamanho para
todo . No entanto, existe um teste mais poderoso aleatorizado de tamanho dado dado pelo
Teorema 3.1.b por:

(X) =
_
_
_
0, se

X
i
< k

1
(

)/P[

X
i
= k

1], se

X
i
= k

1
1, se

X
i
k

,
onde

e k

s ao denidos como anteriormente.


Exemplo 3.3: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao normal com variancia
conhecida e igual a 1 e com apenas 2 possveis valores para a media,
0
e
1
com
0
<
1
.
Queremos testar:
H
0
: =
0
versus H
1
: =
1
.
Vamos utilizar este exemplo para introduzir a abordagem de testes de signicancia em teste de
hip oteses.
(x) =
L
0
L
1
=
(2)
n/2
exp{

(x
i

0
)
2
}
(2)
n/2
exp{

(x
i

1
)
2
}
= exp{2n x(
0

1
) +n(
2
1

2
0
)},
e de acordo com o Lemma de Neyman-Pearson um teste otimo e dado pela seguinte regra de
decisao: rejeito H
0
caso exp{2n x(
0

1
) + n(
2
1

2
0
)} k, que e equivalente a rejeitar H
0
quando x k

dado que
0
<
1
; ou seja, um teste mais poderoso e:

(X) =
_
Rejeita H
0
, se

X k

N ao rejeita H
0
, se

X < k

e k

e escolhido de modo que:


P[

X k

|X
i
N(
0
; 1)] = ,
cuja solu cao e k

=
0
+z
1
/

n; isto e, rejeito a hipotese nula se


x
0
+z
1
/

n, ou equivalentemente, se
0
x z
1
/

n.
Observe que esta regra de decisao independe do valor de
1
, desde que
1
seja maior do que
0
.
Considere agora que temos n = 16,
0
= 3, 0 , = 0, 05 e x = 3, 40. Neste caso k

= 3, 411 e
como 3, 40 < 3, 411 nao rejeitamos a hip otese nula ao nvel de signicancia 0,05. Isto nao quer dizer
que estamos falando que existem evidencias de que a hip otese nula seja verdadeira. Na verdade
qualquer valor de
0
tal que
1
>
0
> 2, 989 nao e rejeitado ao nvel de signicancia 0,05; da
ser necessario ter um certo cuidado na interpreta cao e apresenta cao dos resultados. N ao dizemos
que a hip otese nula seja verdadeira, mas que ela nao e rejeitada, ou ent ao que n ao existe evidencia
88
estatstica ao nvel de signic ancia de 0,05 para rejeitar a hip otese nula .
Suponha agora que a media amostral tenha sido um pouco maior, por exemplo, em vez de
3,40 fosse igual a 3,42. Nesse caso rejeitaramos a hip otese nula. Qualquer um, estatstico ou
nao, deveria estranhar que com resultados t ao proximos, que podem inclusive ser causados por
arredondamentos levem a decisoes diferentes. Considere agora que a media amostral seja igual
a 3,80; ou seja, tambem neste caso a hip otese nula e rejeitada. Mas declarar simplesmente que
a hip otese nula e rejeitada ao nvel de signic ancia 0,05 tanto nesse caso como quando a media
amostral e 3,42 e jogar fora parte da informa cao; anal, o resultado 3,80 da uma evidencia maior
de que a hip otese alternativa e verdadeira.
Estas crticas levantadas desaparecem na utiliza cao da abordagem de testes de signicancia,
que e a defendida por Fisher. Nesta abordagem procura-se dar uma medida de evidencia de que a
hip otese nula nao seja verdadeira. Verique que com o resultado da media amostral igual a 3,45
rejeitamos a hip otese nula de que
0
= 3, 0, ao nvel de signic ancia se z
1

16( x3, 0); isto


e para > 0, 0359. Da mesma forma com o resultado 3,80 rejeitaramos a hip otese nula para todo
> 0, 0007. Os valores encontrados dao, em cada caso, o menor valor do nvel de signic ancica
que permite a rejei cao da hip otese nula com o valor experimental observado. Este valor e chamado
de probabilidade de signic ancia, p-value, valor p e nvel descritivo do teste.
Deni cao 3.3 Valor-p: Dada uma estatstica de teste T, que ordena os pontos do espa co amostral
em termos de evidencia em favor da hip otese alternativa, o valor-p e uma estatstica denida como
o menor nvel de signic ancia em que a hip otese nula e rejeitada com base nos dados experimentais.
Chamamos a aten cao para o fato do valor-p ser uma estatstica; logo, nao pode depender de
par ametros desconhecidos. Isto e verdade porque condicionamos em rela cao `a hip otese nula. Vemos
tambem que se o nvel de signic ancia e menor do que o valor-p nao rejeitamos a hip otese nula;
caso contrario ela e rejeitada. Mais tarde daremos outra deni cao de valor-p.
Do exposto, com o valor observado 3,45 s o rejeitaramos a hip otse nula se, ao denirmos o nvel
de signic ancia, estivermos dispostos a correr o risco de rejeitar a hip otese nula incorretamente
com probabilidade, no mnimo igual a 0,0359. Ja, no segundo caso, a hip otese nula seria rejeitado,
mesmo que se queira correr um risco pequeno, mas maior do que 0,0007. Desta forma, os valores
de probabilidades de signic ancia encontrados, 0,0359 e 0,0007, podem ser utilizados para medir a
evidencia de que a hip otese alternativa seja verdadeira. Quanto menor o valor-p maior a evidencia.
Para que esta abordagem possa ser utilizada e necessario que possamos ordenar os valores do espa co
amostral em termos de evidencia. No presente caso quanto maior a distancia da media amostral
de
0
maior a evidencia de que a hip otese nula nao seja verdadeira.
Nem sempre existe um teste nao aleatorizado mais poderoso que tenha o tamanho igual ao
tamanho especicado. Quando trabalhamos com distribu coes contnuas sempre existe um teste do
tamanho especicado. Observe que o teste uniformemente mais poderoso de nvel e necessaria-
mente um teste da raz ao de verossimilhan ca simples.
Exemplo 3.4: Considere uma amostra aleat oria de uma das fun coes densidades abaixo e que
estamos interessados em testar
H
0
: X f
0
versus H
1
: X f
1
x 0 1 5 7 10
f
0
(x) 0,30 0,20 0,10 0,30 0,10
f
1
(x) 0,20 0,20 0,30 0,05 0,25
f
0
(x)/f
1
(x) 1,50 1,00 0,33 6,00 4,00
Na discussao a seguir vamos sempre procurar o teste mais poderoso atraves do Lema de Neyman-
89
Pearson. Vamos colocar em ordem decrescente os valores amostrais que dao maior evidencia de que
a hip otese alternativa e verdadeira. De acordo com o Lema de Neyman-Pearson o ponto que da
mais evidencia em favor da hip otese alternativa e o valor 5 pois tem a menor rela cao de verossim-
ilhan cas. A seguir vem o ponto 1, 0, 10 e nalmente 7.
x 5 1 0 10 7
f
0
(x)/f
1
(x) 0,33 1,00 1,50 4,00 6,00
f
0
(x) 0,10 0,20 0,30 0,10 0,30
Prob. Acumulada 0,10 0,30 0,60 0,70 1,00
Os valores da ultima linha dao os valores exatos dos possveis testes nao aleatorizados mais
poderosos. Desta forma, caso estejamos dispostos a cometer erro do tipo I com probabilidade no
maximo igual a 0,20 a regi ao crtica seria dado por RC = {5}, que tem tamanho igual a 0,10. Um
teste de tamanho igual a 0,20 teria que ser aleatorizado e e dado por:

(X) =
_
_
_
1, se x = 5
1/2, se x = 1
0, se x = 1 e 5.
Suponha agora que foi observado o valor 0. Neste caso, tanto no teste aleatorizado como no teste
nao aleatorizado iramos rejeitar a hip otese nula caso o maximo risco que estamos dispostos a
cometer o erro de tipo I seja igual a 0,20. Porem qual seria o valor-p neste caso? Observe que
segundo o teste mais poderoso, dado pelo Lema de Neyman-Pearson, o conjunto de valores que
dao tanta ou mais evidencias em favor da hip otese alternativa, do que o valor observado e dado
pelo conjunto:
A = {5, 1, 0}.
Uma das deni coes de valor-p e exatamente a probabilidade deste conjunto sob a hip otese nula.
Logo
valor-p = P[A/H
0
] = 0, 10 + 0, 20 + 0, 30 = 0, 60.
Observe que s o podemos calcular o valor-p porque, dada a estatstica do teste, podemos ordenar
os pontos do espa co amostral em termos de evidencia em favor da hip otese alternativa, o que nao
ocorre, por exemplo, no Exerccio 4.4.
Exerccio 3.1: No Exemplo 3.1 calcule o valor-p quando n = 20 e x = 0, 025 utilizando a dis-
tribui cao exata e pela aproxima cao normal.
Exerccio 3.2: No Exemplo 3.4 encontre o valor-p quando temos uma amostra de tamanho 2 e
os valores observados s ao 0 e 1.
Exerccio 3.3: Suponha que no Departamento de Manuten cao existiam 6 ordens de servi co no
incio do dia. Estes servi cos devem ser realizados o mais r apido possvel porque outros servi cos
podem aparecer. O supervisor sorteou 2 ordens de servi cos e entregou a Joao e os restantes a Jose.
Ao nal do dia o supervisor vericou que, entre os 6 servi cos, exatamente os 2 de Joao foram os
que mais demoraram para serem terminados. Apenas baseados nestes dados o supervisor resolveu
punir Joao. Argumente em termos estatsticos se o supervisor est a correto ou nao ao tomar esta
decisao.
3.3 *Fun cao Perda
Analogamente `a sub-se cao anterior queremos decidir entre H
0
: =
0
e H
1
: =
1
. Podemos
tomar uma das duas decisoes, d
j
, j = 0 ou 1, que signica escolher a hip otese H
j
. Vamos assumir
90
que a fun cao perda seja conhecida.
Deni cao 3.4 Fun cao Perda : Ao testar versus H
0
: =
0
versus H
1
: =
1
dena l(d
i
;
j
) =
perda ao se tomar a decisao i (decidir que a hip otese H
i
e verdadeira), quando o valor verdadeiro e

j
para i = 0, 1 e j = 0, 1. Adotaremos a conven cao de que l(d
i
;
i
) = 0 para i = 0, 1 e l(d
i
;
j
) > 0
para i = j
Observe que denir uma fun cao decisao e denir uma regi ao onde se adota a decisao d
0
,
tomando-se a decisao d
1
na regi ao complementar. Desta forma, se consideramos apenas os testes
nao aleatorizados, que s ao testes denidos pelas regi oes crticas, tambem teremos denidas as
fun coes decisoes. Podemos, portanto, utilizar os mesmos conceitos e nota coes.
Na compara cao entre dois ou mais testes e claro que preferimos o de menor perda. Infelizmente,
dicilmente existe um teste que tenha a menor perda para as duas possveis decisoes e para
0
e

1
. Analogamente ao caso de estima cao denimos a fun cao risco que e a perda media.
Deni cao 3.5 Fun cao Risco : Para uma amostra X
1
, . . . , X
n
com fun cao (densidade) de prob-
abilidade f(;
0
) ou de f(;
1
), seja um teste de H
0
: =
0
versus H
1
: =
1
tendo a regi ao
crtica C

. Para uma dada fun cao perda l(; ), a fun cao risco de , denotada por R

(), e denida
como a perda media, isto e,
R

() =
_
. . .
_
. .
C

l(d
1
; )f(x
1
, , x
n
; )dx
1
dx
n
+
_
. . .
_
. .
C

l(d
0
; )f(x
1
, , x
n
; )dx
1
dx
n
.
Observe que
R
T
() = l(d
1
; ).P[(X
1
, . . . , X
n
) C
T
] +l(d
0
; ).P[(X
1
, . . . , X
n
) C
T
]
= l(d
1
; ).(, ) +l(d
0
; ).[1 (, )],
como assume apenas dois valores temos
R

(
0
) = l(d
1
;
0
).(
0
, ) e R

(
1
) = l(d
0
;
1
).(1 (
1
, )).
Infelizmente dicilmente existe um teste que minimize a fun cao risco para ambas as hip oteses.
Um criterio, que nao e t ao bom quanto este e o criterio minimax denido por:
Deni cao 3.6 Teste Minimax: Um teste
m
de H
0
: =
0
versus H
1
: =
1
e denido como
sendo minimax se e somente se
max[R
m
(
0
), R
m
(
1
)] max[R

(
0
), R

(
1
)]
para qualquer outro teste .
Neste caso o seguinte teorema auxilia a encontrar o teste minimax
Teorema 3.3: Considere uma amostra X
1
, . . . , X
n
com fun cao (densidade) de probabilidade
f(;
0
) ou de f(;
1
) para testar H
0
: =
0
versus H
1
: =
1
. Se
m
tem uma regi ao crtica dada
por C
m
= (x
1
, . . . , x
n
) : k
m
onde k
m
e uma constante positiva tal que R
m
(
0
) = R
m
(
1
) ,
91
ent ao T
m
e minimax.
Se f
0
() e f
1
() s ao fun coes densidades discretas ent ao pode nao existir k
m
que satisfa ca a igual-
dade do teorema se considerarmos apenas os testes nao aleatorizados.
Observe que tanto o teste mais poderoso de Neyman-Pearson quanto o teste minimax s ao testes
raz ao de verossimilhan ca simples.
Na abordagem Bayesiana, que nao sera vista agora, alem das fun coes perda e risco temos uma
distribui cao `a priori para . Neste caso tambem pode ser visto que a regi ao crtica tambem e dada
por um teste da raz ao de verossimilhan ca simples.
4 Hipoteses Compostas
Suponha que temos uma amostra X
1
, . . . , X
n
com fun cao (densidade ) de probabilidade f(, ),
onde . Com base nestes dados, queremos testar:
H
0
:
0
versus H
1
:
1
,
onde
0
,
1
e
0

1
= . (Em geral, mas nao sempre
0

1
= ).
4.1 Teste Geral da Razao de Verossimilhanca
Baseados em uma amostra X
1
, . . . , X
n
com com fun cao (densidade ) de probabilidade f(, ), onde
, queremos testar as hip oteses:
H
0
:
0
versus H
1
:
1
= \
0
.
Deni cao 4.1 razao de verossimilhan ca generalizada: Seja L(, x
1
, . . . , x
n
), a fun cao de
verossimilhan ca para a amostra X
1
, . . . , X
n
tendo distribui cao conjunta f
X1,...,Xn
(x
1
, . . . , x
n
, ),
onde . A raz ao de verossimilhanca generalizada, denotada por , e dada por:
= (x
1
, . . . , x
n
) =
sup
0
L(, x
1
, . . . , x
n
)
sup

L(, x
1
, . . . , x
n
)
.
Note que e uma fun cao de x
1
, . . . , x
n
. Quando as observa coes s ao trocadas com as respectivas
v.a.s X
1
, . . . , X
n
, ent ao temos
= (X
1
, . . . , X
n
),
que e uma v.a. e mais ainda e uma estatstica.
Obs.:
(1) 0 1;
(2) pode ser um vetor;
(3) O denominador de e a fun cao de verossimilhan ca avaliada no EMV (irrestrito) de ;
(4) O numerador de e a fun cao de verossimilhan ca avaliada no EMV (restrito, ou sob H
0
) de ;
(5) No caso de termos uma amostra aleat oria, as v.as s ao i.i.d. e neste caso, f
X1,...,Xn
(x
1
, . . . , x
n
, ) =

n
i=1
f(x
i
, ).
A estatstica e usada para formular o teste da raz ao de verossimilhan ca:
(X) =
_
Rejeito H
0
, se k
N ao rejeito H
0
, se > k,
92
onde k e uma constante xa 0 < k < 1 e e geralmente especicada xando-se o tamanho do teste .
Geralmente, o teste da RV e um bom teste. A aplica cao deste teste pode esbarrar em duas
diculdades. A primeira pode ser encontrar sup
0
L(, x
1
, . . . , x
n
) e sup

L(, x
1
, . . . , x
n
), e a
segunda encontrar a distribui cao de , que e necessaria para se calcular a fun cao poder do teste.
No segundo caso muitas vezes e mais facil encontrar a distribui cao de g(), onde g() e uma fun cao
monotona.
Exemplo 4.1: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao exponencial com
par ametro . Isto e, f(x, ) = e
x
I
(0,)
(x) e = (0, ). Queremos testar H
0
: 1000 versus
H
1
: > 1000. Sabemos que o EMV de e: 1/

X. Da,
sup

L(, x
1
, . . . , x
n
) = sup
>0

n
exp{
n

i=1
x
i
}
= (
1
x
)
n
e
n
e
sup
0
L(, x
1
, . . . , x
n
) = sup
0<1000

n
exp{
n

i=1
x
i
}
=
_
( x)
n
e
n
, se
1
x
1000
1000
n
e
1000n x
, se
1
x
> 1000.
Da,
(x
1
, . . . , x
n
) =
_
1, se
1
x
1000
1000
n
exp{1000n x}
(1/ x)
n
e
n
, se
1
x
> 1000.
Se 0 < k < 1 ent ao o teste da RV e:
(X) =
_
Rejeito H
0
, se
1

X
> 1000 e (1000

X)
n
exp(1000n

X +n) k
N ao rejeito H
0
, caso contrario.
Isto e,
(X) =
_
Rejeito H
0
, se 1000

X < 1 e (1000

X)
n
exp{n(1000

X 1)} k
N ao rejeito H
0
, caso contrario.
Escreva, Y = 1000

X e note que Y
n
e
n(Y 1)
tem um maximo em Y = 1 e e crescente em (0, 1).
Assim, Y
n
e
n(Y 1)
1 e Y
n
e
n(Y 1)
k se, e somente se, Y k

onde k

e uma constante
0 < k

< 1.
Da,
(X) =
_
Rejeito H
0
, se 1000

X k

N ao rejeito H
0
, caso contrario.
Se queremos o teste de tamanho , k

deve ser a solu cao de:


= P[1000

X k

]
= P
1000
[1000
n

i=1
X
i
nk

] (utilizando-se distribui cao Gama(n,1))


=
_
nk

0
1
(n)
u
n1
e
u
du.
93
(Note que: P

[1000

X k

] e uma fun cao crescente de .


Para amostras relativamente grande podemos utilizar uma distribui cao aproximada para a es-
tatstica de teste do teste da raz ao de verossimilhan ca generalizada dada pelo teorema a seguir.
Teorema 4.1.: Seja X
1
, , X
n
uma amostra com fun cao de (densidade) probabilidade conjunta
f
X
(., ,

.; ), onde = (
1
, ,
k
), que assume certas condi coes de regularidade. Suponha que
o par ametro de espa co e k-dimensional. Para testar a hip otese nula H
0
:
1
=
0
1
, ,
1
=
0
r
,
isto e, restri coes em r par ametros, contra a hip otese de nenhuma restri cao, a estatstica de teste
2ln tem distribui cao aproximadamente qui-quadrado com r graus de liberdade quando H
0
e
verdadeiro e n e sucientemente grande.
Exerccio 4.1. Segundo a teoria de Mendelian as ervilhas podem ser classicadas em 4 grupos
segundo sua cor e forma: arredondadas e amarelos (RA), arredondadas e verdes(RV), an-
gulares e amarelas(AA) e angulares e verdes(AV) ocorrendo na propor cao 9/3/3/1. Foram
observadas n = 556 ervilhas e classicadas segundo forma e cor, obtendo-se 315 do tipo RA, 108
do tipo RV, 101 do tipo AA e 32 do tipo AV. Calcule o valor-p.
Exerccio 4.2. Segundo um modelo genetico os resultados de um cruzamento podem ser de tres
tipos com as seguintes probabilidades: p
2
, 2p(1 p) e (1 p)
2
, 0 < p < 1. Assuma que em 100
ensaios independentes as frequencias observadas foram 15, 32 e 53 e que p seja desconhecido. Teste
a validade do modelo.
Observe que neste caso as restri coes nao s ao da forma H
0
:
1
=
0
1
, ,
1
=
0
r
. O teorema
anterior pode ser generalizado quando isto ocorre. Neste caso o n umero de graus de liberdade e o
n umero de restric oes necessarias para denir a hip otese nula, que e igual a diferen ca das dimensoes
do espa co parametrico sob as hip oteses geral e nula. No ultimo exerccio e igual a 2 (basta denir
as probabilidades de dois tipos) menos 1 (basta denir p), que e igual a 1.
O tipo de problema dado nos dois ultimos exemplos e chamado de teste de ajuste e pode
tambem ser tratados atraves do teste qui-quadrados de bondade de ajuste, que ser a visto na Se c ao
4.6.
4.2 Testes Uniformementes Mais Poderosos (Testes UMP)
Deni cao 4.2 Teste uniformemente mais poderoso: Um teste

para H
0
:
0
versus
H
1
:
1
, e dito ser um teste uniformemente mais poderoso de tamanho se, e somente se:
(i) sup
0
(,

) = t(

) = ;
(ii) (,

) (, ) para todo
1
e qualquer teste tal que t() .
Exemplo 4.2: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao exponencial com
par ametro (0, ). Encontre o teste UMP para H
0
: =
0
versus H
1
: >
0
. Para

1
>
0
xo, vimos no Exemplo 3.1, que pelo Lema de Neyman-Pearson, o teste mais poderoso
para

H
0
: =
0
versus

H
1
: =
1
e dado por:
(X) =
_
Rejeito

H
0
, se

X
i
k
N ao rejeito

H
0
, se

X
i
> k,
onde k e solu cao de
=
_
k
0
1
(n)

n
0
u
n1
e
0u
du.
94
Como o teste acima nao depende do valor de
1
mas somente do fato que
1
>
0
, temos que o
teste dado acima e UMP para testar:
H
0
: =
0
versus H
1
: >
0
.
O teste e tambem UMP para testar:
H
0
:
0
versus H
1
: >
0
pois a fun cao poder e crescente em . Observe que para testar:
H

0
: =

0

0
versus H

1
: =
1
>
0
o teste e da mesma forma, independente do valor de

0
. No caso da hip otese composta o tamanho
do teste e dado por:
sup
0
(, ),
e como a fun cao poder e crescente em temos que o tamanho do teste e dado por = (
0
, ),
que produz o mesmo teste dado anteriormente.
Teorema 4.2: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao f(x, ), , onde
e um intervalo. Assuma que f perten ca `a famlia exponencial:
f(x, ) = a()b(x) exp[c()d(x)]
e coloque T(x
1
, . . . , x
n
) =

n
i=1
d(x
i
), isto e T(X
1
, . . . , X
n
) e a estatstica suciente, completa e
minimal para .
(i) Se c() e uma fun cao monotona crescente de e se existe k

tal que P
0
[T(X
1
, . . . , X
n
)
k

] = ent ao o teste:

(X) =
_
Rejeito H
0
, se T(X
1
, . . . , X
n
) k

N ao rejeito H
0
, caso contrario
e um teste UMP para testar H
0
:
0
versus H
1
: >
0
ou H
0
: =
0
versus H
1
: >
0
.
(ii) Se c() e uma fun cao monotona decrescente de e se existe k

tal que P
0
[T(X
1
, . . . , X
n
)
k

] = ent ao o teste:

(X) =
_
Rejeito H
0
, se T(X
1
, . . . , X
n
) k

N ao rejeito H
0
, caso contrario
e um teste UMP para testar H
0
:
0
versus H
1
: >
0
ou H
0
: =
0
versus H
1
: >
0
.
Exemplo 4.3: Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao exponencial com
par ametro (0, ). Encontre o teste UMP para H
0
:
0
versus H
1
: >
0
.
f(x, ) =
..
a()
I
(0,)
(x)
. .
b(x)
exp(
..
c()
x
..
d(x)
).
Assim,
T(X
1
, . . . , X
n
) =
n

i=1
X
i
95
e c() = e decrescente em . Portanto,

(X) =
_
Rejeito H
0
, se

n
i=1
X
i
k

N ao rejeito H
0
, caso contrario,
onde k

e a solu cao de
= P
0
[
n

i=1
X
i
k

] =
_
k

0
1
(n)

n
0
u
n1
e
0u
du
e um teste UMP para testar H
0
:
0
versus H
1
: >
0
.
Deni cao 4.3: Uma famlia de densidades {f(x, ), }, onde e um intervalo, e dita ser
uma famlia de razao de verossimilhan ca mon otona em T(X) se
(x;
1
,
2
) =
f(x; )
f(x;
2
)
e uma fun cao nao decrescente de T(x) se
1
<
2
, ou; e uma fun cao nao crescente de T(x) se

1
<
2
.
Exemplo 4.4: Se f(x, ) = e
x
I
(0,)
(x), temos
L(

, x
1
, . . . , x
n
)
L(, x
1
, . . . , x
n
)
=

n
exp(

x
i
)

n
exp(

x
i
)
= (

)
n
exp[(

x
i
],
que e fun cao nao decrescente de

n
i=1
X
i
se

< .
Exemplo 4.5: Se f(x, ) = (1/)I
(0,)
(x), para > 0, temos
L(

, x
1
, . . . , x
n
)
L(, x
1
, . . . , x
n
)
=
(1/

)
n

n
i=1
I
(0,

)
(x
i
)
(1/)
n

n
i=1
I
(0,)
(x
i
)
=
(1/

)
n
I
(0,

)
(x
(n)
)
(1/)
n
I
(0,)
(x
(n)
)
=
_
(/

)
n
, se 0 < x
(n)
<

0, se

< x
(n)
< ,
que e fun cao nao decrescente de x
(n)
para

< .
Teorema 4.3: Seja X
1
, . . . , X
n
uma amostra com fun cao (densidade) de probabilidade f(x, ),
onde e e um intervalo. Assuma que a famlia de densidades {f(x, ); } tem raz ao de
verossimilhan ca monotona em T(X).
(i) Se a raz ao de verossimilhan ca e monotona nao-decrescente emT(X) e se k

e tal que P
0
(T(X)
k

) = , ent ao

(X) =
_
Rejeito H
0
, se T(X) k

N ao rejeito H
0
, caso contrario
e um teste UMP de tamanho para testar H
0
:
0
versus H
1
: >
0
.
(ii) Se a raz ao de verossimilhan ca e monotona nao-crescente em T(X) e se k

e tal que P
0
(T(X)
k

) = , ent ao

(X) =
_
Rejeito H
0
, se T(X) k

N ao rejeito H
0
, caso contrario
96
e um teste UMP de tamanho para testar H
0
:
0
versus H
1
: >
0
.
Obs.:
1. Nos teoremas 4.2 e 4.3 temos H
0
:
0
. Se tivessemos H
0
:
0
, as regi oes crticas
seriam dadas da mesma forma exceto que reverteramos as desigualdades.
2. Os teoremas consideram apenas testes unilaterais. Nestes casos, temos testes UMP se a
densidade amostrada tiver raz ao de verossimilhan ca monotona em alguma estatstica.
3. Existem muitos problemas onde nao e possvel se obter testes UMP. Neste caso devemos
restringir a classe de testes a m de encontrar um teste otimo nesta classe. Uma destas
classes s ao os testes nao viciados, que e denida na Se cao 4.3.
4. Muitas vezes o Teorema 4.2 e 4.3 s ao aplicados de forma errada para armar que nao ex-
iste teste UMP para testar hipteses bilaterais. Como exerccio mostre que existe um teste
UMP para testar H
0
: =
0
versus H
1
: =
0
, > 0, xo conhecido em uma amostra
aleat oria de uma popula cao uniforme U(0, ).
Exemplo 4.6: Seja X
1
, . . . , X
n
uma amostra aleat oria de f(x, ) = (1/)I
(0,)
(x), para > 0 e
queremos testar H
0
:
0
versus H
1
: >
0
. Ja vimos que a famlia de densidades tem RVM
nao crescente em X
(n)
= max{X
1
, . . . , X
n
}. De acordo com (ii), um teste UMP de tamanho e:

(X) =
_
Rejeito H
0
, se X
(n)
k

N ao rejeito H
0
, caso contrario,
onde k

e tal que:
P
0
[X
(n)
k

] = 1 P
0
[X
(n)
< k

] = 1 (k

/
0
)
n
Portanto, k

=
0
(1 )
1/n
.
Exerccio 4.3: No Exemplo 4.2 considere que
0
= 0, 01, n = 100, e que foi observado um tempo
amostral medio igual a 107. Discuta os resultados em termos de valor-p e IC do tempo medio.
Exerccio 4.4: Segundo um acordo entre comprador e vendedor a propor cao de pe cas defeituosas
nao pode ultrapassar 0,05. O comprador recebe um lote e examina aleatoriamente 50 pe cas encon-
trando 2 pe cas defeituosas. Discuta qual deve ser a decisao do comprador se ele decide s o devolver
os lotes quando ele tem evidencias de que ele nao satisfaz as especica coes.
Exerccio 4.5: Suponha que em um dado instante a percentagem de eleitores da cidade de Camp-
inas favor aveis ao projeto de renda mnima seja igual a 40%. Depois de realizar uma campanha
de esclarecimento a prefeitura resolve realizar uma pesquisa de opiniao p ublica para vericar se a
campanha surtiu efeito. Neste caso qual deve ser o tamanho mnimo da amostra para que:
a. A probabilidade de se chegar a conclus ao de que a campanha teve efeito, quando na verdade
isto nao ocorreu seja no maximo igual a 0,10; e,
b. A percentagem de se chegar a conclus ao que a campanha teve efeito, caso a propor cao de
eleitores favor aveis tenha crescido para 0,50 seja no mnimo igual a 0,60.
Exerccio 4.6: Suponha que certo pesquisador deseja testar uma hip otese nula H
0
contra a
alternativa H
1
, ambas compostas. Para tanto ele realiza um experimento, cujos resultados s ao
97
variaveis aleat orias que podem ser representadas por X
1
, . . . , X
k
. A regi ao crtica adotada e dada
por:
RC = {(x
1
, . . . , x
k
); T(x
1
, . . . , x
k
) A},
onde T e uma estatstica de teste conhecida e A um conjunto, ou regi ao, denido e conhecido.
a. Mostre como se calcula o nvel de signic ancia do teste.
b. Encontrado os valores X
1
= x
1
, . . . , X
k
= x
k
, qual seria a decisao?
c. Discuta porque, dado os valores amostrais, dependendo da forma que e dado a RC voce nao
poderia discutir os resultados em termos de valor-p.
Exerccio 4.7: Discuta os resultados em termos de valor-p quando temos os seguintes valores
amostrais:
Exemplo 4.1: x = 0, 0015 e n = 20.
Exemplo 4.2:
0
= 1000, x = 0, 0015 e n = 20.
Exemplo 4.6:
0
= 1, x
n
= 0, 96 e n = 10.
Exerccio 4.8: Considere uma amostra aleat oria de tamanho 25 de uma Poisson com media .
a. Encontre o teste UMP para H
0
: = 1 versus H
1
: > 1. Esboce o gr aco da fun cao poder
utilizando a aproxima cao normal e calcule o valor exato para alguns valores. Comente se a aprox-
ima cao e boa.
b. Considere agora que a hip otese alternativa e bilateral, isto e, H
1
: = 1. Mostre como deve
ser a forma da regi ao crtica do teste da raz ao de verossimilhan ca generalizada. Coloque a regi ao
crtica em termos da media amostral.
Exerccio 4.9: Considere uma amostra aleat oria de tamanho n
1
de uma exponencial com taxa
de falha
1
. Considere outra amostra aleat oria de tamanho n
2
de uma exponencial com taxa de
falha
2
.
a. Encontre o teste da raz ao de verossimilhan ca generalizada para H
0
:
1
=
2
versus H
1
:
1
=
2
.
b. Mostre que a regi ao crtica nao depende do valor da taxa de falha verdadeira.
4.3 Testes nao viciados
Deni cao: Um teste para testar H
0
:
0
versus H
1
:
1
e dito ser um teste n ao viciado
se, e somente se
sup
0
(, ) inf
1
(, ).
Consequentemente, em um teste nao viciado a probabilidade de rejeitar H
0
quando ela e falsa
e pelo menos t ao grande quanto a probabilidade de rejeitar H
0
quando esta e verdadeira. Dentre
os testes nao viciados sempre existe um teste UMP.
Na Se c ao 5 sera dado um exemplo de um teste que nao e UMP, mas o mais poderoso dentre
os testes nao viciados.
4.4 Metodos para Encontrar Testes
V arios metodos ja foram apresentados para realizar testes de hip oteses. Nesta se cao eles serao rapi-
damente revistos e na ultima parte da subse cao sera apresentada a rela cao entre testes de hip oteses
e intervalos de conan ca. A discussao servira tambem para colocar alguns cuidados necessarios na
utiliza cao de testes de hip oteses e intervalos de conan ca na analise estatstica.
98
4.4.1 Teste da Razao de Verossimilhan ca
Ja vimos que sempre podemos encontrar um teste atraves da raz ao de verossimilhn ca. Se queremos
testar H
0
:
0
versus H
1
:
1
baseados em uma amostra aleat oria X
1
, . . . , X
n
de uma
distribui cao de probabilidade com densidade (ou fun cao de probabilidade) f(, ), onde .
A raz ao de verossimilhanca generalizada, denotada por , e dada por:
= (x
1
, . . . , x
n
) =
sup
0
L(, x
1
, . . . , x
n
)
sup

L(, x
1
, . . . , x
n
)
e
= (X
1
, . . . , X
n
)
e uma v.a. e mais ainda e uma estatstica.
A estatstica e usada para formular o teste da raz ao de verossimilhan ca:
(X) =
_
Rejeito H
0
, se k
N ao rejeito H
0
, se > k,
onde k e uma constante xa 0 < k < 1 e e geralmente especicada xando-se o tamanho do teste .
Para famlia de densidades com raz ao de verossimilhanca mon otona o Teorema 4.2 e bastante
util para encontrar testes UMP.
4.4.2 Rela cao entre Teste de Hip oteses e Intervalos de Conan ca
Podemos utilizar um intervalo de conan ca para um par ametro unidimensional para testar
H
0
: =
0
versus H
1
: =
0
e vice-versa.
Suponha que temos uma amostra X
1
, . . . , X
n
com fun cao distribui cao F
X
(, ) e queremos testar
H
0
: =
0
versus H
1
: =
0
. Seja IC

(X) um intervalo de conan ca de nvel para . Podemos


denir a seguinte regra intuitiva: rejeitamos H
0
se
0
nao pertencer ao IC

. O tamanho do teste
pode ser facilmente calculado. Sabemos que se IC

(X) e um IC de nvel ent ao:


P

( IC

(X)) = ,
e consequentemente a probabilidade de rejeitar H
0
quando H
0
e verdadeira e:
t() = P
0
(
0
IC

(X)) = 1 .
Assim, um intervalo com 95% de conan ca nos da um teste com tamanho 5%.
Na realidade, temos uma dualidade aqui, pois uma famlia de teste pode ser usada para construir
intervalos de conan ca. Suponha que C(
0
) e a regi ao crtica de um teste de tamanho para
H
0
: =
0
versus H
1
: =
0
, denido para cada
0
:
P
0
[X C(
0
)] = .
Ent ao, dena para cada ponto amostral x,
IC(x) = {|x C()}.
H a uma completa equivalencia entre os eventos:
{ IC(X)} e {X C()},
99
o que signica que as probabilidades s ao as mesmas
P

{ IC(X)} = 1 P

{X C()} = 1 .
Assim, IC(X) e uma regi ao de conan ca para com nvel 1, e dado pelo conjunto de todos
os valores de que nao podem ser rejeitados em um teste de hip oteses com nvel de signicancia
, com os resultado amostral X observado.
A regi ao de conan ca obtida atraves de um teste pode ou nao ser um intervalo. Se for utilizada
uma regi ao crtica unicaudal para uma estatstica do teste T, ent ao geralmente obtemos cotas de
conan ca para .
Os IC construdos atraves de testes de hip oteses podem ter uma largura grande ou n ao. Se
a largura do intervalo for grande isto implica que existem valores de

0
distantes de
0
, que nao
podem ser rejeitados, por serem considerados consistentes com os valores amostrais, dentro do
risco de erro escolhido. Isto mostra que o teste nao tem poder, e a falta de poder pode ser a unica
raz ao por nao podermos rejeitar a hip otese nula, e por isso seria aconselh avel novos estudos. Por
outro lado, pode ocorrer do IC nao cobrir o valor de
0
, mas a largura do intervalo ser bastante
pequena e todos os valores do IC estarem proximos do valor de
0
. Neste caso, embora seja
detectada estatisticamente uma diferen ca entre a verdadeira distribui cao da popula cao e a dada
pela hip otese nula, esta diferen ca pode nao ser importante em termos praticos; por exemplo, existe
um ganho de produtividade, mas ele nao tem signic ancia pratica. Isto mostra que e necessario
um certo cuidado ao discutir um resultado experimental, e que muitas vezes um resultado de um
teste de hip oteses deve vir necessariamente acompanhado de uma estimativa por IC. Por exemplo,
nos nao vamos sugerir que se mude um processo de produ cao simplesmente porque encontramos
evidencias de que o novo processo e melhor do que o padrao. A melhora pode ser pequena e n ao
compensar os custos das mudan cas. Isto nao implica que pequenas diferen cas nao s ao importantes.
Suponha que uma nova droga e testada e mostrou-se estatisticamente melhor do que o padrao,
estimando-se a diminui cao, com uma conan ca de 95%, do tempo medio de recupera cao de 120
dias para (119, 1 0, 5) dias. Neste caso a decisao deve-se basear em outros fatores como custo,
facilidade de aplica cao, contra-indica coes, variabilidade do tempo, etc.

E importante salientar
que a necessidade de apresentar estimativas junto com teste de hip oteses nao ocorre simplesmente
quando o IC e construdo a partir do teste de hip oteses. Outro ponto a considerar e que o valor-p
da a evidencia em favor da hip otese alternativa e nao estima a diferen ca entre a distribui cao real
da popula cao e a distribui cao dada pela hip otese nula.
Embora nao seja discutido aqui, os intervalos de conan ca construdos atraves de testes otimos
(teste UMP e melhor entre os nao viciados, que sera apresentado mais tarde) tem tambem certas
propriedades otimas.
Exemplo 4.7: Considere a famlia de distribui coes normais com media desconhecida e variancia
1, se utilizarmos o teste da raz ao de verossimilhan ca para H
0
: =
0
versus H
1
: =
0
, obtemos
o seguinte teste:
(X) =
_
Rejeito H
0
, se |

X
0
| z/

n
N ao rejeito H
0
, caso contrario,
onde z e tal que (z) (z) = 1 . Podemos denir nosso intervalo de conan ca:
IC(X) = {;
z

n
<

X <
z

n
= {;

X
z

n
< <

X +
z

n
}.
Assim obtemos um IC para de coeciente de conan ca 1 .
100
Exerccio 4.10: Quais os IC mencionados na discussao do Exemplo 3.3? Qual seria a rela cao
entre coeciente de conan ca e valor-p?
5 Teste de Hipoteses para Distribuicoes Normais
5.1 Testes a respeito da media
Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao N(,
2
) e estamos interessados em
testar hip oteses sobre a media . H a uma grande variedade de hip oteses que podem ser feitas a
respeito da media. Vamos come car considerando as hip oteses unilaterais.
Caso 1: H
0
:
0
versus H
1
: >
0
.
Temos dois casos a considerar: conhecido e desconhecido.
(1) conhecido. Neste caso o espa co parametrico e:
= {; < < },
e a densidade pode ser escrita como:
f(x, ) =
1

2
exp{
1
2
2
(x )
2
}
=
1

2
exp{
1
2
(

)
2
} exp{
1
2
(
x

)
2
} exp{

x},
que pertence `a famlia exponencial com
a() =
1

2
exp{
1
2
(

)
2
}
b(x) = exp{
1
2
(
x

)
2
}
c() =

e d(x) = x.
Neste caso, c() e fun cao crescente de e a famlia tem raz ao de verossimilhan ca monotona
decrescente em T(X) =

n
i=1
X
i
(ver Deni c ao 4.3: se

< ent ao L(

, X)/L(, X) e decres-
cente em T(X)) e o teste UMP de tamanho e dado por:

(X) =
_
Rejeito H
0
, se T k

N ao rejeito H
0
, caso contrario,
onde k

e tal que
= P
0
[
n

i=1
X
i
k

]
= P
0
_
X
i
n
0

n

k

n
0

n
_
= 1 (
k

n
0

n
).
101
Da,
k

n
0

n
= z
1
k

= n
0
+z
1

n,
e o teste e:

(X) =
_
Rejeito H
0
, se

X
i
n
0
+z
1

n
N ao rejeito H
0
, caso contrario.
Isto e,

(X) =
_
Rejeito H
0
, se

X
0
+z
1
/

n
N ao rejeito H
0
, caso contrario.
(2) desconhecido. Neste caso tambem podemos fazer o teste da raz ao de verossimilhan ca , ou
podemos encontrar uma estatstica que se comporta diferentemente sob as duas hip oteses e basear
nosso teste nela. Tal estatstica e:
T =

X
0
S/

n
e sabemos que T tende a ser maior para valores grandes de >
0
do que para valores
0
.
Um teste baseado em T poderia ser:
(X) =
_
Rejeito H
0
, se T k
N ao rejeito H
0
, caso contrario,
onde k e tal que
= P
0
[T k]
= 1 P
0
[T < k],
onde sob a suposi cao que H
0
e verdadeira =
0
e T t
n1
e k = t
1;n1
. E o teste seria:
(X) =
_
Rejeito H
0
, se

X
0
+t
1;n1
S/

n
N ao rejeito H
0
, caso contrario.
Exemplo 4.8: Calcule o valor-p no teste anterior.
Segundo a Deni c ao 3.3 o valor-p e denido como o menor nvel de signicancia em que ainda re-
jeitamos a hip otese nula com o valor amostral observado. Do teste estatstico temos que rejeitamos
a hip otese nula se, e somente se,

X
0
+t
1;n1
S/

n
t
1;n1

X
0
S/

n
P
_
t
1;n1

X
0
S/

n
_
= valor-p.
Observe que antes de termos de conhecermos o valor amostal o valor-p e uma estatstica.
Exemplo 4.9: Foram observados os tempos de rea cao de 15 ratos, em segundos, a um certo
estmulo:
2,98 2,65 4,62 2,57 7,21 2,35 13,20 4,07 9,38 4,30 4,47 2,38 4,55 14,99 1,78.
102
Temos x = 5, 43 e s = 4, 05. Fazendo um ramo-e-folhas ca evidente que nao temos uma amostra de
uma popula cao normal, mas provavelmente de uma distribui cao exponencial (de fato eles s ao dados
simulados pelo MINITAB de uma distribui cao exponencial com media 5,2 - infelizmente esqueci
o valor da semente). Embora os testes de normalidade nao tenham muito poder para tamanhos
amostrais igual a 15, o teste de normalidade de Ryan-Joiner produz um valor-p menor do que 0,01
e o de Anderson-Darling um valor igual a 0,001; ou seja os testes conrmam a grande evidencia de
que a distribui cao da popula cao nao seja normal. No entanto, vamos utilizar a estatstica de teste
T e a distribui cao t-Student para vericar a robustez do teste e o seu poder. Vamos considerar o
teste de:
H
0
:
0
versus H
1
: >
0
.
Sabemos que, sendo a distribui cao da popula cao uma exponencial o teste mais poderoso rejeita a
hip otese quando a soma dos valores e sucientemente grande. Como a distribui cao exata da soma
de exponencias tem uma distribui cao Gama, ou equivalentemente, que exponenciais com media 2
tem distribui cao
2
2
podemos encontrar o valor exato do valor-p para o teste mais poderoso. Este
valor-p apresentado na ultima coluna da tabela abaixo. O valor-p exato do teste T, considerando
que temos uma amostra da exponencial, poderia ser calculado via simula cao. Como exerccio cal-
cule os valores-p exatos para o teste T e complete a tabela. Para alguns valores de
0
temos:
Tabela: Valores-p aproximados e exato do teste T e valor-p exato do teste UMP no Exemplo 4.9.

0
t Test-t:valor-p valor-p
aproximado exato teste UMP
4,7 0,70 0,247 0,254
4,2 1,18 0,129 0,130
3,7 1,66 0,060 0,047
3,5 1,85 0,043 0,027
Verique que ate para valores-p proximos de 0,10 os valores-p calculados pela aproxima cao
t-Student para o teste T e do teste UMP s ao muito proximos. Isto indica que provavelmente a
aproxima cao pela distribui cao t-Student funciona e que o teste tem um poder proximo ao teste
UMP. Ja para valores nas caudas deve estar acontecendo simultaneamente duas coisas: a aprox-
ima cao nao funciona nos extremos das caudas e o teste perde poder (valor-p menor para o teste
UMP). Para separar estas 2 causas seria necessario completar a outra coluna. Aqui valem os mes-
mos coment arios da Se c ao 3.1 sobre a aproxima cao da distribui cao exata da quantidade T pela
distribui cao t-Student, o que e conrmado pelo exemplo. Isto mostra que o teste, embora tenha
sido desenvolvido para distribui coes normais pode ser considerado como um teste mais geral para
teste de medias, ja que existe uma certa robustez em rela cao a distribui cao da popula cao. N ao se
esque ca que o teste nao e muito robusto a valores aberrantes.
Exerccio 4.9: Atraves da tecnica de Monte Carlo complete a tabela do Exemplo 4.9 e comente
os resultados.
Exerccio 4.10: Mostre que o teste apresentado e o teste da raz ao de verossimilhan ca quando
temos uma distribui cao normal.
Caso 2: H
0
: =
0
versus H
1
: =
0
.
103
(1) e conhecido. Sabemos que
IC

() = [

X z
(1+)/2

n
;

X +z
(1)/2

n
]
e um IC de nvel . Um teste possvel seria:
(X) =
_
Rejeito H
0
, se
0
IC

N ao rejeito H
0
, caso contrario.
Tal teste tem tamanho = 1 .
(2) e desconhecido. Sabemos que
IC

() = [

X t
(1+)/2;n1
S

n
;

X +t
(1)/2;n1
S

n
]
e um IC de nvel . Um teste possvel seria:
(X) =
_
Rejeito H
0
, se
0
IC

N ao rejeito H
0
, caso contrario.
Tal teste tem tamanho = 1 .
Ou ent ao podemos achar o teste da raz ao de verossimilhan ca generalizado. Neste caso a
verossimilhan ca e:
L(, , x
1
, . . . , x
n
) =
1
(2
2
)
n/2
exp{
1
2
2
n

i=1
(x
i
)
2
}
e = {(, ); < < , > 0} e
0
= {(, ); =
0
, > 0}. Da,
sup
(,)
L(, , x
1
, . . . , x
n
) =
1
(2
2
)
n/2
exp{
1
2
2
n

i=1
(x
i
x)
2
}
=
n
n/2
[2

(x
i
x)
2
]
n/2
exp{
n
2
}
Para maximizar L restrito `a
0
coloque =
0
e maximize em .
sup
(,)0
L(, , x
1
, . . . , x
n
) = sup
>0
1
(2
2
)
n/2
exp{
1
2
2
n

i=1
(x
i

0
)
2
}
=
n
n/2
[2

(x
i

0
)
2
]
n/2
exp{
n
2
}.
A raz ao de verossimilhan ca generalizada e:
(x
1
, . . . , x
n
) =
_
(x
i
x)
2

(x
i

0
)
2
_
n/2
=
_
(x
i
x)
2

(x
i
x + x
0
)
2
_
n/2
=
_
(x
i
x)
2

(x
i
x)
2
+n( x
0
)
2
_
n/2
=
_
1 +
n( x
0
)
2

(x
i
x)
2
_
n/2
.
104
Como
(x) k
( x
0
)
2

(x
i
x)
2
/[(n 1)n]
k
um teste da RV e dado por:
(X) =
_
Rejeito H
0
, se
(

X0)
2
S
2
/n
k
N ao rejeito H
0
, caso contrario,
ou
(X) =
_
N ao rejeito H
0
, se
|

X0|
S/

n
c
Rejeito H
0
, caso contrario.
Sabemos que
T =
(

X
0
)
S/

n
tem uma distribui cao t com n 1 graus de liberdade quando =
0
, determinamos c atraves da
tabela da distribui cao t por:
c = t
1/2;n1
.
Observe que este teste e o mesmo que o obtido utilizando-se o metodo do IC. Pode-se provar que
o teste obtido nao e um teste UMP, mas e mais poderoso dentre os testes nao viciados.
Exerccio 4.11: Gere uma amostra aleat oria de tamanho 20 de uma distribui cao exponencial
com media igual a 5,0. Fa ca uma analise dos dados atraves de um ramo-e-folha e do gr aco
probabilstico normal e aplique qualquer teste de normalidade. Comente os resultados. Construa
intervalos de conan ca 90%, 95% e 99% para a media populacional utilizando a aproxima cao pela
distribui cao t-Student. Utilize a distribui cao exata para calcular a conan ca em cada um dos
intervalos encontrados. Comente os resultados encontrados.
Exerccio 4.12: Ache testes para H
0
:
0
. O que voce faria para obter um teste para testar
hip oteses da forma H
0
:
1

2
versus H
1
: <
1
ou >
2
?
5.2 Testes para Variancias
Seja X
1
, . . . , X
n
uma amostra aleat oria de uma distribui cao N(,
2
) e estamos interessados em
testar hip oteses sobre a variancia
2
. H a uma grande variedade de hip oteses que podem ser feitas
a respeito da media. Vamos come car considerando as hip oteses unilaterais.
Caso 1: H
0
:
2

2
0
versus H
1
:
2
>
2
0
.
Temos dois casos a considerar: conhecido e desconhecido.
(1) conhecido. Neste caso o espa co parametrico e o intervalo:
= {
2
;
2
> 0},
a hip otese alternativa e unilateral e podemos encontrar um teste UMP. A densidade pode ser
escrita como:
f(x,
2
) =
1

2
exp{
1
2
2
(x )
2
},
105
que pertence `a famlia exponencial com
a(
2
) =
1

2
2
; b(x) = 1, c(
2
) =
1
2
2
, e d(x) = (x )
2
.
Temos que c(
2
) =
1
2
2
e uma fun cao monotona crescente de
2
e temos que o teste UMP de
tamanho para H
0
:
2

2
0
versus H
1
:
2
>
2
0
e dado por:
(X) =
_
Rejeito H
0
, se

n
i=1
(X
i
)
2
k
N ao rejeito H
0
, caso contrario,
onde k e tal que
P

2
0
_
n

i=1
(X
i
)
2
k
_
= ,
isto e, k =
2
0

2
1;n
.
(1): desconhecido. Podemos utilizar a estatstica
V =

n
i=1
(X
i


X)
2

2
0
.
a qual tende a ser grande para valores de
2
>
2
0
e pequena para valores de
2
<
2
0
; assim um
teste razo avel seria:
(X) =
_
Rejeito H
0
, se V k
N ao rejeito H
0
, caso contrario.
O tamanho do teste e:
t() = P

2
0
[V k],
e sabemos que se
2
=
2
0
, V
2
n1
e temos
(X) =
_
Rejeito H
0
, se V
2
1;n1
N ao rejeito H
0
, caso contrario.
Caso 2: H
0
:
2
=
2
0
versus H
1
:
2
=
2
0
.
Temos dois casos a considerar: conhecido e desconhecido.
Exerccio 4.13: Achar o teste da RV para o caso de ser conhecido.
(2): desconhecido, podemos achar o teste da RV. Tambem podemos usar o IC. Ja vimos que
o IC de nvel = 1 para
2
e dado por:
IC

=
_
(n 1)S
2

2
1/2;n1
,
(n 1)S
2

2
/2;n1
_
.
Assim, um teste de tamanho para H
0
:
2
=
2
0
versus H
1
:
2
=
2
0
e dado por:
(X) =
_
Rejeito H
0
, se
2
0
IC

N ao rejeito H
0
, caso contrario.
Ao contrario dos testes para medias apresentados o teste da variancia depende bastante da
suposi cao de normalidade, ou seja, nao e robusto em rela cao a suposi cao de normalidade. Outro
problema deste teste e o baixo poder para amostras nao muito grandes.
106
5.3 Testes de Varias Medias
Muitas vezes estamos interessados em comparar duas ou mais medias. Por exemplo, queremos
vericar a ecacia de novos coqueteis na sobrevida de pessoas com AIDS, comparando-o com o
tradicionalmente utilizado. Para isso retiramos amostras aleat orias das popula coes, um grupo re-
cebe o coquetel padrao e cada coquetel e aplicado a um grupo distinto. Os testes estatsticos serao
aplicados para comparar o tempo medio de sobrevida para diferentes tipos de coqueteis. Num
outro problema estamos interessados em vericar a ecacia de diferentes pesticidas A, B, C e D
no combate `a ferrugem do feijao. Para realizar o experimento plantamos diversos exemplares de
feijao e tratamos n
1
deles com pesticida A, n
2
deles com pesticida B, n
3
deles com pesticida C e n
4
deles com pesticida D e com base nesses dados queremos comparar a incidencia media de ferrugem
em cada popula cao. Deseja-se vericar se um novo material utilizado para fabrica cao de solas de
sapatos e t ao duravel quanto o antigo material, para isso fabrica-se pares de sapatos onde cada pe
e revestido de um material e utiliza-se esses sapatos num grupo de 10 crian cas.
5.3.1 Igualdade de 2 Medias
Por exemplo, desejamos comparar dois fornecedores de materia prima para a fabrica cao de ceramicas
refrat arias, onde estamos interessados na resistencia media ao calor destas ceramicas.
Para podermos estudar este problema temos que vericar claramente se os dados vem de pop-
ula coes independentes ou se os dados foram pareados.
Dados pareados: Neste caso temos uma amostra aleat oria de uma distribui cao normal bivariada.
Seja (X
1
, Y
1
), . . . , (X
n
, Y
n
) v.a.s i.i.d N
2
((
1
,
2
), ) onde:
=
_

2
1

1

2

2
2
_
.
e queremos testar H
0
:
1
=
2
versus H
1
:
1
=
2
. Neste caso, observe que se transformamos os
dados em D
i
= X
i
Y
i
temos uma amostra aleat oria de uma distribui cao N(
1

2
,
2
1
+
2
2
+
2
1

2
) e sabemos testar H
0
:
1
=
2
versus H
1
:
1
=
2
baseados nesta amostra considerando-
se
2
1
+
2
2
+ 2
1

2
como a variancia desconhecida.
Amostras independentes: Suponha que temos n
1
observa coes X
1
, . . . , X
n1
de uma distribui cao
N(
1
,
2
1
) e uma amostra independente de n
2
observa coes Y
1
, . . . , Y
n2
de uma distribui cao N(
2
,
2
2
).
Com base nestes dados queremos testar: H
0
:
1
=
2
versus H
1
:
1
=
2
.
O espa co parametrico neste caso tem dimensao quatro. O subspa co
0
e tridimensional. A
fun cao de verossimilhan ca e:
L(
1
,
2
,
2
1
,
2
2
; x
1
, . . . , x
n1
, y
1
, . . . , y
n2
) =
=
_
1
2
2
1
_
n1/2
exp
_

1
2
n1

i=1
_
x
i

1
_
2
_
_
1
2
2
2
_
n2/2
exp
_

1
2
n2

i=1
_
y
i

2
_
2
_
,
e seu maximo para todo o espa co parametrico e dado por:
sup

L() =
_
2
n
1
n1

i=1
(x
i
x)
2
_
n1/2
_
2
n
2
n2

i=1
(y
i
y)
2
_
n2/2
exp{
1
2
(n
1
+n
2
)}.
107
Se colocamos
1
=
2
= e tentamos encontrar sup
0
L() veremos que a estimativa de e
a raiz de uma equa cao c ubica e muito difcil de ser calculada explicitamente e portanto a raz ao de
verossimilhan ca ter a uma expressao complicada e mais complicada ainda sera a sua distribui cao.
Alem disso, a probabilidade de erro tipo I depende dos valores desconhecidos de
1
e
2
e isso torna
impossvel calcular exatamente o teste da raz ao de verossimilhan ca. Veremos depois que podemos
achar testes assint oticos neste caso e assim resolver pelo menos parcialmente este problema.
Entretanto, sob a suposi cao de igualdade de variancia, isto e, que
1
=
2
, temos um problema
bem mais simples. Neste caso podemos derivar facilmente o teste da raz ao de verossimilhan ca (fa ca
como exerccio). Tambem podemos utilizar o metodo do intervalo de conan ca. O IC de nvel
neste caso foi encontrado utilizando-se como piv o a fun cao:
T =
(

X

Y ) (
1

2
)
_
S
2
p
(
1
n1
+
1
n2
)
,
que tem uma distribui cao t
n1+n22
. Assim o IC de nvel = 1 e dado por:
IC =
_

X

Y t
/2;n1+n22
S
p
_
n
1
+n
2
n
1
n
2
;

X

Y +t
/2;n1+n22
S
p
_
n
1
+n
2
n
1
n
2
_
,
e o teste de tamanho e:
(X) =
_
Rejeito H
0
, se 0 IC
N ao rejeito H
0
, caso contrario.
Caso estejamos em d uvida se a suposi cao de variancias iguais e v alida ou nao podemos utilizar
o piv o modicado com distribui cao aproximadamente t-Student (sob H
0
). A discussao da Se c ao
3.4 continua v alida aqui.
Os casos de hip oteses alternativas unilaterais s ao tratados com intervalos de conan ca unilat-
erais. Por exemplo, para testar:
H
0
:
1

2
(
1

2
0) versus H
1
:
1
<
2
(
1

2
< 0),
o IC de nvel = 1 e dado por:
IC =
_
;

X

Y +t
1;n1+n22
S
p
_
1
n
1
+
1
n
2
_
,
e o teste de tamanho e:
(X) =
_
Rejeito H
0
, se 0 IC
N ao rejeito H
0
, caso contrario.
isto e, Rejeito H
0
se

X

Y +t
1;n1+n22
S
p
_
1
n
1
+
1
n
2
< 0, ou

X

Y
S
p
_
1
n1
+
1
n2
< t
1;n1+n22
.
A interpreta cao e bastante simples: Se tenho 100% de conan ca de que
1

2
< x y +
t
1;n1+n22
s
p
_
1
n1
+
1
n2
, e este limite e menor do que zero, ent ao tenho 100% de conan ca em
108
H
1
.
Para calcular o valor-p basta vericar o caso limite, isto e, o valor de onde o valor amostral
produz um valor no limite do IC, isto e, o valor-p e dado por:
P
_
_
t
n1+n22
<

X

Y
S
p
_
n1+n2
n1n2
_
_
.
Aleatoriza cao: Suponha que n unidades experimentais (ratos, pessoas, lotes de terras, dias, bate-
ladas, etc) estejam disponveis para a realiza cao de um experimento onde serao comparados 2 tipos
de tratamentos (droga padrao e nova; processo A e B; ausencia ou nao de um reagente, etc). Neste
caso, sempre que possvel, e interessante que a distribui cao das unidades experimentais para os
tipos de tratamentos seja realizada de forma totalmente aleat oria. Este procedimento, chamado
de aleatoriza cao, controla possveis favorecimentos entre os tratamentos e garante a utiliza cao da
distribui cao t-Student sob a hip otese nula de que nao existe diferen ca entre os tratamentos. A
distribui cao da estatstica de teste sob a hip otese nula (em certos casos no pior caso da hip otese
nula) e geralmente chamada de distribui cao de referencia.
Suponha que os engenheiros desejavam testar se um novo reagente melhora a produtividade de
um certo processo. Para tanto eles dispunham de 8 dias e escolheram 4 dias para trabalhar sem o
reagente (tratamento A) e os 4 restantes com o reagente (tratamento B). Os valores encontrados
de produtividade foram:
dia 1 2 3 4 5 6 7 8
tratamento A B A B B B A A
produtiv. 3,1 4,2 1,5 6,3 5,0 3,5 2,6 4,7
Sob a hip otese nula de que o novo reagente nao tem nenhum efeito o valor observado 3,1, no
primeiro dia, nao modicaria, mesmo que o primeiro dia fosse sorteado para o tratamento B, ou
seja, sob a hip otese nula os valores observados seriam o mesmo independentemente do sorteio.
Existem 8!/(4!4!) formas de se escolher 4 unidades para cada tratamento. Como cada combina cao
tem a mesma probabilidade de ser escolhida a distribui cao exata da estatstica de teste, sob a
hip otese nula, e facil de ser encontrada. Esta distribui cao e chamada de distribui cao aleatorizada
(randomization distribution). Quando os tamanhos amostrais crecem ca cada vez mais compli-
cado encontrar o valor-p atraves da distribui cao exata caso nao tenhamos um programa estatstico
como o StatXact que calcula este valor. Uma solu cao e encontrar este valor atraves de simula coes
ou ent ao procurar uma distribui cao aproximada. Felizmente tal aproxima cao existe e e dada pela
distribui cao t-Sudent. Ou seja, a distribui cao t-Student aproxima o valor-p exato e a aletoriza cao
justica a utiliza cao da distribui cao t-Student. Aqui tambem vale os mesmos coment arios da Se c ao
3.4 para a aproxima cao. A aproxima cao e melhor para valores amostrais maiores, para valores-p
maiores, para conjunto de dados mais simetricos, e depende bastante da propor c ao e tamanhos
relativos dos valores aberrantes.
5.3.2 Igualdade de Varias Medias:
O teste da raz ao de verossimilhan ca pode ser estendido para a compara cao de k medias de pop-
ula coes normais. Assumimos que temos disponveis k amostras aleat orias independentes de pop-
ula coes; Seja X
j1
, . . . , X
jnj
uma amostra aleat oria de tamanho n
j
de uma popula cao N(
j
,
2
).
Assuma que as amostras s ao independentes. A fun cao de verossimilhan ca e dada por:
L(
1
, . . . ,
k
,
2
; x
11
, . . . , x
1n1
, . . . , x
k1
, . . . , x
kn
k
) =
109
= (2
2
)
n/2
exp
_
_

1
2
2
k

j=1
nj

i=1
(x
ji

j
)
2
_
_
,
onde n =

k
j=1
n
j
.
O espa co parametrico e (k +1)-dimensional, = {(
1
, . . . ,
k
,
2
); <
j
< ;
2
> 0} e o
espa co parametrico restrito
0
= {(, . . . , ,
2
); < < ;
2
> 0} e bi- dimensional. Em
o EMV dos par ametros s ao dados por:

j
=

X
j
;
2
=
1
n
k

j=1
nj

i=1
(X
ji


X
j
)
2
.
Assim,
sup

L() =
_
2

k
j=1

nj
i=1
(x
ji
x
j
)
2
n
_
n/2
e
n/2
.
Em
0
os EMV de e
2
s ao dados [por:

j
=

X =
1
n
k

j=1
nj

i=1
X
ji
;
2
=
1
n
k

j=1
nj

i=1
(X
ji


X)
2
,
e assim,
sup
0
L() =
_
2

k
j=1

nj
i=1
(x
ji
x)
2
n
_
n/2
e
n/2
.
A raz ao de verossimilhan ca generalizada e:
=
sup
0
L()
sup

L()
=
_

j

i
(x
ji
x)
2

i
(x
ji
x
j
)
2
_
n/2
=
_

i
(x
ji
x
j
+ x
j
x)
2

i
(x
ji
x
j
)
2
_
n/2
=
_

i
(x
ji
x
j
)
2
+

j
n
j
( x
j
x)
2

i
(x
ji
x
j
)
2
_
n/2
=
_
1 +
k 1
n k

j
n
j
( x
j
x)
2
/(k 1)

i
(x
ji
x
j
)
2
/(n k)
_
n/2
.
Um teste da raz ao de verossimilhan c rejeita H
o
se
0
, mas
0
se, e somente se R c,
onde
R =

j
n
j
(

X
j


X)
2
/(k 1)

i
(X
ji


X
j
)
2
/(n k)
,
e c e selecionada de forma a que o teste tenha tamanho . Sob a hip otese nula R tem uma dis-
tribui cao F com k1 graus de liberdade no numerador e nk graus de liberdade no denominador.
O problema estudado acima e, em geral, referido como um problema de an alise de vari ancia de
um fator. Por exemplo, queremos saber se ha alguma diferen ca entre os v arios tipos de pesticidas
disponveis no mercado.
110
6 Teste Qui-quadrado de Bondade de Ajuste
Suponha que estamos interessados em testar se um dado e regular, isto e, se a probabilidade de
sair o valor j e igual a 1/6 para j = 1, , 6. Neste caso podemos lan car o dado n vezes, de forma
independente e anotar o resultado da face superior.

E facil de vericar que
f
X
(x; p
1
, , p
6
) =
6

i=1
p
ni
i
,
onde n
j
e igual ao n umero de resultados j, j = 1, , 6. Queremos testar a hip otese nula H
0
=
p
i
= 1/6, i. Para isto podemos utilizar o teste da raz ao de verossimilhan ca generalizada.
Este problema pode ser generalizado: suponha que existam k + 1 resultados possveis e que
quero testar a hip otese nula
H
0
: p
i
= p
0
i
, i = 1, , k + 1
onde p
0
i
s ao constantes xas conhecidas.
Se n
i
, i = 1, , k + 1 e o n umero de resultados iguais a i temos que a verossimilhan ca e dada
por
L(p; x) =
k+1

i=1
p
ni
i
,
e que o estimador de maxima verossimilhan ca irrestrito e dado por p
i
= n
i
/n, onde n =

n
i
.
Portanto, a raz ao de verossimilhan ca generalizada e dada por:
= n
n
k+1

i=1
_
p
0
i
n
i
_
ni
O teste da raz ao de verossimilhan ca generalizada consiste em rejeitar a hip otese nula se <
0
.
Para encontrar o valor crtico
0
para um dado nvel de signic ancia , ou para calcular o nvel
descritivo do teste (p- value) pode-se utilizar a distribui cao assint otica de 2 ln sob a hip otese
nula. Normalmente considera-se que a aproxima cao e razo avel quando todos os valores de np
0
i
s ao
maiores ou iguais a 5. Alguns consideram os valores observados n
i
, outros consideram o valor 3.
Devemos sempre lembrar qua a aproxima cao, em geral, e relativamente melhor longe dos extremos
das caudas e quando o tamanho amostral e maior. Portanto, ao darmos os valores mnimos de
observa coes deveramos especicar o nvel de signic ancia. Os valores dados s ao para nvel de
signic ancia igual ou maior do que 5%.
Antes da teoria de teste de hip oteses ser desenvolvida, principalmente por Fisher e Neyman,
Karl Pearson, que veio a ter uma briga historica com Fisher, propos uma outra estatstica de teste
Q
0
k
=
k+1

j=1
(n
j
np
0
j
)
2
np
0
j
que tende a ser pequeno quando H
0
e verdadeira e grande quando ela e falsa. A regi ao crtica do
teste ou o valor-p pode ser calculado aproximadamente pelo seguinte teorema:
Teorema 6.1: Suponha que os possveis resultados de um certo experimento aleat orio podem
ser decompostos em k+1 conjuntos mutuamente exclusivos, digamos, A
1
, , A
k+1
. Dena p
j
=
P[A
j
], j = 1, ..., k + 1. Em n repeti coes independentes do experimento seja N
j
o n umero de
resultados que pertencem ao conjunto A
j
, j = 1, , k + 1, tal que

N
j
= n. Ent ao
Q
k
=
k+1

j=1
(N
j
np
j
)
2
np
j
111
tem distribui cao assint otica qui-quadrado com k g.l.
A aproxima cao e considerada boa quando o n umero de observa coes esperado em cada casela
e no mnimo igual a 5. Como anteriormente, alguns consideram o valor observado e cada casela,
outros que bastam um mnimo de 3 observa coes. Certamente o n umero total nao pode ser muito
pequeno. Como em toda aproxima cao a aproxima cao e pior nas extremidades das caudas.
Exemplo 6.1. Teoria de Mendelian para as ervilhas (Exerccio 4.1.)
Q
3
=
[315 556(9)/16]
2
556(9)/16
+
[108 556(3)/16]
2
556(3)/16
+
[101 556(3)/16]
2
556(3)/16
+
[32 556(1)/16]
2
556(1)/16
= 0.470
Como P[
2
3
0.470] = 0.925 e um valor bastante alto concluimos que nao existem evidencias
estatsticas sucientes para rejeitar a teoria. Este teste pode ser realizado utilizando o qui-square
goodness-of-t statistic do Categorical Data Analysis do STATIGRAPHICS usando como en-
trada apenas os valores observados e esperados (315 108 101 32 556(9)/16 556(3)/16 ). Voce
nao rejeitou a hip otese nula, agora pense em com vericar se existem evidencias de que ela seja
(aproximadamente) v alidas.

O teorema pode ser generalizado para o caso em que p


j
depende de certos par ametros descon-
hecidos.
Teorema 6.2: Suponha que os possveis resultados de um certo experimento aleat orio podem ser
decompostos em k+1 conjuntos mutuamente exclusivos, digamos, A
j
, j = 1, , A
k+1
. Dena
p
j
= P[A
j
], j = 1, , k +1, e assuma que p
j
dependa de r par ametros desconhecido
1
, ,
r
, ou
seja, p
j
= p
j
(
1
, ,
r
), j = 1, , k + 1. Em n repeti coes independentes do experimento seja N
j
o n umero de resultados que pertencem ao conjunto A
j
, j = 1, , k + 1, tal que

N
j
= n. Seja

1
, ,

r
estimadores BAN (por exemplo, estimadores de maxima verossimilhan ca) de
1
, ,
r
baseados em N
1
, , N
k+1
. Ent ao, sob certas condi coes de regularidade nos p s
Q

k
=
k+1

j=1
(N
j
n

P
j
)
2
n

P
j
tem distribui cao assint otica qui-quadrado com (k - r) g.l., onde

P
j
= p
j
(

1
, ,

r
), j = 1, , k+
1.
Embora o teorema nao mencione explicitamente nenhum teste de hip oteses o teste de bondade
de ajuste aparece naturalmente: suponha que se deseja testar se uma amostra aleatoria veio de
uma densidade f(x;
1
, ,
r
), onde
1
, ,
r
s ao par ametros desconhecidos, mas a fun cao f e
conhecida. A hip otese nula especica que a amostra veio de uma densidade da forma f(.; ).
Se o conjunto de varia cao da variavel aleat oria X e decomposto em k+1 subconjuntos, digamos,
A
1
, , A
k+1
; se p
j
= P[A
j
], j = 1, , k + 1, e se N
j
e o n umero de valores Xs caindo em A
j
,
ent ao pelo teorema
Q

k
=
k+1

j=1
(N
j
n

P
j
)
2
n

P
j
tem distribui cao aproximadamente qui-quadrado com k-r g.l. Quando n e grande e H
0
e verdadeiro,
sob certas condi coes de regularidade, o estimador de maxima verossimilhan ca dado por

P
j
=
p
j
(

1
, ,

r
), j = 1, , k+1, onde

i
e o estimador de maxima verossimilhan ca de
i
, i = 1, , r
112
e consistente. Desta forma, podemos construir um teste rejeitando a hip otese nula se a estatstica
for sucientemente grande.
Observe que os estimadores de maxima verossimilhan ca dos par ametros s ao baseados em N

j
s e
nao nos valores amostrais. No entanto, principalmente quando as variaveis aleat orias s ao contnuas,
estes estimadores s ao difceis de serem encontrados, sendo mais facil encontrar os estimadores
baseados nos valores amostrais. Por exemplo, considere o caso da distribui cao normal e pense como
seriam dados os estimadores. Caso os valores amostrais sejam estimados pelos valores amostrais a
distribui cao limite e limitada pelas distribui coes qui- quadrado com (k-r) g.l. e qui-quadrado com
k g.l, mostrando que o teste usualmente utilizado com (k-r) g.l. e nao conservador.
Exemplo 6.2. Problema do modelo genetico (Exerccio 4.2.)
Sejam n
1
, n
2
e n
3
os valores observados. A fun cao de verossimilhan ca e igual a
l =
n!
n
1
!n
2
!n
3
!
p
2n1
[2p(1 p)]
n2
(1 p)
2n3
,
onde n = n
1
+n
2
+n
3
. A log-verossimilhan ca
L = Cte + 2n
1
log p +n
2
log p +n
2
log(1 p) + 2n
3
log(1 p).
Igualando a derivada a zero temos
2n
1
/p +n
2
/p n
2
/(1 p) 2n
3
/(1 p) = 0
p = (2n
1
+n
2
)/(2n).
Pela segunda derivada pode-se mostrar que e um ponto de maximo.
Pelo Teorema 6.2 temos que Q

2
= 6, 35 e, portanto,
valor-p = P[
2
1
6, 35] = P[|Z|
_
6, 35] = P[|Z| 2, 52] = 0, 012,
ou seja, temos grandes indica coes de que o modelo seja inadequado. A estatstica do teste da raz ao
de verossimilhan ca e igual a 6,144 produzindo um valor-p igual a 0,013, muito proximo do valor-
p do teste qui-quadrado (estes valores proximos eram esperados?) Os valores de probabilidades
estimadas sob a hip otese nula s ao 0, 096|0, 428|0, 476 comparados com as seguintes propor coes
observadas 0, 15|0, 32|0, 53. Vemos que existe uma grande diferen ca entre os valores observados
e estimados. Esta diferen ca era esperada pelo tamanho da amostra e do valor-p encontrado.
Observe, entretanto que um valor-p baixo nao necessariamente signica diferen cas grandes entre
as propor coes observadas e estimadas. Por exemplo, quando o tamanho da amostra e igual a 10000
e as propor coes observadas iguais a 0,091/0,404/0,505 as propor c oes estimadas sob o modelo s ao
iguais a 0,086/0,414/0,500, que s ao muito proximas. No entanto a estatstica qui-quadrado e igual a
6,353, que e praticamente igual ao encontrado anteriormente para amostra igual a 100 e propor coes
observadas e estimadas muito diferentes. Logo, valor-p muito baixo da grandes indica coes de que a
hip otese nula e falsa, mas nao de que ela seja longe da verdadeira. (Ver discuss oes anteriores sobre
isto levando-se em considera cao o tamanho da amostra, poder e variabilidade dos estimadores).

113

Вам также может понравиться