Вы находитесь на странице: 1из 12

Estimao

A maioria dos trabalhos em estatstica realizada com o uso de amostras aleatrias


extradas de uma populao, na qual se deseja fazer um determinado estudo.
A parte da estatstica que procura deduzir informaes relativas a uma populao,
mediante a utilizao de amostras dela extradas, denominada Inferncia Estatstica.
Um dos problemas da estatstica a estimativa de parmetros populacionais (mdia,
varincia, proporo, etc), mediante o uso de uma estatstica amostral (mdia amostral,
varincia amostral, proporo amostral, etc).

Definio. O valor numrico da estatstica ou estimador de um parmetro, calculado


para uma amostra observada, chamado de estimativa desse parmetro.
A diferena entre estatstica e estimativa que a estatstica uma varivel aleatria, e a
estimativa um particular valor dessa varivel aleatria.

Propriedades de um bom estimador

1. Consistncia

Consistncia uma propriedade por meio da qual a acurcia de uma estimativa


aumenta quando o tamanho da amostra aumenta.
Um estimador ( ) chamado consistente se a probabilidade dele diferir do verdadeiro
valor em menos do que c, onde c um nmero arbitrrio positivo e pequeno, tende
a 1, quando o tamanho da amostra (n) aumenta; ou seja, se

lim P( ) 1
n

Isto significa que, quando n aumenta, a estimativa torna-se mais provvel estar
prxima (dentro de uma distncia fixada pequena, c) do verdadeiro parmetro .
Isto uma propriedade assinttica de um estimador. Ela aplicada a amostras
suficientemente grandes. As condies suficientes para um estimador ser consistente
so:
lim E( ) e lim Var ( ) 0
n n

Vejamos um exemplo para ilustrar. Considere a distribuio amostral da mdia,


baseada em amostras aleatrias simples com reposio de tamanho n; obtm-se

Var ( X)
E ( X ) e Var ( X ) . medida que n cresce a distribuio de X torna-se
n
mais concentrada em torno de . Diz-se que X um estimador consistente da mdia
da populao (). Do mesmo modo, o estimador p tal que Var( p ) 0,
quando
n ; chamamo-lo de consistente devido a este fato e a que E( p ) = p.

2. No viciado ou no viesado

Um estimador, , como uma varivel aleatria, tem uma certa distribuio em


repetidas amostras de tamanho n. Em uma particular amostra, o valor calculado pode
desviar em mais ou menos de , mas espera-se que, em mdia, ele determina o
verdadeiro valor ( ). No viciado uma propriedade que assegura que, em mdia, o
estimador correto.
O estimador chamado no viciado ou imparcial se seu valor esperado ou mdio for
igual ao verdadeiro valor do parmetro, , isto , E() . Qualquer estimador ,

para o qual E ( ) b() , com b() 0 , chamado viciado; a quantidade b()


chamada vcio ou vis.
Por analogia com experimentos qumicos ou bioqumicos, o vcio corresponde ao erro
sistemtico ou erro do mtodo. Um qumico pode usar um certo mtodo para o qual
os resultados obtidos, em experimentos repetidos, podem ser muito prximos um do
outro, mas, em mdia, no do a resposta correta. Situao similar pode ocorrer com
um estatstico na construo de um estimador. Todavia, nem sempre necessrio
preocupar-se em obter um estimador no viciado, pois quando o tamanho da amostra
aumenta, o nlim E ( ) , tal que assintoticamente no viciado.

Exemplos. Como foi mostrado, E( X ) , isto , X um estimador no viciado da
mdia da populao () e E (p) p , ou seja, p um estimador no viciado de p. Estes
estimadores nada mais so do que as prprias definies dos respectivos parmetros,
mas aplicadas amostra. Por outro lado, o estimador da varincia da populao
n n
2 1
N
2 2 2
( x i x ) , dado por n1 ( x i x ) , viciado, pois, como pode ser
i 1 i 1
2 n 1 2 2 2
demonstrado, E( ) n
1
n , onde b( 2 ) n1 2 . Tomando-se o estimador
n
ajustado n
n 1
2 s 2 n11 ( x i x ) 2 , ento s2 um estimador no viciado para 2,
i 1
n n
porque E(s2) E( 2)
2) =
E ( 2. Por esta razo, s2 foi definido como a
n 1 n 1
varincia amostral. No entanto, para n , tm-se para ambos os estimadores:
lim E( 2 ) lim E (s 2 ) 2 , isto , 2 e s 2 so assintoticamente no viciados.
n n
Deve ser mencionado que, embora s2 seja um estimador no viciado da varincia 2, s
no um estimador no viciado do desvio padro .
Tambm pode ser mostrado que um estimador no viciado da covarincia entre duas
1 n
variveis X e Y, a covarincia amostral: Cov(X, Y) ( x i x )( y i y) .
n 1 i 1
Estimativa por ponto e por intervalo
A estimativa de um parmetro populacional dada por um nico valor para a estatstica
denominada estimativa por ponto. Por exemplo, a estimativa pontual da mdia
populacional feita por um valor X . Todavia, esse procedimento no permite julgar
qual a possvel magnitude do erro que se est cometendo. Da surge a idia de construir
os intervalos de confiana, que so baseados na distribuio amostral do estimador
pontual.
A estimativa de um parmetro populacional dada por dois valores a e b (a < b), entre
os quais se considera que o parmetro esteja contido, denominada estimativa por
intervalo.
As estimativas por intervalo indicam a sua preciso ou exatido, por isto so
preferveis s estimativas por ponto. A declarao da preciso de uma estimativa por
intervalo denomina-se grau de confiana ou nvel de confiana. Da a denominao
de Intervalo de Confiana.
Exemplo 1. Dizendo-se que o dimetro da artria aorta em bovinos tem uma medida
de 1,75 cm, est-se apresentando uma estimativa por ponto. Por outro lado, se for dito
que o diametro mede 1,75 0,05 cm, a estimativa por intervalo, isto , afirma-se que
o dimetro da aorta est entre 1,70 e 1,80 cm.

1. Estimativas por intervalos de confiana

Formalmente, seja X1, X2, ... ,Xn uma amostra aleatria de tamanho n e um
parmetro desconhecido da populao. Um intervalo de confiana para um
intervalo construdo a partir das observaes da amostra, de modo que ele inclui o
verdadeiro e desconhecido valor de , com uma especfica e alta probabilidade. Esta
probabilidade, denotada por 1 - , tipicamente tomada como 0,90, 0,95 ou 0,99.
Indica-se por:
P(a < < b) = 1 -

Ento, o intervalo ] a, b [ chamado intervalo com 100 (1 - )% de confiana para o


parmetro , onde: 1 - o nvel de confiana associado ao intervalo e a e b so os
limites de confiana, inferior e superior, respectivamente, do intervalo.

1.1. Para a mdia populacional ()

(a) Caso em que n grande e conhecido.

O desenvolvimento de intervalos de confiana para baseado na distribuio


amostral de X . Sabe-se que, pelo Teorema Limite Central, se o tamanho da amostra
X
(n) grande, Z aproximadamente N(0,1).
/ n

Usando-se a tabela da distribuio N(0,1), pode-se determinar um valor z 2 , tal


que
P( z Z z ) 1
2 2

X
P( z z ) 1
/2 2 / n 2

1
/2

z z P( z X z ) 1
2 2
2 n 2 n


P( X z X z ) 1
2 n 2 n


P( X z X z ) 1
2 n 2 n
onde:
X z / n a e X z / n b
2 2


n X erro padro da mdia
Denomina-se:
z erro da estimativa da mdia
2 n

Se 1 - = 0,95

P( X 1,96 X 1,96 ) 0,95
n n

Esta expresso deve ser interpretada do seguinte modo: construdos todos os intervalos
da forma X 1,96 x , 95% deles contero (veja Figura 1). Lembrando que no
uma varivel aleatria, mas um parmetro, isto no o mesmo que dizer que
tem 95% de probabilidade de estar entre os limites indicados.
Figura 1. Significado de um IC para , com (1 ) = 0,95 e 2 conhecido

Selecionada uma amostra, encontrada sua mdia ( x a) e sendo conhecido x , pode-se


construir o intervalo:
x a 1,96 x

Este intervalo pode ou no conter o parmetro , mas, pelo exposto acima, tm-se 95%
de confiana de que o contenha.
Indica-se um intervalo de 100 (1 )% de confiana para , quando n grande e
conhecido, por:

IC( : 1 ) ]x z ; x z [
2 n 2 n
Se (1 - ) = 0,95 z 2 1,96

Em um intervalo com:

(a) nvel de confiana (1 - ) fixo, se o tamanho da amostra (n) aumenta, a amplitude


do intervalo (A 2 . z . ) diminui;
2 n
(b) n fixo, se (1 - ) aumenta, A tambm aumenta, pois o valor de Z 2 aumenta.

Exemplo 2. Considerando uma amostra de 100 animais da raa Nelore, onde o peso
mdio a desmama 171,70 kg, encontre um IC de 95% para , supondo que o desvio
padro da populao () seja igual a 7,79 kg.
Soluo:
7,79 kg
IC( : 95%) 171,70 kg 1,96. ]170,17 kg ; 173,23 kg[
100

b) Caso em que n grande e desconhecido

Para grandes amostras, a afirmao probabilstica

P( x z / n x z / n ) 1
2 2

ainda correta, mas como desconhecido, o intervalo no pode ser construdo.


Entretanto, como n grande (n 30), a substituio de pelo desvio padro amostral
(s) no afeta apreciavelmente essa afirmao probabilstica, pois o valor numrico de s
X
uma estimativa acurada de , de modo que Z
s/ n
aproximadamente N(0,1).
s s
Assim, o IC( : 1 ) dado por: ]x z ; x z [
2 n 2 n

1.2. Para a mdia populacional com base em amostras pequenas (n < 30)

Se X1, X2, ..., Xn uma amostra aleatria de uma populao com distribuio normal
N (, 2), a mdia amostral X exatamente distribuda como N (, n ). Sendo
2

conhecido, o IC ( : 1 ) dado por:


x
x z , o qual construdo a partir de Z (1)
2 n / n
Quando desconhecido, como tipicamente o caso, uma aproximao intuitiva
substituir por s em (1) e considerar a razo
x
t .
s/ n
Essa substituio, embora, no altere consideravelmente a distribuio em amostras
grandes, ela causa uma considervel diferena se a amostra for pequena. A notao t
requerida porque a varivel aleatria no denominador (s) aumenta a varincia de t para
um valor maior do que um (1,0), de modo que a razo no padronizada.
A distribuio da razo t, quando razovel assumir que a distribuio da populao
normal, conhecida como distribuio t de Student com r = n 1 graus de
liberdade. A qualificao n 1 graus de liberdade necessria porque para cada
diferente tamanho de amostra (n) ou valor n 1, h uma diferente distribuio t.
Grau de liberdade (gl) conceituado como o nmero de valores independentes de
uma estatstica. Tomando como exemplo o estimador s2 de 2, foi visto no item 2 que a
quantidade (n 1) o divisor que aparece na frmula de s 2. Isto significa que para um
tamanho amostral n, s2
(x i x) 2 baseado em (n 1) graus de liberdade, ou seja,
n 1
calculando-se (n 1) desvios (independentes): ( x 1 x ), ( x 2 x ), , ( x n 1 x ) , o
remanescente ( x n x ) pode ser obtido por diferena, pois ( x i x ) 0 .
As distribuies t so simtricas em torno de zero, E( t ) 0 , mas tm caudas mais
r n 1
espalhadas, Var ( t ) , do que a distribuio N(0, 1). Entretanto, com o
r 2 n 3
aumento de r, a distribuio t se aproxima da distribuio N(0, 1), pois a Var(t) tende a
x
um (1,0). Assim, quando n grande (n 30), a razo s/ n
, como mencionado
anteriormente, aproximadamente normal padro. A equivalncia entre as distribuies
t e N(0, 1) quando n grande, pode ser verificada comparando os valores da
distribuio t, com infinitos () graus de liberdade, com os da normal padro (Tabelas
3 e 4, respectivamente).
Pode-se concluir da distribuio t, que
x
P( t t ) 1 , (2)
2 s/ n 2

em que t/2 obtido na tabela da distribuio t com r = n 1 graus de liberdade (Tabela


4), a qual fornece valores t/2, tais que P(-t/2 < t < t/2) = 1 - , para alguns valores de
(ou, como simbolizado na tabela, de p) e r. Rearranjando os termos dentro dos
parnteses da expresso (2), temos
s s
P( x t x t ) 1
2 n 2 n

s
Portanto, um IC ( : 1- ) obtido de x t 2 . Aqui, o comprimento do intervalo de
n
s
confiana ( 2.t 2 ), tal como no caso em que o tamanho da amostra grande (
n
s
2.z ), uma varivel aleatria, pois envolve o desvio padro amostral (s). Na
2 n
situao em que conhecido, ao contrrio, todos os intervalos so de mesmo
comprimento.

Exemplo 3. Uma amostra de 10 ces sofrendo de uma determinada doena apresentou


um tempo de sobrevivncia mdio de 46,9 meses e o desvio padro de 43,3 meses.
Determinar os limites de confiana de 90% para .

Soluo: x a = 46,9 meses s = 43,3 meses


1 - = 0,90 n-1=9 t 1,833
2
s 43,3
Limites de confiana para : x t 46,9 1,833 21,8 e 72,0 meses
2 n 10
Portanto, IC( : 90%) = ]21,8; 72,0[
1.3. Intervalo de confiana para o parmetro binomial p

Fazendo uso do fato que, para n grande, a distribuio binomial pode ser aproximada
x np
com a normal, isto , que a varivel aleatria Z tem distribuio
np(1 p)
aproximadamente N(0,1), pode-se escrever:
x np
P( z z ) 1
2 np(1 p) 2

Dividindo-se o numerador e o denominador de Z por n, temos:


x p
P( z n z ) 1 (1)
2 p(1 p ) 2
n
Um intervalo com (1-)100% de confiana aproximado para p obtido, escrevendo
(1) como
p(1 p) p(1 p)
P(p z p p z ) 1
2 n 2 n
onde p ( x n ) a proporo dos elementos da amostra que possuem uma particular
caracterstica.
Substituindo p, visto que desconhecido, por seu estimador p dentro das razes,
p(1 p) p(1 p)
obtm-se: p z p p z
2 n 2 n

pq pq
Portanto, ]p z p p z [
2 n 2 n

o intervalo de (1 - )100% de confiana para p. Indica-se por IC (p : 1- ).


p q

O efeito de se utilizar uma estimativa do desvio padro
n no IC desprezvel
quando n grande (n 30).

Exemplo 4. Suponha que em n = 400 animais so administrados uma droga, obtendo


X = 320 sucessos, ou seja, 80% dos animais melhoraram. A partir destes dados,
obtenha um IC para p, com 1 - = 0,90.

Soluo: p = 320/400 = 0,80 q = 0,20


0,80.0,2
IC = 0,80 1,64 400
]0,767 ; 0,833[

Portanto, IC(p : 90%) = ]0,767 ; 0,833[


2. Clculo do tamanho da amostra

2.1. Para estimao de


Supondo conhecido, o erro da estimao de por X z 2 . Fixando um erro
n

mximo de tamanho d, com probabilidade 1 , ento z 2 d . Resolvendo para n,
n
2
z
n 2
d
Note que se desconhecido, uma estimativa de necessria para calcular o
tamanho da amostra (n). Este problema resolvido por meio de uma amostra
preliminar que fornece s, que, por sua vez, permite o clculo de n.

Exemplo 5. Um limnologista deseja estimar o contedo mdio de fosfato por unidade


de volume de gua de certo lago. Sabe-se de estudos anteriores que s = 4. Qual
deve ser o tamanho da amostra para que ele tenha 90% de confiana que o erro da
estimativa de no supere 0,8?

Soluo: s=4 1 - = 0,90 /2 = 0,05 z0,05 = 1,64 d = 0,8


2
1,64.4
n 67,24 68
0,8

2.2. Para estimao de p


2
pq z
Neste caso, d z . Assim, n p q 2 .
2 n d

Esta soluo no usada, porque ela envolve o parmetro p, que desconhecido. Os


valores de p variam de 0 a 1, de modo que p (1 - p) aumenta de 0 at 1/4 (valor
mximo), decrescendo, a partir da, at 0. O valor mximo de pq 1/4, quando
p = q = 1/2, de modo que a soluo n deve satisfazer
2
1 z
n 2
4 d

Sem qualquer conhecimento prvio do valor aproximado de p, a escolha do n mximo
proporciona a proteo desejada. Se for conhecido que o valor de p est prximo de
um valor p*, ento n pode ser determinado de
2
z
n p * (1 p*) 2
d

Exemplo 6. A inspeo de sade pblica foi designada para estimar a proporo p de


uma populao bovina tendo certa anomalia infecciosa. Quantos animais devem ser
examinados (tamanho da amostra) para que se tenha 98% de confiana de que o erro
da estimativa no seja superior a 0,05, quando (a) no h conhecimento a cerca do
valor de p? e (b) sabe-se que p aproximadamente 0,3?

Soluo:

d = 0,05 1 - = 0,98 /2 = 0,01 z0,01 = 2,33


2
z 2
n p(1 p) 2 1 2,33 543
(a) d 4 0,05
para p = q = 1/2 (n mximo)

2
2,33
(b) n 0,3.0,7 456
0,05

2.3. Para estimao de em populaes finitas (amostra sem reposio)

Supondo uma populao com N elementos,


Nn
Nn z
d z
N 1
n
2 N 1
2 n
d

Nn
z 2 2 Nn 1
n
2 N 1 n z 2 2
2 N 1 d2
d2

n ( N 1)d 2 z 2 2 n z 2 2 N n[( N 1)d 2 z 2 2 ] z 2 2 N


2
2 2 2

z N
2

2

Portanto, n 2
(1)
( N 1)d 2 z 2 2
2

Por exemplo, nas condies do Exemplo 5 e considerando N =1000:


z2 2 N
2 1,642 16 1000
n 63
( N 1)d z 2 2
2
999 0,82 1,642 16
2

Note que em (1) quando d for pequeno, por exemplo, d = 0,03, o termo (N 1)d2
tambm ser pequeno, logo o tamanho da amostra (n) ser aproximadamente igual ao
da populao (N).

2.4. Para estimao de p em populaes finitas (amostra sem reposio)

Supondo uma populao com N elementos,

p(1 p) N n
d z
2 n N 1
Para p = q = 0,5

0,25 N n 0,25 N n
d z d 2 z 2
2 n N 1 2 n N 1

Nn d2 Nn
d 0,25z
2 2


2 n ( N 1)
2
0,25z n ( N 1)
2
2 2
d d
n ( N 1) N n [ n ( N 1)] n N
0,25z 2 0,25z 2
2 2

d2
n{[ ( N 1)] 1} N . Portanto,
0,25z 2
2
N
n
d2 (2)
[ ( N 1)] 1
2
0,25z
2

Por exemplo, nas condies do Exemplo 6 e considerando N = 1000:

1000 1000 1000


n 352
0,05 2 (0,00184.999) 1 2,84
( 999) 1
0,25.2,33 2
Note que em (2) quando d for pequeno, por exemplo, d = 0,003 (0,3%), o termo
d2
[ ( N 1)] 1
2
0,25z tambm ser pequeno, logo o tamanho da amostra (n) ser
2
aproximadamente igual ao da populao (N).

2.5. Para estimao de p usando probabilidades binomiais b(x : n, p)

Quando a ocorrncia de certa caracterstica em uma populao pouco freqente,


podemos calcular o tamanho da amostra (n) para a estimao de p, considerando uma
probabilidade para que tenhamos pelo menos um (1) sucesso (S) na amostra, que seja
maior ou igual a (%). Essa probabilidade binomial, em termos matemticos, pode ser
representada por:

P (pelo menos 1 S) = 1 P (nenhum S) = 1 P (X = 0)

n
P (pelo menos 1 S) = 1 P (nenhum S) = 1 0 p 0 q n

Logo, 1 qn q n 1 q n 1 (1)

Aplicando-se logaritmo em ambos lados de (1), obtm-se: ln q n ln (1 ) (2)

ln (1 )
Resolvendo (2) para n, n
ln q

Por exemplo, se P (S) = p = 0,1 e = 90 %

ln 0,10 2,302
n n n 22
ln 0,90 0,105

ln 0,10 2,302
e se p = 0,01, n n n 230
ln 0,99 0,010

Exemplo 7. Uma doena em bovinos torna-se grave, quando ocorre acima de um certo
limite. Qual deve ser o tamanho da amostra (n) para detectar a presena dessa doena
com 95 % () de segurana, quando a mesma est presente em 10 % (p) dos animais?

Soluo:
ln 0,05 2,996
n 28
ln 0,90 0,105