Вы находитесь на странице: 1из 323

1

CAPTULO 1 PROBABILIDADE

1.1 Conceito
O conceito de probabilidade est sempre presente em nosso dia a dia: qual a probabilidade
de que o meu time seja campeo? Qual a probabilidade de que eu passe naquela disciplina? Qual
a probabilidade de que eu ganhe na loteria?

Probabilidade uma espcie de medida associada a um evento. No caso especfico da
primeira pergunta do pargrafo anterior o evento em questo meu time ser campeo. Se este
evento impossvel de ocorrer, dizemos que a sua probabilidade zero. Se, entretanto, ele ocorrer
com certeza, a sua probabilidade igual a um (ou cem por cento).

Chamando este evento simplesmente de A, ento dizemos que:

Se A impossvel de ocorrer, ento P(A) = 0.
Se A ocorre com certeza, ento P(A) = 1.

Onde a expresso P(A) lida como probabilidade de A ocorrer, ou simplesmente
probabilidade de A.

A probabilidade de um evento A qualquer pode ser definida, de uma maneira simplificada
1

como:

P(A) =
ocorrem eventos os todos que em vezes de nmero
ocorre A que em vezes de nmero


Esta definio desse ser vista com ressalvas: no se trata do nmero de vezes que de fato
ocorreriam em um experimento, mas sua proporo terica. Assim, se jogssemos uma moeda
comum trs vezes e nas trs ela desse cara, isto no significa que a probabilidade de dar cara
igual a 1, o que nos levaria a concluir que com certeza esta moeda dar cara sempre, o que um
absurdo.

O conjunto de todos os eventos possveis deste experimento (conjunto este que chamamos
de espao amostral) composto de dois possveis resultados: cara ou coroa. Considerando que
estes dois eventos tm a mesma chance de ocorrer (o que vale dizer que a moeda no est viciada),
teremos:

P(cara) =
ocorrem eventos os todos que em vezes de nmero
cara" " ocorre que em vezes de nmero
=
2
1
= 0,5

Todos os eventos, neste caso, so dois: cara ou coroa. Destes dois, um deles o
evento em questo (cara). Portanto a probabilidade de dar cara igual a 0,5 (ou 50%).

E, de maneira idntica, temos para o evento coroa:

P(coroa) =
ocorrem eventos os todos que em vezes de nmero
coroa" " ocorre que em vezes de nmero
=
2
1
= 0,5


1
No apndice 1.B deste captulo dada uma definio formal de probabilidade.
2
Repare que a soma das duas probabilidades igual a 1. E tinha que ser mesmo. A soma das
probabilidades (neste caso especfico) representa a probabilidade do evento dar cara ou coroa, ou
generalizando ocorrer qualquer evento possvel, que algo que ocorrer com certeza.

Se mudarmos o jogo, de cara ou coroa para dados, se jogarmos o dado uma nica vez, temos
seis possibilidades, que correspondem aos nmeros inteiros de 1 a 6. A probabilidade de cair um
nmero qualquer (digamos, o 3) ser dada por:

P(cair 3) =
ocorrem eventos os todos que em vezes de nmero
"3" ocorre que em vezes de nmero
=
6
1



Uma outra maneira de encontrarmos estas probabilidades seria se fizssemos um
experimento (por exemplo, jogar a moeda) um nmero muito grande de vezes (na verdade,
deveriam ser infinitas vezes) e encontrssemos a proporo entre caras e coroas. Este experimento
foi feito
2
e os resultados so mostrados na tabela abaixo:

n
o
de jogadas n
o
de caras n
o
de coroas proporo de caras proporo de coroas
10 6 4 0,6000 0,4000
100 47 53 0,4700 0,5300
1000 509 401 0,5090 0,4010
10000 4957 5043 0,4957 0,5043
25000 12486 12514 0,4994 0,5006

O experimento evidencia que, medida que o nmero de jogadas aumenta, a proporo de
caras e de coroas se aproxima do valor 0,5.

Chamando de n o nmero de vezes que o experimento feito, uma maneira de definir
probabilidade :

P(A) = lim
n
n
ocorre A que em vezes de nmero


Que chamada de definio de probabilidade pela freqncia relativa ou ainda, definio
freqentista de probabilidade.

Exemplo 1.1.1
Qual a probabilidade de, jogando um nico carto, acertar a sena (seis dezenas em um total de 60)?

O acerto exato das seis dezenas uma nica possibilidade entre todas as combinaes
possveis (combinaes mesmo
3
, j que a ordem em que os nmeros so sorteados no relevante):

P(ganhar na sena) =
60,6
C
1
=
! 6 ! 54
! 60
1

=
860 . 063 . 50
1
0,00000002


2
Na verdade a moeda no foi realmente jogada 25000 vezes, mas os resultados foram obtidos atravs de uma simulao
por computador.
3
Para uma reviso de anlise combinatria veja o apndice 1.A.
3
Portanto, a probabilidade de acertar a sena com apenas um carto de uma para cada 50.063.860 ou
aproximadamente 0,000002%.

Exemplo 1.1.2
Sendo o conjunto X definido por X = {x | 0 < x < 2}, qual a probabilidade de, ao sortearmos um
nmero qualquer deste conjunto este nmero pertena ao intervalo [0,5; 1,5]? E qual a
probabilidade deste nmero ser exatamente igual a 1?

O conjunto X um conjunto contnuo, j que contm todos os nmeros reais que sejam
maiores do que 0 e menores do que 2. Tem, por exemplo, o nmero 1; o nmero 0,5; o nmero 0,4;
mas tambm tem o 0,45; o 0,475; o 0,46. Dados dois elementos deste conjunto, sempre possvel
encontrar um nmero que esteja entre estes dois. No h saltos ou buracos, da a idia de
continuidade. Ao contrrio do dado em que os valores possveis so 1, 2, 3, 4, 5 e 6 (no existe 1,5
ou 2,1), que um conjunto discreto
4
.

Neste caso, a probabilidade de sortearmos qualquer nmero entre 0,5 e 1,5 (inclusive), que
um intervalo de comprimento igual a 1 (= 1,5 0,5), de um intervalo possvel que tem comprimento
igual a 2 (= 2 0) ser dada por:

P(0,5 x 1,5) =
2
1


E a probabilidade de ser exatamente 1? Ou seja, de sortear um nico nmero entre um total
de nmeros presente no conjunto X de... infinitos! A probabilidade ser dada, ento por:

P(x = 1) = lim
n
n
1
= 0
Portanto, embora seja possvel de ocorrer, a probabilidade de ser igual a 1 (ou igual a
qualquer nmero) igual a zero, se estivermos falando de um conjunto contnuo. A probabilidade
s ser diferente de zero se estivermos falando de um intervalo contido neste conjunto.

Como conseqncia disso, no far diferena se o intervalo para o qual encontramos
inicialmente a probabilidade (entre 0,5 e 1,5) fosse fechado ou aberto (isto , inclusse ou no os
extremos), pois a probabilidade de ser exatamente 0,5 ou 1,5 zero. Portanto, como X um
conjunto contnuo:

P(0,5 x 1,5) = P(0,5 < x < 1,5) =
2
1


1.2 Probabilidade subjetiva

Nos casos exemplificados acima, assumindo que os dados e as moedas utilizadas no sejam
viciados, as probabilidades calculadas so exatas. Nem sempre isto possvel.

Imagine o evento meu time ser campeo. No possvel repetir este experimento (o
campeonato) um nmero muito grande de vezes. Na verdade, este campeonato, com estes times,
com os mesmos jogadores nas mesmas condies s jogado uma nica vez. Entretanto, possvel
atribuir um valor que represente as chances do time ganhar o campeonato mas, evidentemente, este

4
No h necessidade de que um conjunto discreto seja composto apenas por nmeros inteiros, entretanto. Uma prova
com 20 questes de mltipla escolha, cada uma delas valendo meio ponto ter notas variando neste intervalo, isto ,
poder haver nota 7,0 ou 7,5, mas nunca 7,2 ou 7,3. um conjunto discreto, portanto.
4
valor ser diferente para cada pessoa que opinar a respeito: um torcedor fantico tender atribuir um
valor maior do que um analista frio e imparcial (se que isto existe).

Qualquer que seja este valor, entretanto, deve seguir as mesmas regras que a probabilidade
objetiva, isto , tem que estar entre 0 e 1, sendo 0 correspondendo impossibilidade e 1 certeza de
que o time ser campeo.

E assim vale para uma srie de situaes: a probabilidade de que o governo mude a poltica
econmica ( certamente maior em perodos de crise); a probabilidade de chover ou no ( maior ou
menor quando a previso do tempo afirma que vai chover?); a probabilidade de ser assaltado
quando se passa por determinada rua, etc.

Exemplo 1.2.1
Qual a probabilidade de se acertar os treze pontos na loteria esportiva?

A mais complicado porque depende da avaliao subjetiva que se faz dos times em cada
um dos jogos. de se imaginar que um teste da loteria esportiva em que predominem jogos
equilibrados ser mais difcil de acertar e tender a ter menos acertadores do que um teste que tenha
mais barbadas.
Por exemplo, Flamengo x Olaria (um jogo teoricamente fcil):
P(Flamengo) = 70%
P(empate) = 20%
P(Olaria) = 10%

J Corinthians x So Paulo (jogo equilibrado):
P(Corinthians) = 30%
P(empate) = 40%
P(So Paulo) = 30%

Todos estes nmeros, evidentemente, sujeitos discusso. Esta avaliao teria que ser feita
jogo a jogo para se computar a probabilidade de ganhar na loteria esportiva.

1.3 Probabilidade do e e do ou

No incio do captulo chamamos de espao amostral o conjunto de todos os eventos
possveis. O uso do termo conjunto, no foi por acaso. De fato, h uma associao muito grande
entre a teoria dos conjuntos (e a sua linguagem) e a de probabilidade.

Chamando de S o espao amostral (que equivale a todos os eventos, portanto P(S)=1) e
sendo A um evento deste espao amostral (isto , A um subconjunto de S), uma representao
grfica da probabilidade de A mostrada na figura abaixo:

5


Em que a regio em que o conjunto A est representado representa a sua probabilidade em
relao ao espao amostral S. Esta representao grfica de probabilidade conhecida como
Diagrama de Venn.

Um caso particular importante um evento que no est em S (impossvel de ocorrer), como
o dado cair no nmero 7 ou a moeda no dar nem cara, nem coroa, representado pelo conjunto vazio
(), em que, evidentemente
5
P() = 0.

Pelo diagrama de Venn podemos verificar uma relao importante: a probabilidade de no-
A, ou seja, o complementar de A, representado
6
por A. O conjunto A representado por todos os
pontos que pertencem a S, mas no pertencem a A, o que no Diagrama de Venn abaixo
representado pela regio sombreada:

A probabilidade de A ser dada ento por:

P( A) = P(S) P(A)

Mas como P(S) = 1, ento:

P( A) = 1 P(A)

Ou:

5
A recproca no verdadeira. Pelo exemplo 1.1.2, vimos que P(A) pode ser igual a zero mesmo que A no seja um
conjunto vazio. No exemplo P(x=1) = 0 no porque x no pudesse ser igual a 1, mas por fazer parte de um conjunto
contnuo.
6
H quem prefira a notao A
C
.
6

P(A) + P( A) = 1

Isto , a soma da probabilidade de um evento com a do seu complementar sempre igual a
1.

Suponhamos agora dois eventos quaisquer de S, A e B. A representao no Diagrama de
Venn ser:


Dados dois eventos poderemos ter a probabilidade de ocorrer A e B, isto , ocorrer A e
tambm B. Por exemplo, jogar dois dados e dar 6 no primeiro e 1 no segundo; ser aprovado em
Estatstica e em Clculo. Em linguagem de conjuntos, a ocorrncia de um evento e tambm outro
representada pela interseco dos dois conjuntos (AB). No Diagrama de Venn representada
pela rea sombreada abaixo:


P(A e B) = P(AB)

H ainda a probabilidade de ocorrncia de A ou B. Isto equivale a ocorrer A, ou B, ou
ambos
7
. Em linguagem de conjuntos equivale a unio de A e B (AB), representada abaixo:


7
No confundir com o chamado ou exclusivo, em que ocorre A, ocorre B, mas no ambos.
7

P(A ou B) = P(AB)

Podemos verificar que, se somarmos as probabilidades de A e B, a regio comum a ambos (a
interseco) ser somada duas vezes. Para retirarmos este efeito, basta subtrairmos a interseco
(uma vez). Portanto:

P(A ou B) = P(AB) = P(A) + P(B) P(AB)

Um caso particular desta regra aquele em que A e B jamais ocorrem juntos, so eventos
ditos mutuamente exclusivos (ocorrer um implica em no ocorrer outro).Os conjuntos no tero
pontos em comum, portanto (a interseco o conjunto vazio) e A e B ento so ditos disjuntos,
como mostrado abaixo:


Neste caso, no h dvida:

P(A ou B) = P(AB) = P(A) + P(B)

Portanto, a chamada regra do ou pode ser resumida assim:




Se A e B so eventos quaisquer:
P(AB) = P(A) + P(B) P(AB)

Se A e B so eventos mutuamente exclusivos (disjuntos):
P(AB) = P(A) + P(B)
8

Exemplo 1.3.1
Qual a probabilidade de, ao jogar um dado, obter-se um nmero maior que 4?

Nmero maior do que 4 no dado temos o 5 e o 6, portanto:

P(maior que 4) = P(5 ou 6)

Que so eventos disjuntos, j que, se der 5, impossvel dar 6 e vice-versa.

P(5 ou 6) = P(5) + P(6) =
6
1
+
6
1
=
3
1


Exemplo 1.3.2 (desespero dos pais de gmeos)
Duas crianas gmeas tm o seguinte comportamento: uma delas (a mais chorona) chora 65% do
dia; a outra chora 45% do dia e ambas choram, ao mesmo tempo, 30% do dia. Qual a probabilidade
(qual o percentual do dia) de que pelo menos uma chore? E qual a probabilidade de que nenhuma
chore?

A probabilidade de que pelo menos uma chore a probabilidade de que a primeira chore ou
a segunda chore. Chamando de C1 o evento a primeira criana chora e C2 a segunda criana
chora, temos:

P (C1 ou C2) = P(C1) + P(C2) P(C1 e C2) = 0,65 + 0,45 0,3 = 0,8

Portanto, pelo menos uma criana estar chorando 80% do tempo. Nenhuma das crianas
chora o evento complementar:

P(nenhuma chora) = 1 P(C1 ou C2) = 1 0,8 = 0,2

Assim sendo, os pais destas crianas tero paz em apenas 20% do tempo.

1.4 Probabilidade Condicional

Qual a probabilidade de que o Banco Central aumente a taxa de juros? Qual a probabilidade
de que ele aumente a taxa sabendo-se que ocorreu uma crise que pode ter impacto sobre a inflao?

Qual a probabilidade do seu time ganhar o prximo jogo? E se j sabido que o adversrio
jogar desfalcado de seu principal jogador?

Qual a probabilidade de, jogando dois dados em seqncia, obter-se um total superior a 7? E
se, na primeira jogada, j se tirou um 6?

Voc acorda de manh e o cu est azul e sem nuvens. Voc pega o guarda-chuva ou no?
claro que, de posse dessa informao, a probabilidade estimada para o evento chover diminui.

E assim vale para os trs exemplos anteriores. O acontecimento de um evento afeta a
probabilidade de ocorrncia do outro.

Um casal que tem trs filhos homens vai para o quarto filho. Qual a probabilidade de ser
(afinal!) uma menina? Infelizmente para o casal, no diferente daquela que seria caso fosse o
primeiro. No faamos confuso: claro que, para um casal que vai ter quatro filhos, a
9
probabilidade de serem quatro meninas pequena. Mas se ele j teve trs meninas, isto no afeta a
probabilidade do prximo filho ser menino ou menina (afinal, os pobres espermatozides no tm a
menor idia do histrico familiar).

A pergunta que se faz, seja em um caso ou em outro : qual a probabilidade de um evento
sabendo-se que um outro evento j ocorreu (ou vai ocorrer)? Qual probabilidade de A dado que B j
um fato da vida.


No Diagrama de Venn acima, B j ocorreu! A probabilidade de A ocorrer ento s pode ser
naquele pedao em que A e B tm em comum (a interseco). Mas a probabilidade deve ser
calculada no mais em relao a S, mas em relao a B, j que os pontos fora de B sabidamente no
podem acontecer (j que B ocorreu). Portanto, a probabilidade de A tendo em vista que B ocorreu
(ou ocorrer), representada por P(A|B) (l-se probabilidade de A dado B), ser dada por:

P(A|B) =
P(B)
P(AeB)
(1.4.1)

A regra do e, j apresentada na seo anterior, ganha uma nova forma:

P(A e B) = P(A|B)P(B) ou
P(A e B) = P(B|A)PA)

Se o evento B no tiver qualquer efeito sobre a probabilidade do evento A, ento teremos:

P(A|B) = P(A) e
P(B|A) = P(B)

E A e B so ditos eventos independentes (a probabilidade condicional igual no
condicional).

Sero eventos dependentes em caso contrrio, isto :
P(A|B) P(A) e
P(B|A) P(B)

Ento, se A e B forem eventos independentes, vale:

P(A e B) = P(A)P(B)

10
No confunda: o fato de dois eventos serem independentes no quer dizer que eles sejam
mutuamente exclusivos. Pelo contrrio: se dois eventos (no vazios) so mutuamente exclusivos
(disjuntos) eles so, necessariamente, dependentes, j que a ocorrncia de um implica a no
ocorrncia de outro.

Resumindo: para dois eventos independentes temos:

P(A e B) = P(A)P(B)
P(A ou B) = P(A) + P(B) - P(A)P(B)

Para dois eventos disjuntos (mutuamente exclusivos):

P(A e B) = 0
P(A ou B) = P(A) + P(B)

Para dois eventos quaisquer:

P(A e B) = P(A)P(B|A) = P(B)P(A|B)
P(A ou B) = P(A) + P(B) P(A e B)

Exemplo 1.4.1
Qual a probabilidade de que, jogando dois dados em seqncia, obtenhamos exatamente 7? E se
na primeira jogada j obtivemos um 6?

Para obtermos um total de 7 temos os seguintes resultados possveis: 1 e 6, 2 e 5, 3 e 4, 4 e
3, 5 e 2, 6 e 1. O resultado de cada dado independente do resultado do outro, de modo que:

P(1 e 6) = P(2 e 5) = P(3 e 4) = P(4 e 3) = P(5 e 2) = P(6 e 1) =
6
1

6
1
=
36
1


A probabilidade de que ocorra qualquer um desses resultados, tendo em vista que eles so
mutuamente exclusivos :

P[(1 e 6) ou (2 e 5) ou (3 e 4) ou (4 e 3) ou (5 e 2) ou (6 e 1)] =
36
1
+
36
1
+
36
1
+
36
1
+
36
1
+
36
1
=
6
1


Se j deu 6 no primeiro dado o nico resultado possvel para somar 7 que d 1 no segundo
dado. A probabilidade
6
1
, portanto. De fato, usando a definio 3.4.1:
P(soma=7|1
o
dado=6) =
6) dado P(1o
6) dado 1o e 7 P(soma
=
= =
=
6) dado P(1o
6) dado 1o e 1 dado P(2o
=
= =
=
6
1
36
1
=
6
1


Note que:

P(soma=7|1
o
dado=6) = P(soma=7)

11
Portanto os eventos a soma dar exatamente 7 e o resultado
8
do 1
o
dado so independentes.

Exemplo 1.4.2
No exemplo 1.3.2 os eventos so independentes? Caso no sejam, qual a probabilidade de que a
primeira criana chore dado que a segunda chora? E qual a probabilidade de que a segunda criana
chore dado que a primeira chora?

Os eventos C1 e C2 no so independentes (so dependentes) dado que:

P(C1)P(C2) = 0,650,45 = 0, 2925 diferente de:
P(C1 e C2) = 0,3

Para calcularmos as probabilidades condicionais, temos:
P(C1 e C2) = P(C1) P(C2|C1)
0,3 = 0,65 P(C2|C1)
P(C2|C1) =
65 , 0
3 , 0
0,4615
P(C1 e C2) = P(C2) P(C1|C2)
0,3 = 0,45 P(C1|C2)
P(C1|C2) =
65 , 0
45 , 0
0,6923

Portanto, se a primeira criana chorar, h uma probabilidade de 46,15% de que a segunda
criana chore e, se a segunda criana chorar, a probabilidade que a primeira chore de 69,23%.
Como as probabilidades incondicionais eram de 45% e 65%, respectivamente, percebe-se que o fato
de uma criana chorar aumenta a chance da outra chorar tambm.

Exemplo 1.4.3
Atravs do Diagrama de Venn abaixo (onde os valores marcados correspondem s probabilidades
das reas delimitadas), verifique que, apesar de que P(ABC) = P(A)P(B)P(C), A e B e C no
so eventos independentes.



Do diagrama, temos:

8
Verifique que a concluso vlida para qualquer resultado no 1
o
dado.
12

P(A) = 0,1 + 0,15 + 0,1 + 0,05 = 0,4
P(B) = 0,25 + 0,05 + 0,1 + 0,1 = 0,5
P(C) = 0,15 + 0,15 + 0,1 +0,1 = 0,5

P(AB) = 0,1 + 0,05 = 0,15
P(AC) = 0,1 + 0,15 = 0,25
P(BC) = 0,1 + 0,1 = 0,2

P(ABC) = 0,1

De fato, P(ABC) = P(A)P(B)P(C), mas:

P(AB) P(A)P(B)
P(BC) P(B)P(C)
P(AC) P(A)P(C)

Portanto, A, B e C so dependentes.

Exemplo 1.4.4
Foi feita uma pesquisa com 100 pessoas sobre as preferncias a respeito de programas na televiso.
Os resultados obtidos foram os seguintes:
homens mulheres total
futebol 40 20 60
novela 5 35 40
total 45 55 100
Entre o grupo de entrevistados, qual a probabilidade de preferir novela? E futebol?
P(novela) =
100
40
= 0,4 = 40%
P(futebol) =
100
60
= 0,6 = 60%
Qual a probabilidade de ser mulher e preferir futebol?
P(mulher e futebol) =
100
20
= 0,2 = 20%
Qual a probabilidade de, em sendo homem, preferir futebol?
Podemos resolver diretamente j que, pela tabela, dos 45 homens, 40 preferem futebol:
P(futebol | homem) =
45
40
= 0,888... 88,8%
Ou pela definio de probabilidade condicional:
P(futebol | homem) =
P(homem)
futebol) e P(homem
=
100
45
100
40
= 0,888... 88,8%
Qual a probabilidade de que, se preferir novela, for mulher?
De novo possvel resolver diretamente pela tabela, tendo em vista que, dos 40 que
preferem novela, 35 so mulheres:
P(mulher | novela) =
40
35
= 0,875 = 87,5%
Ou pela definio de probabilidade condicional:
13
P(mulher | novela) =
P(novela)
novela) e P(mulher
=
100
40
100
35
= 0,875 = 87,5%
Note que a preferncia por um tipo de programa ou outro e o sexo no so eventos
independentes, j que:
P(mulher | novela) P(mulher)
P(futebol | homem) P(futebol)

1.5 Regra de Bayes

Exenplo 1.5.1
Suponha que, numa eleio para governador em um estado norte americano, temos um candidato
democrata e um republicano. Entre os eleitores brancos, 30% votam no democrata, esta proporo
sobe para 60% entre os eleitores negros e de 50% entre os eleitores de outras etnias. Sabendo-se
que h 70% de eleitores brancos, 20% de negros e 10% de outras etnias, se um voto democrata
retirado ao acaso, qual a probabilidade de que ele tenha sido dado por um eleitor negro?

Utilizaremos as seguintes abreviaes:
B- branco D- democrata
N- negro R- republicano
O- outras etnias

Pelo enunciado sabemos que:
P(B) = 0,7
P(N) = 0,2
P(O) = 0,1
P(D|N) = 0,6
P(D|B) = 0,3
P(D|O) = 0,5

E pede-se qual probabilidade do voto ser de um eleitor negro dado que o voto para o
candidato democrata, isto :

P(N|D) = ?

P(N|D) =
P(D)
D) e P(N


A probabilidade de ser negro e democrata dada por:
P(N e D) = P(N)P(D|N) = 0,20,6 = 0,12

E a probabilidade de ser democrata ser dada pela soma dos votos brancos e democratas,
negros e democratas e outras e democratas:
P(D) = P(D e B) + P(D e N) + P(D e O) = 0,70,3 + 0,20,6 + 0,10,5 = 0,38

Assim sendo:

P(N|D) =
38 , 0
12 , 0
0,3158 = 31,58%

14
Portanto, 31,58% dos votos democratas so de eleitores negros.

O exemplo anterior partiu de probabilidades condicionais para calcular uma probabilidade
com a condio invertida. A generalizao do resultado obtido conhecida como Regra de
Bayes, que enunciada abaixo:

Se temos as probabilidades condicionais de um evento B dados todos os eventos do tipo A
i
,
(i = 1, 2,..., n) e queremos encontrar a probabilidade condicional de um certo evento A
j
dado B, esta
ser dada por
9
:

P(A
j
|B) =

n
1 i
i i
j j
) P(A ) A | P(B
) P(A ) A | P(B


9
Evidentemente esta expresso no precisa ser memorizada se for repetido o raciocnio do exemplo 1.5.1.
15
Exerccios

1. Em uma caixa h 7 lmpadas, sendo 4 boas e 3 queimadas. Retirando trs lmpadas ao acaso,
sem reposio, qual a probabilidade de que:
a) todas sejam boas.
b) todas estejam queimadas.
c) exatamente 2 sejam boas.
d) pelo menos 2 sejam boas.

2. Calcule a probabilidade de que, no lanamento de um dado, o nmero que der seja:
a) mpar
b) primo
c) no mnimo 4.
d) no mximo 5.

3. Ao lanar dois dados em seqncia, quer-se atingir um total de 11 pontos.
a) Qual a probabilidade que isto ocorra?
b) Qual a probabilidade que isto ocorra supondo que o primeiro dado deu 4?
c) Qual a probabilidade que isto ocorra supondo que o primeiro dado deu 6?
d) O evento total de 11 pontos independente do resultado do primeiro dado? Justifique.

4. Um apostador aposta no lanamento de um dado em um nico nmero. Qual a probabilidade de:
a) em trs jogadas, ganhar as trs
b) em quatro jogadas, ganhar exatamente as duas primeiras.
c) em quatro jogadas, ganhar exatamente duas (quaisquer).
d) em quatro jogadas, ganhar pelo menos duas.
e) em quatro jogadas, ganhar duas seguidas.

5. Na primeira loteria de nmeros lanada no pas, o apostador deveria acertar cinco dezenas em um
total de 100 possveis, apostando para isso em 5, 6, 7, 8, 9 ou 10 dezenas.
a) Qual a probabilidade de acertar as 5 dezenas em cada uma das situaes?
b) Se a aposta em 5 dezenas custasse $ 1,00, qual deveria ser o preo dos demais tipos de
apostas levando-se em considerao a probabilidade de acerto?

6. Considerando que, em jogos de futebol, a probabilidade de cada resultado (vitria de um time, de
outro ou empate) igual, qual a probabilidade de fazer os treze pontos na loteria nos seguintes
casos:
a) sem duplos ou triplos.
b) com um nico duplo.
c) com um nico triplo.
d) com dois duplos e trs triplos.

7. Represente no diagrama de Venn:
a) AB
b) AB
c) AB
d) AB

8. Verifique que a probabilidade do ou exclusivo dada por:
P (A ou exclusivo B) = P[( AB)(AB)]
(Sugesto: utilize o diagrama de Venn)
16

9. Foram selecionados 200 pronturios de motoristas e o resultado foi o seguinte:
homens mulheres total
com multa 65 50 115
sem multa 45 40 85
Total 110 90 200

a) Qual a probabilidade de que um motorista deste grupo tenha sido multado?
b) Qual a probabilidade de que um motorista (homem) deste grupo tenha sido multado?
c) Qual a probabilidade de que uma motorista deste grupo tenha sido multada?
d) Qual a probabilidade de que, sendo o motorista homem, ele tenha sido multado?
e) Qual a probabilidade de que, sendo mulher, a motorista tenha sido multada?
f) Qual a probabilidade de, em sendo multado, o motorista seja homem?
g) A probabilidade de ser multado independente do sexo? Justifique.

10. Perguntou-se para 300 estudantes o que fariam aps a faculdade: procurariam emprego ou
cursariam ps-graduao (ou ambos). As respostas foram:
homens mulheres
Emprego 110 90
ps-grad. 90 80
Total 160 140
Calcule a probabilidade de um estudante, escolhido ao acaso:
a) ser homem e procurar emprego.
b) ser mulher e continuar estudando.
c) ser homem e no continuar estudando.
d) ser mulher ou no procurar emprego.
e) em sendo homem, querer continuar apenas estudando.
f) se quer apenas trabalhar, ser mulher.

11. Um cubo de madeira pintado e a seguir dividido em 512 cubinhos de mesmo tamanho. Qual
a probabilidade de que, se pegarmos um destes cubinhos aos acaso, ele:
a) tenha apenas uma face pintada.
b) tenha duas faces pintadas.
c) tenha pelo menos duas faces pintadas.
d) tenha trs faces pintadas.

12. Dado um conjunto X = {x | 0 < x < 8}, onde representa o conjunto dos nmeros naturais.
Se escolhermos ao acaso um nmero deste intervalo, calcule as probabilidades pedidas:
a) P(x = 2)
b) P(x > 2)
c) P(x < 5)
d) P(x = 8)

13. Dado um conjunto X = {x | 0 < x < 8}, onde representa o conjunto dos nmeros reais. Se
escolhermos ao acaso um nmero deste intervalo, calcule as probabilidades pedidas:
a) P(x = 2)
b) P(x > 2)
c) P(x < 5)
d) P(0 x 8)

17
14. Em um colgio de ensino mdio h 120 alunos no 1
o
ano, 100 no 2
o
ano e 80 no 3
o
ano. Se dois
alunos so escolhidos ao acaso e o primeiro est mais adiantado do que o segundo, qual a
probabilidade de que ele esteja no 3
o
ano?

15. Verifique se so verdadeiras ou falsas as afirmaes abaixo e justifique.
a) Sendo S o espao amostral, ento P(S) = 1.
b) Se P(A) = 1 ento A = S.
c) Se P(A) = 0 ento A = .
d) Se A e B so mutuamente exclusivos, ento P(AB) = 0
e) Se P(AB) = 0, ento A e B so disjuntos.
f) Se A e B so independentes, ento P(AB) = P(A) + P(B).
g) Se P(AB) = 0, ento A e B so independentes.
h) Se P(AB) = 1, ento A = B = S.
i) Se P(AB) = 1, ento A = S ou B = S.
j) Se A, B e C so independentes, ento P(ABC) = P(A).P(B).P(C).
k) Se P(ABC) = P(A).P(B).P(C), ento A, B e C so independentes.
l) Se P( A) = 1 ento A = .
m) Se A e B so independentes, ento A e B so independentes.

16. H 60% de probabilidade que haja desvalorizao cambial. Se a desvalorizao ocorrer, h 70%
de chances do governo lanar um pacote emergencial de medidas. Se no ocorrer, as chances deste
pacote ser lanado caem para 40%. Se o pacote foi lanado, qual a probabilidade que tenha ocorrido
desvalorizao cambial?

17. Num jogo de domin uma pea com dois valores iguais tirada. Qual a probabilidade de que a
pea seguinte se encaixe?

18. Num jogo de pquer cada jogador tem cinco cartas. Considerando que seja utilizado o baralho
completo, qual a probabilidade do jogador obter:
a) um par.
b) uma trinca.
c) dois pares.
d) um par e uma trinca (full house).
e) uma quadra.
f) todas as cartas do mesmo naipe, mas no em seqncia (flush).
g) uma seqncia (por exemplo: 7, 8, 9, 10 e J), mas no do mesmo naipe.
h) uma seqncia (exceto a maior) com o mesmo naipe (straight flush).
i) a maior seqncia (10, J, Q, K e A) com o mesmo naipe (royal straight flush).

19. Num dado viciado a probabilidade de cair um certo nmero proporcional a este nmero.
a) Qual a probabilidade de cada nmero?
b) Qual a probabilidade de, em uma jogada, o nmero ser no mnimo 4?
c) Qual a probabilidade de, em duas jogadas, a soma ser no mximo 9?

20. Considere que a probabilidade de um recm nascido ser menino igual a de ser menina. Neste
caso, qual a probabilidade de um casal com quatro filhos:
a) ter exatamente 2 meninas.
b) ter, no mximo, 2 meninos.
c) ter pelo menos 1 menina.
d) o mais velho ser um menino.

18
21. Em um milho de nascimentos foram registrados 509.718 meninas e 490.282 meninos.
Considerando esta proporo (aproximadamente) uma estimativa mais realista para a probabilidade
de nascimento de meninas e meninos, refaa os clculos do exerccio anterior.

22. Entre as mulheres solteiras de uma cidade, 70% so morenas e 30% loiras. Entre as morenas,
60% tm olhos castanhos, 30% tm olhos verdes e 10% tm olhos azuis. J entre as loiras, 40% tm
olhos castanhos, 30% verdes e 30% azuis. Para um homem que vai num encontro s escuras, qual
a probabilidade de que a pessoa que vai encontrar:
a) tenha olhos azuis.
b) seja loira de olhos verdes.
c) seja morena de olhos castanhos.
d) caso tenha olhos castanhos, seja loira.
e) caso tenha olhos verdes, seja morena.

23. Dado um espao amostral definido num plano cartesiano:
S = {(x,y)
2
| -1 x 3; 2 y 4}
e dado o conjunto A:
A = {(x,y)
2
| 1 x < 2; 3 < y < 4}
Calcule P(A). (Sugesto: encontre graficamente S e A).

24. Dados os conjuntos A, B e C no vazios cujas probabilidades so dadas por P(A), P(B) e P(C).
Determine P(ABC).
(Sugesto: use um diagrama semelhante ao do exemplo 1.4.3)

25. Segundo as pesquisas eleitorais, o candidato A tem 30% das preferncias dos eleitores.
Admitindo que este valor esteja correto, se tomarmos 5 eleitores ao acaso, qual a probabilidade de:
a) exatamente 3 deles votarem no candidato A.
b) no mximo 2 deles votarem no candidato A.
c) pelo menos um deles votar no candidato A.

26. Em uma urna h 6 bolas que podem ser brancas ou pretas. Se 3 bolas retiradas ao acaso, com
reposio, so brancas, qual a probabilidade de no haver bolas pretas?

27. A probabilidade que um jogador de basquete acerte um arremesso p. Determine o valor de p
para que a probabilidade de fazer pelo menos uma cesta a cada dois arremessos seja de 80%.

28. Mostre que, se vlida a expresso: P(A|B) = P(A| B), ento A e B so independentes.

19
APNDICE 1.A Reviso de Anlise Combinatria

1.A.1 Fatorial

Define-se como o fatorial de um nmero n (n!), sendo este nmero um inteiro maior do que
1:

n! = n(n-1)... 1

Assim sendo:
2! = 21 = 2
3! = 321 = 6
4! = 4321 = 24
5! = 54321 = 120
6! = 654321 = 720

E assim sucessivamente.

Note que:
3! = 32!
4! = 43!
5! = 54!
6! = 65!

Ou, generalizando:
n! = n(n-1)! , n>2

Se estendermos esta propriedade para n=2:
2! = 21!
1! =
2
! 2
= 1
Ento, convenientemente definimos:
1! =1

Se continuarmos para n=1:
1! = 10!
0! =
1
! 1
= 1

Portanto, temos:
n! = n(n-1)... 1 , n>1
1! = 1
0! = 1


1.A.2 Permutaes

Quantos anagramas so possveis a partir da palavra amor?

AMOR MAOR OAMR RAMO
20
AMRO MARO OARM RAOM
ARMO MORA OMRA RMOA
AROM MOAR OMAR RMAO
AOMR MRAO ORAM ROAM
AORM MROA ORMA ROMA

Portanto, so possveis 24 anagramas. Os anagramas so as permutaes (trocas de lugar)
das letras da palavra. Temos ento, no caso P
4
(l-se permutaes de 4 elementos) anagramas.

Se a palavra fosse castelo, o exerccio acima seria muito mais trabalhoso. Como fazer,
ento? Na palavra amor temos 4 espaos onde podemos colocar as 4 letras.

No 1
o
espao podemos colocar qualquer uma das 4 letras. Para cada letra colocada no 1
o

espao, sobram 3 letras para preencher o 2
o
espao; uma vez preenchido este espao, sobram apenas
2 para o 3
o
; finalmente, sobrar uma ltima letra no 4
o
espao. Assim

P
4
= 4321 = 4! = 24

Generalizando:
P
n
= n!

Portanto, o total de anagramas da palavra castelo :

P
7
= 7! = 5040

1.A.3 Arranjos

Utiliza-se um arranjo quando se quer formar grupos a partir de um conjunto maior em que a
ordem importante. Por exemplo, de um grupo de 5 pessoas, deseja-se montar uma chapa para
uma eleio composta por um presidente, um vice e um tesoureiro.

H 3 vagas. Para a vaga de presidente, temos 5 opes; escolhido o presidente, temos 4
opes para vice, sobrando 3 opes para tesoureiro. Ento o nmero total de chapas ser dado por
A
5,3
(l-se arranjos de 5 elementos, 3 a 3) calculado assim:

A
5,3
= 543 = 60

Seriam 60 chapas possveis, portanto. Faltaria, para completar o 5!, multiplicar por 2 e por 1.
Multiplicando e dividindo, temos:

A
5,3
=
1 2
1 2 3 4 5


=
! 2
! 5


Generalizando, temos

A
n,k
=
k)! - (n
n!



1.A.4 Combinaes

21
Quando falamos em combinaes, como em arranjos, estamos querendo formar grupos a
partir de um conjunto de elementos, a diferena que a ordem no importa.

Suponhamos que, no exemplo anterior, a chapa no tenha cargos ( uma chapa para um
conselho, por exemplo), ento no importa quem escolhido primeiro. O total de chapas possveis
ser dado pelo nmero de arranjos, descontando-se uma vez escolhida a chapa, trocando-se as
posies na mesma (isto , fazendo permutaes) teremos uma chapa idntica. Portanto, o nmero
de chapas ser dado por C
5,3
(l-se combinaes de 5 elementos, 3 a 3) calculado por:

C
5,3
=
3
5,3
P
A
=
! 3 ! 2
! 5

= 10

Generalizando:

C
n,k
=
k)! - (n k!
n!


1.A.5 Tringulo de Pascal

Uma maneira simples de calcular combinaes atravs do Tringulo de Pascal:
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
6 1 6 15 20 15 6 1
7 1 7 21 35 35 21 7 1

A construo do Tringulo simples. Cada linha comea e termina com 1. Os outros
nmeros de cada linha so obtidos atravs da soma do nmero acima com o nmero sua esquerda.
Por exemplo, o 3
o
nmero da linha correspondente ao nmero 5 (que 10) pode ser obtido pela
soma do 2
o
e do 3
o
nmeros da linha acima (4 + 6). E assim pode ser feito com qualquer nmero
apresentado no Tringulo, inclusive para linhas que no foram mostradas (8,9, 10, etc.).

As combinaes podem ser obtidas imediatamente. Poe exemplo, se quisermos combinaes
de 6 elementos, devemos utilizar os nmeros da linha correspondente, que so 1, 6, 15, 21, 15, 6 e
1. Temos que (verifique!):
C
6,0
= 1
C
6,1
= 6
C
6,2
= 15
C
6,3
= 21
C
6,4
= 15
C
6,5
= 6
C
6,6
= 1

E assim podemos obter quaisquer combinaes que quisermos diretamente do Tringulo.

Adicionalmente, uma outra propriedade (entre muitas) que pode ser obtida do Tringulo
que a soma dos nmeros de uma linha exatamente a potncia de 2 do nmero correspondente. Por
exemplo, se tomarmos a mesma linha, correspondente ao nmero 6:
22

1 + 6 + 15 + 21 + 15 + 6 + 1 = 64 = 2
6

23
APNDICE 1.B Definio Axiomtica de Probabilidade

A idia de se definir probabilidade atravs de axiomas vem do desejo de tratar o assunto de
uma maneira mais rigorosa.

Estabelecer axiomas significa estabelecer um conjunto de regras. Estas regras devem ser
no menor nmero possvel. O conjunto de axiomas, entretanto, deve ser completo, no sentido de
que qualquer afirmao envolvendo probabilidades possa ser demonstrada utilizando apenas estes
axiomas.

Faamos antes algumas definies:

O conjunto S de todos os resultados possveis de um experimento aleatrio chamado de
espao amostral.

Chamemos um conjunto de subconjuntos de S, para o qual a probabilidade ser definida.
A este conjunto denominamos espao de eventos.

A definio de que subconjuntos de S faro parte do espao de eventos simples se S for
discreto, pois, neste caso, basta que definamos como o conjunto de todos os subconjuntos
possveis de S (incluindo o prprio S e o vazio). No caso de um conjunto S contnuo, ou mesmo no
caso de um S muito grande devemos nos contentar com uma definio mais restrita para .

O espao de eventos dever ter as seguintes propriedades
10
:
I ) S
II ) Se A , ento A .
III) Se A e B , ento AB .
IV) Se A
1
, A
2
, ... , ento

1 i
A
i
.

A probabilidade ento uma funo que associa um elemento de a um nmero real, isto :

P:

Obedecendo aos seguintes axiomas:

Axioma 1:
Para qualquer A , P(A) 0

Axioma 2
P(S) = 1

Axioma 3
Dados A
1
,

A
2
, ..., A
n
, disjuntos dois a dois, temos:
P(
n
1 i=
A
i
) =

=
n
1 i
i
) P(A
Isto , a probabilidade da unio dos eventos, em sendo disjuntos, a soma das
probabilidades de cada um deles.


10
Se segue estas propriedades dito um field (sigma field).
24
O espao de probabilidade ser a terna (S, , P) onde S o conjunto universo (espao
amostral), um conjunto de subconjuntos de S e P uma funo que associa as probabilidades aos
elementos de .

Todas as propriedades de probabilidade podem ser estabelecidas a partir dos trs axiomas
estabelecidos acima
11
. Vejamos algumas delas:

Teorema 1.B.1
Se A , ento P(A) = 1 - P( A)
Demonstrao:
Pela prpria definio de complementar, temos:
AA= S

Pelo axioma 2:
P(S) = P(AA) = 1

E como A e A so disjuntos, temos, pelo axioma 3:
P(AA) = P(A) + P( A ) = 1

Portanto:
P(A) = 1 - P( A)

Teorema 1.B.2
P() = 0
Demonstrao:
Se A = , ento A = S. Lembrando que, P(S) = 1 pelo axioma 2 e utilizando o teorema
1.B.1:
P() = 1 P(S) = 1 1 = 0

Teorema 1.B.3
Se A, B , ento P(A) = P(AB) + P(AB)
Demonstrao:
AS = A

Pela definio de complementar:
A(BB) = A

Como a interseco tem a propriedade distributiva:
(AB)(AB) = A

E sendo os conjuntos AB e AB disjuntos temos, pelo axioma 3:
P(A) = P[(AB)(AB)] = P(AB) + P(AB)

Teorema 1.B.4
Se A, B , ento P(AB) = P(A) + P(B) - P(AB)
Demonstrao:

11
Estes axiomas foram estabelecidos por Andrei Kolmogorov, matemtico russo considerado o pai da moderna teoria
de probabilidade, em 1933. Antes de Kolmogorov, o axioma 3 era limitado ao caso de dois conjuntos, isto : se A e B
so disjuntos, ento P(AB) = P(A) + P(B).
25
Temos que:
(AB)S = AB

Pela definio de complementar:
(AB)(BB) = AB

Como a unio tambm tem a propriedade distributiva, colocando B em evidncia:
B(AB) = AB

Os eventos B e AB so disjuntos, pelo axioma 3 temos:
P[B(AB)] = P(B) + P(AB)

E, pelo teorema 1.B.3 temos:
P(A) = P(AB) + P(AB)
P(AB) = P(A) P(AB)

Logo:
P(AB) = P[B(AB)] = P(B) + P(A) P(AB)
26
27
CAPTULO 2 - MEDIDAS DE POSIO E DISPERSO

2.1 Varivel aleatria
Varivel aleatria (v.a.) uma varivel que est associada a uma distribuio
12
de
probabilidade. Portanto, uma varivel que no tem um valor fixo, pode assumir vrios valores.
O valor que cai ao se jogar um dado, por exemplo, pode ser 1, 2, 3, 4, 5 ou 6, com
probabilidade igual a
6
1
para cada um dos valores (se o dado no estiver viciado). , portanto, uma
varivel aleatria.
Assim como so variveis aleatrias: o valor de uma ao ao final do dia de amanh; o
nmero de pontos de um time num campeonato que est comeando esta semana; a quantidade de
chuva que vai cair no ms que vem; a altura de uma criana em fase de crescimento daqui a seis
meses; a taxa de inflao no ms que vem. Todas estas variveis podem assumir diferentes valores e
estes por sua vez esto associados a probabilidades
E no so variveis aleatrias: o valor de uma ao no final do prego de ontem; o nmero
de pontos de um time num campeonato que j acabou; a altura de uma pessoa na faixa dos 30 anos
de idade daqui a seis meses; a rea til de um apartamento; a velocidade de processamento de um
computador. Todas estas variveis tm valores fixos.
2.2. Medidas de posio central
2.2.1 Mdia
H diferentes tipos de mdia: a mdia aritmtica, a mais comum, a soma dos elementos
de um conjunto dividido pelo nmero de elementos. Assim, um grupo de 5 pessoas, com idades de
21, 23, 25, 28 e 31, ter mdia (aritmtica) de idade dada por:

X =
21+ 23 + 25 + 28 + 31
5
= 25,6 anos
De um modo geral, a mdia aritmtica ser dada por:
X =
X + X +...+X
n
1 2 n

Ou, escrevendo de uma maneira mais resumida:
X=
1
n
X
i
i=1
n


A mdia aritmtica tambm pode ser ponderada isto no um tipo diferente de mdia
ponderar significa atribuir pesos. Ter um peso maior significa simplesmente que aquele valor
entrar mais vezes na mdia. Digamos, por exemplo, que em trs provas um aluno tenha tirado 4,
6 e 8. Se a mdia no for ponderada, bvio que ser 6.
Se, no entanto, a mdia for ponderada da seguinte forma: a primeira prova com peso 1, a
segunda com 2 e a terceira 3. A mdia ser calculada como se as provas com maior peso tivessem
ocorrido mais vezes, ou seja
X =
4 6 6 8 8 8
6
+ + + + +


12
Voltaremos ao conceito de distribuio de probabilidade no prximo captulo.
28
Ou, simplesmente:
X=
4 1 6 2 8 3
6
+ +
6,7
Os pesos podem ser o nmero de vezes que um valor aparece. Suponhamos que numa classe
de 20 alunos haja 8 com idade de 22 anos, 7 de 23, 3 de 25, um de 28 e um de 30. A quantidade que
cada nmero aparece no conjunto chamada de freqncia (freqncia absoluta neste caso, pois se
trata da quantidade de alunos com determinada idade). A mdia de idade ento ser dada por:
X=
22 8 23 7 25 3 28 1 30 1
20
+ + + +
= 23,5 anos
A freqncia tambm pode ser expressa em propores, sendo chamada neste caso de
freqncia relativa. No exemplo anterior, h 8 alunos com 22 anos de idade em um total de 20,
portanto nesta classe h 820 = 0,4 = 40% dos alunos com esta idade. Da mesma forma, temos 35%
com 23, 15% com 25 e 5% com 28 e 30, respectivamente. A mdia de idade pode ser calculada da
seguinte forma:
X= 220,4 + 230,35 + 250,15 + 280,05 + 300,05 = 23,5
Repare que o segundo jeito de calcular (usando a freqncia relativa) nada mais do que o
primeiro (usando a freqncia absoluta) simplificando-se a frao (dividindo o valor dos pesos pelo
nmero total).
Um outro tipo de mdia a mdia geomtrica. A mdia geomtrica para o aluno que tirou
notas 4, 6 e 8 ser:
G = 4 6 8
3
5,8
Ou, genericamente:
G = X X X
n
n
1 2
...
Ou ainda, de uma maneira mais resumida:
G = X
i
i=1
n
1
n

|
\

|
.
|
Repare que a mdia geomtrica zera se um dos elementos for zero.
A mdia geomtrica tambm pode ser ponderada: se os pesos das provas forem 1, 2 e 3, ela
ser dada por:
G = 4 6 8
1 2 3 6
6,5
H ainda um terceiro tipo de mdia, a mdia harmnica. No exemplo das notas, ela ser
dada por:
H =
1
1
4
1
6
1
8
3
+ +
=
3
1
4
1
6
1
8
+ +
5,5
De um modo geral:
H =
n
X X X
1 n
1 1 1
2
+ + + ....

29
Ou ainda:
H =
n
1
X
i
i=1
n


Tambm possvel que a mdia harmnica seja ponderada. Repetindo o exemplo anterior:
H =
6
1
4
1
1
6
2
1
8
3 + +
6,3
Foi possvel notar, tanto para as mdias simples (sem pesos) como para as ponderadas que,
em geral, a mdia aritmtica maior do que a mdia geomtrica e esta por sua vez maior do que a
harmnica. Isto verdade, exceto, obviamente, quando os valores so todos iguais. Temos ento
que:
X G H
Exemplo 2.2.1.1
Um aluno tira as seguintes notas bimestrais: 3; 4,5; 7 e 8,5. Determine qual seria sua mdia final se
esta fosse calculada dos trs modos (aritmtica, geomtrica e harmnica), em cada um dos casos:
a) as notas dos bimestres tm os mesmos pesos

Neste caso, a mdia aritmtica final seria:
X =
4
5 , 8 7 5 , 4 3 + + +
=
4
23

X = 5,75

A mdia geomtrica seria:
G =
4
5 , 8 7 5 , 4 3 =
4
25 , 803
G 5,32

E a harmnica seria:
H =
5 , 8
1
7
1
5 , 4
1
3
1
4
+ + +

H 4,90

b) Supondo que os pesos para as notas bimestrais sejam 1, 2, 3 e 4.

Agora os pesos dos quatro bimestres totalizam 10, portanto a mdia aritmtica final ser:
X=
10
5 , 8 4 7 3 5 , 4 2 3 1 + + +
=
10
67

X= 6,7

A geomtrica ser:
G =
10
4 3 2 1
5 , 8 7 5 , 4 3
G 6,36
E a harmnica:
30
H =
5 , 8
4
7
3
5 , 4
2
3
1
10
+ + +

H 5,96

c) Supondo que os pesos sejam, respectivamente, 30%, 25%, 25% e 20%.
Agora os pesos so dados em termos relativos (percentuais) e somam, portanto, 1.

O clculo da mdia aritmtica ser, ento:
X = 0,33 + 0,254,5 + 0,257+ 0,28
X = 5,475
O da mdia geomtrica ser:
G = 3
0,3
4,5
0,25
7
0,25
8,5
0,2

G 5,05

E a harmnica:
H =
2 , 0
5 , 8
1
25 , 0
7
1
25 , 0
5 , 4
1
3 , 0
3
1
1
+ + +


H 4,66

Exemplo 2.2.1.2 (dados agrupados)
Foram medidas as alturas de 30 pessoas que esto mostradas na tabela abaixo (as medidas so em
centmetros).
159 168 172 175 181
161 168 173 176 183
162 169 173 177 185
164 170 174 178 190
166 171 174 179 194
167 171 174 180 201
Agrupe estas pessoas em classes de 10cm e faa o histograma correspondente.

Para agrupar em classes de 10cm, o mais lgico (mas no obrigatrio) seria agrupar em: de
150 a 160; de 160 a 170, e assim sucessivamente. O problema , onde incluir aqueles que tm, por
exemplo, exatamente 170 cm? Na classe de 160 a 170 ou na de 170 a 180? H que se escolher uma,
mas esta escolha completamente arbitrria. Vamos optar por incluir sempre o limite inferior, por
exemplo, a classe de 170 a 180 inclui todas as pessoas com 170 cm (inclusive) at 180 cm
(exclusive)
13
, para o que utilizaremos a notao [170; 180[.

Ento, para os valores da tabela acima, teremos:
[150; 160[ 1
[160; 170[ 8
[170; 180[ 14
[180; 190[ 4
[190; 200[ 2

13
Em linguagem de conjuntos equivaleria a dizer que o conjunto fechado em 170 e aberto em 180.
31
[200; 210[ 1

Um histograma uma maneira grfica de representar este agrupamento, utilizando-se de
retngulos cuja altura proporcional ao nmero de elementos em cada classe.

O histograma para o agrupamento realizado mostrado na figura abaixo:
0
2
4
6
8
10
12
14
16
150 160 170 180 190 200 210

Exemplo 2.2.1.3
A partir dos dados agrupados do exemplo anterior, calcule a mdia
14
.

Utilizaremos como dados os agrupamentos, como se (e freqentemente isso acontece) no
tivssemos conhecimento dos dados que originaram este agrupamento.

J que a nossa nica informao o agrupamento (seja pela tabela, seja pelo histograma),
no possvel saber como os dados se distribuem pelo agrupamento, ento a melhor coisa que
podemos fazer (na falta de outra opo) supormos que os dados se distribuem igualmente por cada
agrupamento, de modo que, por exemplo, no agrupamento que vai de 170 a 180 como se
tivssemos 14 pessoas com altura de 175 cm.

Em outras palavras, tomaremos a mdia de cada classe para o clculo da mdia total.
Obviamente, a no ser por uma grande coincidncia, este no ser o valor correto da mdia, mas
uma aproximao e, de novo, o melhor que se pode fazer dada a limitao da informao. Ento,
temos:

X=
30
1 205 2 195 4 185 14 175 8 165 1 155 + + + + +

X 175,33 cm

Repare que, o valor correto da mdia, tomando-se os 30 dados originais, de 174,5 cm.

2.2.2 Moda
Moda o elemento de maior freqncia, ou seja, que aparece o maior nmero de vezes
15
. No
exemplo das idades na classe com 20 alunos, a moda 22 anos, que a idade mais freqente neste
conjunto.
Pode haver, entretanto, mais de uma moda em um conjunto de valores. Se houver apenas
uma moda, a distribuio chamada de unimodal. Se houver duas, bimodal.

14
Quando se fala mdia, sem especificar, supe-se estar se tratando da mdia aritmtica.
15
Assim como na linguagem cotidiana dizemos que uma roupa est na moda quando ela usada pela maioria das
pessoas.
32

2.2.3 Mediana
Mediana o valor que divide um conjunto ao meio. Por exemplo, num grupo de 5 pessoas
com alturas de 1,60m, 1,65m, 1,68m, 1,70m e 1,73m, a mediana 1,68m, pois h o mesmo nmero
de pessoas mais altas e mais baixas (duas).
A mediana apresenta uma vantagem em relao mdia: no grupo acima, a mdia 1,672m,
ento, neste caso, tanto a mdia como a mediana nos do uma idia razovel do grupo de pessoas
que estamos considerando. Se, no entanto, retirarmos a pessoa de 1,73m, substituindo-a por outra de
2,10m, a mdia passar a ser 1,746m.
Neste caso, a mdia no seria muito representativa de um grupo que, afinal de contas, tem
apenas uma pessoa acima de 1,70m. A mediana, entretanto, fica inalterada.
A mediana, ao contrrio da mdia, no sensvel a valores extremos.
Seguindo a mesma lgica, os quartis so os elementos que dividem o conjunto em quatro
partes iguais. Assim, o primeiro quartil aquele elemento que maior do que
4
1
dos elementos e,
portanto, menor do que
4
3
dos mesmos; o segundo quartil (que coincide com a mediana) aquele
que divide,
4
2
para cima
4
2
para baixo; finalmente o terceiro quartil aquele elemento que tem
4
3
abaixo e
4
1
acima.
Da mesma forma, se dividirmos em 8 pedaos iguais, teremos os octis, decis se dividirmos
em 10, e, mais genericamente os percentis: o percentil de ordem 20 aquele que tem abaixo de si
20% dos elementos, e 80% acima.

Exemplo 2.2.3.1
A partir da tabela apresentada no exemplo 2.2.1.1, determine:
a) a moda
O elemento que aparece mais vezes (3) 174 cm, portanto:
Mo = 174 cm

E s h uma moda, o que no necessrio que ocorra. No caso deste exemplo, bastaria que
houvesse mais uma pessoa com 168 cm de altura para que esta distribuio se tornasse bimodal.

b) a mediana
H 30 dados. Do menor para o maior, o 15
o
dado , pela ordem, 173 cm, enquanto o 16
o

174 cm. Como a mediana deve ter 15 elementos abaixo e 15 acima, tomaremos o ponto mdio entre
o 15
o
e o 16
o
dado:
Md =
2
174 173 +

Md = 173,5 cm

c) o 1
o
e 2
o
quartis.
Devemos dividir o total de elementos por 4, o que d 7,5. Como o 7
o
e o 8
o
elemento, indo
do menor para o maior, so iguais, temos:
1
o
quartil = 168 cm
33

O 2
o
quartil coincide com a mediana:
2
o
quartil = Md = 173,5 cm

2.3. Medidas de disperso
muito comum ouvirmos: em estatstica, quando uma pessoa come dois frangos enquanto
outra passa fome, na mdia ambas comem um frango e esto, portanto, bem alimentadas; ou, se
uma pessoa est com os ps em um forno e a cabea em um freezer, na mdia, experimenta uma
temperatura agradvel. claro que estas situaes tem que ser percebidas (e so!) pela estatstica.
Para isso que servem as medidas de disperso, isto , medidas de como os dados esto agrupados:
mais ou menos prximos entre si (menos ou mais dispersos).


2.3.1 Varincia
Uma das medidas mais comuns de disperso a varincia. Tomemos o exemplo dos frangos
para trs indivduos. Na situao 1 h uma diviso eqitativa enquanto na situao 2, um indivduo
come demais e outro passa fome.
Situao 1 Situao 2
indivduo1 1 2
indivduo2 1 1
indivduo3 1 0

claro que, em ambas as situaes, a mdia 1 frango por indivduo. Para encontrar uma
maneira de distinguir numericamente as duas situaes, uma tentativa poderia ser subtrair a mdia
de cada valor:
Situao 1 Situao 2
indivduo1 1 - 1 = 0 2 1 = 1
indivduo2 1 - 1 = 0 1 1 = 0
indivduo3 1 - 1 = 0 0 - 1 = -1
MDIA 0 0

O que no resolveu muito, pois a mdia dos desvios em relao mdia
16
(valor menos a
mdia) continua igual. Mais precisamente, ambas so zero. Isto ocorre porque, na situao 2, os
valores abaixo da mdia (que ficam negativos) compensam os que ficam acima da mdia
(positivos).
Para se livrar deste inconveniente dos sinais podemos elevar todos os valores encontrados ao
quadrado.
Situao 1 Situao 2
indivduo1 (1 - 1)
2
= 0 (2 - 1)
2
= 1
indivduo2 (1 - 1)
2
= 0 (1 - 1)
2
= 0

16
Alis, valeria a pena lembrar que sempre a soma dos desvios em relao mdia zero.
34
indivduo3 (1 - 1)
2
= 0 (0 - 1)
2
= 1
MDIA 0 2/3

E, desta forma, conseguimos encontrar uma medida que distingue a disperso entre as duas
situaes.
Na situao 1, no h disperso todos os dados so iguais a varincia zero.
Na situao 2, a disperso (obviamente) maior encontramos uma varincia de 2/3
0,67.
Basicamente, encontramos a varincia subtraindo todos os elementos do conjunto pela
mdia, elevamos o resultado ao quadrado e tiramos a mdia dos valores encontrados. Portanto, a
varincia de um conjunto de valores X, que chamaremos de var(X) ou
2
X
ser dada por:
var(X)
2
X
=
(X - X) + (X - X) +...+(X - X)
n
1
2
2
2
n
2

Ou ainda:
var(X) =
1
n
(X - X)
i
2
i=1
n



Varincia , portanto, uma medida de disperso, que lembra quadrados. Este ltimo
aspecto, alis, pode ser um problema na utilizao da varincia.
Na situao 2 do exemplo anterior (que tratava de frangos), encontramos uma varincia de
0,67... frangos ao quadrado? Sim, porque elevamos, por exemplo, 1 frango ao quadrado. Da
mesma forma que, na geometria, um quadrado de lado 2m tem rea de (2m)
2
= 4m
2
, temos que (1
frango)
2
= 1 frango
2
! E assim tambm valeria para outras variveis: renda medida em reais ou
dlares teria varincia medida em reais ao quadrado ou dlares ao quadrado.
Alm da estranheza que isto poderia causar, dificulta, por exemplo uma comparao com a
mdia.
Para eliminar este efeito, utiliza-se uma outra medida de disperso que , na verdade, uma
pequena alterao da varincia.

Exemplo 2.3.1.1 (varincia a partir de dados agrupados)
Utilizando o agrupamento do exemplo 2.2.1.2, determine a varincia.

A varincia calculada com o mesmo princpio utilizado para a mdia, ou seja, tomando-se
o valor mdio de cada classe como representativo da mesma. Assim:

var(X) =
30
1
[(155-175,33)
2
1+(165-175,33)
2
8+(175-175,33)
2
14+(185-175,33)
2
4+(195-175,33)
2
2+(205-175,33)
2
1]
var(X) 108,89
Mais uma vez, uma aproximao. Verifique que o valor correto da varincia (utilizando os
dados iniciais) de 86,92.
2.3.2. Desvio padro
35
Para eliminar o efeito dos quadrados existente na varincia basta extrairmos a raiz quadrada.
Chamaremos de desvio padro da varivel X (dp(X) ou
X
):
dp(X)
X
= var(X)
Portanto, o desvio padro na situao 2 do exemplo dos frangos ser dado por:
dp(X) = 0 67 , 0,8 frangos
Estando na mesma unidade dos dados (e da mdia), no caso especfico, frangos, possvel
comparar o desvio padro com a mdia: neste caso, o desvio padro 80%
17
da mdia.
Note-se que, se o objetivo a comparao entre dois conjuntos de dados, tanto faz usar a
varincia ou o desvio padro. Se a varincia maior, o desvio padro tambm maior (e vice-
versa) necessariamente.

2.3.3. Outra maneira de calcular a varincia
Se, a partir da definio de varincia, desenvolvermos algebricamente, obteremos:
var(X) =
1
n
(X - X)
i
2
i=1
n


var (X) =
1
n
(X - 2X X + X
i
2
i
2
i=1
n
)


var(X) =
1
n
X
i
2
i=1
n

-
1
n
2X X
i
i=1
n

+
1
n
X
2
i=1
n


var(X) =
1
n
X
i
2
i=1
n

- 2X
1
n
X
i
i=1
n

+
1
n
nX
2

var(X) =
1
n
X
i
2
i=1
n

- 2
2
X + X
2

var(X) =
1
n
X
i
2
i=1
n

- X
2

Ou, em outras palavras:
var(X) = mdia dos quadrados - quadrado da mdia
Utilizando este mtodo para calcular a varincia da situao 2 do exemplo dos frangos:
Situao 2 ao quadrado
indivduo1 2 4
indivduo2 1 1
indivduo3 0 0
MDIA 1 5/3

var(X) = mdia dos quadrados - quadrado da mdia = 5/3 - 1
2
= 2/3

17
Esta proporo, que obtida atravs da diviso do desvio padro pela mdia, tambm chamada de coeficiente de
variao.
36
Encontramos o mesmo valor.
Tomemos agora o exemplo de um aluno muito fraco, que tem as seguintes notas em trs
disciplinas:
aluno A notas ao quadrado
economia 3 9
contabilidade 2 4
administrao 4 16
matemtica 1 1
MDIA 2,5 7,5
Para este aluno, temos:
X = 2,5
var(X) = 7,5 - 2,5
2
= 1,25
dp(X) = 1,12
Suponha agora um aluno B, mais estudioso, cujas notas so exatamente o dobro:
aluno B notas ao quadrado
economia 6 36
contabilidade 4 16
administrao 8 64
matemtica 2 4
MDIA 5 30

Para o aluno B, os valores so:
X = 5
Isto , se os valores dobram, a mdia dobra.
var(X) = 30 - 5
2
= 5 = 41,25
Ou seja, se os valores dobram, a varincia quadruplica. Isto porque varincia lembra
quadrados. Em outras palavras, vale a relao
18
:
var(aX) = a
2
var(X) (2.3.3.1)
dp(X) = 2,24
Isto , o desvio padro dobra, assim como a mdia. Vale, portanto, a relao:
dp(aX) = a.dp(X) (2.3.3.2)
Agora tomemos um aluno C, ainda mais estudioso, que tira 5 pontos a mais do que o aluno
A em todas as matrias:

aluno C notas ao quadrado

18
Veja demonstrao no apndice
37
economia 8 64
contabilidade 7 49
administrao 9 81
matemtica 6 36
MDIA 7,5 57,5
Para este aluno teremos:
X = 7,5
Se o aluno tira 5 pontos a mais em cada disciplina, a mdia tambm ser de 5 pontos a mais
var(X) = 57,5 - 7,5
2
= 1,25
dp(X) = 1,12
A varincia e o desvio padro so os mesmos do aluno A. Isto porque so medidas de
disperso se somarmos o mesmo valor a todas as notas de A elas continuaro dispersas,
espalhadas da mesma forma, apenas mudaro de posio. Valem portanto as relaes
19
:
var(X+a) = var(X) (2.3.3.3)
dp(X+a) = dp(X) (2.3.3.4)

2.3.4. Relaes entre variveis covarincia
A covarincia pode ser entendida como uma varincia conjunta entre duas variveis.
Enquanto a varincia sai de quadrados (da varivel menos a mdia), a covarincia definida atravs
de produtos:
cov(X,Y) =
1
n
(X - X)(Y - Y)
i i
i=1
n


Que, assim como a varincia, pode ser calculada de outra forma:
cov(X,Y) = mdia dos produtos - produto da mdia (2.3.4.1)
Vejamos um exemplo do consumo e da taxa de juros de um pas:
Ano consumo (X) taxa de juros (Y) produto (XY)
1 800 10 8000
2 700 11 7700
3 600 13 7800
4 500 14 7000
MDIA 650 12 7625

cov(X,Y) = 7625 - 650x12 = -175

E agora entre o consumo e a renda:


19
Cujas demonstraes tambm podem ser vistas no apndice.
38

39
tabela 2.3.4.1
Ano consumo (X) renda (Y) produto (XY)
1 600 1.000 600.000
2 700 1.100 770.000
3 800 1.300 1.040.000
4 900 1.400 1.260.000
MDIA 750 1.200 917.500

cov(X,Y) = 917.500 - 750x1.200 = 17.500
A primeira diferena que se nota entre os dois ltimos exemplos o sinal da covarincia em
cada um deles. A covarincia negativa entre o consumo e a taxa de juros e positiva entre o
consumo e a renda. Isto porque consumo e renda caminham na mesma direo (quando aumenta
um, aumenta outro e vice-versa) e quando isto ocorre o sinal da covarincia positivo.
J o consumo e a taxa de juros se movem em direes opostas (quando aumenta um, cai
outro e vice-versa), assim sendo, o sinal da covarincia negativo.
A covarincia entre duas variveis influenciada pela importncia que uma varivel tem
sobre a outra, de tal modo que duas variveis independentes tm covarincia zero
20
.
Entretanto, no possvel concluir, pelos valores obtidos, que a renda mais importante do
que a taxa de juros para a determinao do consumo s porque o valor da covarincia entre o
consumo e a renda bem maior do que o entre o consumo e a taxa de juros. Isto porque a
covarincia tambm afetada pelos valores das variveis. A covarincia entre consumo e renda
maior tambm porque os valores da renda so bem maiores que os da taxa de juros.

2.3.5 Coeficiente de correlao

O coeficiente de correlao obtido retirando-se o efeito dos valores de cada uma das
variveis da covarincia. Isto feito dividindo-se esta ltima pelos desvios padro das variveis.
O coeficiente de correlao dado, ento, por:
corr(X,Y)
XY
=
) dp(X).dp(Y
Y) cov(X,

No exemplo do consumo e da renda os desvios padro so, respectivamente 111,8 e 158,1
(verifique!). O coeficiente de correlao ser dado por:


XY
=
17 500
1118 158 1
.
, ,
= 0,99
O sinal do coeficiente de correlao o mesmo da covarincia (e deve ser interpretado da
mesma forma).

20
Mas a recproca no verdadeira.
40
Os seus valores variam apenas no intervalo de -1 a 1 e podem sem interpretados como um
percentual
21
. Portanto, um valor de 0,99 (quase 1) indica que a renda muito importante para a
determinao do consumo.
O valor de 1 (ou -1) para o coeficiente de correlao s encontrado para duas variveis que
tenham uma relao exata e dada por uma funo do 1
o
grau. Por exemplo, o nmero de cadeiras e
de assentos em uma sala de aula; o nmero de pessoas e dedos da mo (supondo que no haja
indivduos polidctilos, acidentados ou com defeitos congnitos entre estas pessoas); a rea til e a
rea total em apartamentos de um mesmo edifcio.
Valores muito pequenos (em mdulo) indicam que a varivel tem pouca influncia uma
sobre a outra.

2.3.6. Outras propriedades.
No exemplo do consumo e da taxa de juros, multipliquemos o consumo por 3 e a taxa de
juros por 2:
ano
3X
2Y produto
1 2400 20 48000
2 2100 22 46200
3 1800 26 46800
4 1500 28 42000
MDIA 1950 24 45750

A nova covarincia ser dada por:
cov(3X,2Y) = 45750 - 1950x24 = -1050 = 6(-175)
Ou seja, o sxtuplo da covarincia entre as variveis originais. A propriedade apresentada
aqui pode ser assim resumida:
cov(aX,bY) = a.b.cov(X,Y) (2.3.6.1)

21
Com ressalvas, pois ele calculado sem considerar a influncia de outras variveis.
41
Tomemos agora duas variveis X e Y:
X Y X
2
Y
2
XY
1
0
1 100 1 10
1
2
3 144 9 36
1
8
2 324 4 36
2
0
2 400 4 40
MDIA 1
5
2 242 4,5 30,5

Podemos calcular:
var(X) = 242-15
2
= 17
var(Y) = 4,5 -2
2
= 0,5
cov(X,Y) = 30,5 - 15x2 = 0,5

Vamos inventar duas novas variveis: X+Y e X-Y
X+Y X-Y (X+Y)
2
(X-Y)
2

11 9 121 81
15 9 225 81
20 16 400 256
22 18 484 324
MDIA 17 13 307,5 185,5

Ento temos:
var(X+Y) = 307,5 - 17
2
= 18,5
var(X-Y) = 185,5 - 13
2
= 16,5

Note que poderamos obt-las dos valores anteriores da seguinte forma:
var(X+Y) = 17 + 0,5 + 20,5 =18,5
var(X-Y) = 17 + 0,5 - 20,5 = 16,5
Generalizando, vem
22
:
var(X+Y) = var(X) + var(Y) + 2cov(X,Y) (2.3.6.2)
var(X-Y) = var(X) + var(Y) - 2cov(X,Y) (2.3.6.3)

22
Note que muito semelhante forma do produto notvel (a+b)
2
= a
2
+ b
2
+ 2ab, fazendo a varincia anloga ao
quadrado e a covarincia anloga ao produto.
42

Exerccios
1. Num sistema de avaliao h duas provas (com notas variando de 0 a 10) e, para ser aprovado, o
aluno deve ter mdia final 5. Qual a nota mnima que preciso tirar na primeira prova para ter
chance de ser aprovado, supondo:
a) mdia aritmtica ponderada, com a primeira prova tendo peso 2 e a segunda 1.
b) mdia geomtrica (simples).
c) mdia harmnica (simples).

2. Dados o conjunto {2; 3; 5; 8; 12}, calcule as mdias aritmtica, geomtrica e harmnica,
supondo:
a) pesos iguais.
b) pesos 9, 7, 5, 3 e 1
c) pesos 10%, 20%, 30%, 25%, 15%

3. A partir dos dados do exemplo 2.2.1.2:
a) agrupe os dados em classes de 5 cm.
b) calcule a mdia e a varincia.
c) comente os resultados obtidos no item anterior.
d) trace o histograma correspondente.

4. Com base nos histogramas abaixo, calcule a mdia, a varincia e o desvio padro.
a)
0
10
20
30
40
50
10 12 14 16 18 20 22 24

b)
0
2
4
6
8
10
12
14
20 25 30 35 40 45

5. Calcule o coeficiente de correlao entre o consumo e a taxa de juros da tabela 2.3.4.1


6. Para os dados das tabelas abaixo, calcule:
43
i) a varincia e o desvio-padro de X.
ii) a varincia e o desvio-padro de Y.
iii) a covarincia entre X e Y.
iv) o coeficiente de correlao entre X e Y.

a)
X Y
20 12
30 13
40 14
45 13
36 15
27 11

b)
X Y
114 55
112 61
109 77
123 66
111 81
99 95
121 75
113 77
98 90
103 87

7. Considere duas variveis aleatrias independentes, X e Y, cujas mdias so 10 e 12,
respectivamente e suas varincias so 25 e 16. Usando as abreviaes abaixo:
m(X) = mdia aritmtica de X.
var(X) = varincia de X.
dp(X) = desvio-padro de X.
Determine:
a) m(X + 5)
b) m(5Y)
c) m(3X 4Y + 7)
d) var(2X)
e) var(Y + 6)
f) var(4X) - var(2Y + 12)
g) dp(5X) + dp(6Y)
h) dp(3X - 5) - dp(4Y - 8)

8. Dadas as variveis aleatrias X, Y e Z, sendo:
var(X) = 4 cov(Y,Z) = -3
var(Y) = 9 X e Y so independentes
var(Z) = 1 X e Z so independentes

Calcule:
a) var(X+Y)
b) var(X-Y)
c) var(2X+3Y)
d) var(Y+Z)
44
e) var(2Y-3Z+5)
f) var(4X-2)
g) corr(Z,Y)
h) cov(4Z,5Y)
i) cov(2Z,-2Y)
j) corr(1,5Z; 2Y)

9. O coeficiente de correlao entre X e Y 0,6. Se W = 3 + 4X e Z = 2 2Y, determine o
coeficiente de correlao entre W e Z.
10. O coeficiente de correlao entre X e Y . Se W = a + bX e Z = c + dY, determine o
coeficiente de correlao entre W e Z
45
Apndice 2.B - Demonstraes
2.B.1 Demonstrao da expresso 2.3.3.1
var(aX) = a
2
var(X)
var(aX) =
1
n

n
1 = i
2
i
) X - X ( a a
var(aX) =
1
n
| |

n
1 = i
2
i
) X - (X a
var(aX) =
1
n

n
1 = i
2
i
2
) X - (X a
var(aX) = a
2
1
n
(X - X)
i
2
i=1
n


var(aX) = a
2
var(X) (c.q.d)

2.B.2 Demonstrao da expresso 2.3.3.2
dp(aX) = a.dp(X)
dp(aX) = X) var(a
dp(aX) = var(X)
2
a
dp(aX) = var(X) a
dp(aX) = a.dp(X) (c.q.d.)

2.B.3 Demonstrao da expresso 2.3.3.3
var(X+a) = var(X)
var(X+a) =
1
n
| |

+
n
1 = i
2
i
) X ( - + X a a
var(X+a) =
1
n
| |

n
1 = i
2
i
) - X - + X a a
var(X+a) =
1
n
(X - X)
i
2
i=1
n


var(X+a) = var(X) (c.q.d.)

2.B.4 Demonstrao da expresso 2.3.3.4
dp(X+a) = dp(X)
dp(X+a) = ) + var(X a
dp(X+a) = var(X)
46
dp(X+a) = dp(X) (c.q.d.)

2.B.5 Demonstrao da expresso 2.3.4.1
cov(X,Y) = mdia dos produtos - produto da mdia
cov(X,Y) =
1
n
(X - X)(Y - Y)
i i
i=1
n


cov(X,Y) =
1
n
(X Y - X Y- XY + XY)
i i i i
i=1
n


cov(X,Y) =
1
n
X Y
i i
i=1
n

-
1
n
X Y
i
i=1
n

-
1
n
XY
i
i=1
n

+
1
n
XY
i=1
n


cov(X,Y) =
1
n
X Y
i i
i=1
n

- Y
1
n
X
i
i=1
n

- X
1
n
Y
i
i=1
n

+
1
n
n XY
cov(X,Y) =
1
n
X Y
i i
i=1
n

- XY- XY+XY
cov(X,Y) =
1
n
X Y
i i
i=1
n

- XY
cov(X,Y) = mdia dos produtos - produto da mdia (c.q.d.)

2.B.6 Demonstrao da expresso 2.3.6.1
cov(aX,bY) = a.b.cov(X,Y)
cov(aX,bY) =
1
n

n
1 = i
i i
) Y - Y )( X - X ( b b a a
cov(aX,bY) =
1
n

n
1 = i
i i
) Y - (Y ) X - (X b a
cov(aX,bY) = a.b.
1
n
(X - X)(Y - Y)
i i
i=1
n


cov(aX,bY) = a.b.cov(X,Y)

2.B.7 Demonstrao da expresso 2.3.6.2
var(X+Y) = var(X) + var(Y) + 2cov(X,Y)
var(X+Y) =
1
n
(X Y )
i i
2
i=1
n
+

- ( ) X Y +
2

var(X+Y) =
1
n
(X Y + 2X Y )
i i
2
i i
i=1
n
2
+

- ( ) X Y XY
2 2
2 + +
var(X+Y) =(
1
n
X
i
i=1
n
2

- X
2
) + (
1
n
Y
i
2
i=1
n

- Y
2
) + 2(
1
n
X Y
i i
i=1
n

- XY)
47
var(X+Y) = var(X) + var(Y) + 2cov(X,Y) (c.q.d.)

2.B.8 Demonstrao da expresso 2.3.6.3
var(X-Y) = var(X) + var(Y) - 2cov(X,Y)
var(X-Y) = var[X+(-Y)]
var(X-Y) = var(X) + var(-Y) + 2cov(X,-Y)
var(X-Y) = var(X) + var(Y) - 2cov(X,Y) (c.q.d.)
48
49
CAPTULO 3 DISTIBUIO DE PROBABILIDADE

Suponha que voc compra uma ao de uma companhia ao preo de R$ 20 e que, aps um
ms, pretende vend-la. Suponha ainda que, por algum motivo qualquer, ao final de um ms, esta
ao s pode estar valendo os mesmos R$ 20, com probabilidade de 50%; ter cado para R$ 15, com
probabilidade de 30%; ou ainda, ter subido para R$ 25, com probabilidade de 20%. S estes trs
valores so possveis, tendo em vista que as respectivas probabilidades somam exatamente 100%.

Temos a uma distribuio de probabilidade associada ao preo da ao, isto , cada um dos
valores possveis desta ao (s 3, neste caso) tem uma probabilidade correspondente. Como
definimos no captulo anterior, isto caracteriza o preo da ao como uma varivel aleatria.

E, como o conjunto de valores do preo da ao um conjunto discreto, esta uma
distribuio de probabilidade discreta ou, em outras palavras, uma distribuio de probabilidade
de uma varivel aleatria discreta. Poderamos ter uma distribuio contnua (o que, alis,
provavelmente seria mais adequado considerando-se que se trata do preo de uma ao), mas isto
fica para mais adiante no captulo. Por enquanto trataremos de distribuies discretas.


3.1 Esperana Matemtica

Uma pessoa que compre a ao citada acima pode sair ganhando, pode perder ou at ficar
na mesma, dependendo do que acontea com o preo da ao. Ento, na mdia, d na mesma, certo?

Errado! A probabilidade de que a ao caia maior do que a ao suba. O valor mdio do
preo da ao :

150,3 + 200,5 + 250,2 = R$ 19,50

O valor mdio 50 centavos abaixo do preo inicial da ao, o que significa que, em mdia,
quem comprar esta ao sair perdendo.

Mas este um valor mdio esperado. uma mdia do que pode acontecer com a varivel,
baseado na sua distribuio de probabilidade. o que chamamos de Esperana Matemtica ou,
simplesmente, Esperana.

A Esperana de uma varivel aleatria discreta X, E(X), pode ser definida, ento, como:

E(X) = X
1
P(X
1
) + X
2
P(X
2
) +...+ X
n
P(X
n
) =

=
n
1 i
i i
) P(X X

A probabilidade aqui tem o mesmo papel da freqncia relativa do captulo anterior. A
diferena que, quando falamos em freqncia relativa usualmente nos referimos a uma quantidade
obtida, enquanto probabilidade se refere, obviamente, a propores que a varivel pode assumir
determinado valor
23
.


23
A diferena ficar mais clara no captulo 5 quando falarmos em valores amostrais e populacionais. Podemos imaginar
a freqncia relativa como sendo o valor amostral, enquanto a probabilidade o valor populacional. Ou ainda,
lembrando o captulo 1, pela abordagem freqentista, a probabilidade o limite da freqncia relativa quando temos um
nmero muito grande de experimentos.
50
Alis, podemos pensar em P(X) como uma funo que associa o valor de X sua
probabilidade, que chamada de funo de probabilidade.

Uma outra funo importante que pode ser associada s probabilidades a funo que, dado
o valor de X, nos fornece a probabilidade acumulada, e que chamamos funo de distribuio
acumulada, ou simplesmente, funo de distribuio, que representamos por F(X).

Se X for o preo da ao que falamos no incio do captulo, ento X s pode assumir 3
valores, isto , 15, 20 e 25. F(15) seria a probabilidade do preo da ao ser, no mximo, 15, o que
exatamente 30%. F(20) a probabilidade de ser at 20 que, neste caso, equivale probabilidade de
ser 15 ou 20, que 80%. Finalmente, F(25) a probabilidade de ser, no mximo, 25, isto , de ser
15, 20, ou 25 que , obviamente 100%. Esta uma caracterstica das funes de distribuio, o
ltimo valor
24
da funo 1 (100%).

0%
10%
20%
30%
40%
50%
60%
15 20 25
P(X)

Funo de probabilidade


0%
20%
40%
60%
80%
100%
120%
15 20 25
F(X)

Funo distribuio acumulada


Nos grficos acima o formato de histograma foi utilizado para uma melhor visualizao, no
sendo, evidentemente, obrigatrio, embora seja adequado para uma varivel aleatria discreta.

Exemplo 3.1.1
Num sorteio de nmeros inteiros de 1 a 5, a probabilidade de um nmero ser sorteado
proporcional a este nmero (isto , a probabilidade do nmero 5 ser sorteado cinco vezes a
probabilidade do nmero 1 ser sorteado). Qual a probabilidade de cada nmero ser sorteado.

24
Ou o limite para quando X tende ao infinito.
51

Se chamarmos a probabilidade do nmero 1 ser sorteado (P(1)) de uma constante
desconhecida A, temos que:

P(2) = 2A
P(3) = 3A
P(4) = 4A
P(5) = 5A

Ora, sabemos que a soma de todas as probabilidades, sendo os eventos mutuamente
exclusivos, tem que ser igual a 1:

P(1) + P(2) + P(3) + P(4) + P(5) = 1
A + 2A + 3A + 4A + 5A = 1
15 A = 1
A =
15
1


Portanto:
P(1) = 1/15
P(2) = 2/15
P(3) = 3/15 = 1/5
P(4) = 4/15
P(5) = 5/15 = 1/3

Voltando Esperana, ela uma mdia ponderada pelas probabilidades. Valem portanto,
para a Esperana, as mesmas propriedades da mdia:

E(aX + b) = aE(X) + b
E(X + Y) = E(X) + E(Y)

Podemos, inclusive, escrever a varincia em termos da Esperana. Como a varincia
definida como a mdia dos quadrados dos desvios em relao mdia, temos que:

var(X) = E[X E(X)]
2


Ou ainda, podemos calcular a varincia como sendo a mdia dos quadrados menos o
quadrado da mdia, portanto:

var(X) = E(X
2
) [E(X)]
2


Da mesma forma, a covarincia entre duas variveis pode ser escrita utilizando a esperana:

cov(X,Y) = E[(X-E(X))(Y-E(Y)] = E(XY) E(X)E(Y)


Exemplo 3.1.2
Uma ao comprada por R$ 10 pode assumir, aps 30 dias, os seguintes valores: R$ 5, com
probabilidade 20%; R$ 10, com probabilidade 30%; R$ 16, com probabilidade 25% e R$ 20, com
probabilidade 25%. Determine o valor esperado da ao e a sua varincia.

O valor esperado (esperana) da ao ser dado por:
52
E(X) = 50,2 + 100,3 + 160,25 + 200,25
E(X) = 2,5 + 3 + 4 + 5 = 14,5

Como o preo da ao foi de R$ 10, o lucro mdio (esperado) desta ao R$ 4,50.

Quanto varincia:

E(X
2
) = 5
2
0,2 + 10
2
0,3 + 16
2
0,25 + 20
2
0,25
E(X
2
) = 250,2 + 1000,3 + 2560,25 + 4000,25
E(X
2
) = 12,5 + 30 + 64 + 100 = 206,5

var(X) = E(X
2
) [E(X)]
2

var(X) = 206,5 14,5
2

var(X) = 210,25

Repare que a varincia, ao medir a disperso dos possveis valores da ao, uma medida do
risco da ao.

3.2 Algumas distribuies discretas especiais

H distribuies que, por sua importncia, merecem um destaque especial e at um nome.
Trataremos de algumas delas agora.

3.2.1 Distribuio uniforme discreta

A distribuio uniforme aquela em que todos os elementos tm a mesma probabilidade de
ocorrer. Imagine, por exemplo o marcador das horas em um relgio digital Qual a probabilidade de
que, ao olhar para ele num momento qualquer do dia, ele esteja mostrando um particular nmero?
Obviamente, 1/12 para qualquer nmero, considerando um mostrador de doze horas, ou 1/24 para
um mostrador de vinte e quatro horas.

Tambm igual a probabilidade de ocorrncia de um nmero qualquer em um dado no
viciado, 1/6. Tambm se trata de uma distribuio uniforme. O grfico da funo de probabilidade
para o caso do dado mostrado abaixo (de novo, em forma de histograma):

1 2 3 4 5 6
P(X)
1/6

Exemplo 3.2.1.1
Joga-se um dado uma nica vez. Qual o valor esperado do nmero obtido? E a sua varincia?

O valor esperado (esperana) ser dado por:

53
E(X) = 1
6
1
+ 2
6
1
+ 3
6
1
+ 4
6
1
+ 5
6
1
+ 6
6
1
=
6
21
= 3,5

Repare que, no por coincidncia:

E(X) = 3,5 =
2
6 1+

Ou seja, no caso de uma distribuio uniforme discreta, a mdia a prpria mdia aritmtica
dos valores extremos (desde que, claro, estes valores cresam num intervalo constante).

E a varincia ser:

E(X
2
) = 1
2

6
1
+ 2
2

6
1
+ 3
2

6
1
+ 4
2

6
1
+ 5
2

6
1
+ 6
2

6
1

E(X
2
) = 1
6
1
+ 4
6
1
+ 9
6
1
+ 16
6
1
+ 25
6
1
+ 36
6
1
=
6
91


var(X) = E(X
2
) [E(X)]
2

var(X) =
6
91

2
6
21
|
.
|

\
|
=
36
105
2,92


3.2.2 Distribuio de Bernouilli

A distribuio de Bernouilli se caracteriza pela existncia de apenas dois eventos,
mutuamente exclusivos, que denominaremos de sucesso e fracasso, num experimento que
realizado uma nica vez. Se a probabilidade de sucesso p, a probabilidade de fracasso ,
evidentemente
25
, 1 p.

uma distribuio deste tipo o lanamento de uma moeda uma nica vez. Se apostamos na
cara, sendo esta ento o sucesso temos que a probabilidade de sucesso p = 1/2 e a
probabilidade de fracasso (coroa) 1 p = 1/2.

Da mesma forma se, num lanamento de uma dado apostamos num nmero, digamos, o 3,
este ser o sucesso, sendo qualquer um dos outros cinco nmeros fracasso. Neste caso, a
probabilidade de sucesso p = 1/6 e a probabilidade de fracasso 1 p = 5/6.

H outros exemplos: digamos que a inteno de voto para um candidato 30%. Se, ao
escolhermos um eleitor ao acaso e definimos como sucesso se este eleitor pretende votar no
referido candidato, a probabilidade de sucesso ser p = 0,3 e a probabilidade de fracasso ser 1
p = 0,7; da mesma forma, se h 5% de peas defeituosas em um lote, definindo como sucesso
escolher, ao acaso, uma pea que no seja defeituosa, a probabilidade ser p = 0,95, enquanto a
probabilidade de fracasso ser 1 p = 0,05.

Exemplo 3.2.2.1
No caso da cara ou coroa, atribuindo o valor 1 para o sucesso e 0 para o fracasso, determine a
mdia e a varincia do resultado aps uma jogada.

A mdia ser dada por:

25
J que s existem estes dois eventos e eles so mutuamente exclusivos.
54

E(X) = 1
2
1
+ 0
2
1
=
2
1
= 0,5

E a varincia:

E(X
2
) = 1
2

2
1
+ 0
2

2
1
=
2
1
= 0,5
var(X) = E(X
2
) [E(X)]
2
= 0,5 0,5
2
= 0,25

Exemplo 3.2.2.2
No caso do dado, em que se aposta em um nico nmero, atribuindo o valor 1 para o sucesso e 0
para o fracasso, determine a mdia e a varincia do resultado aps uma jogada.

A mdia ser dada por:

E(X) = 1
6
1
+ 0
6
5
=
6
1


E a varincia:

E(X
2
) = 1
2

6
1
+ 0
2

6
5
=
6
1

var(X) = E(X
2
) [E(X)]
2
=
6
1

2
6
1
|
.
|

\
|
=
36
5



Pelos dois exemplos acima, podemos verificar que
26
, numa distribuio de Bernouilli:

E(X) = p
var(X) = p(1 p)

Assim, podemos utilizar o resultado para o caso do candidato que tem 30% das intenes de
voto. Temos que (verifique!):

E(X) = p = 0,3
var(X) = p(1 p) = 0,30,7 = 0,21

E mesmo para o caso das peas defeituosas ou para qualquer situao que se enquadre em
uma distribuio de Bernouilli.

Especificamente no caso do candidato, possvel, como veremos adiante
27
, atravs da
varincia, montar as chamadas margens de erro das pesquisas eleitorais.

3.2.3 Distribuio Binomial


26
A demonstrao dada no apndice 3.B
27
No captulo 6.
55
A distribuio Binomial nada mais do que a generalizao da distribuio de Bernouilli.
H um sucesso, com probabilidade p e um fracasso, com probabilidade 1p, mas o nmero
de experimentos (de jogadas) pode ser qualquer.

Tomemos o exemplo mais simples, que o da cara ou coroa, com trs jogadas, que
representamos na rvore abaixo:
3 caras
2 caras
1 cara 2ca 1co
1ca 1co
1 coroa 1ca 2co
2 coroas
3 coroas

J conhecemos o resultado da primeira jogada:

P(1 cara) = p =
2
1

P(1 coroa) = 1 p =
2
1


Para a segunda jogada, observando a rvore, verificamos que, da origem, h 4 caminhos
possveis e, neste caso, todos com a mesma probabilidade. Destes 4, em 1 deles chegaramos a 2
caras ou 2 coroas. Entretanto, para 1 cara e 1 coroa h 2 caminhos possveis. Portanto, para duas
jogadas temos:

P(2 caras) =
4
1

P(1 cara e 1 coroa) =
4
2

P(2 coroas) =
4
1

Repare que:
P(2 caras) = pp
P(1 cara e 1 coroa) = 2p(1p)
P(2 coroas) = (1p)(1p)

O nmero 2 que aparece para 1 cara e 1 coroa se deve ao fato de que este resultado
possvel de ocorrer de duas maneiras, isto , dando cara na primeira jogada ou dando coroa logo na
primeira.

Para 3 jogadas, h 8 caminhos possveis (verifique!). Destes 8, em apenas 1 ocorrem s
caras ou s coroas. Em 3 deles ocorrem 2 caras e 1 coroa e em outros 3, 2 coroas e 1 cara.

56
P(3 caras) =
8
1

P(2 caras e 1 coroa) =
8
3

P(1 cara e 2 coroas) =
8
3

P(3 coroas) =
8
1


Temos agora que:
P(3 caras) = ppp
P(2 caras e 1 coroa) = 3pp(1p)
P(1 cara e 2 coroas) = 3p(1p)(1p)
P(3 coroas) = (1p)(1p)(1p)

E agora aparece o nmero 3 para 2 caras e 1 coroa (ou 1 cara e 2 coroas). De onde? Bom, h
realmente 3 possibilidades: 1
a
cara, 2
a
cara e 3
a
coroa; ou, 1
a
cara, 2
a
coroa e 3
a
cara; ou ainda, 1
a

coroa, 2
a
cara, 3
a
cara. Podemos combinar as posies das 2 caras de 3 maneiras diferentes. O
nmero 3, na verdade, a quantidade de combinaes
28
de 3 elementos em grupos de 2.

Portanto:
P(3 caras) = C
3,3
ppp
P(2 caras e 1 coroa) = C
3,2
pp(1p)
P(1 cara e 2 coroas) = C
3,1
p(1p)(1p)
P(3 coroas) = C
3,0
(1p)(1p)(1p)

Nota: as combinaes de n elementos em grupos de k tambm podem ser escritas como:

C
n,k
=
|
|
.
|

\
|
k
n


Que se l binomial de n, k (por razes que agora so bvias). Portanto, as probabilidades
para 3 jogadas podem ser escritas assim:

P(3 caras) =
|
|
.
|

\
|
3
3
ppp
P(2 caras e 1 coroa) =
|
|
.
|

\
|
2
3
pp(1p)
P(1 cara e 2 coroas) =
|
|
.
|

\
|
1
3
p(1p)(1p)
P(3 coroas) =
|
|
.
|

\
|
0
3
(1p)(1p)(1p)

Podemos generalizar, para um experimento qualquer, onde a probabilidade de sucesso p
e a probabilidade de fracasso 1p, a probabilidade de que, em n jogadas, ocorram k sucessos :


28
Veja apndice 1.A.
57
P(x = k) =
|
|
.
|

\
|
k
n
p
k
(1p)
n-k

Exemplo 3.2.3.1
Suponha um jogo de dados em que se aposta em um nico nmero. Determine a probabilidade de:
a) em 3 jogadas, ganhar 2

uma distribuio binomial onde p = 1/6, temos 3 jogadas e o sucesso ocorre em 2 delas:

P(x = 2) =
|
|
.
|

\
|
2
3

2
6
1
|
.
|

\
|

1
6
5
|
.
|

\
|

P(x = 2) = 3
36
1

6
5

P(x = 2) =
216
15


b) em 4 jogadas, ganhar 2.
P(x = 2) =
|
|
.
|

\
|
2
4

2
6
1
|
.
|

\
|

2
6
5
|
.
|

\
|

P(x = 2) = 6
36
1

36
25

P(x = 2) =
1296
150


c) em 5 jogadas, ganhar 3.
P(x = 3) =
|
|
.
|

\
|
3
5

3
6
1
|
.
|

\
|

2
6
5
|
.
|

\
|

P(x = 3) = 10
216
1

36
25

P(x = 3) =
7776
250


Exemplo 3.2.3.2
Calcule a mdia e a varincia no jogo de cara ou coroa, atribuindo valor 1 para cara e 0 para coroa,
considerando 1, 2 e 3 jogadas.

Para 1 jogada, ficamos reduzidos ao caso particular da distribuio de Bernouilli, cujo
resultado j conhecemos:

E(x) = p =
2
1

var(x) = p(1p) =
4
1


Faamos ento, o clculo para 2 e 3 jogadas. Para 2 jogadas, temos:

58
E(x) = 2
4
1
+ 1
4
2
+ 0
4
1
=
4
4
= 1
E(x
2
) = 2
2

4
1
+ 1
2

4
2
+ 0
2

4
1
=
4
6
= 1,5
var(x) = 1,5 1
2
= 0,5

E, para 3 jogadas, temos:
E(x) = 3
8
1
+ 2
8
3
+ 1
8
3
+ 0
8
1
=
8
12
= 1,5
E(x
2
) = 3
2

8
1
+ 2
2

8
3
+ 1
2

8
3
+ 0
2

8
1
=
8
24
= 3
var(x) = 3 1,5
2
= 0,75

Note que vlido que:

E(x) = np
var(x) = np(1p)

3.2.4. Distribuio Geomtrica

A distribuio geomtrica tambm se refere a sucessos e fracassos mas, diferente da
binomial a probabilidade de que o sucesso ocorra (exatamente) na k-sima jogada. Por exemplo,
na cara ou coroa, qual a probabilidade de que a cara s ocorra na terceira jogada? Ou, qual a
probabilidade de que o dado s d o nmero desejado na quarta jogada.

Assim sendo, a forma geral da distribuio geomtrica ser dada por:

P(x = k) = (1p)
k-1
p

Ou seja, uma seqncia de fracassos nas k-1 primeiras jogadas, culminando com
sucesso apenas na k-sima jogada.

Exemplo 3.2.4.1
Um time de basquete no est muito bem nesta temporada, de tal forma que a probabilidade de que
ganhe um jogo qualquer 20%. Qual a probabilidade de que a primeira vitria ocorra:
a) na primeira partida?

A imediato:
P(x = 1) = 0,2 = 20%

b) na segunda partida?

P(x = 2) = 0,80,2 = 0,16 = 16%

c) na quinta partida?

P(x = 5) = 0,8
4
0,2 = 0,08192 8,2%

Exemplo 3.2.4.2
Qual a partida esperada em que ocorrer a primeira vitria?

59
O valor esperado da k-sima partida em que ocorrer a to sonhada vitria :

E(x) = 10,2 + 20,80,2 + 30,8
2
0,2 + 40,8
3
0,2 + ...
E(x) = 0,2[1 + 20,8 + 30,8
2
+ 40,8
3
+ ...]

A expresso entre colchetes quase uma progresso geomtrica, exceto pelos nmeros 1, 2,
3, 4, etc. Na verdade, uma soma de progresses geomtricas como podemos ver abaixo:

1 + 0,8 + 0,8
2
+ 0,8
3
+ ...
0,8 + 0,8
2
+ 0,8
3
+ ...
0,8
2
+ 0,8
3
+ ...
0,8
3
+ ...
1 + 20,8 + 30,8
2
+ 40,8
3
+ ...

Relembrando que a soma de uma progresso geomtrica infinita cujo primeiro termo a
cuja razo (q) menor do que 1, em mdulo, dada por
29
:

S =
q 1
a


Temos ento que:

E(x) = 0,2(
8 , 0 1
1

+
8 , 0 1
8 , 0
2

+
8 , 0 1
8 , 0
3

+ ...)
E(x) =
8 , 0 1
2 , 0

( 1 + 0,8 + 0,8
2
+ 0,8
3
+ ...)

O termo entre parnteses tambm uma progresso geomtrica, enquanto o termo
multiplicando exatamente 1:

E(x) =
8 , 0 1
1

=
2 , 0
1
= 5

Portanto, o esperado que a vitria ocorra na quinta partida.

Repare que o resultado obtido pode ser generalizado para:

E(x) =
p
1


Que a mdia de uma distribuio geomtrica.

3.2.5 Distribuio Hipergeomtrica

A distribuio Hipergeomtrica se refere a probabilidade de ao retirarmos, sem reposio, n
elementos em um conjunto de N, k elementos com o atributo sucesso, sendo que, do total de N
elementos, s possuem este atributo e, portanto, N s possuem o atributo fracasso. Fica claro que,
da maneira como definimos p anteriormente:

29
O que mostrado no apndice 3.A
60

p =
N
s


A pergunta aqui, ento, : qual a probabilidade de que, retirando-se n elementos, k possuam
o atributo sucesso e n-k o atributo fracasso.

Do total de N elementos, podemos tirar
|
|
.
|

\
|
n
N
grupos de n elementos. Dos s que possuem o
atributo sucesso, h
|
|
.
|

\
|
k
s
grupos de k elementos que poderiam sair nesta extrao. Finalmente,
dos N-r que possuem o atributo fracasso, h
|
|
.
|

\
|
k - n
s - N
grupos de n-k elementos. Ento, a
probabilidade de encontrarmos k elementos com o atributo sucesso :

P(x = k) =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
n
N
k - n
s - N
k
s


Exemplo 3.2.5.1
Sabe-se que h 10% de peas defeituosas em um lote de 50. Ao retirar 8 peas deste lote, sem
reposio, qual a probabilidade de que 2 delas sejam defeituosas?

Como so 10% de peas defeituosas em um total de 50, h 5 peas defeituosas. Pede-se a
probabilidade de retirar 2 (do total de 5) peas defeituosas e 6 (de um total de 45) peas em bom
estado.

Esta probabilidade calculada como se segue:

P(x = 2) =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
8
50
6
45
2
5
0,1517 = 15,17%

3.2.6 Distribuio de Poisson

Voc capaz de dizer quantas vezes, em mdia, toca o telefone por dia na sua casa ou no
seu escritrio? Provavelmente, sim. Mas quantas vezes no toca o telefone? Esta pergunta muito
difcil de se responder. Quando uma varivel aleatria tem um comportamento parecido com este,
dizemos que ela segue uma distribuio de Poisson.

Se considerarmos que sucesso tocar o telefone, muito difcil calcular o p, a
probabilidade disso ocorrer, j que no temos como calcular a no ocorrncia do evento.

A soluo imaginar que o p muito pequeno, j que o toque do telefone dura apenas
alguns segundos em um dia de 24 horas. Portanto, o nmero de vezes que este experimento
realizado (telefone toca ou no toca), que o n da distribuio Binomial, realizado muitas vezes.
61

Assim que modelamos este tipo de distribuio: partindo de uma distribuio Binomial,
considerando que p muito pequeno (tende a zero) e n muito grande (tende a infinito).

p 0
n

Mas de tal modo que o produto np um nmero finito diferente de zero.

np =

Mas o que significa este novo parmetro ? Como partimos de uma distribuio Binomial,
temos que:

E(x) = np =

Portanto, exatamente o nmero mdio de vezes que o evento ocorre. No exemplo do
telefone, o nmero de vezes que o telefone toca por dia.

Ainda possvel calcular a varincia partindo de uma distribuio Binomial:

var(x) = np(1p)

Mas, como p tende a zero, 1p tende a 1. Portanto:

var(x) = np =

A distribuio de Poisson se caracteriza, desta forma, por ter mdia igual a varincia. Para
calcularmos a probabilidade de uma varivel como esta, partimos da distribuio Binomial e
fazemos p 0 e n . Fazendo isto
30
, chegamos a:

P(x = k) =
k!
e
k -



Exemplo 3.2.6.1
Suponha que, em mdia, o telefone toque 4 vezes ao dia em uma casa. Qual a probabilidade de que,
num certo dia, ele toque, no mximo, 2 vezes?

uma distribuio de Poisson, cujo parmetro = 4. A probabilidade de tocar no mximo
2 vezes equivalente probabilidade de tocar 0, 1 ou 2 vezes.

P(x = 0) =
0!
4 e
0 4 -
= e
-4

P(x = 1) =
1!
4 e
1 4 -
= 4e
-4

P(x = 2) =
2!
4 e
2 4 -
= 8e
-4



30
Veja a demonstrao no apndice 3.B.
62
Portanto:
P(x 2) = 13e
-4
0,2381 = 23,81%

A distribuio de Poisson tambm pode ser til como uma aproximao da binomial
quando, embora no seja impossvel, o valor de p seja to pequeno de modo que os clculos se
tornem um tanto quanto trabalhosos, como no exemplo abaixo.

Exemplo 3.2.6.2
Um candidato tem apenas 2% das intenes de voto. Qual a probabilidade de que, em 100 eleitores
escolhidos ao acaso, encontremos 5 que desejem votar neste candidato?

Usando a binomial pura e simplesmente, temos:

P(x = 5) =
|
|
.
|

\
|
5
100
0,02
5
0,98
95
0,0353 = 3,53%

Podemos, entretanto, usar a distribuio de Poisson como aproximao, tendo como
parmetro = np = 1000,02 = 2

P(x = 5) =
5!
2 e
5 2 -
0,0361 = 3,61%

Que um valor bem prximo do encontrado atravs da binomial.





Exerccios
1. Calcule a mdia, a varincia e o desvio padro das seguintes variveis aleatrias discretas:

a) valor de uma ao:
$ 50 com probabilidade 35%
$ 40 com probabilidade 30%
$ 30 com probabilidade 20%
$ 20 com probabilidade 15%

b) pontos de um time ao final do campeonato:
40 com probabilidade de 5%
36 com probabilidade de 10%
32 com probabilidade de 25%
28 com probabilidade de 25%
24 com probabilidade de 20%
20 com probabilidade de 15%

c) o valor em uma jogada de um dado no viciado.

d) o valor em uma jogada de um dado viciado em que a probabilidade inversamente
proporcional a cada nmero (isto , a probabilidade de dar 1 seis vezes maior do que dar 6).

e) ganhos em jogo de cara ou coroa (com uma moeda no viciada) onde, aps 4 jogadas:
63
ganhando 4, seguidas: prmio de $ 60
ganhando 3, seguidas: prmio de $ 30
ganhando 3, alternadas: prmio de $ 20
ganhando 2, seguidas: prmio de $ 10
ganhando 2, alternadas: prmio de $ 0
ganhando 1: penalidade de $ 20
perdendo todas: penalidade de $50

f) ganhos em jogo de dados tetradricos (apostando em um nico nmero) onde, aps 3 jogadas:
ganhando 3 : prmio de $ 20
ganhando 2, seguidas: prmio de $ 10
ganhando 2, alternadas: prmio de $ 0
ganhando 1: penalidade de $ 10
perdendo todas: penalidade de $ 20

g) Z = 1, 2, 3, 4
P(Z=k) =
0,48
k


2. Dada uma v.a. X, onde X um nmero inteiro positivo cuja probabilidade P(X = k) = A(0,8)
k
.
Determine o valor de A.

3. A probabilidade de que um aluno atrase a mensalidade 10%. Qual a probabilidade de que, em
10 alunos, no mximo 2 atrasem a mensalidade?

4. Um candidato tem 20% das intenes de voto. Qual a probabilidade de que, em 15 eleitores
escolhidos ao acaso, 7 tenham a inteno de votar neste candidato?

5. Num grupo de 20 pessoas, 12 so casadas. Qual a probabilidade de, num grupo de 5 pessoas
escolhidas ao acaso, 2 sejam solteiras?

6. Uma pessoa est interessada em vender um imvel e foi informada de que, a probabilidade de
encontrar um comprador disposto a pagar o preo pedido em qualquer dia 30%. Qual a
probabilidade de que ela consiga vender o imvel em at 3 dias?

7. Numa grande cidade brasileira ocorrem, em mdia, 5 enchentes por ano. Qual a probabilidade de
que num determinado ano ocorram no mximo 3 enchentes?

8. Uma aluna, quando assiste aulas em salas com ar condicionado, espirra, em mdia, 3 vezes por
hora. Qual a probabilidade de que, em 3 horas, ela espirre 10 vezes?

9. Calcule a probabilidade pedida usando a binomial e a respectiva aproximao pela Poisson:
a) em um lote de 1000 peas, 1% so defeituosas. Qual a probabilidade de que um lote de 20 peas
no apresente nenhuma defeituosa.
b) um candidato tem 30% das intenes de voto. Qual a probabilidade de que, entrevistados 100
eleitores, 35 afirmem que vo votar neste candidato.
64
APNDICE 3.A Progresso geomtrica


Chamamos de Progresso Geomtrica (ou, simplesmente, PG) uma seqncia de nmeros
em que, dado um nmero da srie, o nmero seguinte ser encontrado multiplicando-se por um
valor fixo.

Por exemplo, a seqncia de nmeros abaixo:
{2, 6, 18, 54, 162}

uma PG, pois partindo do 2, multiplicando-o por 3, temos 23 = 6, que o nmero
seguinte; para acharmos o prximo, fazemos 63 = 18, e assim sucessivamente para encontrarmos
os seguintes.

Esta uma PG de 5 termos; o nmero 3, que aquele que se multiplica para encontrar o
prximo nmero da seqncia chamado de razo da PG.

Nosso principal interesse a soma dos termos de uma PG. No caso especfico, porm, ela
pode ser facilmente encontrada, pois so poucos termos:

S = 2 + 6 + 18 + 54 + 162 (3.A.1)
S = 242

H que se encontrar, no entanto, uma frmula geral para que possa ser aplicada a qualquer
PG, no importa seu tamanho. Para isto, multipliquemos a equao (3.A.1) por 3, que a razo da
PG.

3S = 6 + 18 + 54 + 162 + 486 (3.A.2)

Note que todos os termos se repetiram, exceto o primeiro. Subtraiamos a equao (3.A.1) da
equao (3.A.2):

3S = 6 + 18 + 54 + 162 + 486
-(S = 2 + 6 + 18 + 54 + 162 )
2S = 486 -2
2S = 484
S =
484
2
= 242

Desta forma, podemos repetir o procedimento para uma PG qualquer de n termos, com 1
o

termo denominado a e razo q. A soma desta PG ser dada por:

S = a + aq + aq
2
+ aq
3
+ ... + aq
n-1
(3.A.3)

Multiplicando a equao (3.A.3) por q, vem:

qS = aq + aq
2
+ aq
3
+ ... + aq
n-1
+ aq
n
(3.A.4)

Subtraindo (3.A.3) de (3.A.4), temos:

qS = aq + aq
2
+ aq
3
+ ... + aq
n-1
+ aq
n

-(S = a + aq + aq
2
+ aq
3
+ ... + aq
n-1
)
65
qS-S = aq
n
- a
S(q-1) = a (q
n
-1)

S =
1 - q
) 1 (q
n
a


Assim, conseguimos encontrar um termo geral para calcular a soma de uma PG. Para isso,
devemos identificar o primeiro termo da srie (o a da frmula), a razo (q) e o nmero de termos
(n).

E se a PG for infinita? possvel que a soma seja finita? A resposta sim. Tomemos, por
exemplo, uma pessoa que come um chocolate seguindo uma regra: em cada mordida, ela come
exatamente metade do que falta. Quantos chocolates ela ir comer ao final de infinitas mordidas?
Obviamente, 1 chocolate. Mas isto s acontece porque em cada mordida ela come sempre uma
frao do que falta. Isto , necessrio que a razo seja (em mdulo) menor do que 1.

A soma que representa as mordidas do chocolate dada por:

S =
2
1
+
4
1
+
8
1
+
16
1
+ ... = 1

Que uma PG com infinitos termo, cujo primeiro
2
1
e a razo tambm
2
1
e que,
sabemos, igual a 1.

Neste caso temos uma PG infinita, portanto:
S = a + aq + aq
2
+ aq
3
+ ... (3.A.5)

Que, se multiplicarmos por q e subtrairmos, temos:


S = a + aq + aq
2
+ aq
3
+ ...
-(qS = aq + aq
2
+ aq
3
+ ... )
S - qS = a
(1- q)S = a
S =
q 1
a


APNDICE 3.B Tpicos adicionais em distribuies de probabilidade discretas

3.B.1 Mdia e varincia de uma distribuio de Bernouilli

E(X) = 1p + 0(1 p)
E(X) = p

E(X
2
) = 1
2
p + 0
2
(1 p)
E(X
2
) = p

var(X) = E(X
2
) [E(X)]
2
var(X) = p p
2

66
var(X) = p(1 p)

3.B.2 Da Binomial Poisson

A probabilidade em uma distribuio Binomial dada por:

P(x = k) =
|
|
.
|

\
|
k
n
p
k
(1p)
n-k
Pela definio de binomial (combinaes):
P(x = k) =
k! k)! - (n
n!
p
k
(1p)
n-k
P(x = k) =
k! k)! - (n
k)! - 1)(n k - 2)...(n - 1)(n - n(n +
p
k
(1p)
n-k
P(x = k) =
k!
1) k - 2)...(n - 1)(n - n(n +
p
k
(1p)
n-k
No numerador da frao acima temos k fatores. Colocando n em evidncia em cada um
deles:
P(x = k) =
k!
1
n
k
[(1-
n
1
)(1-
n
2
)...(1-
n
1 - k
)]p
k
(1p)
n-k
Como n tende ao infinito,
n
1
,
n
2
, etc. tendem a zero.
P(x = k) =
k!
1
n
k
p
k
(1p)
n-k
Como, por definio, = np, temos que p =
n

.
P(x = k) =
k!
1
n
k
k
n
k

(1
n

)
n-k
Do clculo diferencial, sabemos que:

lim
n
(1
n

)
n-k
= e
-

E assim chegamos a:

P(x = k) =
k!
e
k -



3.B.3 Quadro resumindo as principais distribuies discretas
Distribuio Forma Geral
P(X = k)
Mdia Varincia
Binomial
|
|
.
|

\
|
k
n
p
k
(1p)
n-k

np np(1p)
Geomtrica (1p)
k-1
p
p
1

2
p
p 1

67
Hipergeomtrica
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
n
N
k - n
s - N
k
s

np = n
N
s
n
N
s

N
s - N

1 - N
n - N

Poisson
k!
e
k -


np =


68
CAPTULO 4 - DISTRIBUIES CONTNUAS E TEOREMA DE TCHEBICHEV

4.1. Distribuies contnuas

Imagine o marcador das horas de um relgio digital. Agora, pense no ponteiro das horas de
um relgio analgico. H uma diferena significativa, alm da tecnologia empregada. Enquanto o
ponteiro passa por qualquer posio do marcador, se atribuirmos esta sua posio a um valor, este
ser exatamente 2 quando for pontualmente duas horas, valer 2,5 quando forem duas horas e trinta
minutos, 3,25 s trs e quinze e assim sucessivamente. O que se quer dizer aqui que o valor
atribudo posio do ponteiro das horas pode ser qualquer um entre 0 (exclusive) e 12 (inclusive).
J no relgio digital, o mostrador s assume, obviamente, valores inteiros.

Esta diferena pode ser vista graficamente. Primeiro, num grfico para o relgio digital:












A varivel X o valor assumido pelo marcador das horas do relgio digital. Se olharmos
para ele numa hora qualquer do dia a probabilidade de que ela tenha um dos 12 valores acima
exatamente
12
1
. No h a possibilidade de que ela assuma outros valores.

A diferena no grfico para o relgio analgico que ele assume, em princpio, qualquer
valor, portanto devemos preencher a linha que une os doze pontos.











A varivel x pode assumir, portanto, infinitos valores. Como vimos no captulo 1, embora o
ponteiro das horas passe pelo 2, a probabilidade de que x seja exatamente igual a 2 zero, j que
um valor entre infinitos possveis. Como calcular a probabilidade de que x assuma um valor entre,
digamos, 2 e 3? Do captulo 1, j sabemos a resposta, que o mesmo
12
1
, j que o intervalo de 2 a 3

12
1
do intervalo total (e todos os intervalos do mesmo tamanho tem a mesma probabilidade de
ocorrer).

1 2 3 4 5 6 7 8 9 10 11 12

P(X)
12
1
X
1 2 3 4 5 6 7 8 9 10 11 12
f(x)
12
1
x
69
Uma outra maneira de chegar a este clculo se retomarmos o grfico para o relgio digital,
mas desta vez em forma de histograma:












Uma maneira de interpretarmos a probabilidade do mostrador estar indicando duas horas,
isto , P(X = 2) a rea do retngulo correspondente a X = 2. A base deste retngulo 1 e a altura
12
1
. A rea , portanto, 1
12
1
=
12
1
.

Para uma distribuio contnua, usaremos um raciocnio anlogo, isto , para determinar a
probabilidade de x estar entre 2 e 3, calcularemos a rea definida pela funo neste intervalo.











A rea , de novo, de um retngulo, cuja base 1 e a altura
12
1
. Portanto:

P(2 < x < 3) = 1
12
1
=
12
1


Repare que, como a probabilidade de um ponto igual a zero, tanto faz, neste caso, se
utilizamos os smbolos de menor ou menor ou igual, pois a probabilidade ser a mesma:
P(2 < x < 3) = P(2 x < 3) = P(2 < x 3) = P(2 x 3) =
12
1



Uma distribuio como essa do relgio analgico uniforme (contnua).

Note uma coisa importante: A funo f(x) no fornece diretamente a probabilidade de x, at
porque esta zero, j que se trata de uma distribuio contnua. Ela chamada de funo densidade
de probabilidade (f.d.p.) e as probabilidades so obtidas atravs das reas definidas por esta funo.

1 2 3 4 5 6 7 8 9 10 11 12
P(X)
12
1
X
1 2 3 4 5 6 7 8 9 10 11 12
f(x)
12
1
x
70
As probabilidades de probabilidade, entretanto, devem ser mantidas para que f(x) seja uma
f.d.p. A soma das probabilidades tem que ser igual a 1, o que vale dizer que a rea total tem que
ser igual
31
a 1. De fato, a rea total definida por f(x) 12
12
1
= 1.

Alm disso, a probabilidade no pode ser negativa. Portanto, f(x) tem que ser no negativo,
isto , maior ou igual a zero.

Exemplo 4.1.1
Uma varivel aleatria (v.a.) contnua, com distribuio uniforme, pode assumir qualquer valor real
entre 3 e 6. Determine a funo densidade de probabilidade desta funo.

O grfico desta funo :






Onde A um valor que ainda temos que determinar. Como temos que f(x) sempre positiva
ou zero, aplicamos a condio de que a rea total delimitada pelo grfico tem que ser igual a 1. A
base do retngulo 3 (= 6 3) e a altura igual a A. Portanto:

A3 = 1
A =
3
1


Ou seja, f(x) =
3
1
quando x est entre 3 e 6 e igual a zero para todos os demais valores de
x, o que pode ser representado como se segue:



0 , x < 3 ou x > 6
f(x) =

3
1
, 3 x 6


Exemplo 4.1.2
Partindo da f.d.p. do exemplo anterior, determine as probabilidades de que:
a) x = 4

Embora seja possvel, como se trata de distribuio contnua, a probabilidade de x ser
exatamente igual a um valor igual a zero. Portanto:

P(x = 4) = 0

b) x esteja entre 4,6 e 5,5

31
Embora f(x) possa ser maior do que 1.
3 6
A
f(x)
71

A funo dada por:


0 , x < 3 ou x > 6
f(x) =

3
1
, 3 x 6


Cujo grfico mostrado abaixo:







A probabilidade ser dada pela rea delimitada no grfico, que corresponde a um tringulo
de base 0,9 e altura
3
1
.

P(4,6 x 5,5) = 0,9
3
1
= 0,3
c) x esteja entre 2 e 4.

Como x s assume valores entre 3 e 6, a rea relevante a ser calculada corresponde aos
pontos entre 3 e 4, j que para qualquer intervalo antes de 3, a probabilidade igual a zero.

P(2 x 4) = P(2 x 3) + P(3 x 4)
P(2 x 4) = 0 + 1
3
1

P(2 x 4) 0,33

Exemplo 4.1.3
Dada a f.d.p. de uma v.a. contnua abaixo:
Ax , 0 x 3
f(x) =
0 , x < 0 ou x > 3

Determine:
a) o valor de A.

O grfico desta funo dado abaixo:
3 4,6 5,5 6
1/3
f(x)
72


Como f(x) = Ax, f(3) = 3A e f(0) = 0. A figura definida pelo grfico um tringulo de base 3
e altura 3A. Sabemos que f(x) sempre no negativo, portanto basta aplicarmos a propriedade de
que a rea total seja igual a 1:


2
3 A 3
= 1

2
A 9
= 1
A =
9
2


b) a probabilidade de que x esteja entre 2 e 3.

Agora temos que f(2) = 2
9
2
=
9
4
e f(3) = 3
9
2
=
9
6
=
3
2
. A rea correspondente a esta
probabilidade est assinalada no grfico:



Que determina um trapzio. Podemos calcular diretamente a rea do trapzio ou calcular a
diferena entre a rea dos dois tringulos (o maior, cuja base vai de 0 a 3, e o menor, cuja base vai
de 0 a 2):

P(2 x 3) = 3
3
2

2
1
2
9
4

2
1

73
P(2 x 3) = 1
9
4
=
9
5


Exemplo 4.1.4
Dada a f.d.p. de uma v.a. contnua abaixo:
Ax
2
, 0 x 1
f(x) =
0 , x < 0 ou x > 1
Determine:
a) o valor da constante A.
O grfico desta funo dado abaixo:


Como no se trata mais de uma funo cujo grfico retilneo como as funes anteriores,
temos que recorrer ao clculo integral. Sabemos
32
que a rea sobre uma curva dada pela integral
da funo correspondente. Portanto, a condio de que a rea total tem que ser igual a 1 pode ser
escrita como:

+

x x d ) ( f = 1

Neste caso especfico, a funo vale zero para valores de x abaixo de 0 ou acima de 1.
Portanto, os limites de integrao relevantes so, neste caso, 0 e 1:

1
0
d ) ( f x x = 1

1
0
2
d A x x = 1
A

1
0
2
dx x = 1
A
1
0
3
3
(

x
= 1
A
(


3
0
3
1
= 1

32
Veja apndice 3.A.
74
A
3
1
= 1
A = 1

b) a probabilidade de que x esteja entre 0,5 e 1.

De novo, para calcularmos a rea entre x = 0,5 e x = 1, determinando assim, a probabilidade,
basta encontramos a integral com estes limites de integrao:
P(0,5 x 1) =

1
5 , 0
2
d 3 x x
P(0,5 x 1) = | |
1
5 , 0
3
x
P(0,5 x 1) = 1
3
0,5
3

P(0,5 x 1) = 1 0,125
P(0,5 x 1) = 0,875 = 87,5%





bvio que possvel usar o clculo integral para os exemplos anteriores tambm. Assim,
podemos resumir as condies para que uma funo qualquer seja uma funo densidade de
probabilidade:

+

x x d ) ( f = 1 e

f(x) 0 para todos os valores de x

Exemplo 4.1.5 (distribuio exponencial)
Dada a f.d.p. da v.a. contnua x dada abaixo:
Ae
-x
, x 0
f(x) =
0 , x < 0
Determine o valor de A.

Esta particular distribuio conhecida como distribuio exponencial.

Temos que:

+

x x d ) ( f = 1
E, como esta funo nula para valores de x negativos:

+
0
-
d Ae x
x
= 1
A

+
0
-
d e x
x
= 1
A
+

0
e -

x
= 1
75
A
(

)
1
( 0

= 1
A

1
= 1
A =

4.2 Funo de distribuio de variveis contnuas

A funo de distribuio acumulada, ou simplesmente funo de distribuio, no caso de
variveis contnuas, segue a mesma lgica do caso discreto.

No caso discreto, a funo de distribuio F(x) a soma das probabilidades de todos os
valores possveis que a varivel x pode assumir at o valor de x propriamente dito. Assim, se x um
nmero inteiro no negativo, a funo de distribuio dada por:

F(0) = P(0)
F(1) = P(0) + P(1)
F(2) = P(0) + P(1) + P(2)
F(3) = P(0) + P(1) + P(3)

E assim sucessivamente. Para o caso de uma varivel contnua, porm, devemos somar todos
os valores possveis, o que feito pela integral. Desta forma, temos:

F(x) =


x
t t)d f(

Portanto, do ponto de vista matemtico, f(x) a derivada da funo F(x):

f(x) =
x
x
d
) dF(


Exemplo 4.2.1
Dada a f.d.p. de uma distribuio exponencial abaixo, determine a funo de distribuio
correspondente:
e
-x
, x 0
f(x) =
0 , x < 0

Como a funo s e definida para x 0, o limite de integrao inferior ser zero.

F(x) =

x
t t
0
)d f(
F(x) =

x
t e
0
t -
d
F(x) = | |
x
e
0
-t

F(x) = e
-x
+ e
0
F(x) = 1 e
-x


76
A funo de distribuio ser dada ento, por:
1 e
-x
, x 0
F(x) =
0 , x < 0


Exemplo 4.2.2
Dada a funo de distribuio abaixo, determine a funo densidade de probabilidade
correspondente.
0,5(x
3
+ 1) , -1 x 1
F(x) =
0 , x < -1

1 , x > 1

A funo densidade de probabilidade ser dada por:

f(x) =
x
x
d
) dF(


f(x) =
x
x
d
) 1 d(0,5
3
+

f(x) = 30,5x
2
+ 0
f(x) = 1,5x
2


Portanto, a f.d.p. ser:
1,5x
2
, -1 x 1
f(x) =
0 , x < -1 ou x > 1


A funo de distribuio F(x), assim como a funo densidade, deve preencher alguns
requisitos: o primeiro que, em se tratando de uma soma de probabilidades, jamais pode ser
negativa.

E, como a soma das probabilidades tem que ser 1, F(x) no pode ser nuncamaior do que 1 e,
alm disso, o seu valor final tem que ser, necessariamente, 1. Portanto:

0 F(x) 1
lim
x
F(x) = 1

fcil verificar que, tanto no exemplo 4.2.1 como no 4.2.2 as funes F(x) apresentadas
atendem a estas condies.

4.3 Esperana e varincia de variveis aleatrias contnuas

Para uma v.a. discreta, a esperana dada por:

E(X) = X
1
P(X
1
) + X
2
P(X
2
) +...+ X
n
P(X
n
) =

=
n
1 i
i i
) P(X X
77
Para uma v.a. contnua, teramos que somar continuamente todos os valores de x pelas suas
respectivas probabilidades. Uma soma contnua e a integral e, por sua vez, a probabilidade
encontrada pela f.d.p. Ento, temos que, no caso contnuo:

E(x) =

+

x x x d ) ( f

A varincia, por sua vez, :

var(X) = E[X E(X)]
2

Chamando, por simplicidade, E(X) (que a mdia de X) de , temos que:

var(X) = E(X )
2

Para o caso contnuo, bastaria substituir (x )
2
na expresso da esperana acima e
teramos:
var(x) =

+

x x x d ) ( f ) (
2


Ou podemos utilizar a expresso de que a varincia a soma dos quadrados menos o
quadrado da mdia:

var(x) = E(x
2
) [E(x)]
2


Onde:
E(x) =

+

x x x d ) ( f e
E(x
2
) =

+

x x x d ) ( f
2


Exemplo 4.3.1
Da f.d.p. do exemplo 3.3.4, determine:
a) o valor mdio de x

Trata-se aqui de calcular a esperana de x:

E(x) =

+

x x x d ) ( f
O que, para esta varivel, equivale a:
E(x) =

1
0
2
d 3 x x x
E(x) = 3

1
0
3
dx x
E(x) = 3
1
0
4
4
(

x

78
E(x) = 3
4
1

E(x) =
4
3
= 0,75

b) a varincia de x.

A mdia dos quadrados de x dada por:
E(x
2
) =

+

x x x d ) ( f
2

E(x
2
) =

1
0
2 2
d 3 x x x
E(x
2
) = 3

1
0
4
dx x
E(x
2
) = 3
1
0
5
5
(

x

E(x
2
) = 3
5
1

E(x
2
) =
5
3
= 0,6

E, assim, podemos calcular a varincia:
var(x) = E(x
2
) [E(x)]
2

var(x) = 0,6 0,75
2

var(x) = 0,6 0,5625
var(x) = 0,0375

c) o desvio padro de x.
dp(x) = 0375 , 0
dp(x) 0,194

Exemplo 4.3.2
Dada a distribuio exponencial abaixo:
e
-x
, x 0
f(x) =
0 , x < 0
Determine:
a) a mdia de x.
E(x) =

+

x x x d ) ( f
E(x) =

0
d e x x
x

E(x) = | |
+


0
x x
e xe
E(x) = 1

b) a mediana de x.
79

A mediana de uma varivel o valor de que divide a distribuio em duas. Se chamarmos a
mediana de m, vale dizer que, para uma v.a. contnua:
P(x > m) =

+
m
d ) ( f x x = 0,5
P(x < m) =


m
d ) ( f x x = 0,5

Utilizando a primeira delas (poderia ser qualquer uma) f.d.p. em questo, temos:

m
d e x
x
= 0,5
| |
+

m
x
e = 0,5
e
-m
= 0,5

Aplicando logaritmo natural em ambos os lados:
ln(e
-m
) = ln 0,5
m 0,693
m 0,693

4.4 A distribuio Normal

Voltemos distribuio binomial. Se n = 1, ela recai na distribuio de Bernouilli. Supondo
que p = 0,5, o grfico em forma de histograma desta distribuio dado abaixo:



Para n = 2, temos:


E assim para n = 3:
80

Para n = 5:

Ou mesmo para n = 10:

Suponha que aumentemos n indefinidamente, de tal forma que os retngulos do histograma
se tornem cada vez mais espremidos ou os pontos de um grfico comum se colapsem se
tornando uma funo contnua. Esta funo teria a seguinte aparncia:


81

Esta distribuio de probabilidade conhecida como normal ou gaussiana
33
, cuja f.d.p.
dada por:

f(x) =
2
2
1

2
2
2
) (x
e



Onde a mdia e o desvio padro. Se a varivel x tem distribuio normal (isto ,
normalmente distribuda) costumamos simbolizar por:

x ~ N(, )

Que se l: x segue uma distribuio normal com mdia desvio padro .
Note que definimos completamente uma distribuio normal com a mdia e o desvio padro
(ou a varincia), j que no h nenhum outro parmetro a ser especificado na funo acima. A
mdia determina a posio da curva em relao origem, enquanto o desvio padro determina se a
curva ser mais gorda (mais dispersa, maior desvio padro) ou mais magra (mais concentrada,
menor desvio padro).

O clculo das probabilidades sob uma distribuio normal pode se tornar um tanto quanto
trabalhoso, j que no h uma funo cuja derivada e
-x2
. Este clculo deve ser feito por mtodos
numricos.

Uma particular distribuio Normal, conhecida por Normal padronizada, que tem mdia 0 e
desvio padro igual a 1, tem seus resultados das integrais tabeladas. Esta tabela
34
encontramos ao
fim do livro.

Chamando de z a varivel normal padronizada, encontramos na tabela a probabilidade de z
estar entre 0 e o valor especificado
35
. Por exemplo, se quisermos encontrar a probabilidade de z
estar entre 0 e 1,23, encontramos diretamente a probabilidade na tabela, como mostra o grfico:


33
Devido ao matemtico alemo Carl Friedrich Gauss (1777-1855).
34
A utilidade desta tabela limitada hoje em dia, tendo em vista que h vrios softwares de computador que se utilizam
destes mtodos numricos e calculam rapidamente as integrais sob a curva normal (a prpria tabela no final do livro foi
calculada assim). A tabela hoje serve para fins didticos e para utilizao em exames.
35
Nas linhas da tabela encontramos o valor de z at a primeira casa decimal, enquanto os valores da segunda casa
decimal se encontram nas colunas.
82

P(0 < z < 1,23) 0,3907 = 39,07%

Para um valor de z que esteja entre 0,27 e 1,43, temos:



Os valores encontrados na tabela para z = 0,27 e z = 1,43 so as integrais de 0 at cada um
deles. A rea que vai de 0,27 a 1,43 a diferena entre estes dois valores:

P(0,27 < z < 1,43) = P(0 < z < 1,43) P(0 < z < 0,27)
P(0,27 < z < 1,43) 0,4236 0,1064 = 0,3172 = 31,72%

Para valores negativos (como a mdia zero, vale dizer para valores abaixo da mdia), h
que se notar que a Normal simtrica, portanto o que vale para os valores de z positivos vale
tambm para os negativos. Suponha ento que queiramos calcular a probabilidade de z estar entre
1,38 e 0,97.

Neste caso, claramente somamos as duas reas:
P(-1,38 < z < 0,97) = P(-1,38 < z < 0) + P(0 < z < 0,97)
P(-1,38 < z < 0,97) = P(0 < z < 1,38) + P(0 < z < 0,97)
P(-1,38 < z < 0,97) 0,4162 + 0,3340 = 0,7502 = 75,02%

E se quisermos calcular a probabilidade de z ser maior do que 2,22:
83



A, vale lembrar que, como a distribuio simtrica, em cada metade temos uma
probabilidade total de 0,5. Pela tabela sabemos a probabilidade de z estar entre 0 e 2,22, para saber
de 2,22 em diante, basta subtrair de 0,5.

P(z > 2,22) = 0,5 P(0 < z < 2,22)
P(z > 2,22) 0,5 0,4868 = 0,0132 = 1,32%

O problema que, evidentemente, nem todas as variveis que so normalmente distribudas
tm mdia 0 e desvio padro 1.

A primeira questo fcil de resolver: basta subtrairmos a mdia da varivel. Esta nova
varivel ter mdia zero.

Quanto ao desvio padro, basta lembrarmos que:
dp(ax) = adp(x)

Portanto, se o desvio padro de uma varivel aleatria x , o desvio padro da varivel

x

ser:
dp(

x
) =

1
dp(x) =

1
= 1

Portanto, para que a varivel tenha desvio padro igual a 1, temos que dividi-la pelo seu
desvio padro.

O processo de transformar uma varivel qualquer em uma varivel qualquer em uma cuja
mdia zero e o desvio padro um, que chamamos de padronizao, consiste em subtrair a
mdia e dividir pelo desvio padro. Portanto, se uma v.a. x possui mdia e desvio padro , a
varivel z, assim definida:

z =

x


Ter mdia zero e desvio padro um e, se for normalmente distribuda, podemos utilizar os
valores da tabela para calcular as suas probabilidades.

84
Exemplo 4.4.1
O faturamento mensal de uma loja segue uma distribuio normal com mdia R$ 20.000,00 e
desvio padro R$ 4.000,00. Calcule a probabilidade de que, num determinado ms, o faturamento
esteja entre R$ 19.000,00 e R$ 25.000,00.

A varivel normal, mas no padronizada. Devemos, portanto, padronizar os seus valores
antes de utilizar a tabela:

z
1
=


1
x
=
4000
20000 19000
= 0,25
z
2
=


2
x
=
4000
20000 25000
= 1,25

Portanto:

P(19000 < x < 25000) = P(0,25 < z < 1,25)

Que o caso em que temos um valor acima e outro abaixo de zero.

P(19000 < x < 25000) = P(0,25 < z < 0) + P(0 < z < 1,25)
P(19000 < x < 25000) = P(0 < z < 0,25) + P(0 < z < 1,25)
P(19000 < x < 25000) 0,0987 + 0,3944 = 0,4931 = 49,31%


4.5 Transformaes de variveis

Suponha que tenhamos uma v.a. x cuja funo densidade dada por f(x). Se y funo de x,
de modo que y = u(x), qual a f.d.p. de y? Para comear a responder esta pergunta, partamos de um
caso simples (em que u(x) uma funo afim) mostrado no exemplo que se segue:

Exemplo 4.5.1
Dada uma v.a. x, contnua, com funo densidade dada por f(x). Se y = ax + b, com a e b positivos,
determine a funo densidade de probabilidade de y.

Se f(x) a f.d.p. de x, ento sabemos que:

+

x x d ) ( f =1
Como y = ax + b, temos que:

x =
a
b y
(4.5.1)
Ento:

x
a
b y
d ) ( f =1

Mas a funo densidade de y, digamos, g(y) deve ser tal que:
85

+

y y d ) ( g =1

Isto , a funo, integrada em relao a y (e no a x) deve ser igual a 1. Mas, diferenciando
a equao (4.5.1) temos:

dx =
a
1
dy

Substituindo:

y
a a
b y
d
1
) ( f =1

Portanto, a funo:

g(y) =
a
1
f(
a
b y
)

Tm as caractersticas de uma f.d.p. e , portanto, a f.d.p. da varivel y.

Este resultado um caso particular de um teorema mais geral que enunciado abaixo:

Teorema 4.5.1
Dada uma v.a. x com f.d.p. dada por f(x), e sendo y = u(x), existindo uma funo inversa x =
v(y) e v(y) a sua derivada, a funo densidade de probabilidade de y ser dada por:
g(y) = |v(y)|f(v(y))

Nos pontos em que v(y) existir e u(x) 0, e 0 em caso contrrio.

A presena do mdulo necessria para garantir a no negatividade da funo densidade de
probabilidade de y.

A aplicao direta do teorema no exemplo anterior nos levaria a:
u(x) = ax + b

v(y) =
a
b y

v(y) =
a
1


g(y) = |v(y)|f(v(y))
g(y) =
a
1
f(
a
b y
)

E, como a positivo:
g(y) =
a
1
f(
a
b y
)

86
Exemplo 4.5.2
Dada a v.a. x cuja f.d.p. :
e
-x
, x 0
f(x) =
0 , x < 0
Supondo y = x
2
, determine a f.d.p. de y.

Temos que u(x) = x
2
, portanto v(y) = y , desde que, claro, y seja positivo, e:

v'(y) =
y 2
1


Aplicando o Teorema 4.5.1, vem:

g(y) =
y 2
1
y
e



E, como y tem que ser positivo, assim como y , a f.d.p. de y ser dada por:

y 2
1
y
e

, y 0
g(y) =
0 , y < 0



4.6 Teorema de Tchebichev
36


Se conhecemos a funo densidade de uma varivel, possvel conhecer sua mdia e
varincia. A recproca no verdadeira, mas possvel se estabelecer um limite para uma
distribuio de probabilidade qualquer (seja discreta ou contnua), limite este que dado pelo
Teorema de Tchebichev

Teorema 4.6.1 (Teorema de Tchebichev)
Dada uma v.a. x com mdia e desvio padro . A probabilidade desta varivel estar, acima
ou abaixo da mdia, no mximo, k desvios padro (k uma constante positiva) , no mnimo, igual
a 1
2
k
1
. Ou:
P(|x | < k) 1
2
k
1


Conseqentemente, a probabilidade de ultrapassar este valor ser, no mximo,
2
k
1
, isto :
P(|x | k)
2
k
1



36
Devido ao matemtico russo Pafnuti Lvovitch Tchebichev (1821-1894).
87
O que vale dizer que a probabilidade de uma varivel aleatria qualquer, estar entre dois
desvios padro acima ou abaixo de, no mnimo
37
, 1
4
1
=
4
3
= 75%.

Exemplo 4.6.1
Uma v.a. contnua x tem mdia 50 e desvio padro 10. Calcule a probabilidade mnima de que x
esteja entre 35 e 65.

Pede-se portanto:

P(35 < x < 50) = ?

O que a probabilidade de x estar 1,5 desvios padro acima ou abaixo da mdia, ou seja:
P(35 < x < 50) = P(|x | < 1,5)

Pelo Teorema de Tchebichev:
P(35 < x < 50) 1
2
1,5
1

P(35 < x < 50) 0,5556 = 55,56%

Exerccios

1. possvel encontrar um valor de A para que a funo f(x) representada no grfico abaixo seja
uma f.d.p.? Justifique


2. Determine os valores de A para que as funes abaixo sejam f.d.p.(funes densidade de
probabilidade):
a) 0, x<2 ou x>8
f(x) =
A, 2 x 8

b) 0, x<0 ou x>4
f(x) =
Ax , 0 x 4

c) 0, x<1 ou x>3

37
Note que, para a distribuio Normal, esta probabilidade de cerca de 95%.
88
f(x) =
Ax, 1 x 3

d) 0, x<-1 ou x>3
f(x) =
A(x + 1), -1 x 3

e) 0, x<0
f(x) =
Ae
-3x
, x 0

f) 0, x<-2 ou x>2
f(x) =
Ax
2
, -2 x 2

g) 0, x<-2 ou x>0
f(x) =
Ax
3
, -2 x 0

h) 0, x<-1 ou x>1
f(x) =
|Ax|, -1 x 1


3. Para cada uma das variveis apresentadas no exerccio 2, determine a funo de distribuio
correspondente.

3. Para cada uma das variveis apresentadas no exerccio 2, determine a mdia, a varincia, o
desvio padro, a mediana e a moda

4. Determine a f.d.p. de uma varivel x que pode assumir qualquer valor no intervalo [a, b] e tem
distribuio uniforme.

5. Dada a f.d.p. abaixo:
0, x<1 ou x>9
f(x) =
1/8 , 1 x 9

Determine as probabilidades de:
a) x > 5
b) x 6
c) x = 4
d) 0 < x < 7
e) 2 x < 4
f) 4 < x 8

6. Dada a f.d.p. abaixo:
0, x<0 ou x>1
f(x) =
4x
3
, 0 x 1
Determine as probabilidades de:
89
a) x > 0,5
b) x 0,7
c) 0,2 < x < 0,6
d) 0,1 x < 0,3
e) 0,4 < x 1,2

7. Dada a f.d.p. abaixo:
0, x<0
f(x) =
2e
-2x
, x 0
Determine as probabilidades de:
a) x > 1
b) x -1
c) 2 < x < 5
d) x < 3
e) 4 < x 10

8. Numa normal padronizada, determine a probabilidade de z estar entre:
a) 1 desvio padro acima ou abaixo da mdia.
b) 2 desvios padro acima ou abaixo da mdia.
c) 3 desvios padro acima ou abaixo da mdia.

9. Os lucros anuais de uma firma seguem uma distribuio normal com mdia R$ 700 mil e desvio
padro R$ 150 mil. Calcule a probabilidade de, num dado ano, os lucros:
a) serem maiores do que R$ 800 mil.
b) serem maiores do que R$ 600mil.
c) serem menores do que R$ 900 mil.
d) serem menores do que R$ 650 mil.
e) estarem entre R$ 550 mil e R$ 770 mil.
f) estarem entre R$ 350 mil e R$ 500 mil.
g) estarem entre R$ 720 mil e R$ 850 mil.

10. As notas bimestrais de um aluno seguem uma distribuio normal com mdia 5 e varincia 4,84
Calcule a probabilidade de, num dado bimestre, sua nota:
a) ser maior do que 8.
b) ser maior do que 4,5.
c) ser menor do que 9.
d) ser menor do que 4.
e) estar entre 3,5 e 6,5.
f) estar entre 2,5 e 4,5.
g) estar entre 6 e 8,5.

11. As notas bimestrais de um aluno so, em mdia, 4 e tem varincia 2,56, mas a distribuio no
conhecida. Determine um limite para probabilidade de, num dado bimestre, sua nota:
a) estar entre 1,5 e 6,5.
b) estar entre 2 e 6.
c) ser menor do que 1 ou maior do que 7.

12. Uma varivel aleatria x tem f.d.p. dada por f(x). Se y = x , determine a f.d.p. de y.

90
13. Se y =
x
1
e x uma v.a. contnua cuja f.d.p. dada por:
3x
2
, 0 x 1
f(x) =
0 , x < 0 ou x > 1
Determine a f.d.p. de y.

14. Determine a mdia e a varincia de uma varivel aleatria x cuja f.d.p. dada por:
e
-x
, x 0
f(x) =
0 , x < 0

15. Dada uma varivel aleatria contnua x cuja mdia 20 e a varincia 25. Determine limites
para as probabilidades abaixo:
a) P (10 < x < 30)
b) P (14 < x < 26)
c) P (x < 12,5 ou x > 27,5)

16. Mostre que, para uma v.a. com mdia e varincia
2
, vlida a expresso:
P(|x | < k) 1
2
2
k





91
Apndice 4.A - Clculo diferencial e integral

4.A.1 Derivadas

Derivada a variao instantnea. Se voc percorre, com seu carro, 100 km em 1h, sua
velocidade mdia 100 km/h. pouco provvel, entretanto, que durante todo este percurso a
velocidade tenha sido constante. A velocidade que marca o velocmetro (ou o radar) a velocidade
do carro naquele instante.

A definio formal a seguinte:

x
y
d
d
= lim
x0
x
y



Onde
x
y

a taxa de variao mdia (a velocidade mdia, por exemplo). Se tomamos uma


variao de x muito pequena, ento a taxa de variao mdia tende a coincidir com a taxa de
variao instantnea (a derivada).

Os termos dy e dx (diferenciais de y e x) indicam que se trata de uma variao (diferena)
infinitamente pequena destas variveis, em contraste com os smbolos y e x, que representam a
diferena (variao) finita.

Se usamos a notao y = f(x), a derivada tambm pode ser escrita como f(x).

4.A.1.1 Regras de derivao

A partir da definio acima possvel calcular a derivada de qualquer funo, se ela existir.
Entretanto, normalmente se usam algumas regras gerais, que so mostradas na tabela abaixo:
f(x) f'(x)
a (constante) 0
x 1
x
2
2x
x
n
nx
n-1
e
x
e
x
ln x 1/x
sen x cos x
cos x sen x
ag(x) ag'(x)
g(x) + h(x) g'(x) + h(x)
g(x).h(x) g'(x).h(x) + g(x).h(x)
g(x)/h(x) [g(x).h(x) g(x).h(x)]/[h(x)]
2

g(h(x)) h(x).g(h(x))

4.A.2 Integral

A integral de uma funo o limite de uma soma

92

b
a
) ( f dx x = lim
n

=
n
1 i
f(x
i
)x
i


Da a sua utilidade em clculos de reas, por exemplo. como se aproximssemos a curva
em questo atravs de um conjunto de retngulos e calculssemos o a rea destes retngulos.
Quanto maior o nmero de retngulos, e portanto menor o seu tamanho, mais prximo estaremos da
rea correta da figura.

Demonstra-se, atravs do Teorema do Valor Mdio, que:

b
a
) ( f dx x = F(b) F(a)

Onde F(x) chamada de primitiva de f(x), isto , a funo cuja derivada f(x), ou seja:
F(x) = f(x)

Na tabela abaixo apresentamos algumas primitivas:
f(x) F(x)
a ax
x x
2
/2
x
n
(n -1) x
n+1
/(n+1)
1/x ln x
e
x
e
x

e
-x
e
-x

xe
-x
xe
-x
e
-x

x
2
e
-x
e
-x
(x
2
+ 2x + 2)

4.A.3 Mximos e mnimos

Podemos encontrar os mximos e mnimos da funo resolvendo a seguinte equao:

f(x) = 0

Isto , derivando e igualando a zero.

Para saber se ponto de mximo, substitumos o(s) valor(es) encontrado(s) acima, que
chamaremos de x
0
na derivada segunda (condio de 2
a
ordem), onde valem as seguintes regras:

f(x
0
) > 0 ponto de mnimo
f(x
0
) < 0 ponto de mximo
f(x
0
) = 0 ponto de inflexo
93
Apndice 4.B Demonstrao dos teoremas e momentos de uma distribuio

4.B.1 Demonstrao do Teorema 4.5.1

Consideraremos dois casos: em que u(x) uma funo crescente (sendo assim, sua derivada
positiva); e o caso em que u(x) uma funo decrescente (com derivada negativa, portanto).

Relembrando que y = u(x), cuja funo inversa dada por x = v(y).

Para o caso de u(x) crescente, tomando duas constantes a e b quaisquer, temos:

P(a < y < b) = P[v(a) < x < v(b)]
P(a < y < b) =

) (
) (
d ) ( f
b v
a v
x x

Como f(x) = f(v(y)) e dx = v(y)dy, e ainda:
se x = v(a), ento y = a
se x = v(b), ento y = b

Substituindo, temos:
P(a < y < b) =

b
a
y y y d ) ( ' v )) ( v ( f
Portanto, a f.d.p. de y, neste caso
g(y) = v(y)f(v(y))

Para u(x) decrescente, h que se fazer uma inverso:
P(a < y < b) = P[v(b) < x < v(a)]
P(a < y < b) =

) (
) (
d ) ( f
a v
b v
x x

De novo, substituindo, temos:
P(a < y < b) =

a
b
y y y d ) ( ' v )) ( v ( f
O que equivalente a:
P(a < y < b) =

b
a
y y y d ) ( ' v )) ( v ( f

Sendo assim, agora a f.d.p. de y
g(y) = v(y)f(v(y))

Ou seja, v(y), quando negativo, fica com o sinal de menos frente de modo a torn-lo
positivo, o que equivale a calcular o seu mdulo.

Ento, vale a regra geral:
g(y) = |v(y)|f(v(y))

4.B.2 Demonstrao do Teorema de Tchebichev

94
Nos limitaremos aqui ao caso de distribuies contnuas.

Sabemos que:

2
= var(x) =

+

x x x d ) ( f ) (
2

Dividindo esta integral em trs partes, temos:

2
=

k
x x x d ) ( f ) (
2
+

+





k
k
x x x d ) ( f ) (
2
+

+
+



k
x x x d ) ( f ) (
2


E, como todos os trs termos so no negativos, j que f(x) no negativa e (x - ) est
elevado ao quadrado, se retirarmos a integral do meio teremos:

2

k
x x x d ) ( f ) (
2
+

+
+



k
x x x d ) ( f ) (
2


E agora temos x em dois intervalos: um, onde x k e o outro, onde x + k. Em
ambos os casos, temos que (x )
2
k
2

2
. Portanto, vlido que:

2

k
x x d ) ( f k
2 2
+

+
+

k
x x d ) ( f k
2 2


Dividindo por k
2

2
em ambos os lados:


2
k
1


k
x x d ) ( f +

+
+ k
x x d ) ( f

E sabemos que:


k
x x d ) ( f = P(x k) = P(x k)

+
+ k
x x d ) ( f = P(x + k) = P(x k)

Substituindo:
2
k
1
P(x k) + P(x k)

O que equivale a:
P(|x | k)
2
k
1


Cujo complementar :
P(|x | < k) 1
2
k
1


4.B.3 Distribuio log-Normal

95
Se x uma varivel cuja distribuio normal com mdia e desvio padro , e seja y
definida como y = e
x
(ou seja, x = ln y) , dizemos que y segue uma distribuio conhecida como log-
Normal.

Aplicando o Teorema 3.6.1, temos que:

u(x) = e
x

v(y) = ln y
v(y) =
y
1


A f.d.p. de uma varivel normal :
f(x) =
2
2
1

2
2
2
) (x
e



A f.d.p. da varivel log-Normal (y) ser ento:
g(y) =
2
2
1
y
2
2
2
ln

) y (
e



Cuja mdia
2
2

+
e e a varincia e
2
( e
2
2
e

2
).

4.B.4 Momentos de uma distribuio

Definimos o momento de uma distribuio (de uma varivel aleatria x) de ordem k, em
relao mdia
38
(M
k
) como:

M
k
= E(x )
k


imediato que o primeiro momento em relao mdia sempre zero:

M
1
= E(x ) = E(x) = = 0

E o segundo momento a varincia:

M
2
= E(x )
2
=
2


O terceiro momento, definido por:

M
3
= E(x )
3


Tem a ver com o grau de simetria da distribuio. Uma distribuio simtrica (como a
Normal) tem o terceiro momento em relao mdia igual a zero. Define-se, inclusive, um
coeficiente de assimetria por:


3
=
3
3
M




38
Tambm podemos definir o momento em relao origem, M
k
= E(x
k
).
96
Que to maior (em mdulo) quanto mais assimtrica for a distribuio.

O quarto momento:

M
4
= E(x )
4


Tem a ver com a curtose, que o grau de achatamento de uma distribuio. Se uma
distribuio muito achatada, ela dita platicrtica, se mais para pontiaguda, chamada
leptocrtica. A referncia para esta definio a distribuio Normal, que dita mesocrtica.

Define-se o coeficiente de curtose como:


4
=
4
4
M



Cujo valor, para a Normal, 3. Se for maior do que 3, a distribuio leptocrtica, caso
contrrio, platicrtica.

97
98
CAPTULO 5 DISTRIBUIO DE PROBABILIDADE
CONJUNTA

Chamamos de conjunta a probabilidade que se refere a duas (ou mais) variveis aleatrias
simultaneamente.

Podemos ainda dizer que a distribuio de probabilidade de um vetor aleatrio
39
(X,Y)
para o caso bidimensional, isto , com duas variveis.

Estas variveis podem, evidentemente, ser discretas ou contnuas.

5.1 Distribuio conjunta de variveis discretas

Imagine um time de vlei que vai disputar um campeonato muito equilibrado (de modo que
a probabilidade de ganhar ou perder uma partida seja 0,5). O tcnico pede ao analista de nmeros da
equipe que faa uma anlise das probabilidades das 3 primeiras partidas, que so consideradas vitais
para o restante da competio. Em particular, a vitria na primeira partida considerada vital pela
comisso tcnica.

O analista, ento, define duas variveis, X e Y, desta forma: X o nmero de vitrias
obtidas nos trs primeiros jogos e Y igual a 1, caso ocorra vitria no primeiro jogo e 0 caso
contrrio (X e Y so variveis independentes?).

H 8 possveis resultados nas trs primeiras partidas (222, 2 em cada partida), todos com
a mesma probabilidade (j que a probabilidade de vitria em cada jogo 0,5). Os possveis
resultados, e os correspondentes valores de X e Y, so mostrados na tabela abaixo:

tabela 5.1
resultados possveis X Y
VVV 3 1
VVD 2 1
VDV 2 1
VDD 1 1
DVV 2 0
DDV 1 0
DVD 1 0
DDD 0 0

Onde V representa vitria e D representa a derrota. O resultado VDV, por exemplo,
representa vitria no primeiro jogo, derrota no segundo e vitria no terceiro.

A seguir, o analista constri uma tabela que apresenta as probabilidades conjuntas de X e Y.
O preenchimento desta tabela feito atravs da tabela anterior. Assim, na posio da tabela que
corresponde a X = 2 e Y = 1 devemos colocar a probabilidade disto ocorrer, isto P(X=2 e Y=1).
Pela tabela acima, verificamos que, em 8 resultados possveis, temos 2 em que h duas vitrias (X =
2) e h vitria no primeiro jogo (Y = 1). Portanto, P(X=2 e Y=1) =
8
2
. E assim procedendo
obtemos:

39
Chamamos o vetor (X,Y) de vetor aleatrio se X e Y forem variveis aleatrias.
99

tabela 5.2
Y
X
0 1 2 3
0
8
1

8
2

8
1

0
1 0
8
1

8
2

8
1



Com a tabela 5.2 pronta, torna-se desnecessrio utilizar a tabela 5.1 para se obter as
probabilidades conjuntas. Assim, diretamente pela tabela 5.1, temos, por exemplo:
P(X=1 e Y=1) =
8
2


P(X=2 e Y=0) =
8
1

P(X=3 e Y=0) = 0

Da tabela 5.2 podemos obter tambm as distribuies de probabilidade s de X e s de
Y. Como? A probabilidade, digamos, de X ser igual a 1, independente do valor de Y a
probabilidade de X = 1 e Y = 0 ou X = 1 e Y = 1, portanto
40
:

P(X=1) = P[(X=1 e Y=0) ou (X=1 e Y=1)] =
8
2
+
8
1
=
8
3

Isto , a probabilidade de X (s de X, sem considerar o que ocorre com Y) dada pela
soma das probabilidades ao longo da coluna, ou seja, somando-se as probabilidades de todos os
valores possveis de Y.

Ento, na tabela, 5.3, alm da distribuio conjunta de X e Y, mostramos tambm a
distribuio marginal de X, a distribuio s de X (chama-se de marginal margem
porque foi obtida de uma distribuio conjunta), representada por P(X):







tabela 5.3
Y
X
0 1 2 3
0
8
1

8
2

8
1

0
1 0
8
1

8
2

8
1

P(X)
8
1

8
3

8
3

8
1



40
Lembrando que Y = 0 e Y = 1 so eventos mutuamente exclusivos, portanto vale a regra P(A ou B) = P(A) + P(B).
100
A distribuio de probabilidade s de Y obtida da mesma forma, ou seja, somando-se as
probabilidades ao longo da linha, isto , somam-se todos os valores possveis de X. Por exemplo, a
probabilidade de Y ser igual a 0 dada por:

P(Y=0) = P(Y=0 e X=0) + P(Y=0 e X=1) + P(Y=0 e X=2) + P(Y=0 e X=3)
P(Y=0) =
8
1
+
8
2
+
8
1
+ 0 =
8
4
=
2
1


Fazendo o mesmo para Y igual a 1, obtemos a distribuio marginal de Y, representada por
P(Y) na tabela 5.4:

tabela 5.4
Y
X
0 1 2 3 P(Y)
0
8
1

8
2

8
1

0
2
1

1 0
8
1

8
2

8
1

2
1

P(X)
8
1

8
3

8
3

8
1

1

O nmero 1 colocado no canto inferior direito da tabela representa a soma das
probabilidades marginais (e da conjunta tambm), que tem que ser, obviamente, igual a 1.

Repare que as probabilidades marginais de X e Y obtidas pela soma das probabilidades
conjuntas so as mesmas (e nem poderia ser diferente) que seriam obtidas diretamente da tabela
5.1. Por exemplo, dos 8 resultados possveis, h 3 em que X igual a 1, portanto P(X=1) =
8
3
; e h
4 em que Y igual a 0, portanto P(Y=0) =
8
4
=
2
1
.

possvel utilizar a tabela 5.4 para calcular as probabilidades condicionais, embora elas no
possam ser obtidas diretamente da tabela. Suponhamos que queiramos saber qual a probabilidade de
X ser igual a 1, dado que Y 1 (isto , se acontecer uma vitria no primeiro jogo, qual a
probabilidade de que s acontea uma vitria nos trs jogos).

Pela definio de probabilidade condicional, temos:

P(X=1 | Y=1) =
1) P(Y
1) Y e 1 P(X
=
= =


E, da tabela 5.4 temos os valores:

P(X=1 | Y=1) =
2
1
8
1
=
4
1


Este resultado tambm compatvel com as informaes da tabela 5.1, pois se Y j 1, s
h, ento, 4 resultados possveis, dos quais em apenas 1 deles X igual a 1.
101

Da mesma forma, podemos calcular a probabilidade de, digamos, Y ser igual a 0, dado que
X igual a 2 (isto , se duas vitrias ocorreram, a probabilidade de que o primeiro jogo tenha sido
uma derrota).

P(Y=0 | X=2) =
) 2 P(X
) 2 X e 0 P(Y
=
= =
=
8
3
8
1
=
3
1


Ou, se ocorreram duas vitrias, os resultados possveis se reduzem a 3. Destes, em apenas 1
no primeiro jogo ocorre uma derrota.

Voltando a pergunta formulada no incio do captulo: X e Y so independentes? Como
sabemos o que representam X e Y, a resposta simples: se no primeiro jogo o time for derrotado,
impossvel que haja vitria em 3 jogos (portanto, se Y igual a 0 impossvel que X seja 3); da
mesma forma, se Y igual a 1 impossvel que X seja 0. Portanto, X e Y no so independentes.
Isto, no entanto, pode ser verificado mesmo que no tivssemos outra informao alm da tabela
5.4, j que, por exemplo:

P(X=1 | Y=1) =
4
1
e P(X=1) =
8
3


Portanto:

P(X=1 | Y=1) P(X=1)

E, portanto, pela definio de dependncia dada no captulo 1, X e Y so dependentes, j que
no vale a igualdade entre a probabilidade condicional e a incondicional
41
.



Exemplo 5.1.1
Calcule o valor esperado e a varincia das variveis aleatrias X e Y definidas no texto, bem como
a covarincia e o coeficiente de correlao entre as mesmas.

As distribuies conjunta e marginal de X e Y foram apresentadas na tabela 5.4:
tabela 5.4
Y
X
0 1 2 3 P(Y)
0
8
1

8
2

8
1

0
2
1

1 0
8
1

8
2

8
1

2
1


41
Para mostrar que as variveis no so independentes, basta encontrar uma situao em que a igualdade no vale. Para
o contrrio, no entanto, necessrio que a igualdade valha para todos os valores de X e Y, pois possvel que, para um
par de valores particulares de X e Y, valha, por coincidncia, a igualdade, ainda que X e Y no sejam independentes.
102
P(X)
8
1

8
3

8
3

8
1

1


Para calcular E(X) e var(X) usamos as probabilidades dadas pela distribuio marginal de X,
que pode assumir os valores 0, 1, 2 e 3:

E(X) = 0
8
1
+ 1
8
3
+ 2
8
3
+ 3
8
1
=
8
10
= 1,25
E(X
2
) = 0
2

8
1
+ 1
2

8
3
+ 2
2

8
3
+ 3
2

8
1
= 0
8
1
+ 1
8
3
+ 4
8
3
+ 9
8
1
=
8
24
= 3
var(X) = E(X
2
) [E(X)]
2
= 1,875 1,25
2
= 3 1,5625 = 1,4375

Para Y vale o mesmo raciocnio:

E(Y) = 0
2
1
+ 1
2
1
= 0,5
E(Y
2
) = 0
2

2
1
+ 1
2

2
1
= 0
2
1
+ 1
2
1
= 0,5
var(Y) = E(Y
2
) [E(Y)]
2
= 0,5 0,5
2
= 0,5 0,25 = 0,25

Para se calcular a covarincia de X e Y podemos utilizar a expresso:

covar(X,Y) = E(XY) E(X)E(Y)

Como j conhecemos as esperanas de X e Y, temos que calcular a esperana dos produtos.
Os produtos so mostrados na tabela abaixo:

tabela 5.5
X Y XY
3 1 3
2 1 2
2 1 2
1 1 1
2 0 0
1 0 0
1 0 0
0 0 0

Pela tabela 5.5 temos que:
P(XY = 0) =
8
4

P(XY = 1) =
8
1

P(XY = 2) =
8
2

P(XY = 3) =
8
1


103
Portanto, a esperana dos produtos ser dada por:
E(XY) = 0
8
4
+ 1
8
1
+ 2
8
2
+ 3
8
1
=
8
8
= 1

E a covarincia:
covar(X,Y) = E(XY) E(X)E(Y) = 1 1,250,5 = 1 0,625 = 0,375

E, finalmente, o coeficiente de correlao:

XY
=
Y) var(X)var(
Y) covar(X,
=
25 , 0 4375 , 1
375 , 0

0,6255

Exemplo 5.1.2
Dadas as variveis aleatrias X e Y definidas no texto, determine E(X | Y=0).

Para calcularmos a esperana condicionada precisamos das probabilidades condicionais para
todos os valores de X:

P(X=0 | Y=0) =
4
1

P(X=1 | Y=0) =
2
1

P(X=2 | Y=0) =
4
1

P(X=3 | Y=0) = 0

Portanto:

E(X | Y=0) = 0
4
1
+ 1
2
1
+ 2
4
1
+ 30 = 1

Exemplo 5.1.3
Dadas as variveis aleatrias X e Y definidas no texto, determine var(Y | X=1).

De novo, precisamos das probabilidades condicionais:
P(Y=0 | X=1) =
3
2

P(Y=1 | X=1) =
3
1


Temos ento:
E(Y | X=1) = 0
3
2
+ 1
3
1
=
3
1

E(Y
2
| X=1) = 0
2

3
2
+ 1
2

3
1
= 0
3
2
+ 1
3
1
=
3
1

var(Y | X=1) = E(Y
2
| X=1) [E(Y | X=1)]
2
=
3
1
-
2
3
1
|
.
|

\
|
=
3
1
-
9
1
=
9
2
= 0,222...
104

Exemplo 5.1.4
Para casais de 2 filhos, definem-se duas variveis, W e Z. W o sexo do primeiro filho, sendo 0
para masculino e 1 para feminino. Z igual a 1 se as duas crianas so do mesmo sexo, 0 se
formam um casal. Construa uma tabela com as distribuies conjunta e marginal de W e Z e
determine se so variveis independentes.

Para um casal com 2 filhos, h quatro possibilidades. Representando os meninos por H e as
meninas por M, temos:

possibilidades W Z
HH 0 1
HM 0 0
MM 1 1
MH 1 0
Cujas probabilidades so mostradas na tabela abaixo:


W
Z
0 1 P(W)
0
4
1

4
1

2
1

1
4
1

4
1

2
1

P(Z)
2
1

2
1

1


Note que, para quaisquer valores de Z ou W:
P(Z=Z
0
| W=W
0
) = P(Z=Z
0
) e
P(W=W
0
| Z=Z
0
) = P(W=W
0
)

Por exemplo:
P(Z=1 | W=1) =
2
1
4
1
=
4
2
=
2
1
e
P(Z=1) =
2
1


Portanto, Z e W so independentes, o que lgico, pois os dois filhos serem ou no do
mesmo sexo independe do sexo do primeiro filho.

Exemplo 5.1.5
A tabela abaixo mostra a distribuio conjunta das variveis aleatrias discretas U e V. Encontre as
distribuies marginais, verifique se U e V so independentes e calcule a covarincia das duas
variveis.
V
U
0 1 2
-1
8
1

8
1

8
1

0
8
1

0
8
1

105
1
8
1

8
1

8
1


As distribuies marginais de U e V so dadas pela soma ao longo das linhas (a de V) e ao
longo das colunas (a de U). A tabela abaixo mostra tambm as distribuies marginais:



V
U
0 1 2 P(V)
-1
8
1

8
1

8
1

8
3

0
8
1

0
8
1

8
2

1
8
1

8
1

8
1

8
3

P(U)
8
3

8
2

8
3

1

Podemos ver que:
P(U=1 | V=0) = 0 e
P(U=1) =
8
2

Portanto:
P(U=1 | V=0) P(U=1)

Ento U e V no so independentes.

Os valores esperados de U e V so:
E(U) =
8
3
0 +
8
2
1 +
8
3
2 =
8
8
= 1
E(V) =
8
3
(-1) +
8
2
0 +
8
3
1 = 0

Para calcularmos a covarincia de U e V, precisamos das probabilidades do produto UV:
E(UV) =
8
1
(-2) +
8
1
(-1) +
8
4
0 +
8
1
1 +
8
1
2 = 0

Ento:
covar(U,V) = E(UV) E(U)E(V) = 0 10 = 0

Isto , apesar da covarincia ser zero, as variveis U e V so dependentes
42
.

5.2 Distribuio conjunta de variveis contnuas

Se as variveis aleatrias forem contnuas o procedimento similar quele para uma nica
varivel. Define-se uma funo densidade de probabilidade (f.d.p) conjunta f(x,y), de tal modo que
a probabilidade de x estar entre os valores a e b e y entre c e d dada por:

42
Lembre-se que, se as variveis so independentes, a covarincia zero, mas a recproca no verdadeira, isto ,
covarincia zero no implica independncia como pode ser visto no exemplo acima.
106

P(a<x<b e c<y<d) =

d
c
b
a
dxdy y x ) , ( f

Ou seja, a f.d.p. conjunta, assim como a distribuio de probabilidade conjunta discreta, nos
d a probabilidade do e. E, em se tratando de variveis contnuas (seja uma ou mais de uma), a
probabilidade s pode ser calculada para um intervalo, isto :

P(x=x
0
e y=y
0
) = 0

Mesmo que x=x
0
e y=y
0
sejam eventos possveis.

A f.d.p. conjunta deve seguir as mesmas propriedades da f.d.p. para uma varivel, isto , no
pode ser negativa:

f(x,y) 0

E a soma de todas as probabilidades tem que ser igual a 1:



+

+

dxdy y x ) , ( f = 1

Exemplo 5.2.1
Dada a funo:
f(x,y) =

< < < <


valores demais , 0
1 0 e 1 0 para , y x Axy


Determine o valor de A para que f(x,y) seja uma f.d.p.

Para ser uma f.d.p. deve obedecer:



+

+

dxdy y x ) , ( f = 1
Ou, no caso especfico, como tanto x como y variam entre 0 e 1:


1
0
1
0
) , ( f dxdy y x = 1



1
0
1
0
Axydxdy = 1


1
0
1
0
xdxdy Ay = 1
dy
x
Ay
1
0
1
0
2
2

= 1
107
dy Ay
2
1
1
0

= 1
dy y
A

1
0
2
= 1

1
0
2
2 2
(

y A
= 1

2
1
2

A
= 1

4
A
= 1
A = 4

Exemplo 5.2.2
Dada a f.d.p. do exemplo 5.2.1, determine a probabilidade de x estar entre 0,2 e 0,4 e y estar entre
0,6 e 0,8.

A f.d.p. dada por:
f(x,y) =

< < < <


valores demais , 0
1 0 e 1 0 para , 4 y x xy


A probabilidade do e dada diretamente pela integral da f.d.p.:

P(0,2<x<0,4 e 0,6<y<0,8) =

8 , 0
6 , 0
4 , 0
2 , 0
) , ( f dxdy y x
P(0,2<x<0,4 e 0,6<y<0,8) =

8 , 0
6 , 0
4 , 0
2 , 0
4xydxdy
P(0,2<x<0,4 e 0,6<y<0,8) =

8 , 0
6 , 0
4 , 0
2 , 0
4 xdxdy y
P(0,2<x<0,4 e 0,6<y<0,8) = dy
x
y
4 , 0
2 , 0
8 , 0
6 , 0
2
2
4


P(0,2<x<0,4 e 0,6<y<0,8) = dy y
4 , 0
2 , 0
8 , 0
6 , 0
2 2
2
2 , 0
2
4 , 0
4


P(0,2<x<0,4 e 0,6<y<0,8) = dy y

8 , 0
6 , 0
0,24
P(0,2<x<0,4 e 0,6<y<0,8) = dy y

8 , 0
6 , 0
24 , 0
P(0,2<x<0,4 e 0,6<y<0,8) =
8 , 0
6 , 0
2
2
24 , 0
(

y

108
P(0,2<x<0,4 e 0,6<y<0,8) =
(

2
6 , 0
2
8 , 0
24 , 0
2 2

P(0,2<x<0,4 e 0,6<y<0,8) = 0,0336


Exemplo 5.2.3
Dada a f.d.p. do exemplo 5.2.1, determine as f.d.p. marginais de x e y.

No caso de variveis aleatrias discretas, a distribuio marginal de X era encontrada
somando-se as probabilidades para todos os Y e vice-versa. Com variveis contnuas, a f.d.p.
marginal de x (chamada aqui de g(x) ) encontrada de forma anloga, isto , integrando (somando)
em y.

De um modo geral, a f.d.p. marginal de x pode ser encontrada assim:

g(x) =

+

dy y x ) , ( f

E, no caso especfico:

g(x) =

1
0
4xydy
g(x) =

1
0
4 ydy x
g(x) =
1
0
2
2
4
(

y
x
g(x) =
2
1
4 x
g(x) = 2x

De forma anloga, a f.d.p. marginal de y, chamada aqui de h(y), ser dada por:
h(y) =

1
0
4xydx
h(y) = 2y

Exemplo 5.2.4
Dada a f.d.p. conjunta do exemplo 5.2.1, determine a probabilidade de x estar entre 0,3 e 0,7.

Como s se pediu a probabilidade de x, utilizaremos a f.d.p. marginal de x:

P(0,3<x<0,7) =

7 , 0
3 , 0
2xdx = | |
7 , 0
3 , 0
2
x = 0,7
2
0,3
2
= 0,49 0,09 = 0,4

109
Exemplo 5.2.5
Dada a f.d.p. conjunta do exemplo 5.2.1, determine as f.d.p. condicionais de x e y.

A probabilidade condicional para dois eventos A e B quaisquer dada por:

P(A|B) =
P(B)
P(AeB)


A probabilidade da interseco (do e) a prpria probabilidade conjunta, isto , a
probabilidade de x e y obtida pela f.d.p. conjunta. Portanto a f.d.p. condicional de x (dado y),
que ser representada por f
x|y
dada por:

f
x|y
=
) ( h
) , ( f
y
y x


No caso da f.d.p. conjunta do exemplo 5.2.1, temos:

f
x|y
=
y
xy
2
4

f
x|y
= 2x

Da mesma forma para a f.d.p. condicional de y (dado x), denominada f
y|x
, temos:
f
y|x
=
) ( g
) , ( f
x
y x

f
y|x
=
x
xy
2
4

f
y|x
= 2y
Note que:
f
x|y
= g(x) e
f
y|x
= h(y)
Ou seja, as probabilidades condicionais so iguais s no condicionais. Portanto, x e y so
variveis independentes.
Repare que, para esta funo, vlida a igualdade:
f(x,y) = g(x)h(y) (5.2.1)
J que:
4xy = 2x.2y
Igualdade esta (5.2.1) que vlida sempre
43
que as variveis forem independentes.

43
O que demonstrado no apndice 5.B
110
Assim sendo, uma maneira de verificar se as variveis em uma f.d.p. conjunta so
independentes verificar se esta funo pode ser fatorada em uma funo s de x e outra s de
y, ou seja, se for possvel separar x e y.
Exemplo 5.2.6
Dada a f.d.p. do exemplo 5.2.1 determine E(x)

Podemos calcular o valor esperado de x diretamente da f.d.p. conjunta.

De um modo geral, temos, de maneira anloga s f.d.p. com uma nica varivel:

E(x) =

+

+

dxdy y x xf ) , (

E para o caso particular da f.d.p. apresentada no exemplo 5.2.1, temos:
E(x) =

1
0
1
0
) , ( dxdy y x xf
E(x) =

1
0
1
0
4xydxdy x
E(x) =

1
0
1
0
2
4 dxdy x y
E(x) = dy
x
y
1
0
1
0
3
3
4
(



E(x) = dy y

1
0
3
4

E(x) =
1
0
2
2 3
4
(

y

E(x) =
2
1
3
4

E(x) =
3
2


Ou podemos utilizar simplesmente a f.d.p. marginal de x, clculo que cuja forma geral :
E(x) =

+

dx x x ) g(
E para o caso especfico deste exemplo:

E(x) =

1
0
2xdx x
E(x) =

1
0
2
2 dx x
111
E(x) =
1
0
3
3
2
(

x

E(x) =
3
1
2
E(x) =
3
2

Exemplo 5.2.7
Dada a f.d.p. do exerccio 5.2.1, determine a varincia de x.

De novo, podemos calcular a varincia diretamente da f.d.p. conjunta, que, de forma anloga
s f.d.p. de uma nica varivel dada por:

var(x) =

+

+

dxdy y x x x ) , ( f )] ( E [
2
=

+

+

dxdy y x x ) , ( f
2
-
2
) , ( f
(


+

+

dxdy y x x
Sendo o ltimo termo nada mais do que uma nova forma para uma j conhecida expresso
(mdia dos quadrados menos o quadrado da mdia).

Ou podemos utilizar, como fizemos para a esperana de x, utilizar diretamente a funo
marginal:
var(x) =

+

dx x x x ) ( g )] ( E [
2
=

+

dx x x ) ( g
2
-
2
) ( g
(

+

dx x x
Como j calculamos a mdia no exemplo anterior, ficamos com a ltima expresso:

var(x) =

+

dx x x ) ( g
2
-
2
) ( g
(

+

dx x x
Que, neste exemplo, ser:
var(x) =

1
0
2
) ( g dx x x -
2
3
2
(


var(x) =

1
0
2
2xdx x -
9
4

var(x) =

1
0
3
2 dx x -
9
4

var(x) =
1
0
4
4
2
(

x
-
9
4

var(x) =
4
2
-
9
4

var(x) =
18
1



112
Exemplo 5.2.8
Dada a f.d.p. do exemplo 5.2.1, determine cov(x,y):

Lembrando que:
cov(x,y) = E[(x-E(x)E(y-E(y)] = E(xy) E(x)E(y)

O que, para uma f.d.p. conjunta, pode ser escrito como:
cov(x,y) =

+

+

dxdy y y x x )) ( E ))( ( E ( =

+

+
-
) , ( f dxdy y x xy -

+
-
) ( g dx x x

+
-
) ( h dy y y

Como j calculamos anteriormente a mdia de x (e fcil ver que esta ser igual mdia de
y), ficamos com a segunda expresso que, para este exemplo, ser dada por:

cov(x,y) =

1
0
1
0
4xydxdy xy -
3
2

3
2

cov(x,y) =

1
0
1
0
2 2
4 dxdy x y -
9
4

cov(x,y) = dy
x
y
1
0
1
0
3
2
3
4
(

-
9
4

cov(x,y) = dy y

1
0
2
3
4
-
9
4

cov(x,y) =
1
0
3
3 3
4
(

y
-
9
4

cov(x,y) =
3
1
3
4
-
9
4

cov(x,y) =
9
4
-
9
4

cov(x,y) = 0

O que, diga-se de passagem, j era um resultado esperado, tendo em vista que se tratam de
variveis independentes, como j foi visto anteriormente.
Exemplo 5.2.9
Dada a funo:
f(x,y) =

< < < < +


valores demais , 0
1 0 e 1 0 para ), (
2 2
y x y x B

a) determine o valor da constante B de modo que a funo dada seja uma f.d.p.
b) determine as f.d.p. marginais de x e y.
c) determine as f.d.p. condicionais de x e y.
d) x e y so variveis aleatrias independentes?
e) calcule P(x<0,5 | y = 0,5).

a) Para ser uma f.d.p. deve obedecer condio:
113


+

+

dxdy y x ) , ( f = 1
E, como no exemplo 5.2.1, tanto x como y variam entre 0 e 1:


1
0
1
0
) , ( f dxdy y x = 1


+
1
0
1
0
2 2
) ( dxdy y x B = 1


+
1
0
1
0
2 2
) ( dxdy y x B = 1
dy x y
x
B
1
0
1
0
2
3
3
(

+ = 1
dy y B

+
1
0
2
)
3
1
( = 1

1
0
3
3 3
1
(

+
y
y B = 1
|
.
|

\
|
+
3
1
3
1
B = 1

3
2
B = 1
B =
2
3


b) Para encontrar a f.d.p. marginal de x, integramos (somamos) em y:

g(x) =

+
1
0
2 2
) (
2
3
dy y x =
1
0
3
2
3 2
3
(

+
y
y x =
2
3
(x
2
+
3
1
)

E, da mesma forma, para a f.d.p. marginal de y:
h(y) =

+
1
0
2 2
) (
2
3
dx y x =
1
0
2
3
3 2
3
(

+ x y
x
=
2
3
(
3
1
+ y
2
)

c) As f.d.p. marginais de x e y sero dadas por:

f
x|y
=
) ( h
) , ( f
y
y x
=
)
3
1
(
2
3
) (
2
3
2
2 2
y
y x
+
+
=
2
2 2
3
1
y
y x
+
+


114
f
y|x
=
) ( g
) , ( f
x
y x
=
)
3
1
(
2
3
) (
2
3
2
2 2
x
y x
+
+
=
2
2 2
3
1
x
y x
+
+


d) As variveis x e y so dependentes, j que, pelos resultados obtidos nos itens anteriores:

f
x|y
g(x) e
f
y|x
h(y)

Mas esta concluso j poderia ser tirada antes mesmo da resoluo dos itens b e c, j que
impossvel fatorar a funo x
2
+ y
2
em uma funo s de x e outra s de y.
e) Para calcular a probabilidade pedida, usamos a f.d.p. condicional de x (dado que y = 0,5).

f
x|y=0,5
=
2
2 2
3
1
y
y x
+
+
=
2
2
2
2
1
3
1
2
1
|
.
|

\
|
+
|
.
|

\
|
+ x
=
4
1
3
1
4
1
2
+
+ x
=
12
7
4
1
2
+ x
=
7
12
(x
2
+
4
1
)
Neste caso a probabilidade de x ser menor do que 0,5 (dado que y igual a 0,5) ser dada
por:

P(x<0,5 | y = 0,5) =

+
5 , 0
0
2
)
4
1
(
7
12
dx x =
5 , 0
0
3
4
1
3 7
12
(

+ x
x
=
7
12
(
3
1

8
1
+
4
1

2
1
) =
7
2
0,2857

Exemplo 5.2.10
Com a f.d.p. do exemplo 5.2.9, determine E(x | y = 0,5)

Do exemplo anterior, temos que:
f
x|y=0,5
=
7
12
(x
2
+
4
1
)
A esperana condicional de x ser dada por:

E(x | y = y
0
) = dx x
y x

+

|
f
O que, neste exemplo, seria calculado como se segue:

E(x | y = 0,5) =

+
1
0
2
)
4
1
(
7
12
dx x x
E(x | y = 0,5) =

+
1
0
3
)
4
1
(
7
12
dx x x
E(x | y = 0,5) =
1
0
2 4
8 4 7
12
(

+
x x

E(x | y = 0,5) = |
.
|

\
|
+
8
1
4
1
7
12

115
E(x | y = 0,5) =
8
3
7
12

E(x | y = 0,5) =
14
9


Exemplo 5.2.11
Dada a funo:
f(x,y) =

< < <


valores demais , 0
1 0 para , y x C

Determine o valor da constante C para que esta funo seja uma
f.d.p.

Aqui devemos tomar o cuidado de que os limites de integrao so diferentes pois, embora x
e y variem de 0 a 1, h que se notar que x na verdade vai de 0 a y (se y igual a 1, ento x vai de 0 a
1 mesmo, mas se y for, por exemplo, 0,34, x vai de 0 a 0,34).

Portanto, os limites de integrao quando integramos em relao a x devem ser 0 e y. Uma
vez eliminado x, os limites de integrao para y so mesmo 0 e 1.

Assim, aplicando a condio de que a soma de todas as probabilidades deve ser igual a 1:


1
0 0
y
Cdxdy =1
| |

1
0
0
dy Cx
y
= 1

1
0
Cydy = 1

1
0
2
2
(

y
C = 1

C
2
1
= 1

C = 2
Repare que a ordem em que as variveis so integradas, mesmo neste caso, no
importante. Se quisermos integrar primeiro em relao a y, devemos notar que y vai de x a 1 e, uma
vez eliminado y, x varia de 0 a 1.



1
0
1
x
Cdydx =1
| |

1
0
1
dx Cy
x
= 1
116


1
0
) ( dx Cx C = 1

1
0
2
2
(

Cx
Cx = 1
C
2
C
= 1

2
C
= 1
C = 2

Exemplo 5.2.12
Suponha que x e y so duas variveis aleatrias independentes, com distribuio normal,
identicamente distribudas (mesma mdia e mesmo desvio padro
44
). Determine a f.d.p. conjunta
para estas duas variveis.

Em se tratando de variveis cuja distribuio normal, as f.d.p. de cada uma delas dada
por:

g(x) =
2
) (
2
1
2
2
1

x
e
h(y) =
2
) (
2
1
2
2
1

y
e

Como so variveis independentes, temos:

f(x,y) = g(x)h(y)
f(x,y) =
2
) (
2
1
2
2
1

x
e
2
) (
2
1
2
2
1

y
e
f(x,y) =
2 2
) (
2
1
) (
2
1
2
2
2
1

|
|
.
|

\
|
y x
e
f(x,y) =
| |
2 2
2
) ( ) (
2
1
2
2
1

+ y x
e

Esta uma f.d.p. de uma distribuio normal bivariada (onde as variveis so
independentes).

44
J que a mdia e o desvio padro definem uma distribuio normal.
117
Exerccios

1. Dadas as distribuies de probabilidade abaixo, determine:
a) as distribuies marginais de X e Y
b) as probabilidades pedidas:
b.1) P(X =1) b.2) P(Y = 1) b.3) P(X =2) b.4) P(X = 2 e Y = -1)
b.5) P(X = 3 e Y = 1) b.6) P(X = 1| Y =-1) b.7) P(X = 2| Y =1) b.8) P(Y = 1| X = 2)
c) se X e Y so variveis independentes (justifique).
d) E(X), E(Y), var(X), var(Y), covar(X,Y) e
XY
.
e) E(X | Y = -1); E (Y | X = 1).
f) var (X | Y =1)
i)
Y
X
0 1 2 3
-1 1/8 1/8 1/8 1/8
1 1/8 2/8 1/8 0
ii)
Y
X
0 1 2 3
-1 1/8 1/8 1/8 0
1 1/8 2/8 1/8 1/8

Enunciado para os exerccios 2 a 4: suponha que o analista do texto trabalhasse para um time de
futebol, em vez de um time de vlei. Ele define, ento, trs variveis para os trs primeiros jogos: X
o nmero de pontos do time (3 pontos para vitria, 1 para empate); Y o nmero de vitrias; Z
o nmero de vezes em que o resultado de um jogo o mesmo do anterior (por exemplo, para trs
vitrias seguidas, Z=2; para uma vitria, um empate e uma derrota, Z=0).

2. Numa tabela, mostre a distribuio conjunta e as marginais de X e Y. Calcule a covarincia de X
e Y e determine se so variveis independentes.

3. Numa tabela, mostre a distribuio conjunta e as marginais de Y e Z. Calcule a covarincia de Y
e Z e determine se so variveis independentes.

4. Numa tabela, mostre a distribuio conjunta e as marginais de X e Z. Calcule a covarincia de X
e Z e determine se so variveis independentes.

5. Uma urna contem 8 bolas, 4 vermelhas e 4 brancas, numeradas, respectivamente, de 1 a 4 e 5 a 8.
Para trs bolas sorteadas, sem reposio, defina X como o nmero de bolas vermelhas e Y como
sendo 1 para nmero mpar e 0 para nmero par.
a) Determine a distribuio conjunta de X e Y
b) Determine as distribuies marginais de X e Y.
c) X e Y so independentes?
d) Calcule E(X), E(Y).
e) Calcule var(X), var(Y).
f) Calcule a covarincia e o coeficiente de correlao entre X e Y.

6. Dada a distribuio de probabilidade conjunta:
K
L
0 1 2
-1 0,1 0,1 0,15
0 0,15 0,1 0,1
1 0,05 0,15 0,1
a) determine as distribuies marginais de K e L.
118
b) determine o valor esperado de K e L.
c) determine a covarincia de K e L.
d) K e L so variveis aleatrias independentes?
e) determine E(K | L=1) e E(L | K=0).

7. Dadas as distribuies de probabilidade abaixo, preencha o espao vazio com o valor apropriado
e determine as distribuies marginais.
a)
W
Z
0 1 2 3
1 1/9 1/9 1/9 1/9
2 1/9 1/3 1/9
b)
F
G
2 4 6
1 0,1 0,1 0,1
3 0,15 0,05
5 0,05 0,2 0,05

8. Dada a f.d.p. conjunta do exemplo 5.2.1, determine as probabilidades abaixo:
a) P(0,2<x<0,7)
b) P(0,1<y<0,4)
c) P(x>0,5)
d) P(y<0,8)
e) P(x<0,7 e y>0,2)
f) P(0,1<x<0,3 e 0,4<y<0,8)
g) P(x<0,9 | y = 0,2)
h) P(y>0,6 | x = 0,45)

9. Dada a f.d.p. conjunta do exemplo 5.2.1, determine:
a) E(x)
b) E(y)
c) var(x)
d) var(y)
e) covar(x,y)

10. Dada a f.d.p. conjunta do exemplo 5.2.6, determine as probabilidades abaixo:
a) P(0,3<x<0,8)
b) P(0,2<y<0,3)
c) P(x<0,6)
d) P(y>0,7)
e) P(x<0,4 e y>0,3)
f) P(0,2<x<0,5 e 0,3<y<0,9)
g) P(x>0,3 | y = 0,1)
h) P(y<0,5 | x = 0,4)

11. Dada a f.d.p. conjunta do exemplo 5.2.6, determine:
a) E(x)
b) E(y)
c) var(x)
d) var(y)
e) covar(x,y)

12. Dada a f.d.p. conjunta do exemplo 5.2.7, determine:
119
a) as f.d.p. marginais de x e y.
b) as f.d.p. condicionais de x e y.
c) E(x)
d) E(y)
e) var(x)
f) var(y)
g) covar(x,y)

13. Determine o valor da constante A em cada uma das funes abaixo de tal modo que elas sejam
f.d.p.
a) f(x,y) =

< < < <


valores demais , 0
2 0 e 1 1 - para ,
2
y x y Ax


b) f(x,y) =

< < < < +


valores demais , 0
0 1 - e 2 0 para ), (
2
y x y x A


c) f(x,y) =

> >
+
valores demais , 0
0 e 0 para ,
) (
y x Ae
y x


d) f(x,y) =

< < < <


valores demais , 0
1 2 - e 7 3 para , y x A


e) f(x,y) =
valores demais , 0
) e
2
1
( ou ) e
2
1
( para ,

x y x x y x A







14. Dada a f.d.p. conjunta abaixo:
f(x,y) =

< < < <


valores demais , 0
1 0 e 1 0 para , 6
2
y x y x

Determine:
a) as f.d.p. marginais de x e y.
b) as f.d.p. condicionais de x e y
c) se x e y so independentes.
d) P(x>0,4)
e) P(y<0,8)
f) P(x<0,2 e y>0,3)

15. Dada a funo abaixo:
f(x,y) =

< < < <


valores demais , 0
e 2 0 para ), (
2
x y -x x xy x B

a) Determine o valor de B para que f(x,y) seja uma f.d.p.
b) Determine as f.d.p. marginais e condicionais de x e y
120
c) Calcule E(y | x = 1).

16. Se definirmos as variveis X e Y como se segue:
X = 1 se o evento A ocorre, e 0 em caso contrrio
Y = 1 se o evento B ocorre, e 0 em caso contrrio
Se P(A) e P(B) so no nulas, mostre que, neste caso, se o coeficiente de correlao entre X e Y for
igual a zero, ento X e Y so independentes.

17. Suponha x e y duas variveis aleatrias independentes com distribuio normal e mdia e
desvio padro dados, respectivamente, por 0 e 2 (para x) e 1 e 1 (para y). Determine a f.d.p.
conjunta de x e y.

18. Suponha w e z duas variveis aleatrias independentes com distribuio exponencial e mdia
dadas, respectivamente, por 0,5 e 0,75. Determine a f.d.p. conjunta de w e z.


121
APNDICE 5.B Tpicos Adicionais em Distribuio Conjunta

5.B.1 Probabilidade condicional

Algum leitor mais desconfiado pode ter suspeitado da validade, por exemplo, da expresso
abaixo para o caso de distribuies contnuas:

P(x>0,5 | y = 0,5) = ?

E a suspeita vlida, j que P(y = y
0
) = 0 para qualquer valor de y
0
quando se trata de uma
distribuio contnua.

Uma probabilidade condicional, neste caso, s poderia ser definida quando a condio fosse
tambm um intervalo (e no um ponto), isto , seria alguma coisa do tipo:

P(a<x<b | c<y<d) = ?

Que seria dada por:

P(a<x<b | c<y<d) =
) P(
] ( ) P[(
d y c
d) y c e b x a
< <
< < < <


O numerador da frao acima sairia automaticamente de uma (dada) f.d.p. conjunta:

P[(a<x<b) e (c<y<d)] =

d
c
b
a
dxdy y x ) , f(

J o denominador obtido pela f.d.p marginal de y, que por sua vez dada por:

h(y) =

+

dx y x ) , ( f

Portanto, a expresso no denominador ser:

P(c<y<d) =

+

d
c
dxdy y x ) , f( =

d
c
dy y) ( h
Fazendo: c = y
0
e
d = y
0
+ y

Temos que a desigualdade c<y<d colapsa em y=y
0
quando d se aproxima de c, isto ,
quando y se aproxima de (tende a) zero.

Portanto, podemos interpretar a probabilidade condicional com uma igualdade na condio
como um caso limite do caso geral:
lim
dc
P(a<x<b | c<y<d) = lim
y0
P(a<x<b | c<y<d) = P(a<x<b | y = y
0
)

Mas, do clculo diferencial, sabemos que tomar o limite para y0 equivale derivada em
relao a y no ponto em questo, no caso y
0
.

122
O denominador ento, ser dado por:
lim
y0
P(c<y<d) = lim
y0

+ y y
y
dy y
0
0
) ( h
O que equivale a:

lim
y0

+ y y
y
dy y
0
0
) ( h =
y

y
dt t
0
) ( h

Que uma derivada de uma funo definida por uma integral que o prprio valor da
funo a ser integrada, calculada no ponto y
0
, isto :

lim
y0
P(c<y<d) =
y

y
dt t
0
) ( h = h(y
0
)

Da mesma forma, para a expresso no numerador temos:

lim
y0
P[(a<x<b) e (c<y<d)] = lim
y0


+ y y
y
b
a
dxdy y x
0
0
) , f(
lim
y0
P[(a<x<b) e (c<y<d)] =
y


y b
a
dxdt t x
0
) , f(
lim
y0
P[(a<x<b) e (c<y<d)] = dx y x
b
a
) , f(
0



Portanto, a probabilidade condicional (com a condio equivalendo a um ponto)ser dada
por:
P(a<x<b | y = y
0
) =
) ( h
) , f(
0
0
y
dx y x
b
a



E, como h(y
0
) uma constante em relao a x, podemos escrever:
P(a<x<b | y = y
0
) = dx
y
y x
b
a

) ( h
) , ( f
0
0


Finalmente, definindo:

f
x|y
(x,y
0
) =
) ( h
) , ( f
0
0
y
y x


Temos o clculo da probabilidade condicional como foi feito no texto:

P(a<x<b | y = y
0
) = dx y x
b
a
y x
) , ( f
0 |



Portanto, como um caso limite do caso geral em que a condio um intervalo.
123

5.B.2 Independncia em uma Distribuio Conjunta

Nesta seo vamos demonstrar (no caso contnuo) que a expresso (5.2.1) vlida se, e
somente se, as variveis x e y so independentes.
f(x,y) = g(x)h(y)

Se as variveis so independentes, ento vlido que:

f
x|y
= g(x) (5.B.2.1)
f
y|x
= h(y) (5.B.2.2)

Mas, pela definio de condicional, temos que:

f
x|y
=
) h(
) , ( f
y
y x

Logo:
f(x,y) = f
x|y
h(y)

Substituindo pela equao (5.B.2.1):

f(x,y) = g(x)h(y)

Como queramos demonstrar.

5.B.3 Valor Esperado de uma Esperana Condicional

O ttulo desta seo foi propositalmente elaborado de modo a evitar a redundncia, pois
poderia perfeitamente ser a esperana da esperana condicional.

Problemas semnticos a parte, faz sentido falarmos nisso se levarmos em conta que a
esperana condicional abaixo funo do valor de x.

E(Y | X = x)
O valor esperado desta esperana condicional a mdia considerando todos os possveis
valores de x:

E[E(Y | X)] = E(Y | X = x
1
)P(X = x
1
) + E(Y | X = x
2
)P(X = x
2
) +... + E(Y | X = x
n
)P(X = x
n
)

Ou, no caso contnuo:
E[E(Y | X)] =

+

dx x) X)g( | E(Y

E como:
E(Y | X) =

+

dy y
X | Y
f

Temos que:
124
E[E(Y | X)] =

+

dxdy x y ) g( f
X | Y


Mas, pela prpria definio de f.d.p. condicional, temos que:

f
Y|X

g(x) = f(x,y)

Chegamos a:
E[E(Y | X)] =

+

dxdy y x y ) , f( = E(Y)

Portanto, o valor esperado da esperana condicional de Y o prprio valor esperado de Y
45
.

5.B.4 Distribuio de probabilidade com 3 variveis

Uma f.d.p conjunta para 3 variveis ser uma funo f:
3
com as seguintes
propriedades:

f(x,y,z) 0 para todo x,y,z e


+

+

+

dxdydz z y x ) , , ( f = 1

E, com ela, podemos calcular a probabilidade abaixo:
P(a<x<b e c<y<d e e<z<f) =

f
e
d
c
b
dxdydz z y x
a
) , , ( f
As f.d.p. marginais so dadas por:
g(x) =

+

+
-
) , , ( f dydz z y x
h(y) =

+

+
-
) , , ( f dxdz z y x
k(z) =

+

+
-
) , , ( f dxdy z y x

E as f.d.p. condicionais so dadas por:

f
x|y
=
) h(
) , , ( f
-
y
dz z y x


E, de maneira anloga para y e z.

Note, que possvel definir uma f.d.p. conjunta apenas para 2 variveis, por exemplo:

G(x,y) =

+

dz z y x ) , , ( f

45
A demonstrao foi feita para o caso contnuo, mas o resultado tambm vlido para o caso discreto.
125
E mesmo uma f.d.p condicional onde a condio seja dada por duas variveis:

f
x|y e z
=
dx z y x
z y x

+

) , , ( f
) , , ( f

Note que, de maneira anloga, possvel trabalhar com distribuies com um nmero
qualquer de variveis.
126
127
CAPTULO 6 ESTIMAO

6.1 O que inferncia estatstica?

Inferncia algo que todo mundo (ou, pelo menos, muita gente) j fez na vida. Ao se
cozinhar, por exemplo: para ver se um molho est bom, j no ponto para ser servido, no
necessrio prov-lo por inteiro, basta uma colheradinha. Ao fazer um exame de sangue, no
necessrio (ainda bem!) tirar o sangue inteiro.

Tanto no caso do molho, como no sangue, a informao sobre o todo extrada de um
pedao. Nem sempre to simples assim, j que, s vezes, o todo sobre o qual queremos uma
informao mais complicado, mais heterogneo do que o molho, por exemplo.

Numa pesquisa para as intenes de voto para prefeito, no basta o pesquisador tomar as
opinies somente dos moradores dos Jardins (se for em So Paulo), de So Conrado (se for no Rio)
ou na Boa Viagem (se for em Recife). O resultado da eleio nestes bairros, tendo em vista serem
regies de renda elevada, pode ser (e muito provavelmente ser) diferente do resultado em bairros
mais pobres. A pesquisa s serviria para termos uma idia da inteno de voto naqueles bairros, e
no na cidade como um todo.

Quando o problema , ento, um pouco mais complicado do que o do molho, necessitamos
de ferramentas estatsticas. a isso que chamamos de inferncia estatstica
46
.

Na inferncia estatstica o todo denominado populao; o pedao denominado
amostra. Portanto, a inferncia estatstica trata de, a partir da amostra, obter-se informaes da
populao.

6.2 Estimadores

Se desejamos conhecer alguma coisa sobre uma determinada populao, por exemplo: a
mdia de idade; a varincia da renda; o percentual de intenes de voto para um determinado
candidato e esta populao composta de milhares (s vezes, milhes) de elementos (neste caso,
pessoas, mas poderia ser qualquer coisa), de tal modo que seria muito difcil pesquisar o valor
correto, pois seria invivel pesquisar todos os elementos. Neste caso, temos que recorrer aos valores
encontrados em uma amostra.

Numa cidade como So Paulo, h 10 milhes de habitantes, cerca de 5 milhes de eleitores.
Para uma pesquisa eleitoral, so ouvidas uma, duas, trs mil pessoas. O nmero de elementos na
amostra geralmente muito pequeno quando comparado com o da populao. Quando assim,
dizemos que a populao infinita
47
.

Repare que, o que s vezes muito difcil, por uma questo de nmero, pode ser impossvel.
Imagine uma pessoa que vai prestar um exame vestibular para uma faculdade. Ela pode estar
nervosa no dia e isso vai prejudicar o seu desempenho. Ou a prova abrangeu, em sua maioria,
tpicos que ela tinha estudado melhor, o que ento fez com que seu desempenho fosse acima do
esperado. Qual deveria ser o seu desempenho verdadeiro, ou se preferir, o seu desempenho
mdio? uma pergunta para a qual no h resposta pois, para respond-la, precisaramos de

46
Ou estatstica inferencial, isto , a parte da estatstica onde se faz inferncia, diferentemente da estatstica descritiva
(vista na primeira parte) que usada para a descrio de uma populao.
47
Porque, em termos prticos, no faz diferena se a populao cinco milhes, dez milhes, um bilho ou... infinita!
Quando a amostra representa uma frao importante da populao, alguns aspectos devem ser considerados, o que
faremos um pouco mais adiante.
128
infinitas (ou, pelo menos, um nmero muito grande) de repeties deste experimento que, por
definio, no vai se repetir nunca. No adianta utilizarmos na nossa amostra o desempenho desta
pessoa no vestibular do ano que vem, pois outra situao (um ano a mais de estudo, por exemplo).

H situaes em que, mesmo no caindo na armadilha do exemplo dado no pargrafo
anterior (em que s possvel obter uma amostra com um elemento), ainda assim impossvel
obter a populao completa: digamos que gostaramos de obter o preo mdio dos imveis em um
determinado bairro. Para cada venda, possvel que o vendedor seja habilidoso e consiga um valor
superior ao que normalmente seria obtido; ou mesmo que o comprador pechinche e consiga um
preo mais vantajoso. Para obter o valor correto (populacional) seria preciso que calculssemos a
mdia de todas as transaes possveis de ocorrer o que, evidentemente, no est disponvel, ainda
que tenhamos as informaes de todas as transaes que foram efetivamente realizadas.

Seja qual for o caso (muito difcil ou impossvel de pesquisar a populao inteira), o fato
que, em muitos casos, precisamos obter as informaes de uma amostra. O valor da populao,
chamado de parmetro populacional, desconhecido. O que possvel de se obter um valor da
amostra, que supostamente nos d uma idia do valor correto (populacional) do parmetro. Este
valor amostral chamado de estimador do parmetro populacional.

Por exemplo, queremos saber a mdia de idade dos estudantes universitrios na cidade de
So Paulo. Como h muitos estudantes, recorremos a uma amostra de, digamos 100 elementos. A
mdia da amostra encontrada foi de 22 anos, ento esta a nossa estimativa
48
para a mdia de idade
de todos os estudantes universitrios.

Mas a mdia de idade dos universitrios realmente 22 anos? No d para saber, a no ser
que todos os estudantes universitrios fossem pesquisados. Portanto, so coisas diferentes o
parmetro populacional e o estimador e, portanto, devem ser representados de maneira diferente,
por exemplo:

= mdia populacional (parmetro populacional)
X= mdia amostral (estimador)

E no s uma diferena de valores. Enquanto o parmetro populacional , em geral, um
valor fixo, o estimador depende da amostra, portanto est associado a uma distribuio de
probabilidade, assim sendo, uma varivel aleatria.

Apenas como uma regra geral para a nomenclatura, adotaremos a seguinte conveno. Se o
parmetro populacional for , o estimador
49
ser
)
. A mdia, por ser um parmetro especial,
receber tratamento diferente e ser chamada como definimos acima.

J sabemos que o estimador no igual ao parmetro populacional. preciso (ou, pelo
menos, desejvel), no entanto, que ele atenda a algumas propriedades.

6.3 Estimadores no viesados

A primeira propriedade (desejvel) de um estimador que veremos a de que este estimador,
na mdia, acerte o valor correto. Ou seja, se pudssemos repetir a experincia (por exemplo, a

48
No confundir: estimador a varivel; estimativa o valor encontrado para esta varivel, isto , o valor encontrado
para o estimador nesta amostra.
49
H que se fazer uma distino, pois se tratam de coisas diferentes, mas no necessariamente precisa ser esta. H
autores que chamam o parmetro populacional por uma letra grega (por exemplo, ) e o estimador por uma letra latina
correspondente (por exemplo, T).
129
da mdia de idade dos universitrios) um nmero de vezes muito grande (infinito), o valor
mdio das estimativas encontradas em cada experimento seria o valor correto do parmetro
populacional. Resumindo:

E(
)
) =

A esperana do estimador deve ser o parmetro populacional, o primeiro acerta, em mdia, o
valor do ltimo. Se isto ocorre, dizemos que o estimador no viesado
50
.

Se, entretanto, o estimador erra, em mdia, dizemos que ele viesado, e a diferena entre a
sua mdia e o valor verdadeiro do parmetro chamado de vis:


)
viesado E(
)
) = + vis

Fica uma pergunta: a mdia amostral um estimador no viesado da mdia amostral?

Para respond-la, vejamos o exemplo abaixo

Exemplo 6.3.1
Tomemos uma populao cuja distribuio muito simples: uma cidade onde metade da populao
tem 1,80m (os altos) e a outra metade tem 1,60m (os baixos). Sem saber disso, um pesquisador
quer saber qual a mdia de altura da populao da cidade e utiliza para isso uma amostra de 5
elementos.

Se soubesse como a populao distribuda, ficaria fcil para ele (pois a mdia pode ser
facilmente calculada, 1,70 m). Como o pobre coitado no sabe, ele pode, numa amostra de 5
pessoas, encontrar 32 possibilidades diferentes, que so listadas na tabela abaixo (onde A representa
altos e B representa baixos):

tabela 6.3.1
amostra encontrada mdia amostral
BBBBB 1,60 m
BBBBA 1,64 m
BBBAB 1,64 m
BBABB 1,64 m
BABBB 1,64 m
ABBBB 1,64 m
BBBAA 1,68 m
BBAAB 1,68 m
BAABB 1,68 m
AABBB 1,68 m
BBABA 1,68 m
BABBA 1,68 m
ABBBA 1,68 m
BABAB 1,68 m
ABBAB 1,68 m
ABABB 1,68 m
BBAAA 1,72 m
BABAA 1,72 m

50
H quem prefira o termo no tendencioso.
130
BAABA 1,72 m
BAAAB 1,72 m
ABBAA 1,72 m
ABAAB 1,72 m
ABABA 1,72 m
AABAB 1,72 m
AAABB 1,72 m
AABBA 1,72 m
BAAAA 1,76 m
ABAAA 1,76 m
AABAA 1,76 m
AAABA 1,76 m
AAAAB 1,76 m
AAAAA 1,80 m

Repare que, em nenhuma das amostras, o valor populacional (1,70m) foi obtido. Mas a
questo : em mdia, chega-se o valor correto? Listadas as possibilidades
51
, verificamos que 1 delas
a mdia 1,60m; em 5, a mdia 1,64m; em 10, 1,68m; para 1,72m h tambm 10 possibilidades; 5
possibilidades para 1,76m e, em uma delas, a mdia encontrada ser 1,80m. Portanto, a mdia das
mdias ser dada por:

E( X) =
32
80 , 1 1 76 , 1 5 72 , 1 10 68 , 1 10 64 , 1 5 60 , 1 1 + + + + +
= 1,70m

Portanto, pelo menos neste caso, a mdia amostral um estimador no viesado da mdia
populacional. Isto vlido sempre? Sim!

Uma mdia amostral (qualquer) dada por:

X=

=
n
1 i
i
X =
n
X ... X X
n 2 1
+ + +


Para sabermos se este estimador , ou no, viesado, devemos calcular a sua esperana:

E( X) = E(
n
X ... X X
n 2 1
+ + +
)

Pelas propriedades da esperana matemtica, temos que:

E( X) =
n
1
E(X
1
+ X
2
+...+ X
n
)
E( X) =
n
1
[E(X
1
) + E(X
2
) +...+ E(X
n
)]


51
Seria absolutamente necessria a montagem da tabela 6.3.1 para que encontrssemos estes valores?
131
Mas qual a esperana de X
1
(ou de X
2
, X
3
, etc.)? Antes de sortearmos os elementos da
amostra, o valor esperado de seu valor, j que no sabemos qual elemento ser escolhido a prpria
mdia populacional
52
. Assim sendo:

E( X) =
n
1
[ + +...+ ]
E( X) =
n
1
[n]
E( X) =

Portanto, a esperana da mdia amostral (sempre) igual mdia populacional, o que
equivale a dizer que a mdia amostral um estimador no viesado da mdia populacional.

Exemplo 6.3.2 (mdia ponderada)
Dado o estimador para a mdia M
1
definido abaixo, determine se ele um estimador viesado e, caso
seja, determine o vis.

M
1
=
5
3X 2X
2 1
+


Trata-se de uma mdia ponderada (com pesos 2 e 3) para uma amostra de 2 elementos. Isto
significa que o primeiro elemento a ser sorteado na amostra tem peso menor do que o segundo.
Apesar disso, o estimador M
1
tambm no viesado, como possvel mostrar:

E(M
1
) = E(
5
3X 2X
2 1
+
)
E(M
1
) =
5
1
[E(2X
1
) + E(3X
2
)]
E(M
1
) =
5
1
[2E(X
1
) + 3E(X
2
)]
E(M
1
) =
5
1
[2 + 3]
E(M
1
) =
5
1
[5]
E(M
1
) =

Portanto, M
1
um estimador no viesado da mdia populacional (apesar da ponderao).

Exemplo 6.3.3 (professor muito rigoroso)
Dado o estimador para a mdia M
2
definido abaixo, determine se ele um estimador viesado e, caso
seja, determine o vis.

M
2
=
1 n
X
1
i
+

=
n
i



52
Por exemplo, no caso da cidade dos altos e baixos como metade da populao de cada tipo, h igual
probabilidade de, ao sortearmos os elementos de uma amostra qualquer, encontrarmos um alto ou baixo. Sendo
assim, a altura esperada para o elemento da amostra (1,60+1,80)/2 = 1,70m, que a prpria mdia populacional.
132
Este um estimador em, em vez de dividirmos pelo nmero de elementos da amostra,
dividimos por um a mais. como se, por exemplo, para a mdia final de 3 provas, fossem somadas
as notas e divididas por 4; ou, se fossem 4 provas, divididas por 5. Claramente este procedimento
joga a mdia para baixo.

Calculemos a esperana de M
2
:

E(M
2
) = E(
1 n
X
1
i
+

=
n
i
)
E(M
2
) =
1 n
1
+
E(

=
n
i 1
i
X )
E(M
2
) =
1 n
1
+
E(X
1
+ X
2
+...+ X
n
)
E(M
2
) =
1 n
1
+
[E(X
1
)+ E(X
2
) +...+ E(X
n
)]
E(M
2
) =
1 n
1
+
[ + +...+ ]
E(M
2
) =
1 n
n
+



Portanto, M
2
um estimador viesado da mdia populacional e o vis dado por:

vis(M
2
) = E(M
2
)
vis(M
2
) =
1 n
n
+


vis(M
2
) =
1 n
1) n ( n
+
+

vis(M
2
) =
1 n +



O vis negativo pois, como j foi dito, este estimador joga para baixo a mdia.

6.4 Varincia de estimadores - estimadores eficientes

No basta que um estimador acerte na mdia. desejvel que, alm disso, o estimador seja o
mais preciso possvel, no disperse muito ou, em outras palavras, tenha a menor varincia possvel.

Um estimador dito absolutamente eficiente, ou simplesmente eficiente se:

for no viesado;
entre os estimadores no viesados, apresentar a menor varincia.

Portanto, para conhecermos as propriedades de um estimador, convm que saibamos
calcular a sua varincia. Para a mdia amostral, a varincia ser dada por:

var( X) = var(
n
X ... X X
n 2 1
+ + +
)
Pelas propriedades da varincia, temos que:
133
var( X) =
2
n
1
var(X
1
+ X
2
+...+ X
n
)

Se supusermos que cada um dos X
i
so independentes um do outro, o que bastante
razovel na maioria dos casos, tendo em vista que, se, por exemplo, estivermos calculando a mdia
amostral das idades de algumas pessoas, a idade da primeira pessoa sorteada no afetar a idade da
segunda, assim como a idade da segunda no afetar a da terceira e assim sucessivamente. Nesta
hiptese de independncia
53
as covarincias entre X
i
e X
j
, (ij) so nulas e, assim sendo, podemos
calcular a varincia da soma como sendo a soma das varincias.

var( X) =
2
n
1
[var(X
1
) + var(X
2
) +...+ var(X
n
)]
E, da mesma forma como fizemos para a esperana, a varincia que se espera de um
elemento que ser sorteado de uma populao cuja varincia dada por
2
, ser o prprio
2
.

var( X) =
2
n
1
[
2
+
2
+...+
2
]
var( X) =
2
n
1
n
2

var( X) =
n
2



Portanto, a mdia amostral depende da varincia da populao, o que lgico, pois, imagine
que a populao em questo sejam as crianas matriculadas no 1
a
srie do ensino fundamental em
uma cidade em que, por coincidncia, todas as crianas tm a mesma idade. A varincia
populacional da idade zero. E qualquer que seja o tamanho da amostra, o valor da mdia amostral
ser igual ao da mdia populacional, portanto ter varincia zero tambm.

E tambm depende do tamanho da amostra. Se a amostra for de tamanho 1 o que significa,
na prtica que a mdia ser igual aos valores da varivel em questo (idade, por exemplo) e, desta
forma, a varincia da mdia amostral ser igual varincia populacional.

n = 1 var( X) =
1
2


=
2

Por outro lado, se a amostra coincide com a populao, o valor da mdia amostral tambm
coincide com a mdia populacional (e exato!) e portanto a varincia nula. Como estamos
considerando que a populao muito grande (infinita), ento uma amostra que coincide com a
populao corresponde a um n tendendo a infinito.

n var( X) = lim
n

n
2


= 0


Exemplo 6.4.1
Dado o caso da cidade dos altos e baixos do exemplo 6.3.1 e considerando uma mdia amostral
obtida a partir de uma amostra de 5 elementos, verifique que vlida a expresso var( X) =
n
2

.

53
Dizemos, neste caso, que os X
i
so independentemente distribudos.
134

Nesta cidade temos metade dos habitantes com 1,60m e metade com 1,80m. A varincia
populacional dada por:


2
= var(X) = 0,5(1,80 1,70)
2
+ 0,5(1,60 1,70)
2


2
= 0,5(0,10)
2
+ 0,5(0,10)
2


2
= 0,01

Considerando todas as mdias amostrais obtidas no exemplo 6.3.1, a varincia da mdia
amostral ser dada por:

var( X) =
32
) 70 , 1 80 , 1 ( 1 ) 70 , 1 76 , 1 ( 5 ) 70 , 1 72 , 1 ( 10 ) 70 , 1 68 , 1 ( 10 ) 70 , 1 64 , 1 ( 5 ) 70 , 1 60 , 1 ( 1
2 2 2 2 2 2
+ + + + +

var( X) = 0,002

Que exatamente o valor de
2
dividido por 5 (o tamanho da amostra).

var( X) =
n
2

=
5
01 , 0
= 0,002


Exemplo 6.4.2
Determine a varincia do estimador M
1
apresentado no exemplo 6.3.2.
M
1
=
5
3X 2X
2 1
+


Vimos, no exemplo 6.3.2, que este um estimador no viesado, assim como a mdia
amostral. A sua varincia ser dada por:

var(M
1
) = var(
5
3X 2X
2 1
+
)
Pelas propriedades de varincia, temos que:
var(M
1
) =
25
1
var(2X
1
+ 3X
2
)

E, considerando que X distribudo independentemente:
var(M
1
) =
25
1
[var(2X
1
) + var(3X
2
)]
var(M
1
) =
25
1
[4var(X
1
) + 9var(X
2
)]
var(M
1
) =
25
1
[4
2
+ 9
2
]
var(M
1
) =
25
13

2
= 0,52
2


Repare que, para uma amostra de 2 elementos (que o caso deste estimador), a varincia da
mdia amostral ser dada por:

135
var( X) =
2
2

= 0,5
2


Portanto, embora ambos os estimadores sejam no viesados, a mdia amostral um
estimador melhor do que M
1
, j que possui uma varincia menor.

No d para afirmar entretanto, que X seja um estimador eficiente da mdia amostral. Para
isso, precisaramos compar-lo com todos os estimadores no viesados da mdia populacional.
possvel, entretanto, demonstrar que, se a varivel X segue uma distribuio normal
54
, a mdia
amostral ( X) um estimador eficiente da mdia populacional.

Se no sabemos nada sobre a distribuio de X, s d para dizer que X relativamente
mais eficiente do que M
1
.

Portanto, entre dois estimadores no viesados, dizemos que relativamente mais eficiente
aquele que apresentar menor varincia. Mas, e se comparamos dois estimadores quaisquer? Para
isso, usamos o erro quadrtico mdio.

Definimos o erro quadrtico mdio como sendo a mdia da diferena entre o valor do
estimador e do parmetro ao quadrado. Assim, para um estimador

,temos:

EQM(

) = E(

-)
2


Desenvolvendo esta expresso, temos:
EQM(

) = E(

2
- 2

+
2
)
Usando as propriedades da esperana, vem:
EQM(

) = E(

2
) 2E(

) + E(
2
)

E, como o parmetro populacional e , portanto, uma constante:
EQM(

) = E(

2
) 2E(

) +
2


Somando e subtraindo [E(

)]
2
, obtemos:
EQM(

) = E(

2
) [E(

)]
2
+ [E(

)]
2
2E(

) +
2


Os dois primeiros termos da expresso acima correspondem varincia de

, enquanto os
trs ltimos formam um quadrado perfeito:

EQM(

) = var(

) + [E(

)

]
2


E a expresso entre colchetes o vis do estimador

. Assim sendo:

EQM(

) = var(

) + [vis(

)]
2


Ou seja, o erro (ao quadrado) do estimador tem dois componentes: o estimador erra o
valor do parmetro em funo do quanto varia (sua varincia) e ainda, quando for o caso, pelo fato
de no acertar na mdia (ser viesado).


54
Atravs da desigualdade de Cramer-Rao.
136
Para dois estimadores quaisquer,

1
e

2
, se

1
tem menor erro quadrtico mdio do que

2
, ento

1
relativamente mais eficiente do que

2
.

Note que, para dois estimadores no viesados, dizer que o erro quadrtico mdio menor
equivale a dizer que a varincia menor (j que o vis nulo).

Exemplo 6.4.3
Determine qual dos estimadores da mdia dados abaixo relativamente mais eficiente
M
1
=
5
3X 2X
2 1
+

M
3
=
3
X X
2 1
+


Para sabermos qual dos estimadores relativamente mais eficiente precisamos calcular o
erro quadrtico mdio de cada um
55
. Para o estimador M
1
, j sabemos que ele no viesado e sua
varincia foi determinada no exemplo 6.4.2.

EQM(M
1
) = var(M
1
) + [vis(M
1
)]
2

EQM(M
1
) = var(M
1
) + 0
EQM(M
1
) = 0,52
2
+ 0
EQM(M
1
) = 0,52
2


Para o estimador M
3
, primeiramente devemos verificar se um estimador no viesado:

E(M
3
) = E(
3
X X
2 1
+
)
E(M
3
) =
3
1
E(X
1
+ X
2
)
E(M
3
) =
3
1
( + )
E(M
3
) =
3
2

Portanto, M
3
um estimador viesado, e seu vis dado por:

vis(M
3
) = E(M
3
) -
vis(M
3
) =
3
2
-
vis(M
3
) = -
3
1

E sua varincia :
var(M
3
) = var(
3
X X
2 1
+
)
var(M
3
) =
9
1
var(X
1
+ X
2
)
var(M
3
) =
9
1
(
2
+
2
)

55
Repare que o estimador M
3
um caso particular do estimador M
2
apresentado no exemplo 6.3.3, bastando substituir n
por 2.
137
var(M
3
) =
9
2

2


Desta forma, o erro quadrtico mdio do estimador M
3
ser dado por:
EQM(M
3
) = var(M
3
) + [vis(M
3
)]
2

EQM(M
3
) =
9
2

2
+ [-
3
1
]
2

EQM(M
3
) =
9
2

2
+
9
1

2


Como podemos ver, no d para dizer qual dos dois relativamente mais eficiente sem que
saibamos os verdadeiros valores de e .

Se, por exemplo, = 0, teremos:

EQM(M
3
) =
9
2

2
= 0,22...
2
< EQM(M
1
)

E, portanto, neste caso, M
3
seria um estimador relativamente mais eficiente do que M
1
.

Mas, de um modo geral, no conhecemos o verdadeiro valor de
2
(varincia populacional),
assim como tambm desconhecemos o valor correto de (mdia populacional). Para estimarmos
podemos utilizar a mdia amostral que, como j vimos, um estimador no viesado e eficiente (se a
distribuio for normal) da mdia populacional.

Entretanto, no temos ainda um estimador para a varincia populacional
2
.

6.5 Estimador para a varincia varincia amostral

Assim como procedemos para a mdia, o bvio seria que o estimador da varincia fosse a
varincia calculada na amostra, isto :


2
=
n
) X (X
1
2
i
=

n
i


A primeira questo que surge : este estimador (
2
) um estimador no viesado da
varincia populacional (
2
)? Vejamos:

E(
2
) = E
(
(
(
(

=
n
) X (X
1
2
i
n
i

E(
2
) =
n
1
E[

=

n
i 1
2
i
) X (X ]

Faamos um pequeno artifcio: somemos e subtramos a mdia populacional ():

138
E(
2
) =
n
1
E[

=
n
i 1
( X
i
- + - X)
2
]
Temos a um quadrado da soma onde consideramos o primeiro termo como sendo X
i
- e
o segundo - X.

E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
+ 2

=
n
i 1
( X
i
- )( - X) +

=
n
i 1
( - X)
2
]

Como, para qualquer valor do ndice i, e X tm sempre o mesmo valor, podemos
escrever:
E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
+ 2( - X)

=
n
i 1
( X
i
- ) + n( - X)
2
]

E sabemos que:

=
n
i 1
( X
i
) = n X
Portanto:
E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
+ 2n( - X)( X

- ) + n( - X)
2
]
Ou:
E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
2n( - X)( - X) + n( - X)
2
]
E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
2n( - X)
2
+ n( - X)
2
]
E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
n( - X )
2
]
E, numa expresso elevada ao quadrado, o sinal no interior dos parnteses no importa,
portanto podemos inverter o sinal da segunda expresso sem problemas

E(
2
) =
n
1
E[

=
n
i 1
( X
i
- )
2
n( X-)
2
]
Aplicando a esperana na expresso, vem:

E(
2
) =
n
1
{E[

=
n
i 1
( X
i
- )
2
] nE( X-)
2
}
E, como a esperana da soma a soma das esperanas, temos que:

E(
2
) =
n
1
[

=
n
i 1
E(X
i
- )
2
nE( X-)
2
]

Mas, pela prpria definio de varincia:

E(X
i
- )
2
= var(X) =
2
e
E( X-)
2
= var( X) =
n
2



139
Portanto:
E(
2
) =
n
1
[n
2
- n
n
2

]
E(
2
) =
n
1
[n
2
-
2
]
E(
2
) =
n
1

2
(n-1)
E(
2
) =
n
1 - n

2

2


Conclumos ento que o estimador
2
um estimador viesado da varincia populacional
2
.
Isto entretanto, pode ser facilmente corrigido se utilizarmos um estimador para a varincia (que
chamaremos de S
2
) tal que:

S
2
=
1 - n
n
2

S
2
=
1 - n
n

n
) X (X
1
2
i
=

n
i

S
2
=
1 - n
) X (X
1
2
i
=

n
i


E podemos verificar que S
2
um estimador no viesado da varincia populacional
2
pois:

E(S
2
) =
1 - n
n
E(
2
)
E(S
2
) =
1 - n
n

n
1 - n

2
=
2


Portanto, para obtermos um estimador no viesado da mdia amostral, devemos dividir por
n-1 e no por n. Qual a razo disso? A resposta est no artifcio que utilizamos para a
demonstrao, de somar e subtrair a mdia populacional (). No temos a mdia populacional, mas
a mdia amostral, ou seja, a mdia que utilizamos no clculo da varincia , ela prpria, um
estimador. Repare que, se soubssemos a mdia verdadeira, o estimador
2
no seria viesado.

Imagine que escolhssemos uma amostra de apenas um elemento, o que perfeitamente
vivel para a mdia (ainda que no muito aconselhvel), mas tornaria impossvel uma estimao
no viesada para a varincia, pois o valor de
2
seria sempre zero para qualquer amostra de
qualquer populao, o que claramente viesado. Em outras palavras, s faz sentido estimarmos a
varincia em uma amostra que tem, no mnimo, dois elementos.

Assim sendo, de agora em diante, quando falarmos de varincia amostral, ou de estimador
da varincia, estaremos nos referindo a S
2
, a no ser que seja explicitamente dito o contrrio.

Exemplo 6.5.1
Em uma fbrica onde trabalham muitas pessoas, foi perguntado a cinco delas o seu salrio. As
respostas foram R$ 1.000, R$ 2.000, R$ 1.500, R$ 800 e R$ 700. Determine a mdia amostral, a
varincia amostral e a varincia da mdia amostral.
140

A mdia amostral dada por:

X =
5
700 800 1500 2000 1000 + + + +
= R$ 1.200
A varincia amostral (S
2
) :
S
2
=
4
) 1200 700 ( ) 1200 800 ( ) 1200 1500 ( ) 1200 2000 ( ) 1200 1000 (
2 2 2 2 2
+ + + +

S
2
= 295.000

E a varincia da mdia amostral seria dada por
n
2

, mas, como no conhecemos o valor de

2
, utilizaremos
56
seu estimador S
2
.

var( X) =
n
S
2
=
5
295000
= 59.000


6.6 Melhor estimador linear no viesado.

Uma terceira propriedade desejvel de um estimador que ele seja um MELNV (melhor
estimador linear no viesado
57
).

Para ser um MELNV o estimador tem que:

ser no viesado;
ser linear;
entre os estimadores lineares e no viesados, apresentar a menor varincia.

Um estimador linear se for obtido atravs de uma combinao linear das observaes da
amostra. Por exemplo, o estimador X
~
mostrado abaixo linear:

X
~
=

=
n
i
i
a
1
i
X = a
1
X
1
+ a
2
X
2
+...+ a
n
X
n

Se cada um dos a
i
for uma constante. Claramente a mdia amostral um estimador linear,
pois um caso particular do X
~
exposto acima onde:

a
1
= a
2
= ... = a
n
=
n
1


E, diga-se de passagem, um MELNV, pois no h outro estimador linear com menor
varincia.


56
E, portanto, a varincia da mdia amostral a ser calculada , na verdade, um estimador da varincia da mdia
amostral.
57
H quem prefira a sigla MELNT (trocando o viesado por tendencioso) ou mesmo a sigla em ingls BLUE (best
linear unbiased estimator).
141
Os conceitos de estimador eficiente e MELNV so parecidos. De fato, se um estimador
eficiente for linear, ser um MELNV. Mas um estimador que seja MELNV pode no ser eficiente se
houver um estimador no viesado e no linear que apresente varincia menor.

Pode-se dizer, entretanto, que um estimador MELNV um estimador eficiente dentro da
classe dos estimadores lineares (isto , apresenta menor varincia entre os estimadores lineares,
mas no necessariamente entre todos).

Resumindo as propriedades vistas at agora

I) Estimador no viesado
aquele que na mdia, acerta: E(

) =
II) Estimador eficiente
aquele que, entre os estimadores no viesados, apresentar menor varincia.
III) Melhor estimador linear no viesado (MELNV)
aquele que, entre os estimadores lineares e no viesados, apresentar menor varincia.


6.7 Propriedades assintticas estimadores assintoticamente no viesados

Todas as trs propriedades vistas anteriormente se aplicam a qualquer tamanho de amostra e,
em particular, a amostras pequenas.

Quando a amostra cresce (tende ao infinito), h propriedades desejveis que seriam
aplicveis neste caso. As propriedades dos estimadores quando o tamanho da amostra tende para o
infinito so chamadas de propriedades assintticas.

A primeira propriedade que vimos a de que um estimador seja no viesado. H
estimadores que, embora viesados, quando a amostra cresce, o vis diminui, isto , ele vai
desaparecendo medida que o tamanho da amostra aumenta. Estes estimadores so chamados de
assintoticamente no viesados.

Um estimador dito assintoticamente no viesado se:

lim
n
E(

) =

claro que, se o estimador for no viesado, ser assintoticamente no viesado. A recproca
no verdadeira, como poderemos ver nos exemplos abaixo.

Exemplo 6.7.1
Verifique que o estimador M
2
do exemplo 6.3.3 assintoticamente no viesado.

M
2
=
1 n
X
1
i
+

=
n
i

Como vimos no exemplo 6.3.3, este estimador viesado, pois sua esperana dada por:

E(M
2
) =
1 n
n
+



Mas, quando a amostra cresce, temos que:
142

lim
n
E(M
2
) = lim
n

1 n
n
+

=

Pois, quando n muito grande, n praticamente igual a n+1.

Portanto, embora M
2
seja um estimador viesado da mdia, um estimador assintoticamente
no viesado. Isso equivale a dizer que, na prtica, se a amostra grande, tanto faz dividir por n ou
n+1 porque a diferena ser muito pequena (nula, quando n tende a infinito).

Exemplo 6.7.2
Verifique que
2
um estimador assintoticamente no viesado da varincia populacional.

Como vimos na seo 6.5
2
um estimador viesado da varincia, j que:
E(
2
) =
n
1 - n

2


Mas, se tomarmos o limite para n tendendo ao infinito:

lim
n
E(
2
) = lim
n

n
1 - n

2
=
2


E, sendo assim,
2
um estimador assintoticamente no viesado de
2
.
De novo, quando a amostra grande, praticamente irrelevante se dividimos por n ou n-1.

6.8 Estimadores consistentes

Um estimador dito consistente se, medida que a amostra cresce, ele vai convergindo para
o valor verdadeiro do parmetro. Ou seja, quando o tamanho da amostra vai aumentando, o vis (se
existir) vai sumindo e a varincia tambm. Pode-se dizer que um estimador consistente aquele que
colapsa no valor verdadeiro do parmetro quando o tamanho da amostra vai para o infinito.

Um estimador

ser consistente se:


lim
n
E(

) = e
lim
n
var(

) =0

A mdia amostral um estimador consistente da mdia, pois um estimador no viesado e:
lim
n
var( X) = lim
n
n
2

= 0

Da mesma forma, podemos verificar que os estimadores dos exemplos 6.7.1 e 6.7.2 so
consistentes.

Uma maneira alternativa de verificar se um estimador consistente atravs do erro
quadrtico mdio. Como o erro quadrtico mdio composto da varincia e do vis ao quadrado, o
estimador

ser consistente se:



lim
n
EQM(

) =0

143
Esta uma condio suficiente
58
, mas no necessria. Ou seja, se o erro quadrtico mdio
tender a zero com o aumento da amostra, isto implica que o estimador consistente, mas a
recproca no verdadeira. Por sorte, os casos em que isto ocorre (o erro quadrtico mdio no vai
para zero, mas o estimador consistente) so raros
59
.

Exemplo 6.8.1
Verifique se o estimador da mdia M
4
dado abaixo no viesado e consistente.

M
4
=
2
1
X
1
+
1) - n ( 2
1

=
n
2
i
X
i


Vejamos se ele , ou no, viesado:

E(M
4
) = E[
2
1
X
1
+
1) - n ( 2
1

=
n
2
i
X
i
]
E(M
4
) = E(
2
1
X
1
) + E[
1) - n ( 2
1

=
n
2
i
X
i
]
E(M
4
) =
2
1
E(X
1
) +
1) - n ( 2
1
E(X
2
+ X
3
+ ... + X
n
)
E(M
4
) =
2
1
E(X
1
) +
1) - n ( 2
1
[E(X
2
)+ E(X
3
) + ... + E(X
n
)]
E(M
4
) =
2
1
+
1) - n ( 2
1
[ + + ... + ]
E(M
4
) =
2
1
+
1) - n ( 2
1
(n-1)
E(M
4
) =
2
1
+
2
1
=

Portanto M
4
um estimador no viesado da mdia. E, como ele no viesado, o erro
quadrtico mdio coincide com a varincia.

EQM(M
4
) = var(M
4
) = var(
2
1
X
1
+
1) - n ( 2
1

=
n
2
i
X
i
)
EQM(M
4
) = var(
2
1
X
1
) + var(
1) - n ( 2
1

=
n
2
i
X
i
)
EQM(M
4
) =
4
1
var(X
1
) +
2
1) - n ( 4
1
var(X
2
+ X
3
+ ... + X
n
)
EQM(M
4
) =
4
1

2
+
2
1) - n ( 4
1
(
2
+
2
+ ... +
2
)
EQM(M
4
) =
4
1

2
+
2
1) - n ( 4
1
(n-1)
2


58
Tambm se diz, quando esta condio vlida, que o estimador apresenta consistncia do erro quadrado. A
consistncia do erro quadrado implica consistncia, mas nem sempre (embora quase sempre) um estimador consistente
apresente consistncia do erro ao quadrado.
59
So estimadores para os quais a varincia ou a mdia da distribuio assinttica no existem.
144
EQM(M
4
) =
4
1

2
+
1) - n ( 4
1

2


Quando tomamos o limite para n tendendo ao infinito:

lim
n
EQM(M
4
) = lim
n
[
4
1

2
+
1) - n ( 4
1

2
]

O segundo termo vai para zero, pois tem n-1 no denominador, mas o mesmo no ocorre com
o primeiro termo. Desta forma:

lim
n
EQM(M
4
) =
4
1

2

Portanto, M
4
no consistente
60
, ainda que seja no viesado. Isto poderia ser percebido sem
a necessidade de clculos, tendo em vista que, o primeiro elemento a ser sorteado na amostra (X
1
),
tem peso 50%, no importando o tamanho da amostra. Portanto, ainda que o vis no exista, por
maior que seja a amostra a varincia no ir desaparecer, tendo em vista o peso desproporcional que
tem o primeiro elemento da amostra (dependendo de quem cair primeiro, o valor de M
4
ser
diferente, ainda que a amostra seja muito grande).

Vimos ento duas propriedades assintticas:

I) Estimador assintoticamente no viesado:
lim
n
E(

) =
II) Estimador consistente:
Aquele que colapsa no verdadeiro valor do parmetro quando a amostra aumenta.
Condio suficiente: se lim
n
EQM(

) = 0 ento

consistente.

6.9 Lei dos Grandes Nmeros

A Lei dos Grandes Nmeros (LGN) diz que, quando a amostra cresce (tende a infinito) a
mdia amostral converge para a mdia populacional. Isto , quanto maior a amostra, mais o valor
obtido pela mdia amostral estar prximo do valor correto da mdia.

Repare que a LGN equivale afirmao de que a mdia amostral um estimador consistente
da mdia populacional.

6.10 Teorema do Limite Central

Retomemos o exemplo 6.3.1 (aquele da cidade dos altos e baixos). Com amostras de 5
elementos, vimos que h 32 possibilidades (j que s h dois resultados possveis para cada
elemento da amostra), sendo estas possibilidades listadas na tabela abaixo:

mdia amostral obtida n
o
de possibilidades
1,60 m 1
1,64 m 5
1,68 m 10
1,72 m 10

60
A rigor, no foi demonstrado que ele no consistente pois, como foi dito, a condio do erro quadrtico mdio
necessria, no suficiente.
145
1,76 m 5
1,80 m 1

Estes resultados podem ser representados num histograma:

0
2
4
6
8
10
12

Se aumentarmos o tamanho da amostra para 6, as possibilidades
61
passam a ser (verifique!):

mdia amostral obtida n
o
de possibilidades
1,60 m 1
1,63 m 6
1,67 m 15
1,70 m 20
1,73 m 15
1,77 m 6
1,80 m 1

O histograma ser ento:
0
5
10
15
20
25


Se aumentarmos o tamanho da amostra para, digamos, n = 10, o histograma
62
passa a ser:



61
Num total de 64 = 2
6
.
62
Agora teramos um total de 1024 (= 2
10
) possibilidades.
146
0
50
100
150
200
250
300

Algo familiar? Pois , medida que o tamanho da amostra aumenta, mais o histograma que
representa a distribuio da mdia amostral se aproxima de uma normal. De fato, isso que diz o
teorema do limite central:

Teorema do Limite Central(TLC): dada uma varivel X, i.i.d (independente
63
e identicamente
64

distribuda) com mdia e varincia
2
, a mdia amostral X segue (desde que a amostra seja
suficientemente grande) uma distribuio normal com mdia e varincia
n
2

, qualquer que seja


a distribuio de X.

Se padronizarmos a varivel X, ou seja, subtrairmos a mdia e dividirmos pelo desvio
padro, (lembrando que o desvio padro ser dado por
n
2

=
n

), obteremos:

n
- X

) - X (
n

E assim, podemos escrever o TLC em uma nica sentena matemtica:

) - X (
n
D
N(0, 1)
Onde a seta com o D em cima se l converge em distribuio. Portanto, a sentena
acima pode ser lida como

) - X (
n converge em distribuio para uma normal com mdia zero e
desvio padro um.

Montamos os histogramas baseando-se na nossa cidade estranha apresentada no exemplo
6.3.1, mas o resultado seria o mesmo qualquer que fosse a distribuio utilizada. O TLC nos
permite dizer que, se for mdia, normal.

Quanto ao tamanho de amostra suficientemente grande, comum se utilizar uma receita
de bolo, de que devemos ter uma amostra de no mnimo 30 elementos. Na verdade, o que devemos
levar em conta que a distribuio da mdia amostral aproximadamente uma normal e que esta
aproximao to melhor quanto maior for a amostra. Se partirmos de uma amostra muito pequena,
no que a aproximao no seja vlida, mas ser muito grosseira.


63
Significa que os diversos X
i
so independentes uns dos outros.
64
Significa que os mesmos parmetros da distribuio (seja ela qual for) se aplicam a todos os X
i
.
147
Exemplo 6.10.1
Uma varivel X tem mdia igual a 10 e varincia igual a 144. Qual a probabilidade de que, numa
amostra com 36 elementos, encontremos uma mdia amostral superior a 11.

Sabemos que:
E( X) = 10
var( X) =
36
144
= 4
E, pelo TLC, sabemos que a mdia amostral segue uma distribuio normal com mdia 10 e
desvio padro 2 (= 4 ). Queremos saber a probabilidade de Xser maior do que 11. Padronizando
(para podermos consultar a tabela), temos:

Z =
2
10 11
= 0,5

Portanto:

P( X> 11) = P(Z > 0,5) = 0,5 - 0,1915 = 0,3085 = 30,85%

6.11 Populao finita

Por populao finita entende-se, na prtica, por uma populao cujo tamanho comparvel
com amostra a ser estudada.

No caso de uma pesquisa eleitoral em que mil, dois mil eleitores so pesquisados em uma
populao de milhes, a amostra muito pequena em relao populao. Esta no , a rigor,
infinita mas, para efeitos prticos, como se fosse.

O mesmo no ocorre se, digamos, em uma escola com 1000 alunos, tomamos uma amostra
de 50, ou em uma fazenda com 200 cabeas de gado, utilizamos uma amostra de 20.

No primeiro caso, a amostra representa 5% da populao; no segundo, 10%; em casos
como estes que consideramos a populao como sendo finita.

Mas qual a diferena? que, quando calculamos a varincia da mdia amostral,
assumimos que a varincia esperada de cada elemento da amostra igual a varincia populacional

2
. Ocorre que, quando retiramos o primeiro elemento da amostra, a varincia dos que sobram foi
alterada. Portanto, a varincia esperada do segundo elemento da amostra (bem como de todos os
outros) no ser
2
. Se a populao infinita (na prtica, se for muito maior do que a amostra), a
retirada de um elemento no ter efeitos sobre a varincia dos demais.

Repare que este raciocnio da populao finita no se aplica se a amostra for retirada com
reposio. Portanto, se a populao for infinita ou mesmo se for finita, desde que a amostra seja
retirada com reposio, vlida a expresso:

var( X ) =
n
2



Agora, se a populao for finita e a amostra retirada sem reposio, esta expresso precisa
ser corrigida. Se a populao tem tamanho igual a N, a varincia da mdia amostral ser dada por:
148
var( X ) =
n
2


1 - N
n - N



Repare que, se o tamanho da amostra (n) muito pequeno em relao ao tamanho da
populao (N), o fator de correo
1 - N
n - N
praticamente igual a 1, e desta forma a expresso da
varincia da mdia amostral praticamente a mesma da utilizada quando a populao infinita. E,
se o tamanho da amostra igual ao da populao (n = N), a mdia amostral igual a mdia
populacional e a varincia de X nula.

Exemplo 6.11.1
Numa classe de 50 alunos, so escolhidos, ao acaso, 5 alunos para realizar um teste, cujas notas vo
de 0 a 100, para aferir o aproveitamento da turma. Se o desvio padro histrico desta turma em
testes deste tipo 12, determine a varincia e o desvio padro da mdia amostral neste teste.

Como se trata de uma populao finita e a amostragem feita sem reposio e, assumindo
que o desvio padro populacional se mantm no valor histrico, temos:
var( X ) =
n
2


1 - N
n - N

var( X) =
5
12
2

1 - 50
5 - 50

var( X ) =
5
144

49
45

var( X) 26,45
dp( X)
X
= ) X var(

X
= 26,45

X
5,14

6.12 Estimao por mxima verossimilhana

O princpio da estimao por mxima verossimilhana
65
o seguinte: se soubermos qual a
distribuio de probabilidade da populao
66
, os valores dos parmetros a serem estimados sero
aqueles que maximizaro a chance (a probabilidade, a verossimilhana) de que os valores obtidos
na amostra sigam, de fato, a distribuio em questo.

Digamos que uma varivel aleatria x tem uma funo densidade de probabilidade dada por:

f.d.p. de x = f(x
i
;
k
)

Nesta notao, depois do ponto e vrgula temos os parmetros da funo. Isto , f uma
funo dos valores de x
i
(at a, nenhuma novidade), dados os parmetros da distribuio,
k
,
supostamente conhecidos.


65
Verossimilhana = qualidade do que verossmil.
66
E isto uma condio absolutamente necessria para que possamos fazer uma estimao por mxima
verossimilhana.
149
Por exemplo, para uma distribuio normal, os parmetros so a mdia e a varincia (ou o
desvio padro). Se conhecermos ambos, dado um certo valor de x, fcil calcular o valor de f.

E se no conhecermos os parmetros. Temos os valores de x, que obtemos de uma amostra,
e precisarmos estimar os parmetros. Isto , temos os valores de x, portanto a funo agora depende
dos parmetros . Quando assim, a funo passa a ser chamada de funo de verossimilhana:

funo de verossimilhana = L(
k
; x
i
)

A estimao por mxima verossimilhana consiste em achar os valores dos parmetros
k

que maximizem a funo de verossimilhana ou, em outras palavras, que maximize a probabilidade
de que a amostra pertena de fato, a uma populao cuja distribuio de probabilidade tem funo
de densidade
67
dada por f.

Exemplo 6.12.1
Uma varivel aleatria x tem distribuio normal (independentemente distribuda) com mdia e
varincia desconhecidas. Dada uma amostra {x
1
, x
2
, ..., x
n
}, determine os estimadores de mxima
verossimilhana para a mdia e a varincia.

Se a distribuio normal, ento a funo de verossimilhana ter a mesma forma funcional
de uma normal multivariada
68
:

L(,
2
; x
i
) =
2
n
2
) 2 (
1

exp[
2
2
1


=

n
i
i
x
1
2
) ( ]

Onde exp(x) e
x
.

Os valores de e
2
sero obtidos pela maximizao da funo de verossimilhana L. Mas
esta funo um pouquinho complicada. Para simplificar o nosso trabalho, lembramos que uma
funo quando sofre uma transformao monotnica
69
crescente, a funo resultante ter os
mesmos pontos de mximo e/ou mnimo.

Tomemos, ento, o logaritmo de L:
l(,
2
; x
i
) ln[L(,
2
; x
i
)] = ln{
2
n
2
) 2 (
1

exp[
2
2
1


=

n
i
i
x
1
2
) ( ]}
l(,
2
; x
i
) = ln (
2
n
2
) 2 (
1

)
2
2
1


=

n
i
i
x
1
2
) (
l(,
2
; x
i
) = ln
2
n
2
) 2 (
2
2
1


=

n
i
i
x
1
2
) (
l(,
2
; x
i
) =
2
n
ln ) 2 (
2

2
2
1


=

n
i
i
x
1
2
) (


67
Note que a funo de verossimilhana e a f.d.p. tm a mesma cara, isto , a mesma forma funcional, invertendo-se a
lgica: enquanto a f.d.p. uma funo dos valores da varivel aleatria x, sendo dados os parmetros, a funo de
verossimilhana uma funo dos parmetros, sendo dados os valores de x.
68
Ver captulo 5.
69
Sempre crescente ou sempre decrescente.
150
Para encontrarmos o ponto de mximo desta funo, devemos encontrar as derivadas de l em
relao a e
2
.

Derivando em relao a , vem:


l
=
2
2
1

=

n
i
i
x
1
) ( = 0

=

n
i
i
x
1
) ( = 0

=
n
i
i
x
1

=
n
i 1
= 0

E, como uma constante:

=
n
i
i
x
1
n = 0
=
n
1

=
n
i
i
x


Ou seja, o estimador de mxima verossimilhana da mdia de uma distribuio normal a
prpria mdia amostral x .

Derivando em relao a
2
e j incluindo o resultado acima, vem:

2
l

=
2
n

2

+
4
4
1


=

n
i
i
x x
1
2
) ( = 0
n
2
+

=

n
i
i
x x
1
2
) ( = 0

2
=
n
) (
1
2

=

n
i
i
x x


Portanto, o estimador de mxima verossimilhana para
2
, como j vimos, viesado.
Conclui-se que o fato de o estimador ser de mxima verossimilhana no garante que ele seja no
viesado. Os estimadores de mxima verossimilhana tm, entretanto, algumas propriedades muito
teis:

so consistentes;
tm distribuio assinttica normal;
so assintoticamente eficientes
70
.

Exemplo 6.12.2
Uma varivel aleatria x tem distribuio uniforme. Dada uma amostra {x
1
, x
2
, ..., x
n
}, determine
os estimadores de mxima verossimilhana para os parmetros da distribuio.


70
Esta propriedade ser discutida no apndice 6.B.
151
Uma distribuio uniforme apresenta uma funo densidade f(x) =
a b
1
, para a x b. Os
parmetros a serem encontrados so justamente a e b, que so os valores mnimo e mximo,
respectivamente, que a varivel x pode apresentar.

Os valores da amostra que tm a maior chance de ser estes valores so justamente o mnimo
e o mximo valor encontrado na amostra. Assim, os estimadores de mxima verossimilhana para a
e b so:

a = min {x
1
, x
2
, ..., x
n
}
b

= max {x
1
, x
2
, ..., x
n
}

Exemplo 6.12.3
Uma varivel aleatria x tem distribuio Binomial com parmetro p. Em uma amostra de N
elementos, Y apresentaram o atributo sucesso. Determine o estimador de mxima verossimilhana
para p.

O valor amostral para p que d a maior chance desta amostra pertencer a uma populao
com estas caractersticas justamente a proporo amostral.

O estimador de mxima verossimilhana ser, portanto:

p =
N
Y

152
Exerccios
1. Para as amostras dadas abaixo, determine a mdia amostral, a varincia amostral e a varincia da
mdia amostral:
a) {2; 4; 6; 9; 12}
b) {1,6; 1,8; 1,9; 2,1; 1,5; 1,7}
c) {1000; 1200; 1300; 1600; 900; 700; 1400}

Enunciado para os exerccios 2 a 6:
A varivel aleatria X tem mdia e varincia
2
.

Um pesquisador resolve utilizar os seguintes
estimadores para a mdia:
M
1
=
4
2X X
2 1
+

M
2
=
7
4X 3X
2 1
+


2. Determine quais estimadores so viesados e o vis, se houver.

3. Determine a varincia dos estimadores.

4. Determine o erro quadrtico mdio dos estimadores.

5. Suponha que a = 0. Qual dos estimadores relativamente mais eficiente?

6. Suponha agora que = 10 e = 2. Agora, qual o estimador relativamente mais eficiente.

Enunciado para os exerccios 7 a 13:
A varivel aleatria X tem mdia e varincia
2
.

Um pesquisador resolve utilizar os seguintes
estimadores para a mdia:
M
3
=
2 - n
X
1
i
=
n
i

M
4
=
2
1
X
1
+
1 - n
X
2
i
=
n
i


7. Determine quais estimadores so viesados e o vis, se houver.

8. Determine a varincia dos estimadores.

9. Determine o erro quadrtico mdio dos estimadores.

10. Suponha que a = 0. Qual dos estimadores relativamente mais eficiente?

11. Suponha agora que = 12 e = 3. Agora, qual o estimador relativamente mais eficiente.

12. Determine quais estimadores so assintoticamente no viesados.

13. Determine se os estimadores apresentam consistncia do erro quadrado.

153
14. Uma varivel aleatria X tem mdia 12 e desvio padro 6. Determine a mdia e a varincia de
uma varivel Y definida a partir de uma amostra de 10 elementos da varivel X como se segue:
Y =

=
10
1 i
i
X


15. Uma varivel aleatria X tem mdia 9 e desvio padro 2. Determine a mdia e a varincia de
uma varivel W definida a partir de uma amostra de 5 elementos da varivel X como se segue:
W =

=
=
5
1 i
5
1
i
i
iX
i


16. Uma varivel aleatria X tem mdia 20 e varincia 64. Determine a probabilidade de que, em
uma amostra de 49 elementos, a mdia amostral seja inferior a 18.

17. Uma varivel aleatria X tem distribuio de Poisson com parmetro 9. Determine a
probabilidade de que, em uma amostra de 36 elementos, a mdia amostral esteja entre 8 e 10.

18. Uma varivel aleatria X tem distribuio binomial em que a proporo de sucessos 0,8.
Determine a probabilidade de que, em uma amostra de 100 elementos, encontremos menos de 75
sucessos.

19. Em uma classe de 50 alunos, foi retirada uma amostra de 5. As notas destes alunos foram,
respectivamente, 7, 5, 3, 8 e 5. Determine a mdia amostral, a varincia amostral e a varincia da
mdia amostral.

Utilize a amostra abaixo para os exerccios 20 a 22:
{25, 30, 28, 29, 32, 35, 21, 33, 26, 27}

20. Suponha que esta amostra foi retirada de uma populao cuja distribuio Normal. Estime os
parmetros da distribuio por mxima verossimilhana.

21. Suponha que esta amostra foi retirada de uma populao cuja distribuio uniforme. Estime os
parmetros da distribuio por mxima verossimilhana.

22. Suponha que esta amostra foi retirada de uma populao cuja distribuio exponencial. Estime
os parmetros da distribuio por mxima verossimilhana.

23. Assinale verdadeiro ou falso.
a) A mdia amostral um estimador viesado para a mdia populacional quando a amostra muito
pequena.
b) A mdia amostral um estimador eficiente para a mdia populacional.
c) Embora
2
seja um estimador viesado para a varincia populacional, sua varincia menor do
que a de S
2
.
d) Todo estimador no viesado consistente.
e) Todo estimador viesado inconsistente.
f) Todo estimador consistente no viesado.
g) Todo estimador eficiente no viesado.
h) Dados dois estimadores, um deles viesado e outro no, este ltimo ser sempre prefervel.
154
i) Dados dois estimadores, um deles viesado e outro no, este ltimo ter sempre menor erro
quadrtico mdio.
j) A varincia da mdia em uma populao finita igual a de uma populao infinita desde que a
amostragem tenha sido feita com reposio.
k) Para se fazer uma estimao por mxima verossimilhana necessrio saber qual a distribuio
populacional.
l) Um estimador de mxima verossimilhana sempre no viesado.
m) Um estimador de mxima verossimilhana sempre consistente.
n) A lei dos grandes nmeros garante que a mdia amostral segue uma distribuio assinttica
Normal.
o) A lei dos grandes nmeros garante que a mdia amostral um estimador consistente da mdia
amostral.
p) a mdia amostral segue uma distribuio Normal para qualquer tamanho de amostra.


155
Apndice 6.B Convergncias e mais propriedades de estimadores

6.B.1 Convergncias

Dado um estimador

de um parmetro populacional . Como vimos no texto, se:



lim
n
P(|

| < ) = 1

Diz-se que

converge em probabilidade para ou:




P


Se o estimador

converge para de outra forma, como mostrado abaixo:



P(lim
n

= ) =1

Diz-se que

apresenta convergncia quase certa para , ou convergncia com


probabilidade 1 para , que representado por:


QC


Note que a convergncia quase certa implica na convergncia em probabilidade, mas a
recproca no verdadeira. Isto , a convergncia quase certa mais forte do que a convergncia
em probabilidade.

No caso da mdia amostral como estimador da mdia populacional: vimos que a Lei dos
Grandes Nmeros estabelece que a mdia amostral converge para a mdia populacional medida
que a amostra cresce. A Lei dos Grandes Nmeros, entretanto, aparece em duas verses, de acordo
com o tipo de convergncia.

A Lei Fraca dos Grandes Nmeros estabelece que a mdia amostral converge em
probabilidade para a mdia populacional, enquanto a Lei Forte dos Grandes Nmeros estabelece
que a mdia amostral converge quase certamente para a mdia populacional.

LGN verso fraca: X
P

LGN verso forte: X
QC


Como bvio, as condies para que se verifiquem a Lei Forte so mais restritas. Para que
se verifique a Lei Fraca, basta que os X
i
(i = 1, 2,..., n) sejam uma seqncia de nmeros aleatrios
com varincia finita, mas no necessariamente independentes. Para que se verifique a Lei Forte,
necessrio que os X
i
sejam IID (independentes e identicamente distribudos).


6.B.2 Eficincia assinttica

No texto definimos duas propriedades assintticas desejveis de estimadores: ser
assintoticamente no viesado e consistncia.

Para um estimador

de um parmetro populacional , definimos a varincia assinttica


como:
156

var-ass(

) =
n
1
lim
n
E[ n (

lim
n
E(

))]
2


O que, no caso de estimadores assintoticamente no viesados se reduz a:

var-ass(

) =
n
1
lim
n
E[ n (

)]
2


O estimador

tem a propriedade de eficincia assinttica se:



apresenta distribuio assinttica com mdia e varincia finitas;
consistente;
entre os estimadores consistentes de for aquele que apresentar menor varincia
assinttica.
157
158
CAPTULO 7 INTERVALO DE CONFIANA E TESTES DE
HIPTESES

7.1 Intervalo de confiana

A cada 2 anos (normalmente), nos acostumamos a acompanhar as pesquisas eleitorais.
Geralmente elas so mostradas assim:

Candidato Inteno de voto
Joo da Silva 35%
Maria Aparecida 32%
Jos Severino 16%

E, normalmente, temos uma afirmao adicional: a famosa margem de erro da pesquisa.
Suponhamos que, para o caso da pesquisa acima, ela seja de 2 pontos percentuais para cima ou
para baixo, o que vale dizer que o candidato Joo da Silva tem entre 33% e 37% das intenes de
voto, enquanto Maria Aparecida tem entre 30% e 34%.

Portanto, embora o mais provvel que o candidato Joo da Silva esteja ganhando,
possvel que ele tenha 33% dos votos enquanto sua adversria direta tenha 34%, estando assim ela,
e no ele, na frente da corrida eleitoral. Em resumo, no d para afirmar quem est na frente, o
famoso empate tcnico entre os candidatos.

Mas d para ter certeza que Joo da Silva tem no mnimo 33% dos votos e no mximo 37%?
Ora, essa informao foi obtida atravs de uma amostra que, ainda que grande, pequena em
relao ao total da populao. Mesmo que a amostragem tenha sido feita de maneira correta,
possvel (por mais que seja pouco provvel) que a amostra contenha, por coincidncia, um nmero
exageradamente grande (ou pequeno) de eleitores do referido candidato. Assim, falta uma
informao referente ao quanto estes valores, mesmo que incluindo a margem de erro, so
confiveis
71
.

Construir um intervalo de confiana nada mais do que estabelecer uma margem de erro
para um estimador e calcular o grau de confiana correspondente a esta margem. Ou, como mais
comum, estabelecido um grau de confiana, calcular a margem de erro que corresponda a esta
confiana. Como se faz isso? necessrio que se conhea a distribuio de probabilidade do
estimador.

Exemplo 7.1.1
Numa amostra de 100 estudantes foi encontrada uma idade mdia de 23,2 anos. Sabendo-se que a
varincia das idades 25, construa um intervalo de 95% de confiana para a mdia.

Pelo Teorema do Limite Central visto no captulo anterior, sabemos que a mdia segue uma
distribuio que se aproxima da normal (e 100 um tamanho de amostra suficientemente grande).

A varincia da mdia amostral, como tambm sabemos do captulo anterior, dada por:

var( X) =
n
var(X)


71
Nem sempre esta informao omitida quando da divulgao das pesquisas. Por vezes, esta informao pode ser
encontrada na imprensa escrita (embora dificilmente na manchete).
159
Ou, se quisermos abreviar mais a notao:


2
X
=
n
2



E o desvio padro da mdia amostral pode ser calculado diretamente por :

X
=
n
2

=
n



Cujo valor, neste caso ser dado por
72
:

X
=
100
5
= 0,5

Queremos um intervalo com 95% de confiana. Como a distribuio de probabilidade a
normal (que simtrica), temos que encontrar o valor na tabela correspondente rea de 47,5%.

O valor (para z) de 1,96 na tabela de distribuio normal 0,475002, portanto bem prximo
dos 47,5%. Lembrando que a tabela representa uma normal padronizada, isto , com mdia zero e
desvio padro igual a um, para que os valores da mdia amostral fiquem compatveis com os da
tabela devemos subtrair a mdia e dividir pelo desvio padro.

Como sabemos, a mdia da mdia amostral a prpria mdia populacional () e o seu
desvio padro j calculamos, igual a 0,5. Portanto, temos que:


X
- X


= 1,96

A diferena em mdulo porque o valor encontrado para a mdia amostral pode estar tanto
abaixo como acima da mdia populacional. O valor encontrado para a mdia amostral foi 23,2.
Substituindo, temos:


5 , 0
2 , 23
= 1,96

|23,2 | = 0,51,96

72
Lembrando que, se a varincia populacional 25, o desvio padro populacional 5.
160

|23,2 | = 0,98

Como em mdulo, isto , a mdia pode ser acima ou abaixo de 23,2, temos duas
possibilidades:

23,2 = 0,98 ou 23,2 = 0,98
= 0,98 23,2 = 0,98 23,2
= 23,2 0,98 = 23,2 + 0,98
= 22,22 = 24,18

Ou seja, a mdia populacional pode estar entre 22,22 e 24,18. Repare que estes valores
foram obtidos somando-se e subtraindo-se 0,98 da mdia amostral inicialmente obtida (23,2). Vale
dizer que 0,98 a tal da margem de erro, e foi obtida multiplicando-se o desvio padro pelo valor
encontrado na tabela.

Portanto, o intervalo de confiana dado por:

IC
95%
= [22,22; 24,18]

Com 95% de confiana, como assinalado. Mas o que significa isso, afinal? Significa que, se
repetssemos a experincia (calcular a mdia de idade a partir de uma amostra de 100 pessoas) um
nmero muito grande (infinito) de vezes, em 95% delas o intervalo conter o valor verdadeiro
da mdia populacional.

No , a rigor, a probabilidade de que o intervalo, uma vez construdo, contenha a
verdadeira mdia populacional pois, se ele j foi construdo, ou ele contm ou no contm o valor
verdadeiro (seja ele qual for), a probabilidade seria um ou zero, respectivamente.

Exemplo 7.1.2
Aps entrevistar 49 membros de uma categoria profissional, um pesquisador encontrou um salrio
mdio de R$ 820. O desvio padro dos salrios desta categoria, conhecido, R$ 140. Construa um
intervalo para a mdia:
a) com 80% de confiana.
Com 80% de confiana, temos que procurar na tabela metade, isto , 40%. O valor mais
prximo 0,399727 que corresponde ao valor de z de 1,28. Como a mdia amostral tem
distribuio aproximadamente normal, temos que;


X
- X


= 1,28
onde:
X= 820 e
X
=
49
140
= 20
20
- 820
= 1,28

|820 - | = 25,6

161
A chamada margem de erro 25,6. Os pontos extremos do intervalo de confiana podem
ser encontrados somando-se e subtraindo 25,6 da mdia amostral.

IC
80%
= [794,4; 845,6]

b) com 90% de confiana.

Agora temos que procurar na tabela o valor correspondente a 45%. Este valor est entre 1,64
e 1,65. De fato, o valor de z aproximadamente 1,645.

20
- 820
= 1,645
|820 - | = 32,9

E, portanto, o intervalo de confiana :

IC
90%
= [787,1; 852,9]

Acontece aqui um problema de cobertor curto (quando se cobre o pescoo, descobrem-se
os ps): se aumentamos o grau de confiana, a preciso do intervalo cai (a margem de erro
aumenta).

Como fazer para aumentar tanto a preciso do intervalo como a sua confiana (ou, pelo
menos, aumentar uma sem diminuir a outra) preciso aumentar o pano do cobertor, isto ,
aumentar a amostra. Vejamos no exemplo seguinte.

Exemplo 7.1.3
Do exemplo anterior, qual o tamanho de amostra necessrio para que, mantidos os 90% de
confiana, a margem de erro seja de, no mximo, 20?
Temos que, para 90% de confiana:

X
- X


= 1,645
Onde:

X
=
n



Substituindo, temos:

n
- X

= 1,645

A margem de erro ser dada por:

n

1,645 = 20

n
140
1,645 = 20

n
3 , 230
= 20
162
n =
20
3 , 230

n = 11,515

Elevando ao quadrado os dois lados da equao:

( )
2
n = (11,515)
2
n = 132,59

Como a pergunta qual o tamanho mnimo da amostra (e este deve ser um nmero inteiro),
a resposta 133 elementos.

Exemplo 7.1.4 (pesquisa eleitoral)
Em uma pesquisa eleitoral, entre 1000 eleitores, 240 declararam que pretendem votar no candidato
A. Construa um intervalo de 95% de confiana para as intenes de voto para este candidato.

Neste exemplo a resposta pedida exatamente o que apresentado pelos meios de
comunicao quando divulgam uma pesquisa eleitoral.

O valor (amostral) para a proporo de eleitores que desejam votar neste candidato :
p =
1000
240
= 0,24 = 24%

Mas preciso calcular a margem de erro para que o resultado (o intervalo de confiana) seja
completo. Para isso precisamos calcular a varincia deste estimador.

Como faz-lo? Suponha que 24% o valor correto das intenes de voto. Isto significa que,
para cada eleitor entrevistado, como se fosse um jogo onde h 24% deste eleitor votar no
candidato A e 76% de votar em outros candidatos (incluindo a votos brancos e nulos). Da mesma
forma que quando jogamos uma moeda, h 50% de chance de dar cara e 50% de no dar cara (dar
coroa); ou de quando jogamos um dado, h 1/6 de chances de cair um certo nmero desejado e 5/6
de chances de no cair.

Portanto, como se, cada eleitor entrevistado fosse uma distribuio de Bernouilli, cuja
varincia calculada, como j vimos, por:

2
= p(1-p)

Onde p a probabilidade de ocorrncia de sucesso (dar cara na moeda, dar 6 no dado ou...
encontrar um eleitor que vote no candidato A) e (1-p) a probabilidade de ocorrncia do fracasso.

Como temos n eleitores, a proporo encontrada , na verdade, uma proporo mdia, cuja
varincia ser dada, a exemplo da mdia amostral comum, por
73
:

var( p ) =
n
) p - (1 p


Que, neste caso, ser dada por:


73
Note que, tambm a exemplo da mdia amostral, esta varincia estimada, j no conhecemos o valor correto de p.
163
var( p ) =
1000
0,76 0,24
= 0,0001824

E o desvio padro:

dp( p ) = 0001824 , 0 0,0135 = 1,35%

J temos o valor do estimador e seu desvio padro, podemos, portanto calcular o intervalo de
confiana da proporo verdadeira (populacional) p (o valor tabelado para 95% 1,96):


) p dp(
p - p
= 1,96

1,35
p - 24
= 1,96

|24 p| 2,6%

Portanto, o intervalo de 95% de confiana para as intenes de voto para o candidato A :

IC
95%
= [21,4%; 26,6%]

Ou, como preferem os meios de comunicao, o candidato A tem 24% das intenes de voto
com margem de erro de 2,6 pontos percentuais, para cima ou para baixo... isto se considerarmos,
evidentemente, 95% de confiana.

7.2 Testes de Hipteses

Todo mundo j fez um dia na vida... talvez no com as ferramentas mais adequadas, mas j
fez sim. Imagine uma menina de uns 11, 12 anos
74
que, no intervalo da aula vai lanchonete da
escola e l est aquele garoto que sempre olha estranho para ela. Ela vai quadra e l est o garoto
de novo. Ento ela volta para a classe um pouco antes e adivinhe quem tambm voltou? A, a
menina para e pensa: muita coincidncia, este garoto gosta de mim!

A menina estabeleceu duas hipteses:
1
a
hiptese : o garoto no gosta dela
2
a
hiptese : o garoto gosta dela.

Suponhamos que fosse verdade a 1
a
hiptese. Ento o garoto s estaria nos mesmos lugares
que ela, quando isto ocorresse, por mera coincidncia, no intencionalmente. Como ele esteve, em 3
lugares diferentes, prximo menina durante um curto perodo de tempo, isto no deve ser
coincidncia, portanto a 1
a
hiptese deve ser rejeitada.

Duas observaes devem ser feitas: uma o critrio do que coincidncia ou no. Este
arbitrrio. Uma menina que estivesse torcendo para que o garoto gostasse dela poderia ser menos
rigorosa e aceitar que bastariam, digamos, dois lugares diferentes para que se considerasse muita
coincidncia. Outra poderia querer que o fenmeno se repetisse em outros dias para que se
considerasse muita coincidncia.


74
Talvez menos, hoje em dia nunca se sabe.
164
A outra que ainda que o raciocnio esteja correto, possvel que a concluso seja incorreta
pois, ainda que pouco provvel, no impossvel que o garoto estivesse em todos aqueles lugares
por mera coincidncia. Nestes casos, nunca d para ter certeza absoluta.

Os testes que vamos fazer, entretanto, no lidam com coisas to complexas como o corao
humano (qualquer que seja a idade). Nos limitaremos a coisas que possamos medir em nmeros. O
mtodo, todavia, parecido. O primeiro passo estabelecer as duas hipteses. A 1
a
hiptese
tambm conhecida como hiptese nula (que chamaremos de H
0
), geralmente uma igualdade.
Isto , supe-se que determinado parmetro igual a um nmero. A segunda hiptese, a chamada
hiptese alternativa (que denominaremos de H
1
) contradiz a hiptese nula de alguma forma,
portanto uma desigualdade: pode ser o parmetro diferente do nmero, maior do que o
nmero ou menor do que o nmero. Podemos ter, ento, trs pares de hipteses possveis num
teste para um determinado parmetro :

H
0
: =
0

H
1
:
0
ou
H
0
: =
0
H
1
: <
0
ou
H
0
: =
0

H
1
: >
0


Onde
0
um valor qualquer que o parmetro pode assumir.

A segunda parte estabelecer o que muita coincidncia, isto , qual a probabilidade que
ser considerada muita coincidncia. Esta probabilidade conhecida como significncia do teste.

Isto significa que a realizao do teste depende do conhecimento da distribuio de
probabilidade do parmetro. Por isso mesmo, quando usamos o primeiro par de hipteses acima, o
teste se chama bicaudal, j que diferente pode ser maior ou menor, indicando que sero utilizadas
as duas caudas da distribuio. Quando o teste feito com um dos dois ltimos pares de
hipteses, ele conhecido como monocaudal.

Tomemos um exemplo bem simples; uma moeda que insiste em dar cara. Ser que ela
viciada?

O primeiro passo estabelecer as hipteses: se ela no viciada, a proporo populacional
de caras 0,5. Caso contrrio, diferente
75
.

H
0
: p = 0,5
H
1
: p 0,5

O segundo passo estabelecer a significncia do teste ou, em outras palavras, definir o que
muita coincidncia. Arbitrariamente escolhemos 10%.

A distribuio de probabilidade aqui uma binomial. Suponhamos que nas duas primeiras
jogadas, o resultado tenha sido cara. Supondo que a moeda no fosse viciada, a probabilidade
disso ocorrer :

75
Como j foi estabelecido que ela est dando mais caras, poderia ser utilizada a hiptese de ser maior do que 0,5. A
uma questo de critrio.
165

P(2 caras) = 0,50,5 = 0,25 = 25%

O que bem possvel de ocorrer, de acordo com o nosso critrio. Nada nos indica que a
moeda esteja viciada, foi um resultado absolutamente normal, perfeitamente possvel que a
hiptese nula seja verdadeira. Costuma-se dizer que a hiptese nula aceita.

Agora, imagine que tenha dado cara em 3 lanamentos da moeda:

P(3 caras) = 0,50,50,5 = 0,125 = 12,5%

Ou seja, uma moeda no viciada tem apenas 12,5% de chance de apresentar este resultado.
Mas 12,5% no considerado muita coincidncia pelo nosso critrio, que de 10%. Ento,
continuamos acreditando na honestidade da moeda, isto , continuamos aceitando a hiptese nula.

Mas suponha que sejam 4 caras seguidas:

P(4 caras) = 0,50,50,50,5 = 0,0625 = 6,25%

Estabelecemos que 10% muita coincidncia. Mas uma moeda no viciada teria apenas
6,25% de dar este resultado. Ento, a nossa concluso de que a moeda no pode ser honesta.
Rejeitamos a hiptese nula de que a moeda tem proporo igual a 0,5, ou seja, ela viciada.

Como no caso da menina, ainda que improvvel, o resultado pode ocorrer (com 6,25% de
chances) mesmo que se trate de uma moeda no viciada. Note-se que, se o nosso critrio fosse 5%,
continuaramos acreditando na honestidade da moeda
76
.

Exemplo 7.2.1
Afirma-se que a altura mdia dos jogadores de basquete que disputam uma determinada liga
1,95m. Numa amostra de 36 jogadores, foi encontrada uma mdia de 1,93m. Sabe-se que o desvio
padro da altura dos jogadores 12 cm. Teste, com um nvel de significncia de 10%, se a
afirmao verdadeira.

A hiptese nula deve ser a prpria afirmao, isto , que a mdia 1,95. A hiptese
alternativa que a afirmao falsa, ou seja, diferente de 1,95.

H
0
: = 1,95
H
1
: 1,95

Trata-se de um teste bicaudal, portanto. Qual a distribuio de probabilidade a ser usada?
Estamos falando de mdia, o que vale dizer, pelo Teorema do Limite Central, que uma varivel
cuja distribuio normal.

Se a significncia do teste 10% e o teste bicaudal, ento isso equivale a 5% em cada
cauda. Na tabela da distribuio normal padronizada, isso equivale a um valor de z de 1,645.


76
Se a significncia do teste fosse qualquer valor abaixo de 6,25%, aceitaramos a hiptese nula e, para qualquer valor
acima, a rejeitaramos. Este valor (no caso, 6,25%) que d o limite entre a aceitao e a rejeio, que nem sempre
muito fcil de ser calculado sem o auxlio de computadores ou calculadoras, conhecido como p-valor ou valor p.
166

Conhecida a distribuio de probabilidade, o procedimento parecido com o intervalo de
confiana: vamos construir um intervalo, supondo que a hiptese nula seja verdadeira, que contenha
90% dos possveis valores amostrais. Fora deste intervalo, no que seja impossvel, mas a
probabilidade menor do que 10%, o que, pelo critrio estabelecido (significncia do teste) muita
coincidncia.

Temos que:

X
- X


= 1,645
Onde (supostamente) 1,95 e o desvio padro da mdia (
X
) dado por:


X
=
36
12 , 0
= 0,02

Substituindo, temos:


0,02
1,95 - X
= 1,645
| X- 1,95| 0,033

Portanto, os valores que podem ocorrer numa amostra de 36 jogadores, com 90% de
probabilidade esto entre 1,95 + 0,033 e 1,95 0,033. Se o valor amostral estiver dentro deste
intervalo, ento aceitamos a hiptese nula. Por isso, chamaremos este intervalo de regio de
aceitao (RA)
77
.

RA = [1,917; 1,983]

O valor amostral foi 1,93 que est dentro da RA, portanto aceitamos a hiptese nula.

Aceitar a hiptese nula pode significar que vamos viver a vida como se ela fosse verdade e,
de fato, h respaldo para isso. Mas talvez o mais correto fosse dizer que no possvel rejeitar a
hiptese nula. Na verdade, isso que ocorre: pelo valor obtido na amostra, no possvel contestar
a informao inicial, mas tambm possvel que o valor verdadeiro seja um outro.

77
O conjunto dos pontos que no pertencem a regio de aceitao so tambm chamados de regio de rejeio ou regio
crtica.
167

Note que possvel fazer o teste de uma outra maneira, totalmente equivalente, montando a
RA atravs dos valores da normal padronizada.

A RA em termos dos valores da normal :

RA = [-1,645; 1,645]

E o valor obtido na amostra (lembrando que X= 1,93, = 1,95 e
X
= 0,02):

X
- X


=
02 , 0
95 , 1 93 , 1
= -1

Que pertence RA, portanto aceitamos a hiptese nula. Como foi dito, estas duas formas
so totalmente equivalentes e vo dar o mesmo resultado. Note que o mdulo desnecessrio agora,
j que inclumos os valores negativos na RA.

Exemplo 7.2.2
Em uma amostra com 100 famlias em uma cidade do interior, foi encontrada uma renda mdia de
R$ 580. Segundo o prefeito, esta pesquisa est errada, pois a renda mdia em sua cidade de, no
mnimo, R$ 650. Teste a afirmao do prefeito com 10% de significncia, sabendo-se que o desvio
padro da renda de R$ 120.

O prefeito no afirma que a renda exatamente R$ 650, mas que no mnimo R$ 650. Pode
ser R$ 700, R$ 800, etc. A hiptese alternativa (contrria a do prefeito) deve ser que a renda mdia
seja menor do que R$ 650.

H
0
: = 650
H
1
: < 650

Ou seja, estamos falando aqui de um teste monocaudal. Os 10% devem estar concentrados
na cauda esquerda
78
da curva normal.




78
Na verdade, como a normal simtrica, tanto faz a direita ou a esquerda, o que importa que os 10% estejam
concentrados em um s lado.
168
Assim sendo, o valor a ser utilizado da tabela normal padronizada 1,28 (em mdulo).
Portanto:


X
- X


= 1,28

Sendo que:
X
=
100
120
= 12


12
650 - X
= 1,28
| X- 650| = 15,36

Como estamos testando a hiptese alternativa de ser menor (se a amostra apresentasse um
valor maior do que R$ 650 o prefeito no teria feito nenhuma objeo), a RA inclui todos os valores
maiores do que R$ 650. O que realmente importa so os valores menores, que tem seu limite
inferior dado por 650 15,36 = 634,64. Portanto, a RA ser dada por:
RA = [634,36; [

O valor encontrado na amostra foi R$ 580, que no pertence a este intervalo. Vale dizer que,
se a renda fosse realmente R$ 650 no mnimo, a chance de encontrarmos R$ 580 numa amostra de
100 elementos inferior a 10%, ento rejeitamos a hiptese nula, ou seja, conclumos que o
prefeito est equivocado.

Exemplo 7.2.3 (novamente pesquisas eleitorais)
Uma pesquisa feita com 300 eleitores revelou que 23% votariam no candidato A. O candidato B,
entretanto, afirma que o seu oponente tem, no mximo, 20% dos votos. Teste a afirmao do
candidato B, utilizando um nvel de significncia de 5%.

As hipteses neste caso so:

H
0
: p = 0,2
H
1
: p > 0,2

J que a alternativa hiptese lanada pelo candidato B a de que A tenha, de fato, mais do
que 20% das intenes de voto.

De novo, um teste monocaudal, desta vez sendo utilizada a cauda da direita
169


A varincia da proporo encontrada numa amostra de 300 eleitores :
var( p ) =
300
8 , 0 2 , 0
= 0,000533... dp( p ) 0,023 = 2,3%

Temos ento que:

) p dp(
p - p
= 1,645

2,3
20 - p
= 1,645
| p - 20| 3,8

E, novamente, como o teste monocaudal, s precisamos nos preocupar com a parte
superior do intervalo.

RA = ]-; 23,8%]

Como o valor amostral foi 23%, o que est dentro da RA, ento aceitamos a hiptese nula
(considerando 5% de significncia) ou, em outras palavras, no possvel contestar a afirmao do
candidato B (ainda que o candidato A tenha no mximo 20% dos votos, a probabilidade de que,
numa amostra de 300 eleitores, encontremos 23% que votem em A, superior a 5%).

Exemplo 7.2.4
Fez-se um estudo sobre aluguis em dois bairros, A e B. No primeiro, em 12 residncias, o aluguel
mdio encontrado foi R$ 330. No segundo, em 19 residncias, o aluguel mdio foi de R$ 280.
Sabe-se que o desvio padro dos aluguis no bairro A R$ 50 e no bairro B R$ 40. Afirma-se que
os aluguis mdios so iguais nos dois bairros. Teste esta afirmao com 10% de significncia.

Aqui no se trata de testar uma mdia como sendo igual ou no a um determinado valor, mas
sim comparar duas mdias. Queremos saber se as mdias so, ou no, iguais. As hipteses so:
H
0
:
A
=
B

H
1
:
A

B


um pouco diferente do que estvamos fazendo, mas podemos com uma simples
transformao, deix-lo na mesma forma, j que dizer que a mdia igual e a mesma coisa que
dizer que a diferena das mdias zero. Portanto, as hipteses acima so equivalentes a:
170
H
0
:
A
-
B
= 0
H
1
:
A
-
B
0

como se crissemos uma nova varivel Y (= X
A
X
B
) e fizssemos o teste de hipteses
para a mdia de Y ser igual a zero.

Lembrando que:

var(Y) = var (X
A
X
B
) = var(X
A
) + var(X
B
) 2cov(X
A
, X
B
)

Mas, supondo que os aluguis em cada bairro sejam variveis independentes:

var(Y) = var (X
A
X
B
) = var(X
A
) + var(X
B
)

j que a covarincia zero. O mesmo vale para a varincia da mdia:

var( Y) = var( X
A
) + var( X
B
)

E temos que:

var( X
A
) =
12
50
2
208,3
var( X
B
) =
19
40
2
84,2

Portanto, a varincia da mdia (da diferena) ser:

var( Y) 292,5

E o desvio padro:


Y
5 , 292 17,1

Como se trata de um teste a 10% de significncia, bicaudal, o valor encontrado na
distribuio normal 1,645. Ento:

1 , 17
0 - Y
= 1,645

| Y- 0| = 28,13

Portanto, a regio de aceitao para a diferena ser:

RA = [-28,13; 28,13]

Como a diferena amostral encontrada foi 50 (= 330 280), o que extrapola a RA,
rejeitamos a hiptese nula, isto , os aluguis mdios so diferentes nos dois bairros.


171
6.3 Testando a varincia

Nos exemplos anteriores, fazamos teste para a mdia porque, evidentemente, no
conhecamos ao certo o seu valor, tnhamos o valor amostral e apenas algum tipo de suposio ou
afirmao de algum sobre o valor populacional. Entretanto, o desvio padro (e, por tabela, a
varincia) era conhecido
79
, o que , no mnimo um pouco estranho. Se no sabemos qual a mdia,
por que ento saberamos a varincia?

A nica resposta plausvel que, em geral, no sabemos mesmo. A varincia tambm
obtida pela amostra e portanto passvel de teste. O prximo passo testar a varincia.

Quando obtida da amostra, a varincia (amostral) dada por:

S
2
=
( )
1 - n
X X
n
1 i
2
i
=



Podemos escrever:
(n-1)S
2
= ( )

=

n
1 i
2
i
X X

Se dividirmos dos dois lados pela varincia populacional
2
, teremos:

(n-1)
2
2
S

=
( )

n
1 i
2
2
i
X X


Ou:
(n-1)
2
2
S

=
|
|
.
|

\
|

n
1 i
2
i
X X


Repare que, se X for uma varivel cuja distribuio normal (e isto importante!) a
expresso dentro dos parnteses quase uma normal padronizada, j que se subtrai a mdia e
divide-se pelo desvio padro. Para ser exatamente uma normal padronizada teramos que ter a
mdia populacional e no a mdia amostral.

Do captulo anterior
80
sabemos entretanto que:

( )

=

n
1 i
2
i
X X =

=
n
1 i
( X
i
- )
2
n( X-)
2


Substituindo, temos:
(n-1)
2
2
S

=
|
.
|

\
|
n
1 i
2
i
X


n
2
X
|
|
.
|

\
|



Ou ainda:
(n-1)
2
2
S

=
|
.
|

\
|
n
1 i
2
i
X



2
n
X
|
|
.
|

\
|




79
Com exceo dos exemplos de proporo (pesquisas eleitorais). Discutiremos isto mais adiante.
80
Quando procurvamos encontrar um estimador no viesado para a varincia.
172

Agora temos do lado direito da equao um somatrio de n variveis normais padronizadas,
j que estamos subtraindo a mdia populacional . Alm disso, subtramos uma outra varivel
normal padronizada, j que X uma varivel com distribuio normal (Teorema do Limite Central)
com mdia e desvio padro dado por / n .

Portanto temos uma soma de n 1 variveis normais padronizadas. Como conhecemos a
distribuio normal padronizada, possvel obter os valores da distribuio desta nova varivel
desde que conheamos o valor de n. De fato, esta distribuio leva o nome de
2
(qui quadrado).

A distribuio
2
a distribuio de uma varivel que a soma de n variveis normais
padronizadas. Diz-se que esta varivel tem distribuio
2
com n graus de liberdade.

Portanto, a expresso (n-1)
2
2
S

segue uma distribuio


2
com n - 1 graus de liberdade
(porque uma soma de n-1 variveis normais padronizadas), desde que, claro, S
2
tenha sido
obtida de uma varivel cuja distribuio normal. Escreve-se, resumidamente, da seguinte forma:

(n-1)
2
2
S

~
2
(n-1)

As curvas que representam a f.d.p. de variveis com distribuio
2
so mostradas abaixo:



2
com 1 grau de liberdade




2
com 3 graus de liberdade
173



2
com 5 graus de liberdade

Repare que a distribuio vai se tornando mais simtrica medida que se aumentam os
graus de liberdade
81
, mas em geral ela no simtrica, o que tem implicaes para os testes pois os
valores nas caudas direita e esquerda sero diferentes.

Exemplo 7.3.1
Numa determinada empresa, empregados que desempenham a mesma funo tm salrios
diferentes em funo do tempo de casa e bonificaes por desempenho. Segundo a empresa, o
desvio padro para o salrio de uma certa funo R$ 150. Entrevistando 5 funcionrios que
desempenham esta funo verificou-se que os seus salrios eram, respectivamente, R$ 1000,
R$1200, R$ 1500, R$ 1300 e R$ 900. Teste a afirmao da empresa com significncia de 5%,
supondo que os salrios sejam normalmente distribudos.

A hiptese apresentada pela empresa de que o desvio padro 150, portanto a varincia
150
2
= 22500. As hipteses nula e alternativa devem ser:

H
0
:
2
= 22500
H
1
:
2
22500

Como os salrios seguem uma distribuio normal, a varincia amostral dos mesmos segue
uma distribuio
2
com 4 graus de liberdade (j que temos 5 elementos na amostra, n-1 = 5-1 =
4) e o teste bicaudal, o que vale dizer que tomaremos uma rea equivalente a 2,5% em cada cauda
da distribuio. Na tabela da distribuio
2
, na linha correspondente aos 4 graus de liberdade,
devemos encontrar os valores nas colunas 2,5% (que corresponde a cauda esquerda) e 97,5% (cauda
direita).

81
Na verdade, quando n grande, a
2
se aproxima de uma normal.
174


Os valores encontrados so 0,48 e 11,14. A regio de aceitao, em termos dos valores
tabelados, :

RA = [0,48; 11,42]

Estamos supondo que a varincia verdadeira (populacional) 22500. Pela amostra, a
varincia obtida :

S
2
=
4
1180) - 900 ( 1180) - (1300 1180) - 1500 ( 1180) - 1200 ( 1180) - (1000
2 2 2 2 2
+ + + +

S
2
= 57000

J que a mdia amostral 1180 (verifique!).

Para fazer o teste, temos que calcular a expresso:

(n-1)
2
2
S

= 4
22500
57000
10,13

Que est dentro da RA, portanto aceitamos a hiptese nula para um nvel de 5% de
significncia. A afirmao da empresa no pode ser contestada.

Exemplo 7.3.2
Uma caixa de fsforos de uma certa marca vem com a inscrio: contm, em mdia, 40 palitos.
Segundo o fabricante, o desvio padro de, no mximo, 2 palitos. Em uma amostra com 51 caixas,
entretanto, foi encontrado um desvio padro amostral de 3 palitos. Supondo que o nmero de palitos
por caixa seja uma varivel normal, teste a afirmativa do fabricante utilizando um nvel de
significncia de 1%.

As hipteses so:
H
0
:
2
= 4
H
1
:
2
> 4

A expresso:
(n-1)
2
2
S

= 50
4
9
= 112,5

175
Que sabemos, segue uma distribuio
2
com 50 graus de liberdade. Para 1% de
significncia, num teste monocaudal, devemos procurar na tabela a coluna de 99% (j que estamos
testando a hiptese alternativa maior).


O valor encontrado foi 76,15. O que significa que, em termos dos valores tabelados, a RA
ser
82
:

RA = [0; 76,15]

Como o valor encontrado no pertence RA, rejeitamos a hiptese nula quando o nvel de
significncia 1%. A afirmao do fabricante no correta.

Exemplo 7.3.3
Do exemplo 7.3.1, construa um intervalo de 90% de confiana para a varincia.

A exemplo de um intervalo de confiana para a mdia, para um intervalo de confiana de
90% para a varincia utilizaremos 45% abaixo e 45% acima da varincia amostral encontrada. O
que equivale, na tabela, s colunas 5% e 95% da linha correspondente aos 4 graus de liberdade que
temos no exemplo 7.3.1. Os valores tabelados so 0,71 e 9,49.

Chamando de
2
t
os valores tabelados encontrados, temos que, nas extremidades do
intervalo de confiana ser vlido:
(n-1)
2
2
S

=
2
t


Rearranjando, temos:

2
= (n-1)S
2
/
2
t


Para encontrarmos os valores limites do intervalo, basta substituir por cada um dos valores
tabelados encontrados:

2
1
= 457000/9,49 24025,3

2
2
= 457000/0,71 321126,8

Portanto, o intervalo com 90% de confiana para a varincia ser:


82
Note que como um teste para a varincia, o menor valor possvel zero, j que no existe varincia negativa.
176
IC
90%
= [24025,3; 321126,8]

Ou, se preferir o intervalo de confiana para o desvio padro:

IC
90%
= [155,0; 566,7]

7.4 Testando a mdia quando a varincia desconhecida e...

Agora que conhecemos a distribuio da varincia (pelo menos quando se trata de uma
varivel normal), podemos retomar a questo do teste da mdia quando a varincia tambm obtida
da amostra.

O clculo da estatstica, ao invs de ser dado pela expresso:


n
- X




Ser calculado por:


n S
- X


J que a varincia populacional
2
no conhecida e que portanto s possvel obter a
varincia amostral S
2
.

A mdia amostral, j sabido, segue uma distribuio normal. A expresso (n-1)S
2
/
2
segue
uma distribuio
2
com n-1 graus de liberdade, sendo n o tamanho da amostra
83
.

Portanto, a segunda expresso acima um quociente de uma varivel que tem distribuio
normal padronizada por uma varivel que, ao quadrado, tem distribuio
84

2
. Para perceber isso,
basta dividir por no numerador e no denominador:

S
- X
n
Esta combinao, embora parea complicada, vem de duas distribuies j conhecidas.
Ento, possvel construir a distribuio desta expresso, que conhecida como t de Student.

A distribuio t, como vem (tambm) da
2
, depende dos mesmos graus de liberdade desta
ltima. Mas, como a normal padronizada, ela simtrica e tem mdia zero
85
. Portanto, diz-se que a
ltima expresso segue uma distribuio t, de Student, com n-1 graus de liberdade. Ou:


n S
- X
~ t
(n-1)

83
Isto, claro, se S
2
foi obtido a partir de uma varivel normal.
84
Exceto pelo fator (n-1).
85
A f.d.p. de uma varivel que se distribui como uma t de Student se assemelha a uma normal achatada.
177

E, como para a distribuio
2
necessitamos que a amostra seja extrada de uma populao
cuja distribuio normal, o mesmo vale para a distribuio t, de Student. Portanto esta uma
condio necessria para que usemos a distribuio t de Student em um teste de hipteses.

Exemplo 7.4.1
Do exemplo 7.3.1, suponha que o empregador afirme ainda que o salrio mdio , no mnimo, R$
1250. Teste a afirmao do empregador utilizando um nvel de 10% de significncia.

As hipteses so:

H
0
: = 1250
H
1
: < 1250

A mdia amostral obtida no exemplo 7.3.1 foi 1180 e a varincia amostral 57000. Portanto,
o desvio padro amostral :

S = 57000 238,75

E o desvio padro da mdia :


X
S =
n
S
=
5
75 , 238
106,8

E, como este desvio padro foi obtido a partir de uma amostra (que, no caso do exemplo
7.3.1, veio de uma populao normalmente distribuda), a distribuio a ser utilizada a t, de
Student, com 4 (= 5 1) graus de liberdade.

Na distribuio t de Student, com 4 graus de liberdade e 10% de significncia, monocaudal,
o valor encontrado 1,53.
X
S
- X
= 1,53
106,8
250 1 - X
= 1,53
| X - 1250| = 163,4

Como um teste monocaudal, a RA ser dada por:

RA = [1086,6; [

Como o valor encontrado na amostra (1180) pertence RA, aceitamos a hiptese nula, isto
, no podemos desmentir a afirmao do empregador.

Alternativamente, podemos construir a RA em termos dos valores tabelados da distribuio
de Student:

RA = [-1,53; [

178
O valor negativo porque estamos testando a hiptese alternativa de que a mdia menor
do que 1250.

O clculo da estatstica ser:


X
S
- X
=
8 , 106
1250 1180
- 0,655

Que, da mesma forma, pertence RA, ento aceitamos a hiptese nula.

Exemplo 7.4.2
Para verificar a informao de que a temperatura mdia de uma cidade, no vero, de 35
o
C, um
estudante coletou a temperatura durante 10 dias e encontrou uma mdia amostral de 33
o
C, com
desvio padro de 0,7
o
C. Supondo que a temperatura se distribua normalmente no vero naquela
cidade, teste a informao inicial com 10% de significncia.

As hipteses so:

H
0
: = 35
H
1
: 35

O desvio padro da mdia :


X
S =
n
S
=
10
7 , 0
0,22
E, como o desvio padro foi obtido da amostra (e sabemos que a distribuio normal!), a
distribuio a ser utilizada a de Student, com 9 graus de liberdade. Com 10% de significncia
(teste bicaudal) o valor encontrado 1,83.

X
S
- X
= 1,83
0,22
5 3 - X
= 1,83
| X - 35| = 0,4

A regio de aceitao ser dada por:

RA = [34,6; 35,4]

Como o valor encontrado na amostra (33
o
C) no pertence RA, rejeitamos a hiptese
nula e, portanto, conclumos que a temperatura mdia da cidade no vero no 35
o
C.

O ttulo desta seo est incompleto. (varincia desconhecida e...). Repare na tabela t de
Student, por exemplo, na coluna de 5% bicaudal. Se a varincia fosse conhecida, o valor na
distribuio normal a ser utilizado seria 1,96. Na t de Student, com 5 graus de liberdade 2,57; se
aumentarmos os graus de liberdade para 10, passa a ser 2,23; com 30 graus de liberdade, 2,04
(diferena de menos de 0,1). medida que aumentamos a amostra e, por conseguinte, os graus de
179
liberdade, o valor encontrado na tabela t de Student se aproxima do valor da normal
86
. De fato, o
valor na linha inf (infinitos graus de liberdade) exatamente o valor encontrado na distribuio
normal
87
.

Portanto, se a varincia for desconhecida, mas a amostra for grande, far pouca diferena se
usarmos a normal ou a t de Student (e far menos diferena quanto maior for a amostra).

Assim, o ttulo completo desta seo seria teste para a mdia com varincia desconhecida
e... amostra pequena.

Repare que nos exemplo 7.1.4, a rigor teramos que usar a distribuio de Student para
construir o intervalo de confiana, pois a varincia tambm foi obtida da amostra. Isto, no entanto,
desnecessrio, pois se trata de uma amostra de 1000 eleitores.

7.5 Comparao de varincias

No exemplo 7.2.4 fizemos um teste comparando duas mdias. Isto , a partir de mdias
obtidas de duas amostras diferentes, procuramos testar se a mdia populacional em ambas era igual.
E se quisermos fazer a mesma coisa com varincias obtidas de amostras diferentes?

Exemplo 7.5.1
Uma maneira (bem simples, diga-se) de se ter uma idia sobre distribuio de renda calculando a
varincia. Suponha que, em duas comunidades, tomou-se duas amostras, de 9 famlias para a
comunidade A e 5 famlias para comunidade B. Foram coletados os seguintes valores para as rendas
mensais destas famlias:
comunidade A: 800, 600, 550, 400, 300, 250, 900, 600, 700
comunidade B: 700, 1200, 300, 500, 1000
Teste, com 10% de significncia, se a distribuio de renda (medida pela varincia) diferente nas
duas comunidades. Suponha que, em ambas, a renda normalmente distribuda.

A varincia amostral da renda na comunidade A , aproximadamente, 48611, enquanto que,
na comunidade B 133000 (verifique!).

A pergunta : poderiam ser estas duas varincias (populacionais) iguais, sendo a diferena
obtida resultado de uma coincidncia na extrao da amostra? A resposta vem atravs do seguinte
teste de hipteses:

H
0
:
2
A
=
2
B
H
1
:
2
A

2
B

Como faz-lo? Sabemos que, como a distribuio normal, a expresso (n-1)S
2
/
2
uma
distribuio
2
com n-1 graus de liberdade para ambas comunidades (8 para A e 4 para B).

Se tomarmos a razo das varincias amostrais e dividirmos pelas respectivas varincias
populacionais (que supostamente so iguais), teremos:



86
O que faz todo o sentido se pensarmos em termos da consistncia do estimador da varincia ou mesmo em termos de
Lei dos Grandes Nmeros.
87
O que vale dizer que a t de Student tende, assintoticamente, a uma distribuio normal.
180

2
A
2
B
S
S
=
2
2
B
2
2
A
S
S



Teremos no numerador e no denominador uma estatstica
2
dividida pelos respectivos graus
de liberdade. Esta distribuio resultante deste quociente recebe o nome de distribuio de Fisher-
Snedecor ou, simplesmente distribuio F. Ela obviamente depender dos graus de liberdade do
numerador e do denominador.


2
A
2
B
S
S
=
2
2
A
2
2
B
S
S

=
8
4
2
8
2
4

~ F
4,8


Dizemos ento que o quociente das duas varincias segue uma distribuio F com 4 graus de
liberdade no numerador e 8 graus de liberdade no denominador. Note que, como a distribuio
2

vem, necessariamente, de uma populao normal, a distribuio F ter de vir de duas populaes
normais tambm.

O grfico da f.d.p de uma varivel que tem como distribuio uma F semelhante ao de uma
como uma
2
. No uma distribuio simtrica, portanto. Do ponto de vista de quem utiliza uma
tabela, h uma limitao que advm do papel ter s suas dimenses
88
, ento as colunas ficam
reservadas aos graus de liberdade do numerador, enquanto as linhas aos graus de liberdade do
denominador (por exemplo). No h como representar diferentes nveis de significncia, portanto.
Para cada nvel de significncia necessria uma tabela.

Na tabela F para significncia de 10% bicaudal (que a mesma de 5% monocaudal), o valor
mximo da RA pode ser encontrado diretamente na coluna dos 4 graus de liberdade (numerador) e 8
graus de liberdade (denominador). Este valor 3,84.

O valor inferior do intervalo o inverso do valor da distribuio quando invertemos a
posio do numerador e do denominador. O valor da tabela para 8 graus de liberdade no numerador
e 4 no denominador 6,04. O limite inferior do intervalo ser ento:


8,4
F
1
=
04 , 6
1
0,17

88
Evidentemente o papel tem espessura, mas usualmente s usamos a altura e a largura para escrever.
181



A regio de aceitao ser ento:

RA = [0,17; 3,84]

Dica: se sempre dividirmos a maior varincia amostral pela menor, esta ltima conta ser
desnecessria, pois j estaremos desconsiderando valores menores do que 1.

O valor calculado pela amostra ser:


2
A
2
B
S
S
=
48611
133000
2,7

Que pertence RA, portanto aceitamos a hiptese nula, assim sendo, no podemos afirmar
que a distribuio de renda seja diferente nas duas comunidades.

Exemplo 7.5.2
A mdia e o desvio padro amostral dos salrios na empresa A so, respectivamente, R$ 600 e R$
50, valores obtidos a partir de uma amostra de 20 trabalhadores. Na empresa B, utilizando uma
amostra de 18 trabalhadores, a mdia e o desvio padro amostral encontrados foram R$ 500 e R$
80, respectivamente. Aparentemente o desvio padro maior na empresa B. Teste esta hiptese
com significncia de 5%.

O teste , de novo, uma comparao entre varincias, s que desta vez monocaudal.

H
0
:
2
A
=
2
B
H
1
:
2
A
<
2
B
Como foram dados os desvios padro, temos que encontrar as varincias amostrais:

S
2
A
= 50
2
= 2500
S
2
B
= 80
2
= 6400

A estatstica a ser calculada :

2
A
2
B
S
S
=
2500
6400
2,6

182
Pela tabela, o valor limite da distribuio F, com 17 graus de liberdade no numerador e 19
no denominador, :

F
17,19
= 2,20

Ento rejeitamos a hiptese nula de que as varincias so iguais (e, portanto, os desvios
padro), ento consideramos que, de fato, o desvio padro da empresa B maior.

7.6 Erros e poder de um teste

Imagine um julgamento: em pases democrticos e/ou civilizados, costuma-se estabelecer
uma regra de que todo mundo inocente at prova em contrrio. Quando se faz uma acusao, o
acusador que tem provar e, se no conseguir, o acusado considerado inocente. Desta forma, se
procura eliminar (ou pelo menos minimizar) a possibilidade de se condenar um inocente.

O problema que a se aumenta a possibilidade de que um culpado acabe escapando da
condenao. um preo que se tem que pagar pois, se fosse o contrrio (o acusado tivesse que
provar a sua inocncia), embora certamente reduziria a chance de que um culpado escapasse, mas
tambm aumentaria a chance de se condenar inocentes.

Com testes de hipteses acontece a mesma coisa (embora de uma forma menos dramtica).
O resultado de um teste de hipteses sempre tem alguma chance de estar errado. Na verdade, h
dois tipos de erro.

O erro do tipo I quando rejeitamos a hiptese nula quando ela verdadeira. E o erro do
tipo II quanto aceitamos a hiptese nula, quando ela falsa.

Fazendo a analogia com julgamentos, se considerarmos a hiptese nula como sendo o
acusado inocente e, portanto, a hiptese alternativa sendo o acusado culpado, o erro do tipo I
seria condenar um inocente, enquanto o erro do tipo II seria anlogo a absolver um culpado.

A probabilidade de cometer o erro do tipo I a prpria significncia do teste, portanto ela
definida a priori.

P(erro do tipo I) = = significncia do teste
Suponhamos uma situao em que o valor a ser testado no o valor verdadeiro.
Evidentemente, o pesquisador que est fazendo o teste no sabe disto. A situao pode ser ilustrada
no grfico abaixo:

183



A rea achurada representa a significncia do teste e, pelo menos do ponto de vista do
pesquisador que no sabe qual o valor verdadeiro, a probabilidade de se cometer o erro do tipo I.
A rea cinzenta representa
89
a probabilidade do erro do tipo II pois, se o valor amostral cair na
regio cinzenta, aceitaremos a hiptese nula de que o valor testado o correto, o que no verdade.

Repare que, se fizer um teste mais rigoroso, isto , diminuir a significncia, aumentar a
probabilidade de cometer um erro do tipo II. Portanto, mais rigoroso a significa que a chance de
rejeitar a hiptese nula quando ela falsa menor. Mas (no tem jeito) a chance de aceitarmos a
hiptese nula, sendo ela falsa, aumenta, o que pode ser visto no grfico abaixo.



Ao se diminuir a significncia (rea hachurada) aumenta-se a probabilidade de erro do tipo
II.


89
Na verdade, essas reas vo at o infinito, se as distribuies forem normais, como o caso do exemplo.
Evidentemente, no possvel pintar um grfico at o infinito, mas devemos ter isto em mente.
184
Mas no tem jeito mesmo? Como num julgamento, um maior nmero de provas pode levar a
um veredito mais correto, no caso de um teste de hipteses, conseguir mais provas significa
aumentar a amostra.

Aumentar a amostra significa que os valores amostrais (estimadores) apresentaro varincia
menor. Com varincia menor, as curvas de distribuio se tornaro mais fininhas, portanto
possvel reduzir-se a probabilidade dos dois erros, como pode ser visto na figura abaixo:


Chamamos a probabilidade de cometer o erro do tipo II de .

P(erro do tipo II) =

A probabilidade de se cometer o erro do tipo II, entretanto, no conhecida em geral, pois
no sabemos o valor verdadeiro.

Como a significncia previamente estabelecida,um teste de hipteses ser to melhor
quanto menor for a probabilidade de cometer o erro do tipo II. De fato, chamamos de poder do
teste justamente a probabilidade de no cometer o erro do tipo II, isto , a probabilidade de rejeitar
a hiptese nula quando ela falsa:

Poder do teste = 1

Exerccios

1. Tomando-se uma amostra de 30 alunos de uma faculdade, verificou-se que a nota mdia do
provo foi de 4,0. Sabendo-se que o desvio padro das notas de 1,5, determine:
a) um intervalo que contenha 60% dos alunos desta faculdade.
b) um intervalo de 90% de confiana para a mdia obtida pela faculdade.
c) Voc utilizou alguma hiptese adicional para resolver os itens anteriores? Se sim, qual(is)
hiptese(s) em qual(is) item(ns)?

2. Num estudo sobre a renda em uma determinada cidade com uma amostra de 36 habitantes
encontrou uma renda mdia de R$ 830,00. Estudo anterior encontrou um valor de R$ 800,00. Teste
se este estudo continua vlido com um nvel de significncia de 2%, sendo conhecida a varincia da
renda de 9600.
185

3. Estudo feito sobre a mortalidade infantil em 40 cidades em um estado encontrou um valor de 80
por mil crianas nascidas. O governador afirma, no entanto, que a mortalidade infantil no passa de
70 por mil. Teste esta afirmao utilizando significncia de 10%, sabendo-se que o desvio padro
da mortalidade infantil 20.

4. Numa pesquisa entre 500 eleitores, 100 declararam inteno de votar no candidato A.
a) Construa um intervalo de confiana de 95% para as intenes de voto em A.
b) O candidato A afirma que possui, no mnimo, 25% das intenes de voto. Teste a afirmao do
candidato com 5% de significncia.
c) Quantos deveriam ser os eleitores pesquisados de tal modo que a margem de erro do item a
seja de 2% (dois pontos percentuais).

5. O valor mdio dos aluguis em um bairro, obtida atravs de uma amostra de 30 imveis, de R$
290. Num outro bairro, numa amostra de 26 imveis, foi obtido um valor de R$ 310. Teste a
afirmao de que o valor mdio do aluguel idntico nos dois bairros, com significncia de 5%,
sabendo-se que os desvios padro so iguais a 50 e 40, respectivamente.

6. O fabricante de uma mquina de empacotar afirma que o desvio padro mximo dos pacotes
embalados por ela de 9g.. Numa amostra de 15 pacotes, o desvio padro encontrado foi de 10g.
Teste a afirmao do fabricante com um nvel de significncia de 5%, admitindo que a distribuio
seja normal.

7. Imagina-se que o desvio padro das idades de uma classe de 2 anos. Tomando-se 5 pessoas
aleatoriamente, as idades foram de: 30, 27, 25, 29 e 22. Teste com 10% de significncia a validade
da afirmao inicial, supondo distribuio normal para as idades.

8. Numa pesquisa com 20 economistas, os valores da mdia e do desvio padro dos salrios foram
de R$ 2000 e R$ 500.Se os salrios so distribudos normalmente, teste a afirmao de que o salrio
mdio dos economistas , no mnimo, R$ 2250 utilizando um nvel de 5% de significncia.

9. Com os dados do exerccio 7, teste a 1% de significncia a afirmao de que a mdia de idade da
classe 30 anos.

10. Na cidade X, atravs de uma amostra de 26 habitantes, foi obtida uma renda mdia de R$ 600
com desvio-padro de R$ 200. Na cidade Y, com uma amostra de 20 habitantes, foi obtida a mesma
renda mdia, mas com desvio padro de R$ 300. Afirma-se que a distribuio de renda na cidade Y
pior do que a da cidade X. Teste esta afirmao com 5% de significncia, admitindo que a
distribuio da renda normal nas duas cidades.

11. Foi feito um estudo em duas fbricas para investigar a uniformidade da produo em ambas.
Teste com 10% de significncia se as duas fbricas variam a sua produo da mesma forma,
admitindo que a distribuio seja normal em ambos os casos.
produo
fbrica dia 1 dia 2 dia 3 dia 4 dia 5
I 100 120 90 95 105
II 105 104 96 94

12. A mdia de uma varivel aleatria 120. Sem saber disto, um pesquisador usa uma amostra de
15 elementos para testar a hiptese de que a mdia igual a 100 (teste bicaudal). Sabendo-se que a
varincia desta varivel 400 (e isto tambm sabido pelo pesquisador), se o nvel de significncia
186
utilizado 10%, qual o poder do teste? E se o nvel de significncia for 5%? Qual ser o poder do
teste se o teste for para a mdia igual a 90?

13. Uma caixa contm bolas brancas e pretas. Quer-se testar a hiptese de que a proporo seja de
metade para cada cor. Para isso, retiram-se 50 bolas (com reposio). O critrio adotado o
seguinte: se o nmero de bolas brancas retiradas for de 20 a 30 (inclusive), aceita-se a hiptese nula
de que as propores so iguais. Determine a significncia deste teste.

14. Para pesquisar o gasto mdio mensal em cinema em uma comunidade foram pesquisadas 5
famlias. O gasto delas em um ms foi de 40, 50, 30, 20 e 30 reais, respectivamente.
a) Afirma-se que a o gasto mdio mensal desta comunidade de 40 reais. Teste esta afirmao a
10% de significncia.
b) Afirma-se que o desvio padro do gasto de R$ 10/ms. Teste esta afirmao a 10% de
significncia.
c) necessria alguma hiptese adicional para a resoluo dos itens anteriores? Justifique.

15. Em uma prova, um aluno afirma que o professor no deu a matria cobrada em uma questo de
mltipla escolha com 5 alternativas. O professor argumenta que isso impossvel, porque em uma
classe com 50 alunos, 19 acertaram a questo. Teste, com 5% de significncia, a hiptese de que os
alunos tenham acertado a questo no chute.

16. O responsvel pelo controle de qualidade de uma fbrica afirma que, no mximo, 1% dos seus
produtos so defeituosos. Numa amostra de 200 produtos, foram encontrados 4 com defeito. Teste a
hiptese do responsvel com 8% de significncia.

17. Assinale verdadeiro ou falso:
a) Num teste para a mdia, podemos sempre utilizar a distribuio normal.
b) Dada a varincia amostral S
2
, obtida numa amostra de n elementos, sabemos que a expresso (n-
1)S
2
/
2
segue uma distribuio
2
com n-1 graus de liberdade.
c) A distribuio
2
com n 1 graus de liberdade a distribuio de uma varivel que a soma de n
1 variveis normais.
d) A distribuio
2
com n 1 graus de liberdade a distribuio de uma varivel que a soma de n
variveis normais padronizadas.
e) No possvel realizar testes de comparao de varincias se as mdias so diferentes.
f) A mdia de uma varivel, cuja distribuio a t de Student, zero.
g) Um teste realizado a 5% de signicncia. Se o mesmo teste for repetido, com a mesma amostra,
a 1% de significncia, ter um poder maior.
h) Um teste realizado a 5% de significncia. Se for utilizada uma amostra maior, mantidos os 5%
de significncia, a probabilidade de erro do tipo I ser menor.
i) Um teste realizado a 5% de significncia. Se for utilizada uma amostra maior, mantidos os 5%
de significncia, a probabilidade de erro do tipo II ser menor.

187
Apndice 7.B Propriedades e conceitos adicionais de testes de hipteses

7.B.1 Caso geral dos testes de hipteses

Ao longo do texto os testes sempre so do tipo varivel = valor, ou varivel 1 = varivel 2,
sempre sendo estas variveis e valores escalares.

No caso mais geral, a hiptese nula seria que o parmetro pertence a um conjunto . A
hiptese alternativa que pertence, na verdade, ao complementar de :

H
0
:
H
1
:

Neste sentido, os testes de hiptese monocaudais apresentados no texto seriam melhor
representados se a hiptese nula tambm fosse uma desigualdade, de modo que a hiptese
alternativa representassem de fato o complementar, desta forma:

H
0
:
0

H
1
: >
0


Para a hiptese alternativa maior que. Ou:

H
0
:
0

H
1
: <
0


Para a hiptese alternativa menor que. Ao longo do texto, entretanto, foi mantida a
conveno da maioria dos livros texto de que a hiptese nula deve ser sempre representada por uma
igualdade.

7.B.2 Propriedades desejveis de testes de hipteses

Assim como estimadores, testes de hipteses tambm devem ter algumas propriedades.

Um teste de hipteses dito no viesado se a probabilidade de rejeitar a hiptese nula
quando ela falsa maior do que a de rejeitar a hiptese nula quando ela verdadeira. Em outras
palavras, ele ser no viesado se o poder do teste for maior do que a sua significncia.

Um teste T
1
com significncia
1
e tendo
1
como a probabilidade de cometer o erro do tipo
II dito inadmissvel se houver um teste T
2
de tal modo que
2

1
e
2

1
(com a desigualdade
estrita valendo em pelo menos um dos casos).

Finalmente, um teste dito o mais poderoso se, para um dado nvel de significncia, for o
teste que apresentar o maior poder, isto , a maior probabilidade de rejeitar a hiptese nula quando
ela falsa.
7.B.3 Teste de comparao de mdias quando a varincia desconhecida

Este teste tem as seguintes hiptese, no caso bicaudal:

H
0
:
A
=
B
H
1
:
A

B

188
Ou, como vimos, alternativamente:

H
0
:
A

B
= 0
H
1
:
A

B
0

As duas populaes so normalmente distribudas. O tamanho das amostras so n
A
e n
B
; as
mdias amostrais so
A
X e
B
X ; e as varincias amostrais so
2
A
S e
2
B
S .

H duas possibilidades: a primeira a de que, embora as varincias amostrais sejam
diferentes, sejam estimadores de uma mesma varincia populacional.

O estimador desta varincia ser dado por uma mdia ponderada das varincias amostrais:

S
2
=
2 n n
S ) 1 n ( S ) 1 (n
B A
2
B B
2
A A

+


A estatstica do teste ser dada por:


B
2
A
2
B A
n
S
n
S
| X X |
+

=
B A
B A
n
1
n
1
S
| X X |
+



Que, sob a hiptese nula, segue uma distribuio t de Student com n
A
+ n
B
2 graus de
liberdade.

A outra possibilidade a de que as varincias sejam, na verdade, diferentes. Ento a
estatstica ser dada por:

B
2
B
A
2
A
B A
n
S
n
S
| X X |
+



Que possvel demonstrar que segue (aproximadamente) uma distribuio t de Student com
graus de liberdade, onde dado por:

=
1 n
n
S
1 n
n
S
n
S
n
S
B
2
B
2
B
A
2
A
2
A
2
B
2
B
A
2
A

|
|
.
|

\
|
+

|
|
.
|

\
|
|
|
.
|

\
|
+


7.B.4 Quadro resumindo algumas das principais distribuies contnuas

Distribuio funo densidade Mdia Varincia
Normal
2
2
2
) (
2
2
1

X
e

2
189

2
com n graus
de liberdade
) 2 / ( 2
) 2 / (
2
1
2
n
e X
X n



n 2n
t de Student
n
1
) 2 / 1 ( ) 2 / (
] 2 / ) 1 [(

+
n
n
2 / ) 1 (
2
1
+
(

+
n
n
X

0
(n > 1)
2 n
n
, n>2
Fisher-Snedecor
2 / m
n
m
(

) 2 / ( ) 2 / (
] 2 / ) [(
n m
n m

+
2 / ) (
2 / ) 2 (
] ) / ( 1 [
n m
m
X n m
X
+

+
2 n
n

(n>2)
) 4 ( ) 2 (
) 2 ( 2
2
2

+
n n m
n m n

(n>4)

Onde () =


0
1
dx x e
x
e, se for um inteiro positivo, () = (1)!
190
191
CAPTULO 8 - Regresso Linear

Imagine duas variveis chamemos genericamente de Y e X mas poderiam ser
consumo e renda; salrios e anos de estudo; presso de um gs e sua temperatura; vendas e gastos
em propaganda, enfim quaisquer duas variveis que, supostamente, tenham relao entre si.
Suponhamos ainda que X a varivel independente e Y a varivel dependente, isto , Y que
afetado por X, e no o contrrio.



No grfico acima, verificamos que existe sim uma dependncia entre Y e X. O processo de
encontrar a relao entre Y e X chamado de regresso. Se este processo uma reta (como parece
ser o caso), uma regresso linear. E se for apenas uma varivel independente (s tem um X)
uma regresso linear simples.

8.1 Regresso linear simples

Como a relao expressa pelo grfico abaixo , aparentemente, uma funo afim (linear),
cada Y pode ser escrito em funo de cada X da seguinte forma:

Y
i
= + X
i
+
i


Onde + X

a equao da reta e o termo de erro. Este ltimo termo tem que ser
includo porque, como podemos ver, o valor de Y no ser dado exatamente pelo ponto da reta a ser
encontrada, como pose ser visto no grfico abaixo:

192


Qual a razo de existir este erro? (Repare que ainda no estamos falando de estimadores,
esta relao , supostamente, exata!). Bom, uma razo seria a existncia de imprecises em
medidas, o que o mais comum em experimentos de laboratrio por mais preciso que seja um
instrumento de medida, sempre haver um limite para esta preciso. No caso de modelos
econmicos ou que envolvam qualquer tipo de cincia social, este erro um componente mais
importante.

Imagine que Y seja o preo de um imvel e X a rea do mesmo. Suponha ainda que o bairro
seja o mesmo, o padro de construo tambm, etc. etc., de modo que a nica varivel (conhecida)
que influencia o preo do imvel a rea do prprio. Ainda assim, haveria pontos acima e abaixo
da reta.

Um ponto abaixo poderia ser o da Dona Maricota, simptica senhora aposentada e viva
que, precisando com urgncia de um dinheiro para um tratamento mdico e no estando informada
a respeito do mercado imobilirio da regio, vendeu uma casa que seu marido deixou de herana
por um preo abaixo do que seria o de mercado.

Um ponto acima poderia ser o do seu Joo, antigo morador do bairro que, depois de se
tornar um comerciante bem sucedido, fez questo de voltar s suas origens e fez uma oferta
irrecusvel por uma casa do bairro.

Note que impossvel num emaranhado de pontos conhecermos todas as histrias. E,
mesmo que conhecssemos, estas variveis seriam muito difceis de medir. Como seria difcil de
medir a euforia causada por uma grande conquista esportiva ou militar (ou a depresso pela derrota)
que faria com que o consumo, naquele ano, fosse proporcionalmente maior (ou menor) em relao
renda.

Enfim, o erro d conta de todos estes eventos que so difceis de medir, mas que so
(supostamente) aleatrios. Mais do que isso, se o modelo (a reta) estiver corretamente especificado,
podemos supor que o erro, em mdia, ser zero. Traduzindo: a probabilidade do erro ser x unidades
acima da reta a mesma de ser x unidades abaixo.
Esta a primeira hiptese a ser feita sobre o erro: em mdia, ele zero, isto :

E(
i
) = 0

Bom, o prximo passo encontrar ou, melhor dizendo, estimar a reta de regresso, j que
sempre estaremos trabalhando com uma amostra, o que implica que, no teremos os valores
verdadeiros de e , mas seus estimadores.

8.2 Mtodo dos mnimos quadrados

Encontrar (estimar, na verdade) a reta de regresso significa encontrar estimadores para e
. Faamos um pequeno truque para tornar este trabalho mais fcil.

Vamos definir as variveis x e y da seguinte forma:

x = X X
y = Y Y

As variveis x e y so ditas centradas na mdia.
193

Assim, como a mdia dos erros zero, temos que, tomando as mdias da equao da reta:
Y
i
= + X
i
+
i

Y= + X + 0

E, se subtrairmos a segunda equao da primeira:

Y
i
Y= () + (X
i
X) +
i

y
i
= x
i
+
i


Ou seja, se considerarmos as variveis centradas na mdia, ao invs das variveis originais
reduzimos nosso trabalho no que se refere ao nmero de parmetros a ser estimado.

O mtodo a ser utilizado pressupe que queiramos estimar uma reta que tenha menos erro.
Mas somar os erros, pura e simplesmente, no nos acrescenta muita informao, pois haver erros
positivos e negativos (de pontos acima e abaixo da reta), que iro se cancelar numa soma simples.

Mas resolvemos um problema parecido quando definimos a varincia: basta tomarmos os
quadrados, eliminando assim os nmeros negativos. Ento, a melhor reta ser aquela cuja soma
dos quadrados dos erros for mnima. Da o nome mtodo dos mnimos quadrados.

Da equao da reta usando as variveis centradas, o(s) erro(s) ser(o) dado(s) por:


i
= y
i
x
i


A soma dos quadrados dos erros ser:

=
n
1 i
(
i
)
2
=

=
n
1 i
( y
i
x
i
)
2

Ou, omitindo, por mera economia de notao, os ndices i=1 a n, temos:


i
2
= (y
i
x
i
)
2


i
2

= (y
i
2
+
2
x
i
2
2x
i
y
i
)

Utilizando as propriedades da soma, vem:


i
2

= y
i
2
+
2
x
i
2
2x
i
y
i


E como uma constante em todo o somatrio:


i
2

= y
i
2
+
2
x
i
2
2x
i
y
i


Para encontrar o valor de que d o mnimo desta soma, o procedimento derivar e igualar
a zero. Como este valor de um estimador, a partir de agora utilizaremos

. Derivando em
relao a :

2


x
i
2
2 x
i
y
i
= 0

194
Dividindo por 2 em ambos os lados:


x
i
2
x
i
y
i
= 0

2
i
i i
x
y x


E o estimador para pode ser facilmente encontrado da equao da reta para as mdias:

Y= + X

Substituindo pelos respectivos estimadores:

Y= +

X
Portanto:

= Y

X


Exemplo 8.2.1
Dados os valores de Y e X na tabela abaixo, estime a reta que exprime a relao entre Y e X.
X Y
103 160
123 167
145 207
126 173
189 256
211 290
178 237
155 209
141 193
156 219
166 235
179 234
197 273
204 272
125 181
112 166
107 161
135 195
144 201
188 255

O primeiro passo calcular a mdia de Y e X e encontrar as variveis centradas:
X Y x y
103 160 -51,2 -54,2
123 167 -31,2 -47,2
145 207 -9,2 -7,2
126 173 -28,2 -41,2
189 256 34,8 41,8
211 290 56,8 75,8
178 237 23,8 22,8
155 209 0,8 -5,2
195
141 193 -13,2 -21,2
156 219 1,8 4,8
166 235 11,8 20,8
179 234 24,8 19,8
197 273 42,8 58,8
204 272 49,8 57,8
125 181 -29,2 -33,2
112 166 -42,2 -48,2
107 161 -47,2 -53,2
135 195 -19,2 -19,2
144 201 -10,2 -13,2
188 255 33,8 40,8
soma 3084 4284 0 0
mdia 154,2 214,2 0 0

Note que, se a varivel centrada na mdia, sua soma e, por conseguinte, sua mdia, ser
zero.

E, agora, encontramos x
2
, y
2
e xy:



Agora, podemos facilmente estimar a reta de regresso:

2
i
i i
x
y x
=
96 , 1059
56 , 1279
1,207
= Y

X = 214,2 1,207154,2 28,05



Portanto, a reta estimada ser dada por:

Y

= 28,05 + 1,207X

Isso quer dizer que, se X for igual a 300, um valor estimado (mdio) para Y ser dado por:
X Y x y x
2
y
2
xy
103 160 -51,2 -54,2 2621,44 2937,64 2775,04
123 167 -31,2 -47,2 973,44 2227,84 1472,64
145 207 -9,2 -7,2 84,64 51,84 66,24
126 173 -28,2 -41,2 795,24 1697,44 1161,84
189 256 34,8 41,8 1211,04 1747,24 1454,64
211 290 56,8 75,8 3226,24 5745,64 4305,44
178 237 23,8 22,8 566,44 519,84 542,64
155 209 0,8 -5,2 0,64 27,04 -4,16
141 193 -13,2 -21,2 174,24 449,44 279,84
156 219 1,8 4,8 3,24 23,04 8,64
166 235 11,8 20,8 139,24 432,64 245,44
179 234 24,8 19,8 615,04 392,04 491,04
197 273 42,8 58,8 1831,84 3457,44 2516,64
204 272 49,8 57,8 2480,04 3340,84 2878,44
125 181 -29,2 -33,2 852,64 1102,24 969,44
112 166 -42,2 -48,2 1780,84 2323,24 2034,04
107 161 -47,2 -53,2 2227,84 2830,24 2511,04
135 195 -19,2 -19,2 368,64 368,64 368,64
144 201 -10,2 -13,2 104,04 174,24 134,64
188 255 33,8 40,8 1142,44 1664,64 1379,04
soma 3084 4284 0 0 21199,2 31513,2 25591,2
mdia 154,2 214,2 0 0 1059,96 1575,66 1279,56
196

Y

= 28,05 + 1,207300 390,2


Mas fica uma questo: esta previso confivel? Ou, uma questo ainda anterior: esta
regresso boa? Vejamos no exemplo seguinte.

Exemplo 8.2.2
Teste a validade da regresso do exemplo 8.2.1

Embora no seja muito rigorosa, uma inspeo grfica, na base do olhmetro sempre
til. Se colocarmos, no mesmo plano cartesiano, os pontos dados na tabela e a reta obtida pela
regresso, temos:



Visualmente, podemos constatar que, de fato, a relao uma reta e que a reta de regresso
prev com boa preciso os valores verdadeiros de Y.

Como podemos verificar isso de maneira mais rigorosa? A primeira coisa calcular a
diferena entre os Y dados no exemplo e os calculados pela reta de regresso ( Y

)
X Y
Y

Y- Y


103 160 152,39 7,61
123 167 176,54 -9,54
145 207 203,09 3,91
126 173 180,16 -7,16
189 256 256,21 -0,21
211 290 282,77 7,23
178 237 242,93 -5,93
155 209 215,17 -6,17
141 193 198,27 -5,27
156 219 216,37 2,63
166 235 228,44 6,56
179 234 244,14 -10,14
197 273 265,87 7,13
204 272 274,32 -2,32
125 181 178,95 2,05
112 166 163,26 2,74
107 161 157,22 3,78
135 195 191,02 3,98
144 201 201,89 -0,89
197
188 255 255,00 0,00
soma 3084 4284 4284 0
mdia 154,2 214,2 214,2 0

De fato, verificamos que as diferenas so bem pequenas quando comparadas com os
valores de Y.

Estas diferenas alis, podem ser precipitadamente confundidas com os erros. quase isso.
Os erros so as diferenas entre os valores de Y e a reta verdadeira, isto , a reta dada pelos
valores populacionais de e (que no so conhecidos). As diferenas que encontramos so entre
os valores de Y e os dados pela reta com os valores estimados (amostrais) de e . So portanto,
no os erros, mas os estimadores dos erros, ou simplesmente os resduos da regresso.

Faamos agora uma anlise com os quadrados dos resduos e, conseqentemente, com a
varincia dos mesmos. Esta anlise conhecida como anlise de varincia ou pela sua sigla em
lngua inglesa, ANOVA.


A anlise de varincia envolve dividir a varivel Y duas partes: a parte explicada pela
regresso e a no explicada (resduos). Ento, o primeiro passo calcular a soma dos quadrados da
varivel Y e de suas partes explicada e no explicada. Como se trata de varincia, estamos tratando
aqui da varivel menos a mdia, isto das variveis centradas na mdia.

Calculemos ento, a soma dos quadrados dos totais (SQT) de Y (centrado), a soma dos
quadrados explicados (SQE), isto , do Y estimado e a soma dos quadrados dos resduos (SQR).

A soma dos quadrados totais j foi calculada no exemplo 8.2.1

SQT = y
i
2
= 31513,2

X Y
Y


resduos quadrados
dos resduos
103 160 152,39 7,61 57,87
123 167 176,54 -9,54 90,94
145 207 203,09 3,91 15,26
126 173 180,16 -7,16 51,23
189 256 256,21 -0,21 0,04
211 290 282,77 7,23 52,31
178 237 242,93 -5,93 35,17
155 209 215,17 -6,17 38,02
141 193 198,27 -5,27 27,72
156 219 216,37 2,63 6,90
166 235 228,44 6,56 42,97
179 234 244,14 -10,14 102,78
197 273 265,87 7,13 50,88
204 272 274,32 -2,32 5,37
125 181 178,95 2,05 4,20
112 166 163,26 2,74 7,52
107 161 157,22 3,78 14,28
135 195 191,02 3,98 15,82
144 201 201,89 -0,89 0,79
188 255 255,00 0,00 0,00
soma 3084 4284 4284 0 620,08
mdia 154,2 214,2 214,2 0 31,004
198
Para o clculo das soma dos quadrados explicados, h duas maneiras: ou calculamos um a
um, tiramos a mdia e elevamos ao quadrado, ou podemos utilizar a equao da reta:


i
y =

x
i

SQE =
i
y
2
= (

x
i
)
2
=

2
x
i
2
=

2
x
i
2
= 30893,12

E a soma dos quadrados dos resduos foi calculada j neste exemplo, na ltima tabela:

SQR = 620,08

Repare que:

SQT = SQE + SQR

Portanto, no seria necessrio calcular as trs, bastariam duas e a terceira sairia pela relao
acima.

Comearemos ento, a preencher a tabela abaixo, comeando pelas somas de quadrados:
Soma de quadrados
SQE = 30893,12
SQR = 620,08
SQT = 31513,2

Com estas informaes j possvel tirar uma concluso a respeito da regresso, j que a
soma dos quadrados dos resduos uma parcela bem pequena do total ou, o que equivalente, a
soma dos quadrados explicados uma parcela importante. Esta proporo conhecida como poder
explicativo, coeficiente de determinao, ou simplesmente R
2
:

R
2
=
SQT
SQE
=
2 , 31513
12 , 30893
0,9803 = 98,03%

Repare que impossvel que SQE seja maior do que SQT, e como uma soma de
quadrados, no d para ser negativo. Ento, em qualquer regresso, 0 R
2
1, portanto vlido
express-lo como um percentual.

Como o R
2
encontrado foi 98,03% dizemos que 98,03% da varincia de Y explicada pela
varivel X, o que indica que a regresso de Y por X apresentou um resultado (muito!) bom.

Mas a anlise continua. Na prxima coluna colocaremos os graus de liberdade. Para a SQT,
os graus de liberdade so os mesmos de uma varincia amostral normal, isto , n1 (= 20 1 = 19).

Para a soma de quadrados dos resduos, temos que lembrar que so resduos de uma reta.
Para uma reta, sabemos, so necessrios dois pontos. Mas, com apenas dois pontos, no teramos
variao nenhuma (e portanto nenhum resduo). Os graus de liberdade em relao aos resduos so,
desta forma, n2 (= 20 2 = 18).

E, quanto SQE, h dois raciocnios: ou a diferena (19 18 = 1) ou o fato de que h
apenas uma varivel explicativa (afinal, uma regresso simples). Portanto:
Soma de quadrados g.l.
SQE = 30893,12 1
199
SQR = 620,08 18
SQT = 31513,2 19

Agora, nos resta calcular as varincias propriamente ditas ou, como preferem alguns, os
quadrados mdios, dividindo-se as somas de quadrados pelos respectivos graus de liberdade.
Soma de quadrados g.l. Quadrados mdios
SQE = 30893,12 1 30893,12
SQR = 620,08 18 2,7678
SQT = 31513,2 19 1658,59

O que iremos testar, agora, se estatisticamente falando, a varincia explicada maior do
que a varincia dos resduos, isto , um teste de comparao de varincias. Se rejeitarmos a hiptese
nula de que as varincias so iguais, a regresso explica mais do que no explica e ento
consideraremos a regresso como vlida.

O teste F feito dividindo-se uma varincia pela outra. Mas, para realizarmos, necessrio
que as variveis das quais foram obtidas as varincias sejam normais. Portanto, para realizar este
teste necessitamos que a varivel Y seja normalmente distribuda. Como ela composta de uma reta
(fixa), mais um erro aleatrio, a varincia de Y ser dada pela varincia do erro. Portanto, uma
hiptese adicional sobre o erro, a de que ele segue uma distribuio normal.

Faamos ento o teste F:

Soma de quadrados g.l. Quadrados mdios teste F
SQE = 30893,12 1 30893,12 896,75
SQR = 620,08 18 34,45
SQT = 31513,2 19 1658,59

Pela tabela, o valor limite da distribuio F com 1 grau de liberdade no numerador e 18
graus de liberdade no denominador , com 5% de significncia :

F
1,18
= 4,41

Como O F calculado maior do que o tabelado (neste caso, bem maior) rejeitamos a
hiptese nula, isto , a regresso vlida a 5% de significncia.

Exemplo 8.2.3
Teste a significncia dos parmetros da regresso obtida no exemplo 8.2.1

Testar a significncia dos parmetros significa testar a hiptese nula de que e so, na
verdade, iguais a zero. Isto , ser que ou de fato, no existem, e o valor que encontramos
apenas resultado da amostra?

Isto equivale a testar as seguintes hipteses para (e depois tambm para ):

H
0
: = 0
H
1
: 0

Como so variveis normalmente distribudas (mantendo-se a hiptese do exemplo anterior)
que no conhecemos ao certo a varincia, a distribuio a ser utilizada a t, de Student. Os valores
tabelados com 18 (= n 2) graus de liberdade com 1%, 5% e 10% (bicaudais) so:
200

t
(18,10%)
= 1,73
t
(18,5%)
= 2,10
t
(18,1%)
= 2,88

E o valor calculado da estatstica dado por:

S


Isto , basta dividir o coeficiente encontrado pelo seu desvio padro. A questo agora
encontrar o desvio padro de

. Sabemos que:

2
i
i i
x
y x

Ento:

var(

)

= var(

2
i
i i
x
y x
)
var(

)

=
( )
2
2
2

i
i
x
x
var(y
i
)

O estimador desta varincia (valor amostral) ser:


2


=
( )
2
2
2

i
i
x
x
var(resduos)

J que a varincia de Y dado X, isto , a varincia de Y no modelo de regresso a prpria
varincia dos resduos, que j calculamos na tabela ANOVA e igual a 34,45 e foi obtida atravs da
expresso SQR/(n-2).


2

2
2) - SQR/(n
i
x


2


=
2 , 21199
34,45
0,0016

S 0,04

O clculo da estatstica ento:

S
=
04 , 0
207 , 1
30,2

Como o valor calculado superior aos valores tabelados (inclusive para 1%), rejeitamos a
hiptese nula de que igual a zero. Dizemos, ento que estatisticamente diferente de zero a
1% de significncia, ou , simplesmente, significante a 1%.

201
O procedimento para quase o mesmo. A diferena est no clculo do seu desvio padro.

Sabemos que:
= Y

X
var( ) = var( Y

X)
var( ) = var( Y) + var(

X)
var( ) = var(
n
Y

) + X
2
var(

)
Cujo estimador ser dado por:

2

=
2
n
n

2 - n
SQR
+ X
2

2
2) - SQR/(n
i
x


2

=
2 - n
SQR
[
n
1
+

2
2
X
i
x
]

2

= 34,45 (
20
1
+
2 , 21199
154,2
2
) 40,36

S 6,4

O clculo da estatstica ser ento:

S
=
4 , 6
05 , 28
4,4

Que superior aos valores tabelados, portanto tambm significante a 1%.

Exemplo 8.2.4
Com uma amostra contendo 16 observaes de duas variveis Y e X, foram obtidos os seguintes
resultados:
X
2
= 57751 x
2
= 10553,4375
Y
2
= 288511,35 y
2
= 58567,124375
XY = 127764,4 xy = 23587,59375
X = 869
Y = 1918,1
Sendo x = X X e y = Y Y.
Estime os parmetros da reta de regresso e teste sua significncia, assim como a validade da
regresso.

Os parmetros da regresso sero dados por:

2
i
i i
x
y x
=
4375 , 10553
59375 , 23587
2,235
= Y

X =
16
1 , 1918
2,235
16
869
1,51

O modelo encontrado , ento:

Y

= 1,51 + 2,235X

202
Para testar a validade da regresso montamos a tabela ANOVA. Para isso, calculamos as
somas dos quadrados:

SQT = y
2
= 58567,12
SQE =

2
x
2

= 52719,75
SQR = SQT SQE = 5847,37
Soma de quadrados g.l. Quadrados mdios teste F
SQE = 52719,75 1 52719,75 126,22
SQR = 5847,37 14 417,67
SQT = 58567,12 15 3904,47

Na tabela F, com 1 grau de liberdade no numerador e 14 no denominador, a 5%, o valor
encontrado 4,60. De novo, o valor encontrado (bem) maior do que o tabelado, portanto,
aceitamos a validade da regresso (com folga).

De quebra, podemos calcular o poder explicativo (R
2
):

R
2
=
12 , 58567
75 , 52719
= 0,9002

Quanto significncia de cada um dos parmetros, temos que os desvios padro so iguais a
(verifique!):

S = 11,95

S = 0,199

As estatsticas t sero, portanto:

S
=
95 , 11
51 , 1
0,13

S
=
199 , 0
235 , 2
11,2

E os valores crticos para a distribuio t de Student, com 14 graus de liberdade so:

t
(14,10%)
= 1,76
t
(14,5%)
= 2,14
t
(14,1%)
= 2,98

Como o valor encontrado para superior a todos estes valores, temos que ele
significante a 1%.

J para , ocorre o contrrio, portanto conclumos que no significante, o que vale dizer
que no podemos rejeitar a hiptese de que zero. Poderamos dizer simplesmente que o
intercepto no existe (do ponto de vista estatstico).

O procedimento agora seria, portanto, retirar o intercepto, isto , estimar novamente a
regresso sem o coeficiente , o que feito no exemplo seguinte.

203
Exemplo 8.2.5
Tendo em vista que o intercepto da regresso do exemplo 8.2.4 se mostrou estatisticamente
insignificante, estime novamente a regresso, desta vez sem o intercepto.

Trata-se, portanto, de estimar os parmetros de uma reta que passa pela origem, isto :
Y
i
= X
i
+
i


Quando encontramos o estimador de mnimos quadrados, utilizamos um truque de
substituir as variveis originais (X e Y) pelas variveis centradas. O objetivo era, exatamente,
eliminar o intercepto da equao. Como ele agora no existe mesmo, o estimador de mnimos
quadrados ser o mesmo, exceto pelo fato que no usaremos mais variveis centradas.

2
X
Y X
i
i i


Substituindo pelos valores dados no exemplo 8.2.4:


=
57751
4 , 127764
2,212

O modelo ser ento dado por:

Y

= 2,212X

E para o teste do coeficiente encontrado precisaremos do desvio padro do mesmo. Temos
que a soma dos quadrados explicados pela regresso dada por:

SQE =

2
X
2
282657,3

A soma dos quadrados dos resduos ser, portanto:

SQR = SQT SQE = Y
2

2
X
2
= 288511,35 282657,3 = 5854,05

E assim, podemos encontrar a varincia dos resduos (que a prpria varincia da
regresso):

var(resduos) = S
2
=
1 - n
SQR
=
15
05 , 5854
= 390,27

Repare que usamos n 1 e no n 2 como fazamos quando a regresso inclua o
intercepto. Isto fcil de entender j que, ao excluir o intercepto, implicitamente supomos conhecer
a existncia de pelo menos um ponto da reta, que a origem, o que nos faz ganhar um grau de
liberdade.

Para calcular a varincia (e o desvio padro) do coeficiente

usamos a mesma frmula j


usada anteriormente, apenas trocando o x (centrado) pelo X:

2

2
X
1) - SQR/(n
i
=
57751
27 , 390
0,00676

S 0,082
204

Portanto, a estatstica t ser:

S
=
082 , 0
212 , 2
27

O que, evidentemente, maior do que os valores tabelados. Em todo o caso, estes valores,
para 15 graus de liberdade, so:
t
(15,10%)
= 1,75
t
(15,5%)
= 2,13
t
(15,1%)
= 2,95

E, bvio, o valor encontrado, 27, (bem) maior do que os valores tabelados, ento o
coeficiente significante a 1%.

At o R
2
tem que ser visto com reservas quando se trata de uma regresso sem intercepto,
isto porque medida que usamos variveis no centradas, ele diferente do R
2
usual, e ambos no
podem ser comparados
90
. Este R
2
especial para modelos sem intercepto conhecido como R
2
no
centrado ou R
2
bruto. Neste caso, ele ser:

R
2
NC
=
288511,35
282657,3
= 0,9797

Quando comparamos os resultados obtidos nos dois modelos (com e sem intercepto),
verificamos que as diferenas entre os coeficientes muito pequena. O desvio padro, quando a
estimao foi realizada sem intercepto, foi menor (o que uma vantagem). De fato, se a reta
realmente passa pela origem, razovel que uma estimao que leve isto em conta seja mais
precisa.

H que ressaltar, no entanto, que uma estimao sem o intercepto tem implcita a hiptese
que a reta passa pela origem, o que pode, em alguns casos, ser uma hiptese um pouco forte. Alm
disso, como vimos, os resultados no so to diferentes, o que faz com que, na maioria dos casos, os
benefcios no compensem os custos (de um possvel erro na especificao e das peculiaridades na
avaliao do modelo), assim sendo, a estimao sem o intercepto s recomendvel se existir uma
razo muito forte para acreditar que a reta passe mesmo pela origem.

8.3. A hiptese de normalidade

At agora, fizemos duas hipteses sobre o modelo de regresso: a de que os erros tem
mdia zero e de que eles so normalmente distribudos, hiptese esta que foi utilizada para a
realizao dos testes de hiptese acerca da regresso e de seus parmetros.

As hipteses vistas at agora podem ser resumidas assim:
I) E(
i
) = 0 (erros tm mdia zero).
II) erros so normalmente distribudos.

razovel assumir que os erros sejam normalmente distribudos? Sim, se partirmos do
significado do termo de erro, isto , uma soma de fatores que no foram includos no modelo (at

90
Repare que, se usarmos o R
2
com as variveis centradas, o resultado pode ser negativo.
205
porque no possvel). Se imaginarmos que so muitos os fatores, a soma deles seguir uma
distribuio normal, pelo Teorema do Limite Central
91
.

Entretanto, se isto no for considerado satisfatrio, sempre possvel testar a hiptese de
que os resduos sejam normais e que, portanto, so originados de erros tambm normais e assim
termos maior segurana em relao aos testes de hipteses
92
. Um teste muito utilizado para isso o
de Jarque-Bera.

O teste de Jarque-Bera utiliza os resultados para os momentos
93
da distribuio normal, em
particular os coeficientes de assimetria (que zero para a distribuio normal) e de curtose (que
vale 3).

O coeficiente de assimetria para os resduos dado por:
A =
n
1

=
|
.
|

\
|
n
i
i
1
3



E o de curtose:
C =
n
1

=
|
.
|

\
|
n
i
i
1
4



O teste de Jarque-Bera feito atravs da seguinte estatstica:
JB =
6
n
[A
2
+
4
1
(C 3)
2
]

Demonstra-se que, sob a hiptese nula de que os resduos sejam normalmente distribudos, a
estatstica JB converge assintoticamente para uma distribuio
2
com 2 graus de liberdade.

Exemplo 8.3.1
Na tabela abaixo so mostrados os resduos da regresso do exemplo 8.2.4 Teste a normalidade dos
mesmos.
22,304 -18,453 32,047 -23,521
30,918 -18,729 11,233 11,033
-20,167 16,519 -7,946 -9,839
-22,239 -16,424 -2,926 16,190

Calculamos a varincia deste conjunto de valores (independente de sabermos que se tratam
de resduos de uma regresso
94
), e depois o desvio padro:


2
365,46 19,12

O coeficiente de assimetria dado por:
A =
n
1

=
|
.
|

\
|
n
i
i
1
3

= 0,3051
E o de curtose:

91
Se a mdia segue uma distribuio normal, basta multiplicarmos por n e teremos a soma que ser, portanto,
normalmente distribuda tambm.
92
Isto para amostras pequenas, j que possvel mostrar que a razo entre o coeficiente e seu desvio padro converge
para uma distribuio normal padro sob a hiptese nula de que o coeficiente seja zero.
93
Veja o apndice 4.B.
94
Isto , dividimos por n e no n-2.
206
C =
n
1

=
|
.
|

\
|
n
i
i
1
4

= 1,6056
A estatstica de Jarque-Bera ser dada ento, por:

JB =
6
n
[A
2
+
4
1
(C 3)
2
] = 1,5443

Na tabela
2
verificamos que, para 2 graus de liberdade o valor crtico (para 10% de
significncia) 4,61. Como o valor encontrado para a estatstica JB inferior, aceitamos a hiptese
nula de que os resduos so normais. Ou, em outras palavras, no possvel, estatisticamente
falando, rejeitar a hiptese que a distribuio destes resduos seja normal.

8.4 Propriedades dos estimadores de mnimos quadrados

8.4.1 O estimador de no viesado?

A resposta a esta pergunta remete a esperana do estimador:

E(

) = E
|
|
.
|

\
|

2
i
i i
x
y x

E(

) = E
(
(

2
) (
i
i i i
x
x x


E(

) = E
(
(

2
2
) (
i
i i i
x
x x


Como a esperana da soma a soma das esperanas:
E(

) = E
(
(

2
2
i
i
x
x
+ E
(
(

2
i
i i
x
x


E ainda temos que uma constante, portanto:
E(

) = E
(
(

2
2
i
i
x
x
+ E
(
(

2
i
i i
x
x

E(

) = E() + E
(
(

2
i
i i
x
x

E(

) = + E
(
(

2
i
i i
x
x


Voltemos a nossa ateno para o termo dentro da esperana: consideremos que os valores x
i

so fixos ou, para ser mais preciso, fixos em amostras repetidas. O que significa que, se nossa
amostra de imveis, um dado imvel sorteado na amostra, ele tem uma certa rea. Se fizermos
uma nova amostragem, e este imvel for sorteado de novo, ir apresentar exatamente o mesmo
valor para rea. Este valor fixo, no depende de probabilidade, portanto a rea de um imvel se
enquadra nesta hiptese.
207

Isto no se aplicaria, por exemplo, se a varivel fosse a nota de um aluno em um teste. O
mesmo aluno, fazendo um mesmo teste (ou tipo de teste) uma segunda vez no necessariamente
tiraria a mesma nota. Isto depende de uma distribuio de probabilidade, x neste caso uma
varivel estocstica.

Se a varivel x for fixa em amostras repetidas (como a rea de um imvel), ento cada x
i

pode ser tratado como uma constante:

E(

) = +

2
) ( E
i
i i
x
x


E(
i
x
i
) = x
i
E(
i
) = 0

J que E(
i
) = 0. Portanto:
E(

) = +

2
) ( E
i
i i
x
x
=

Desta forma,

um estimador no viesado do coeficiente .



Adicionamos ento uma terceira hiptese:
I) E(
i
) = 0 (erros tm mdia zero).
II) erros so normalmente distribudos.
III) x
i
so fixos (no estocsticos).

Isto significa que, se a varivel x for estocstica, o coeficiente ser necessariamente viesado?
No, mas para isso teramos que manter a condio de que E(
i
x
i
) = 0, o que equivale dizer que a
correlao (e a covarincia) entre
i
e x
i
nula. Se no, vejamos:

cov(
i
,

x
i
) = E(
i
x
i
) E(
i
)E(x
i
) = E(
i
x
i
)

J que E(
i
) = 0. Assim, podemos garantir que o estimador no viesado com uma hiptese
mais fraca. O conjunto de hipteses seria, neste caso:
I) E(
i
) = 0 (erros tm mdia zero).
II) erros so normalmente distribudos.
III*) E(
i
x
i
) = 0 (x
i
no so correlacionados com os erros).

8.4.2 Eficincia e MELNV

Se, alm das hipteses I e III, os erros tiverem varincia constante e no forem
autocorrelacionados (o erro de uma observao no correlacionado com o de outra, isto , os
erros so independentes), o Teorema de Gauss-Markov
95
mostra que o estimador de mnimos
quadrados

apresenta a menor varincia entre todos os estimadores de que so lineares e no


viesados, sendo portanto um MELNV.

Acrescentamos ento, mais duas hipteses
96
:

95
Veja a demonstrao no apndice 8.B.
96
As hipteses I, II, IV e V podem ser sintetizadas por
i
~ N(0,
2
), isto , os erros so normal e independentemente
distribudos com mdia zero e varincia
2
.
208
I) E(
i
) = 0 (erros tm mdia zero).
II) erros so normalmente distribudos.
III) x
i
so fixos (no estocsticos).
IV) var(
i
) =
2
(constante)
V) E(
i

j
) = 0, i j (erros no so autocorrelacionados).

Se ainda levarmos em conta a hiptese de normalidade, possvel demonstrar
97
que o
estimador

tem a menor varincia entre todos os estimadores no viesados de , ou seja, um


estimador eficiente.

8.5. Modelos no lineares

Muitos modelos no lineares so facilmente linearizveis. Por exemplo, o modelo abaixo:

Y = + X
i
2
+
i


Pode se tornar um modelo linear atravs da seguinte transformao:

Z
i
X
i
2


E, desta forma:

Y = + Z
i
+
i


um modelo linear e pode ser estimado da mesma maneira que vnhamos fazendo.

Dos muitos modelos que podem ser transformados em lineares, dois se destacam. Um deles
o modelo multiplicativo:

Y = X
i

i


Aplicando logaritmo dos dois lados da equao:
log Y = log (X
i

i
)
log Y = log + logX
i

+ log
i

log Y = log + logX
i

+ log
i


Fazendo:
Y = log Y
= log
X = log X
= log

Chegamos a um modelo linear:
Y = + X
i
+
i


Em que as variveis esto em logaritmos, por isso mesmo este modelo tambm conhecido
como log-log.


97
Atravs da desigualdade de Cramer-Rao.
209
interessante notar o significado do coeficiente neste tipo de modelo. Isto pode ser feito
derivando Y em relao a X:

X
Y

= X
-1


=
X
1
X

=
X
1
Y

Portanto, ser dado por:

=
X
Y


Y
X


Aproximando a derivada pelo taxa de variao discreta:


X
Y


Y
X
=
X
X
Y
Y

=
X de percentual variao
Y de percentual variao


Ou seja, quando o modelo estimado com as variveis em logaritmo, o coeficiente
significa a razo entre as variaes relativas (percentuais) das variveis Y e X, ao invs das
absolutas, quando a regresso feita com os valores originais das variveis. Esta razo tambm
conhecida como elasticidade de Y em relao a X.

Um outro tipo de modelo importante o exponencial:

Y = e
X
i

i


De novo, aplicando logaritmo
98
nos dois lados da equao temos:
logY = log(e
X
i

i
)
logY = log + log e
X
i
+ log
i

logY = log + X
i

+ log
i


E, novamente, fazendo as transformaes:
Y = log Y
= log
= log

Temos novamente um modelo linear:
Y = + X
i
+
i


Onde uma das variveis foi transformada no seu logaritmo e por isso mesmo este modelo
conhecido como log-linear.

E, da mesma forma, derivamos Y em relao a X para encontrar o significado do coeficiente
:

X
Y

= e
X
= Y


98
Embora neste caso seja mais prtico aplicar o logaritmo natural (base e), importante ressaltar que tanto faz qual a
base do logaritmo, pois o valor do coeficiente ser o mesmo.
210
Portanto:
=
Y
1
X
Y



Repetindo a aproximao, temos:
=
Y
1
X
Y

=
X
Y
Y

=
X de absoluta variao
Y de percentual variao


Se a varivel X representar o tempo, o coeficiente representa a taxa de crescimento
(mdio) da varivel Y ao longo do tempo.

Exemplo 8.6.1
A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tempo. Determine sua
taxa de crescimento anual mdio.
ano vendas ano vendas
1986 1020 1993 5300
1987 1200 1994 6640
1988 1450 1995 7910
1989 1800 1996 8405
1990 2550 1997 9870
1991 3320 1998 11530
1992 4250 1999 13320

Para determinar a taxa de crescimento mdio, devemos fazer uma regresso do tipo log-
linear, em que a varivel Y o logaritmo das vendas e X varivel tempo.

X Y X Y
1
6,9276
8
8,5755
2
7,0901
9
8,8009
3
7,2793
10
8,9759
4
7,4955
11
9,0366
5
7,8438
12
9,1973
6
8,1077
13
9,3527
7
8,3547
14
9,4970

Note que a mudana na varivel tempo (X), que em vez de comear por 1986, comea por 1,
no afeta a taxa de crescimento.(Por que?)

O resultado da regresso :

Y = 6,77 + 0,2073X
(0,07) (0,008)

Onde os nmeros entre parnteses so os desvios padro dos coeficientes.

A taxa mdia de crescimento anual , portanto, 0,2073 ou 20,73% ao ano.

8.7 Regresso mltipla

211
E se a varivel dependente (Y) depender (com o perdo da redundncia) de mais de uma
varivel? Temos, ento, que colocar mais X (variveis dependentes) na equao. O modelo ento,
de um modo geral, seria como o dado abaixo:

Y
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+
i


Como h mais de uma varivel dependente, este modelo conhecido como de regresso
mltipla. Para estimar os coeficientes faremos da mesma maneira que fizemos com a regresso
simples, utilizaremos o mtodo dos mnimos quadrados.

Mas se fizermos exatamente como fizemos anteriormente, d para perceber que ser um
pouco complicado e ser to mais complicado quanto mais variveis dependentes houver. Faremos
um pequeno truque que transformar o modelo acima a uma forma similar a da regresso simples.

Se dispusermos as n observaes, teremos:
Y
1
=
1
+
2
X
21
+
3
X
31
+ ... +
k
X
k1
+
1

Y
2
=
1
+
2
X
22
+
3
X
32
+ ... +
k
X
k2
+
2

... ... ... ... ... ... ...
Y
n
=
1
+
2
X
2n
+
3
X
3n
+ ... +
k
X
kn
+
n


As n equaes acima podem ser reescritas em forma de matrizes:

Y
1
1 X
21
X
31
... X
k1

1

1

Y
2
= 1 X
22
X
32
... X
k2
.
2
+
2

... ... ... ... ... ... ... ...
Y
n
1 X
2n
X
3n
... X
kn

k

n

(nx1) (nxk) (kx1) (nx1)

Onde os valores entre parnteses so as dimenses das matrizes. Repare que fazendo as
respectivas operaes com as matrizes chegaremos exatamente aos mesmo conjunto de equaes.

Reduzimos ento a:
Y = X + e

Onde Y um vetor (matriz linha) contendo as observaes da varivel dependente Y; X
uma matriz que inclui as diversas observaes das variveis independentes e inclui uma coluna de
nmeros 1 que correspondem ao intercepto; um vetor com os coeficientes a serem estimados e
e o vetor dos termos de erro.

Exceto por ser uma equao com matrizes, essa equao muito parecida com a de
regresso simples. Melhor ainda, parecida com a equao de regresso simples sem intercepto. O
estimador de mnimos quadrados
99
para o vetor ser muito parecido com o da regresso simples:

= (XX)
-1
(XY)

Repare que o produto XY anlogo a xy da regresso simples, enquanto o produto XX
anlogo a x
2
. Como no existe diviso de matrizes, a multiplicao pela matriz inversa faz o
papel da diviso.


99
A derivao do estimador feita no apndice 8.B.
212
Uma condio para a existncia de

a de que a matriz XX seja inversvel. Para que isto


ocorra necessrio que nenhuma coluna da matriz X seja combinao linear de outras. Em outras
palavras, no possvel que X
2
seja exatamente o dobro de X
3
ou que X
4
seja igual a 2X
2
+ 3X
3
,
por exemplo.

Assim, adicionamos ao nosso conjunto de hipteses mais uma, esta especfica de regresses
mltiplas:
I) E(
i
) = 0 (erros tm mdia zero).
II) erros so normalmente distribudos.
III) x
i
so fixos (no estocsticos).
IV) var(
i
) =
2
(constante)
V) E(
i

j
) = 0, i j (erros no so autocorrelacionados).
VI) Cada varivel independente X
i
no pode ser combinao linear das demais.

Em notao matricial, as hipteses IV e V podem ser sintetizadas como se segue:
var(e) =
2
I

A matriz definida por var(e) tambm chamada de matriz de varincia e covarincia dos
erros. Nesta matriz a diagonal principal contm as varincias dos erros e os demais elementos da
matriz so as covarincias entre os erros. Assim, o termo
2
I cobre as duas hipteses, j que o
mesmo
2
que multiplica os uns da matriz identidade, e as covarincias entre os erros
(autocovarincias) valem zero, pois na matriz identidade os elementos fora da diagonal principal
so zero.

Exemplo 8.7.1
Com os dados da tabela abaixo, estime a regresso de Y em funo de X
2
e X
3
e faa os testes da
regresso e de cada um dos parmetros.





Y X
2
X
3

800 2 0,8
1160 4 0,7
1580 6 0,5
2010 8 0,4
1890 7 0,2
2600 12 0,2
2070 11 0,8
1890 10 0,7
1830 9 0,6
1740 8 0,1
1380 6 0,5
1060 4 0,4

O modelo a ser estimado :
Y =
1
+
2
X
2
+
3
X
3
+


A matriz X dada por:
213
1 2 0,8
1 4 0,7
1 6 0,5
1 8 0,4
1 7 0,2
X =
1
12 0,2

1 11 0,8
1 10 0,7
1 9 0,6
1 8 0,1
1 6 0,5
1 4 0,4
Onde a coluna preenchida por uns, como vimos, se refere varivel X
1
, que na verdade
no uma varivel, o intercepto.

A matriz XX ser dada por:
12 87 5,9
XX = 87 731 41
5,9 41 3,53

E a sua inversa:
1,25 -0,09 -1,04
(XX)
-1
-0,09 0,01 0,03
-1,04 0,03 1,67

A matriz XY ser:
20010
XY = 160810
9309

O estimador

ser dado, ento, por:


789,33

= (XX)
-1
XY =
149,56
-419,26

Assim sendo, o valor de cada um dos parmetros :

1
= 789,33

2
= 149,56

3
= 419,26

E, portanto, o modelo estimado :
Y

= 789,33 + 149,56X
2
419,26X
3


Se substituirmos os valores de X
2
e X
3
na equao acima, podemos encontrar os valores de
Y explicados pela regresso ( Y

), e da os resduos que so mostrados na tabela abaixo:


46,9571 137,6067 -53,8093
65,9128 99,8102 -203,8783
102,9429 -29,0766 -97,0571
191,8987 -101,4430 -159,8641

214
Considerando a forma matricial, os valores da tabela acima so os componentes do vetor de
resduos e . A soma dos quadrados dos resduos ser dada por:
SQR = e e = 173444,02

Considerando y o vetor das variveis Y centradas, a soma dos quadrados totais ser dada por
yy.
SQT = yy = 2749025

E a soma dos quadrados explicados pode ser calculada como:
SQE = SQT SQR = 2749025 173444,02 = 2575580,98

Com isso, podemos construir uma tabela ANOVA para esta regresso, da mesma forma que
fazamos para a regresso simples:
Soma de quadrados g.l. Quadrados mdios teste F
SQE = 2575580,98 2 1287790,49 66,82
SQR = 173444,02 9 19271,56
SQT = 2749025 11 249911,36

Os graus de liberdade dos quadrados explicados so agora 2 (em vez de 1, como na
regresso simples), tendo em vista que h duas variveis explicativas (independentes), X
2
e X
3
. Os
graus de liberdade dos quadrados dos resduos so, desta forma, 9 (= n3). Para o modelo geral
apresentado:
Y
i
=
1
+
2
X
2i
+
3
X
3i
+ ... +
k
X
ki
+
i


Temos k1 variveis explicativas, portanto os graus de liberdade so, respectivamente
100
, k
1 e nk.

O teste F feito comparando-se o valor calculado com o valor tabelado para 2 graus de
liberdade no numerador e 9 no denominador. Para 5% de significncia, este valor 4,26. Como o
valor calculado (66,82) maior, a regresso vlida.

O R
2
calculado da mesma forma:
R
2
=
2749025
98 , 2575580
= 0,9369

Para testar a validade de cada um dos parmetros, temos que encontrar a varincia de cada
um deles. A varincia do vetor de parmetros

ser dada por:



var(

) = var[(XX)
-1
XY]

O raciocnio o mesmo que para a varincia de um escalar. O termo (XX)
-1
X uma
constante, considerando que X uma constante. Se fosse um escalar, extrairamos da varincia
elevando ao quadrado. Como uma matriz, usamos a forma quadrtica. Alm disso, sabemos que a
varincia de Y
2
I:

var(

) =
2
(XX)
-1
XX(XX)
-1



100
H autores que chamam o intercepto de
0
. Neste caso, o nmero de variveis explicativas seria representado por k e
os graus de liberdade seriam k e n-k-1, respectivamente. H que se tomar cuidado com possveis confuses: basta
lembrar que o nmero de graus de liberdade dos quadrados explicados o nmero de variveis explicativas.
215
Como (XX)
-1
XX igual identidade (matriz multiplicada pela sua inversa), temos:

var(

) =
2
(XX)
-1


Cujo estimador ser dado por:


2

= S
2
(XX)
-1


Que, para este exemplo, ser dado por:


2

= 19271,56(XX)
-1

24104,99 -1747,65 -19990,34
2



-1747,65 202,34 570,85

-19990,34 570,85 32240,76

Os valores da diagonal principal so as varincias dos parmetros, enquanto os demais
valores representam as covarincias
101
.

Deste modo, as varincias (e os desvios padro) de cada parmetro so:

2

1
S

= 24104,99
1

= 155,26

2

2
S

= 202,34
2

= 14,22

2

3
S

= 32240,76
3

= 179,56

Assim, podemos calcular as estatsticas t para cada parmetro:

26 , 155
33 , 789
= 5,08

22 , 14
56 , 149
= 10,51

56 , 179
26 , 419
= 2,33

Os valores tabelados para a distribuio t de Student com 9 graus de liberdade so:
t
(9,10%)
= 1,83
t
(9,5%)
= 2,26
t
(9,1%)
= 3,25

Como os valores calculados para o intercepto (
1
) e para
2
so superiores a todos os
valores, estes so significantes a 1%. O valor para
3
inferior ao valor tabelado para 1%, mas
superior ao tabelado a 5%, portanto ele significante a 5%.

Exemplo 8.7.2
A partir dos dados do exemplo 8.7.1, faa regresses simples de Y em funo de X
2
e depois de X
3
.

Se fizermos as regresses simples encontraremos os seguintes resultados (os valores entre
parnteses so os desvios padro)

101
Por exemplo, a covarincia entre os estimadores de
2
e
3
-19990,34.
216

Y

= 529,38 + 156,98X
2
R
2
= 0,8987
(130,09) (16,67)

Y

= 2081,09 841,19X
2
R
2
= 0,1619
(328,2) (605,12)
Como se v, os coeficientes encontrados so diferentes daqueles que foram calculados na
regresso mltipla. Por que isto acontece? Imagine que queiramos estudar o volume de vendas de
um determinado bem: logicamente, se o preo cai, as vendas devem aumentar (o coeficiente da
regresso deve ser negativo). Mas e se estiver ocorrendo uma recesso? Mesmo com o preo
caindo, as vendas podem cair tambm. Se fizermos uma regresso simples com quantidades e
preos, podemos encontrar resultados estranhos (coeficiente positivo). Isto seria evitado se
inclussemos na regresso uma varivel como a renda, assim teramos a influncia da renda includa
em nosso modelo.

8.8 Variveis dummy

Uma varivel dummy serve para representar a influncia de uma caracterstica ou atributo
qualitativo. Por exemplo, se queremos saber se o sexo influencia no salrio, usamos este ltimo
varivel dependente e inclumos uma srie de variveis que explicam o salrio (anos de estudo,
tempo de empresa, etc.) e inclumos uma varivel D com as seguintes caractersticas:

0, se for homem
D =
1, se for mulher

Desta forma o coeficiente da varivel D representa o quanto as mulheres ganham a mais (ou
a menos). Assim, se o coeficiente da varivel D for 100, por exemplo, isto significa que as
mulheres, em mdia, ganham 100 reais a menos do que os homens.

Isto tambm pode ser feito com uma varivel qualitativa que possua 3 estados possveis. Por
exemplo, o padro de construo de um imvel pode ser alto, mdio ou baixo. Neste caso,
precisaramos de duas variveis dummy, que poderamos definir assim:

0, se for baixo ou alto
D
1
=
1, se for mdio


0, se for baixo ou mdio
D
2
=
1, se for alto

Ou, alternativamente, assim:

0, se for baixo
D
1
=
1, se for mdio ou alto




217
0, se for baixo ou mdio
D
2
=
1, se for alto

Exemplo 8.8.1
Do exemplo 8.7.1, adicionamos uma varivel qualitativa, que representa a existncia ou no de
determinado atributo.
Y X
2
X
3
atributo
800 2 0,8 sim
1160 4 0,7 sim
1580 6 0,5 sim
2010 8 0,4 sim
1890 7 0,2 sim
2600 12 0,2 sim
2070 11 0,8 no
1890 10 0,7 no
1830 9 0,6 no
1740 8 0,1 no
1380 6 0,5 no
1060 4 0,4 no
Estime a regresso de Y em funo das trs variveis e faa as anlises pertinentes.

Para incluirmos esta varivel qualitativa no modelo, definimos a varivel dummy D, definida
por:

0, se no existir atributo
D =
1, se existir o atributo

Com isto, as variveis seriam:
Y X
2
X
3
D
800 2 0,8 1
1160 4 0,7 1
1580 6 0,5 1
2010 8 0,4 1
1890 7 0,2 1
2600 12 0,2 1
2070 11 0,8 0
1890 10 0,7 0
1830 9 0,6 0
1740 8 0,1 0
1380 6 0,5 0
1060 4 0,4 0

E devemos estimar o modelo:
Y =
1
+
2
X
2
+
3
X
3
+
4
D +


Cujos resultados so:
Y

= 536,09 + 161,87X
2
327,78X
3
+ 238,08D
218
(64,35) (5,34) (65,48) (30,26)

Onde, como de costume, os desvios padro esto entre parnteses. Todos os coeficientes so
significantes a 1% (verifique!). O resultado encontrado indica que a presena do atributo aumenta o
valor de Y em 238,08 (na mdia).

A tabela ANOVA ser:
Soma de quadrados g.l. Quadrados mdios teste F
SQE = 2729170,78 3 909723,59 366,56
SQR = 19854,22 8 2481,78
SQT = 2749025 11 249911,36

A regresso vlida (j que o valor tabelado para a distribuio F a 5% 4,07) e o R
2

0,9928.

Exemplo 8.8.2
Suponha que, numa regresso para o preo de um imvel (medido em 1000 reais),levamos em conta
a rea do mesmo (X
2
), um ndice que mede a qualidade dos servios disponveis no bairro (X
3
) e
duas variveis dummy que representam o padro de construo do imvel, assim definidas:

0, se for baixo
D
1
=
1, se for mdio ou alto

0, se for baixo ou mdio
D
2
=
1, se for alto

Os resultados obtidos foram:
Y

= 16,34 + 1,27X
2
+ 0,78X
3
+ 12,04D
1
+ 18,21D
2

(27,88) (0,44) (0,23) (5,16) (4,77)

Qual a diferena (em mdia) entre o preo de um imvel de padro baixo e de padro mdio? E
entre um imvel de padro mdio e de padro alto?

Para um imvel de baixo padro, temos D
1
= D
2
= 0, enquanto que, para padro mdio, D
1
=
1 e D
2
= 0. Portanto, o coeficiente da varivel D
1
representa a diferena mdia no preo de imveis
de padro baixo e mdio, que , portanto, 12.040 reais.

Se o padro for alto, ento D
1
= D
2
= 1. Portanto, a diferena entre imveis de padro alto e
mdio representada pelo coeficiente da varivel D
2
, que 18.210 reais.

Um cuidado especial deve ser tomado se a varivel dependente for qualitativa. Como esta
varivel deve ter o mesmo tipo de distribuio que o erro, se ela for 0 ou 1, ela no poder ser, por
exemplo, uma varivel normal. Quando este for o caso, alguns mtodos especiais devem ser
utilizados para sua estimao, mtodos estes que so encontrados em textos mais avanados de
econometria.

8.9 Seleo de modelos

8.9.1 R
2
ajustado

219
Se atentarmos para os exemplos 8.7.1 e 8.8.1 (quando acrescentamos a varivel dummy),
verificamos que houve um aumento do R
2
. Isto entretanto, no significa que o modelo estimado no
exemplo 8.8.1 seja melhor, j que, se acrescentarmos variveis explicativas, este sempre
aumentar
102
.

O R
2
uma razo entre a soma dos quadrados explicados e a soma dos quadrados totais.
Esta ltima ser a mesma, no importando quantas (ou quais) variveis explicativas utilizemos. A
soma dos quadrados explicados, justamente por ser uma soma de quadrados, quando acrescentamos
uma varivel explicativa, sempre ter agregada uma parcela positiva ao seu total.

Assim, o R
2
, se nos d uma medida interessante do ajuste de um certo modelo, no serve
como comparao entre modelos que tm nmero de variveis explicativas diferente. Para se fazer
esta comparao, h que se usar uma medida diferente.

O R
2
pode ser calculado de duas maneiras:

R
2
=
SQT
SQE
= 1
SQT
SQR


Partindo da segunda forma, se dividirmos o numerador e o denominador pelos respectivos
graus de liberdade, obteremos um novo R
2
, ajustado pelos graus de liberdade, chamado
simplesmente de R
2
ajustado ou ainda
2
R :


2
R = 1
1) - SQT/(n
k) - SQR/(n


Ao se fazer este ajuste pelos graus de liberdade, encontramos um valor que pode ser usado
para comparar modelos com nmero de variveis diferente. Ele no tem as mesmas propriedades do
R
2
, entretanto: ele ser 1 no mximo (que corresponde ao caso em que no h resduos), mas pode
ser negativo.

Exemplo 8.9.1.1
Compare os modelos dos exemplos 8.7.1 e 8.8.1 pelo critrio do R
2
ajustado.

Para o modelo do exemplo 8.7.1 temos:

2
R = 1
11 / 2749025
9 02 73444 1 / ,
= 0,9229

Enquanto para o modelo do exemplo 8.8.1:


2
R = 1
11 / 2749025
8 22 , 19854 /
= 0,9901

Como o R
2
ajustado maior para o modelo do exemplo 8.8.1 (com a varivel dummy), este
modelo melhor por este critrio.

8.9.2 Critrios de informao


102
Ou, muito raramente, ficar na mesma, mas jamais cair.
220
H quem considere que o R
2
ajustado no pune suficientemente os graus de liberdade.
Uma srie de autores propem critrios alternativos, chamados critrios de informao, e os mais
conhecidos so os de Schwarz (CIS) e de Akaike (CIA)
103
:

CIS = 1 + ln 2 + ln
n
SQR
+
n
n ln k

CIA = 1 + ln 2 + ln
n
SQR
+
n
2k


O processo de comparao o mesmo, exceto que, para os critrios de informao, quanto
menor o valor calculado, melhor o modelo.

Exemplo 8.9.2.1
Compare os modelos dos exemplos 8.7.1 e 8.8.1 pelo critrio de informao de Schwarz.

Calculando para o modelo do exemplo 8.7.1 temos:

CIS = 13,04

E para o modelo do exemplo 8.8.1 (com a varivel dummy):

CIS = 11,08

E, novamente, o melhor modelo o do exemplo 8.8.1, pois apresentou menor CIS.

Exemplo 8.9.2.1
Compare os modelos dos exemplos 8.7.1 e 8.8.1 pelo critrio de informao de Akaike.

Calculando para o modelo do exemplo 8.7.1 temos:

CIA = 12,92

Para o modelo do exemplo 8.8.1, temos:

CIA = 10,92

De novo, o modelo do exemplo 8.8.1 apresentou menor CIA e deve ser considerado o
melhor entre os dois.

8.9.3 Usando o teste F para selecionar modelos

Uma outra maneira de escolher entre dois modelos, quando acrescentamos ou retiramos
variveis utilizando o teste F. Isto feito pela comparao da soma dos quadrados dos resduos
entre os dois modelos.

O modelo com maior nmero de variveis chamaremos de no restrito, enquanto o que tem
menos de restrito (j que, neste modelo, como se estivssemos impondo a restrio de que
algumas das variveis tm coeficiente zero). E as somas dos quadrados dos resduos em cada
modelo sero SQRNR e SQRR, respectivamente.

103
A parcela 1 + log 2 constante e pode ser omitida para efeito de comparao. A sua presena decorre do logaritmo
da verossimilhana (veja o apndice 8.B).
221

A estatstica calculada da seguinte forma:
F =
k - n
SQNR
m
SQRNR - SQRR


Onde m o nmero de variveis que a equao no restrita tem a mais.

Que, sob a hiptese nula de que no h melhoria no modelo, segue uma distribuio F com
m graus de liberdade no numerador e n-k graus de liberdade no denominador.

Exemplo 8.9.3.1
Compare os modelos dos exemplos 8.7.1 e 8.8.1 pelo teste F.

Neste caso, o modelo com a varivel dummy (exemplo 8.8.1) o modelo no restrito e o que
no tem (exemplo 8.7.1) o restrito. Temos que:

SQRR = 173444
SQRNR = 19854,22
m = 1

O clculo da estatstica dado por:
F =
8
22 , 19854
1
22 , 19854 173444
= 61,89

E, como o valor tabelado para a distribuio F com 1 grau de liberdade no numerador e 8 no
denominador, a 5% de significncia, 5,32, rejeitamos a hiptese nula e, portanto, o modelo que
contm a varivel dummy deve ser considerado o melhor entre os dois.

222
Exerccios
1. Dados os valores de X e Y na tabela abaixo:
X Y
2 6,9
3 8,7
-2 -5,8
1 3,4
3 8,2
4 10,8
-1 -1,6
2 6
a) estime os parmetros da reta de regresso.
b) construa a tabela ANOVA.
c) calcule R
2
.
d) faa os testes t e F.

2. Dados os valores de X e Y na tabela abaixo:
X Y
6 104
7 122
8 202
9 193
5 76
4 32
7 67
9 103
11 189
a) estime os parmetros, calcule o R
2
e faa os testes t e F.
b) refaa os clculos do item a utilizando, em vez dos valores originais, os logaritmos.
c) compare os resultados e explique.

3. Aps uma regresso simples, onde se utilizou uma amostra com 20 elementos, foram tabulados
os seguintes dados:
Soma dos quadrados
SQE = 123

SQT = 189
a) complete a tabela ANOVA
b) calcule o R
2

c) faa o teste F.

4. Para uma amostra de 10 observaes de X e Y foram obtidos:
x
2
= 697440
y
2
= 1003620
xy = -828110
X= 464
Y= 447,2
a) estime os parmetros da reta de regresso.
b) construa a tabela ANOVA.
c) calcule R
2
.
d) faa os testes t e F.
223

5. Os resultados de uma regresso entre preo de imveis e suas reas foram os seguintes:
PREO = 200 + 1,2 REA
(150) (0,3)
onde os valores entre parnteses so os desvios padro.
Teste a significncia dos parmetros, sabendo que foi utilizada uma amostra de 20 observaes.

6. Mostre que:
x
2
= X
2
- n X
2
y
2
= Y
2
- nY
2
xy = XY - n X Y


7. Mostre que o R
2
em uma regresso simples o prprio coeficiente de correlao entre X e Y ao
quadrado.

8. Mostre que, numa regresso simples

=
) var(
) , cov(
X
Y X
.

9. Em que condies o estimador de mnimos quadrados ordinrios no viesado? Encontre
exemplos em que isto no ocorre.

10. Em que condies o estimador de mnimos quadrados ordinrios eficiente ou, pelo menos, o
MELNV? Encontre exemplos em que isto no ocorre.

11. Os resultados de uma regresso para o PIB de um pas so dados abaixo:
PIB = 1,4 + 0,024t
Onde t o tempo medido em anos e o PIB anual, medido em logaritmos.. Qual o significado dos
coeficientes encontrados?

12. A tabela abaixo mostra o nmero de homicdios registrados por diversos distritos policiais da
cidade de So Paulo e a renda mdia dos respectivos distritos. Faa uma regresso do nmero de
homicdios em funo da renda usando as variveis em nvel e em logaritmos, fazendo os testes
relevantes. Comente os resultados.
homicdios
1996
Renda
(US$)
homicdios
1996
Renda
(US$)
homicdios
1996
Renda
(US$)
32 528,21 19 1652,04 57 496,12
17 571,19 19 884,29 233 376,31
37 726,03 52 721,91 41 501,90
15 1528,22 24 560,79 64 1013,87
38 962,94 27 981,36 74 501,90
29 709,68 21 1390,53 186 421,39
41 556,32 29 655,11 140 398,25
35 534,92 40 505,20 22 1013,87
50 946,43 112 388,09 156 314,33
5 1127,78 23 416,09 155 344,90
34 1107,40 45 491,34 20 837,37
31 696,90 43 326,47 119 262,00
71 544,63 38 326,47 21 431,41
20 2033,36 79 457,98 93 370,62
161 629,53 52 1390,53 133 275,28
11 1390,53 35 431,41 25 262,00
10 736,87 7 876,53 47 376,36
112 544,63 21 496,82 27 342,73
13 1565,26 18 583,14 53 370,62
31 496,12 11 821,50 23 407,23
22 897,59 6 547,40 31 265,23
224
25 1678,60 9 546,63 116 265,23
20 2074,78 2 821,50 34 369,11
22 1430,84 31 546,63 63 453,12
34 500,35 2 876,53 54 306,44
Fonte: Sartoris, A. (2000) Homicdios na Cidade de So Paulo. mimeo. FEA/USP. So Paulo

13. Para cada conjunto de observaes abaixo, estime os parmetros da regresso com e sem
intercepto, fazendo os testes relevantes. Comente os resultados
a)
Y X
b)
X = 24,24 Y =27,79

1,9 2,0
X
2
= 11340,95

2,6 3,5
Y
2
= 16614,45

3,3 5,0
XY = 12226,63

4,9 6,0


2,6 4,4


4,3 5,6


5,8 7,0


4,1 6,2


2,8 4,8


7,8 9,8


6,3 7,0


5,4 7,7


7,3 8,3


6,0 6,8


4,9 5,9


14. . Aps uma regresso com 5 variveis explicativas, onde se utilizou uma amostra com 30
observaes, foram tabulados os seguintes dados:
Soma dos quadrados
SQE = 2309,7

SQT = 3450,8
a) complete a tabela ANOVA
b) calcule o R
2
e o R
2
ajustado.
c) faa o teste F.
15. Numa regresso com 4 variveis explicativas e uma amostra de 26 observaes, a soma dos
quadrados explicados foi 1788,56 e a soma dos quadrados dos resduos 567,34. Ao acrescentarmos
duas variveis ao modelo, a soma dos quadrados explicados aumentou para 1895,28. Verifique se
este modelo melhor do que o anterior, usando o R
2
ajustado, os critrios de informao e o teste F.

16. Dados os grficos abaixo, qual o resultado esperado para o sinal de

e o valor de R
2
?


225
17. Na tabela abaixo so dados, para vrios imveis, a rea (em m
2
), o padro de construo (alto,
mdio ou baixo), o nmero de dormitrios, de banheiros, de vagas na garagem, se h ou no piscina
e o preo do imvel (em 1000 reais). Faa uma regresso do preo em funo destas caractersticas.
A seguir, teste a significncia dos parmetros e, se for o caso, elimine um ou mais e refaa a
estimao. Use os critrios vistos no texto e compare os dois modelos. Repita o procedimento at
encontrar o modelo que melhor explique o preo dos imveis. Interprete os resultados obtidos.
rea
padro
dorm vagas piscina banheiros
preo
100
mdio
2 1 sim 2 88,9
150
alto
3 1 sim 2 149,1
200
mdio
3 2 sim 3 194,4
180
mdio
3 1 no 2 153,5
130
mdio
2 1 no 1 121,7
89
mdio
1 1 no 1 85,9
95
baixo
2 0 no 1 73,5
50
baixo
2 0 no 1 39,9
200
mdio
4 3 sim 2 189,7
210
mdio
3 2 sim 3 186,3
250
mdio
6 3 sim 3 229,7
280
alto
4 2 sim 4 272,0
350
alto
5 2 sim 4 339,5
150
alto
3 1 no 2 155,2
240
alto
3 1 no 2 232,7
70
baixo
2 0 no 2 68,7
135
alto
2 1 sim 2 157,0
140
alto
3 2 sim 2 151,0

18. Teste a normalidade dos resduos das regresses feitas nos exerccios 12 e 17.

19. Encontre, em notao matricial, as expresses para a SQE.

20. Assinale verdadeiro ou falso:
a) se os resduos no forem normais, os testes de hipteses no sero vlidos para qualquer tamanho
de amostra.
b) Numa regresso Y
i
= + X
i
+
i
, o significado de a elasticidade.
c) O modelo log-linear serve para encontrar taxas de crescimento.
d) Se a reta verdadeira passa pela origem, a estimao sem o intercepto fornecer estimadores mais
precisos para .
e) O teste F para a regresso mltipla tem as seguintes hipteses nula e alternativa:
H
0
:
2
=
3
= ... =
k
= 0
H
1
: todos os
i
0
f) Se aumentarmos o nmero de variveis explicativas, o R
2
nunca ser menor.
g) Se as variveis independentes X
i
forem estocsticas, o estimador de ser viesado.
h) Numa regresso Y
i
= +
1
X
1i
+
2
X
2i
+
i
, se X
1i
= 2X
2i
+ 3, ainda assim possvel obter
estimativas para
1
e
2
.
226
Apndice 8.A Matrizes

Uma matriz uma tabela de nmeros, como a matriz A mostrada abaixo:

A =
(


2
1
3
2
0
1


Esta matriz A tem 2 linhas e 3 colunas, diz-se que ela tem dimenses 23. Se uma matriz B
tiver as mesmas dimenses:

B =
(

2
1
1
3
4
0


Podemos definir:

A + B =
(

0
0
2
5
4
1


A B =
(


4
2
4
1
4
1


E ainda possvel definir o produto de uma matriz por uma constante:

3A =
(


6
3
9
6
0
3


A transposta da matriz A, denominada A ou A
t
uma matriz cujas linhas equivalem s
colunas de A e vice-versa.

A =
(
(
(

2
3
0
1
2
1


O produto de duas matrizes tambm definido. Ele feito multiplicando um a um os
nmeros de cada linha de uma matriz pelos da coluna da outra. Assim, se tivermos uma matriz C,
de dimenses 32:

C =
(
(
(

1
1
0
2
1
1


O produto AC ser dado por:

AC =
(


2
1
3
2
0
1
(
(
(

1
1
0
2
1
1
=
(

+ + + +
+ +
1 2 ) 1 ( 3 0 0 2 2 1 3 1 0
1 1 ) 1 ( 2 0 1 2 1 1 2 1 1
=
(

1 7
3 1

227

Note que a ordem dos fatores altera o produto quando se trata de matrizes. Veja que s
possvel efetuar o produto de matrizes se o nmero de colunas da primeira for igual ao nmero de
linhas da segunda e a matriz resultante ter o nmero de linhas da primeira e o nmero de colunas
da segunda.

A matriz resultante do produto AC uma matriz que tem o mesmo nmero de linhas e
colunas. Quando isto ocorre, dizemos que se trata de uma matriz quadrada. A matriz P = AC uma
matriz quadrada de ordem 2.

Uma matriz quadrada especial a identidade, cujos valores da diagonal principal so iguais
a 1 e os demais valores so zero.

I
2
=
(

1 0
0 1
I
3
=
(
(
(

1 0 0
0 1 0
0 0 1


fcil verificar que a identidade o elemento neutro na multiplicao de matrizes. Para
uma matriz quadrada M, temos:

IM = MI = M

No se define diviso de matrizes, mas, para matrizes quadradas possvel definir a inversa,
definida assim:

MM
1
= M
1
M = I

Por exemplo, para a matriz P calculada acima, temos que a sua inversa ser dada por
(verifique!):

P
1
=
20
1

(

1 7
3 1


Com o conceito de matriz inversa possvel, por exemplo, resolver a equao matricial
abaixo:

AX = B

Bastando, para isso, pr-multiplicar os dois lados da equao pela inversa de A:
A
1
AX = A
1
B
X = A
1
B

Vale a seguinte propriedade: a transposta da inversa igual a inversa da transposta:

(M)
1
= (M
1
)

O determinante um nmero associado matriz quadrada. Para uma matriz quadrada de
ordem 2, temos:

228
det(P) =
1 7
3 1

= 1(1) (3)7 = 20

Para uma matriz de ordem 3, toma-se a cada nmero da primeira linha, eliminam-se a
coluna e a linha correspondentes e calcula-se o determinante da matriz de ordem 2 resultante,
somando-se os trs resultados:

1 3 2
0 1 0
2 1 1
= 1
1 3
0 1
+ (1)
2 1
0 0
+ 2
3 2
1 0
= 11 10 + 2(2) = 3

Para matrizes de ordens superiores, o procedimento invertido. Note que no possvel
inverter uma matriz cujo determinante zero.

Se uma matriz apresentar uma linha (ou coluna) que seja uma combinao linear de outra(s)
linha(s) (ou colunas) seu determinante zero. Assim:

Q =
(
(
(

2 2 4
1 0 3
3 2 1
R =
(
(
(
(

1 4 5 2
1 2 0 1
0 6 1 3
3 4 1 2


Tanto a matriz Q, como a matriz R apresentam determinante nulo, pois, na matriz Q a
terceira linha a soma das demais e, na matriz R, a terceira coluna o dobro da primeira.

S matrizes quadradas podem ser multiplicadas por ela mesmo, ou seja, serem elevadas ao
quadrado (ou qualquer potncia), em funo do problema das dimenses. Portanto, a operao:

M
2
= MM

S possvel se M for uma matriz quadrada. Entretanto uma matriz X qualquer definida
por:

X =
(

t
z
v
y
w
x


Apresenta as chamadas formas quadrticas:

XX =
(

+ + + +
+ + + +
2 2 2
2 2 2
t v w zt yv xw
zt yv xw z y x
e XX =
(
(
(

+ + +
+ + +
+ + +
2 2
2 2
2 2
t z vt yz wt xz
vt yz v y wv xy
wt xz wv xy w x


Uma particular forma quadrtica quando X uma matriz coluna (vetor), isto , de
dimenses n1:
X =
(

y
x


229
XX = | |
2 2
y x + = x
2
+ y
2

Isto , a forma quadrtica um escalar (nmero), que a prpria soma dos quadrados.

possvel encontrar derivadas matriciais. Dada uma matriz (varivel), 22, X e um vetor
coluna (constante), 21, b, temos:

Xb =
(

w z
y x
(

c
b
=
(

+
+
wc zb
yc xb


A derivada de Xb dada por:


X
Xb

=
X

+
+
wc zb
yc xb
=
(



w z
y x
/ /
/ /
(

+
+
wc zb
yc xb
=
(

w z
y x
= X


O operador
X

, embora sozinho no signifique nada, tratado como uma matriz qualquer,


composta de operadores que so as derivadas em relao x, y, z e w, que so multiplicados pela
matriz Xb como se fossem nmeros normais.

A derivada da forma quadrtica XX ser dada por:
X
X X

'
=
X

+ +
+ +
2 2
2 2
w y wz xy
wz xy z x
=
(



w z
y x
/ /
/ /
(

+ +
+ +
2 2
2 2
w y wz xy
wz xy z x
=
(

w z
y x
2 2
2 2
= 2X

Como se v, a derivada de matrizes anloga derivada em escalares.

Quanto aos operadores esperana e varincia aplicados vetores coluna:

E(X) = E
(

y
x
=
(

) E(
) E(
y
x


A varincia de um escalar dada por E(x )
2
. Em notao matricial, usaremos a forma
quadrtica:

var(X) = E(X )(X ) = E
(

y
x
y
x

| |
y x
y x

var(X) = E
(
(



2
2
) ( ) )( (
) )( ( ) (
y y x
y x x
y y x
y x x




Se aplicarmos o operador esperana em cada um dos elementos desta matriz, teremos:

var(X) =
(

) var( ) , cov(
) , cov( ) var(
y y x
y x x


Por isto a matriz var(X) tambm chamada de matriz de varincia e covarincia de X.
230
APNDICE 8.B. Mais sobre regresso linear

8.B.1 Demonstrao do Teorema de Gauss-Markov

A demonstrao ser feita para o caso da regresso simples, sendo o da regresso mltipla
anlogo.

Imaginemos um estimador de qualquer, linear e no viesado. Para que ele seja linear, ele
deve ser obtido atravs de uma funo linear das observaes de y
i
, o que feito atravs dos
pesos w
i
:

* = w
i
Y
i


Para que ele seja no viesado, alm da condio usual sobre X
i
, necessrio que valham as
condies:

w
i
= 0 e w
i
X
i
= w
i
x
i
= 1

Se no, vejamos:

E(*) = E(w
i
Y
i
) = E[w
i
( + X
i
+

i
)] = E(w
i
+ w
i
X
i
+

w
i

i
) = + w
i
E(
i
) =

Para o caso especfico do estimador de mnimos quadrados, o conjunto de pesos dado por:

m
i
=

2
i
i
x
x


Que segue as propriedades especificadas para w
i
(verifique), alm de uma adicional:

m
i
2
=
( )
2
2
2

i
i
x
x
=

2
1
i
x


Estabelecido que * um estimador no viesado, calculemos a sua varincia:

var(*) = var(w
i
Y
i
)
Mas sabemos que a varincia de Y
i
a prpria varincia do termo de erro. Admitindo que
ela seja constante e que os erros sejam independentes (portanto a varincia da soma a prpria
soma das varincias), temos que:

var(*) = w
i
2
var(Y
i
)
var(*) = w
i
2

2

var(*) =
2
w
i
2

Usando um pequeno truque:

w
i
= w
i
+ m
i
m
i
= m
i
+ (w
i
m
i
)

E, portanto:

w
i
2
= m
i
2
+ (w
i
m
i
)
2
+ 2m
i
(w
i
m
i
)
231
w
i
2
= m
i
2
+ (w
i
m
i
)
2
+ 2m
i
w
i
2m
i
2

w
i
2
= (w
i
m
i
)
2
+ 2m
i
w
i
m
i
2

w
i
2
= (w
i
m
i
)
2
+ 2

2
w
i
i i
x
x

2
1
i
x

w
i
2
= (w
i
m
i
)
2
+ 2

2
1
i
x

2
1
i
x

w
i
2
= (w
i
m
i
)
2
+

2
1
i
x


Substituindo, vem:
var(*) =
2
w
i
2

var(*) =
2
(w
i
m
i
)
2
+

2
2
i
x



Mas o segundo termo a prpria varincia do estimador de mnimos quadrados, assim:
var(*) = var(

) +
2
(w
i
m
i
)
2


E como o outro termo uma soma de quadrados, necessariamente no negativo. Assim, a
varincia de um estimador linear e no viesado qualquer * , no mnimo, igual a varincia de

.
Portanto, a varincia de

a menor entre as varincias de todos os estimadores lineares e no


viesados, ou seja,

um MELNT.

8.B.2 Estimao por mxima verossimilhana

Faremos aqui a estimao por mxima verossimilhana de uma regresso simples. As
concluses para a regresso mltipla so anlogas. O modelo para a regresso simples com as
variveis centradas dado abaixo:

y
i
= x
i
+
i


E o termo de erro , portanto:


i
= y
i
x
i


Se a distribuio dos erros normal e eles so independentes, ou seja:


i
~ NID (0,
2
)

Ento a funo de verossimilhana ter a mesma forma funcional de uma normal
multivariada
104
:

L(,
2
) =
2
n
2
) 2 (
1

exp[
2
2
1


=

n
i
i i
x y
1
2
) ( ]


104
Ver captulo 5.
232
Onde exp(x) e
x
.



Tomemos, ento, o logaritmo de L:
l(,
2
) ln[L(,
2
)] = ln{
2
n
2
) 2 (
1

exp[
2
2
1


=

n
i
i i
x y
1
2
) ( ]}
l(,
2
) = ln (
2
n
2
) 2 (
1

)
2
2
1


=

n
i
i i
x y
1
2
) (
l(,
2
) = ln
2
n
2
) 2 (
2
2
1


=

n
i
i i
x y
1
2
) (
l(,
2
) =
2
n
ln ) 2 (
2

2
2
1


=

n
i
i i
x y
1
2
) (

Para encontrarmos o ponto de mximo desta funo, devemos encontrar as derivadas de l em
relao a e
2
.

Encontramos os seguintes resultados:

2
i
i i
x
y x


Portanto, o estimador de mxima verossimilhana de coincide com o estimador de
mnimos quadrados quando a distribuio dos erros normal.

O estimador de mxima verossimilhana de
2
dado por:


2
=
n
SQR

Divide-se SQR por n e no por n-k como na estimao por mnimos quadrados. Repetindo o
resultado do captulo 5, o estimador de mxima verossimilhana de
2
viesado.

Voltando ao logaritmo da funo de verossimilhana:

l(,
2
) =
2
n
ln ) 2 (
2

2
2
1


=

n
i
i i
x y
1
2
) (

Substituindo
2
pelo seu estimador e lembrando que

=

n
i
i i
x y
1
2
) ( a soma dos quadrados
dos erros (cujo estimador SQR), o valor do logaritmo da verossimilhana ser dado por:

l(,
2
) =
2
n
ln (2
n
SQR
)
SQR 2
n
SQR
l(,
2
) =
2
n
ln 2
2
n
ln
n
SQR

2
n


233
l(,
2
) =
2
n
[ln 2 + ln
n
SQR
+ 1]

Assim, os critrios de informao de Schwarz e Akaike podem ser reescritos da seguinte
forma:

CIS =
n
2
l(,
2
) +
n
n ln k

CIA =
n
2
l(,
2
) +
n
2k


8.B.3 Estimador de mnimos quadrados da regresso mltipla

O modelo de regresso mltipla dado por:

Y = X + e

Portanto, o vetor de erros ser dado por:

e = Y X

A soma dos quadrados dos erros, em notao matricial, dada pela forma quadrtica, que
feita atravs da pr-multiplicao da matriz pela sua transposta.

ee = (Y X)(Y X)
ee = YY YX XY + XX
ee = YY 2XY + XX

Derivando em relao a e igualando a zero:
2XY + 2XX

= 0
2XX

= 2XY

Pr-multiplicando por (XX)
-1

(XX)
-1
XX

= (XX)
-1
XY

Portanto:

= (XX)
-1
XY

8.B.4 Consistncia do estimador de mnimos quadrados

Verificaremos a consistncia do estimador de mnimos quadrados para a regresso simples,
sendo a da regresso mltipla anloga.

Temos que:

2
i
i i
x
y x


234
Para que

seja consistente necessrio que:



lim
n
E(

) =
e
lim
n
var(

) = 0

Para o primeiro limite, se so vlidas as hipteses bsicas do modelo de regresso linear,


ser no viesado mesmo para a amostras pequenas, portanto ele se verificar quando n cresce
tambm.

Resta o segundo limite. Lembrando que:

var(

) =

2
2
x



E, como
2
tende a ser menor medida que a amostra cresce, temos que realmente lim
n

var(

) = 0 e, portanto,

um estimador consistente de .

235
236
CAPTULO 9 VIOLANDO AS HIPTESES BSICAS

No captulo anterior, chegamos a algumas hipteses bsicas sobre o modelo de regresso
linear, que apresentamos novamente abaixo
105
:

I) E(
i
) = 0 (erros tm mdia zero).
II) erros so normalmente distribudos.
III) x
i
so fixos (no estocsticos).
IV) var(
i
) =
2
(constante)
V) E(
i

j
) = 0, i j (erros no so autocorrelacionados).
VI) Cada varivel independente X
i
no pode ser combinao linear das demais.

Em muitas situaes, entretanto, estas hipteses no so verificadas, especialmente naquelas
em que o objeto de estudo uma relao social (como as relaes econmicas, por exemplo), em
que os dados no so produto de um experimento controlado (mas no necessariamente s nestes
casos).

Particularmente as quatro ltimas hipteses muitas vezes no se verificam em relaes deste
tipo. Durante o restante do captulo, nos dedicaremos s conseqncias, identificao e, se for o
caso, o tratamento a ser feito quando cada uma destas quatro hipteses violada
106
.


9.1 Violando a hiptese VI: a Multicolinearidade

A violao da hiptese VI um caso extremo, que em termos estatsticos pode ser descrita
como h correlao exatamente igual a 1 (ou -1) entre duas (ou mais) variveis explicativas
(independentes).

Quando ocorre isto, 100% da variao de uma delas decorrente da variao de outra, isto ,
como enunciado na hiptese podemos escrever a primeira como combinao linear da segunda,
como nos exemplos abaixo
107
:

X
1
= 2X
2

X
1
= X
2
+ 3
X
1
= 4X
2
- 5

Ou ainda envolvendo mais de duas variveis:

X
1
= 2X
2
+ 3X
3
+ 4

Tomemos um deles o raciocnio ser idntico para todos o primeiro em que uma
varivel (exatamente) o dobro da outra: qualquer variao da segunda implicar em variao
proporcionalmente idntica da primeira. impossvel distinguir qual a influncia de uma ou de
outra para a varivel dependente Y. Por isso mesmo, impossvel estimar um modelo de
regresso linear em que h multicolinearidade, pelo menos como entendida at aqui.

105
O nmero de hipteses pode variar de autor para autor, bem como, obviamente, a ordem em que so apresentadas.
Como vimos no captulo anterior, possvel sintetizar as I, II, IV e V em uma s (e ~ N(0,
2
I)). Alguns autores
adicionam algumas hipteses que, embora sejam necessrias, podem ser consideradas bvias, como a de que o nmero
de observaes tem que ser maior do que o nmero e variveis.
106
As conseqncias de que as duas primeiras hipteses sejam violadas j foram discutidas no captulo anterior.
107
Note a ausncia de qualquer termo aleatrio, ao contrrio do que acontece no modelo de regresso.
237

Originariamente, o termo multicolinearidade foi definido para quando a relao entre
variveis explicativas fosse como a descrita acima. Com o passar do tempo, o termo foi estendido, e
esta situao passou a ser denominada de multicolinearidade exata ou perfeita.

O termo multicolinearidade passou a designar a alta correlao (alta, mas no
necessariamente 1, em mdulo), situao em que possvel estimar o modelo, mas h alguma dor
de cabea associada.

Exemplo 9.1.1
Queremos obter a funo consumo de uma determinada economia. Suponha que o consumo
funo da renda e da taxa real de juros. Se assumirmos ainda que esta relao linear, teremos
ento que a especificao do modelo economtrico a ser estimado ser dada por:

C
t
=
0
+
1
Y
t
+
2
r
t
+
t


Onde C o consumo, Y a renda nacional disponvel e r a taxa real de juros de uma
determinada economia. Os dados esto na tabela abaixo:

Tabela 9.1.1
ano/trimestre consumo
(US$ bilhes)
renda
(US$ bilhes)
taxa de juros real
(% a.a.)
1990/1 72,2 105,6 12,00
1990/2 75,6 97,4 12,50
1990/3 89,6 112,0 11,00
1990/4 93,7 128,0 10,00
1991/1 92,2 120,2 10,50
1991/2 84,6 115,3 10,75
1991/3 90,8 105,4 11,25
1991/4 82,9 103,6 12,00
1992/1 65,8 102,7 12,25
1992/2 70,9 93,2 13,00
1992/3 63,1 98,3 12,50
1992/4 86,3 108,1 11,75
1993/1 87,2 115,8 11,50
1993/2 79,3 99,8 11,00
1993/3 87,4 110,5 10,50
1993/4 100,6 127,8 10,25

Os resultados da estimao do modelo so dados na tabela seguinte:

Tabela 9.1.2
coeficiente desvio-padro estatstica t
constante 111,487 66,840 1,667
renda 0,374 0,288 1,298
taxa de juros real -6,097 3,314 1,840
estatstica F = 17,645

Repare que o valor tabelado da estatstica t considerando-se 10% de significncia e 13 graus
de liberdade 1,771, ou seja, apenas o coeficiente da taxa de juros significante; se considerarmos
5% (2,160 como valor tabelado), todos os coeficientes no so significantes.

238
Este resultado , no mnimo, um tanto estranho. Imaginar que o nvel de consumo no
depende da renda disponvel
108
algo que surpreenderia no s aqueles familiarizados com a teoria
econmica, mas a qualquer pessoa de bom senso.

O pesquisador precipitado chegaria rpida e fcil (porm equivocada) concluso de que a
economia de que trata o exemplo muito peculiar. Se fosse rigoroso com relao significncia
dos parmetros, eliminaria as duas variveis do modelo e, ou formularia um novo modelo, ou
assumiria que o consumo nesta economia no pode ser explicado racionalmente; se, entretanto, no
fosse to rigoroso, e aceitasse os 10% de significncia, ficaria com uma funo consumo
dependendo apenas da taxa de juros.

Aquele mais atento, todavia, vai notar um pequeno detalhe nos resultados apresentados na
tabela 9.1.2: a estatstica F. Note que o valor tabelado de F (com 2 graus de liberdade no numerador
e 13 no denominador) 5% de significncia 3,81! Como o valor encontrado foi em torno de 17,6,
pelo teste F conclumos que o modelo de regresso vlido!

Se a regresso foi validada pelo teste F, a pergunta que fica : por que os dois parmetros
no so significantes (pelo menos a 5%)? O que deu errado com o teste t?

A resposta, neste caso, pode ser encontrada na prpria natureza das variveis nem sempre
isso possvel, mas freqentemente o se lembrarmos que h uma forte influncia (e portanto
correlao) da taxa de juros real sobre a renda.

De fato, se calcularmos a correlao amostral entre a taxa de juros real e a renda e isto
sempre possvel encontraremos o valor de -0,86. (Verifique!)

A correlao entre as variveis do modelo , portanto, muito alta (em valores absolutos). E,
de fato, esta a causa do problema (e no a loucura dos consumidores desta economia) e o que se
chamamos, usualmente, de multicolinearidade.

Multicolinearidade a (alta) correlao entre duas (ou mais) variveis em um modelo de
regresso mltipla.

O ideal seria, ento, que no houvesse nenhuma correlao entre as variveis? Cuidado!
Ainda que no exista correlao populacional entre as variveis do modelo, pouco provvel
(quase impossvel, na verdade) que no exista nenhuma correlao amostral
109
. Alm disso, num
modelo econmico, interaes entre as variveis explicativas so um fato da vida. Nossa
preocupao deve se limitar a quando esta correlao fica em valores prximos a 1 (ou -1).

9.1.1 Conseqncias da multicolinearidade

Uma delas j vimos no exemplo 9.1.1: os testes t podem resultar insignificantes, ainda que
as variveis sejam relevantes. Isto ocorre porque a varincia dos coeficientes das variveis

108
Poder-se-ia argumentar que uma especificao mais adequada da funo consumo utilizaria no a renda presente,
mas a renda passada, visto que o consumidor tomaria suas decises em perodos anteriores; ou ainda, que se deveria
utilizar a renda permanente. Nenhum desses argumentos, no entanto, explicaria a no significncia da renda presente,
pois esta certamente guarda forte correlao tanto com valores passados como com a renda permanente.
109
Ademais, se no houvesse nenhuma correlao entre as variveis, sequer precisaramos utilizar a regresso mltipla,
pois os resultados das regresses simples, em separado, seriam os mesmos. Este um caso tpico de experimentos
controlados, onde as demais variveis so controladas, de modo que possvel verificar a relao da varivel
dependente com cada uma das variveis em separado. Evidentemente, experimentos controlados no so, em geral,
possveis em cincias sociais.
239
explicativas (
$

1
,
$

2
, etc.) aumenta quando ocorre multicolinearidade e da o motivo dos testes t
apresentarem baixa significncia (ou mesmo no serem significantes). Se no, vejamos:

As varincias dos coeficientes na regresso mltipla so dadas por:


2

= S
2
(XX)
-1


Se o coeficiente de correlao for prximo de 1 (ou -1) o valor do determinante da matriz
110

X (e, em conseqncia, da matriz XX) ser muito pequeno e, portanto, as varincias de
$

1
e
$

2
,
etc. sero muito grandes, da os valores encontrados nos testes t.

Mas note: isto no significa que os testes t sejam invlidos. A varincia dos coeficientes
estimados de fato muito grande na presena de multicolinearidade. Podemos at ser levados a
concluses erradas do ponto de vista econmico, mas, do ponto de vista estatstico, o valor do
coeficiente, se insignificante, no pode ser considerado diferente de zero em funo da sua alta
varincia.

E, como a varincia dos
$
muito grande, podemos ter ainda que: os sinais dos coeficientes
(
$
) podem ser o inverso daqueles esperados; alm do mais, seus valores ficam muito sensveis
(mudam demais) quando se acrescenta ou se retira uma varivel do modelo ou quando h pequenas
mudanas na amostra.

Com relao s propriedades dos estimadores, no entanto, mesmo na presena de
multicolinearidade, so mantidas as propriedades usuais do estimador de mnimos quadrados, isto ,
continuam no viesados, eficientes e consistentes. Como conseqncias, as previses feitas a partir
de um modelo com multicolinearidade tambm tm estas mesmas propriedades.

9.1.2 Como identificar a multicolinearidade?

De novo reportando ao exemplo 9.1.1, uma maneira de identificar a multicolinearidade, ou,
pelo menos, suspeitar fortemente que ela exista, quando obtemos um teste F bastante significante
(ou um R
2
alto) acompanhado de estatsticas t para os coeficientes pouco significantes, ou at
mesmo no significantes.

Sinais dos coeficientes diferentes do esperado, especialmente quando ele muito esperado
(sinal do preo na funo demanda e/ou oferta, ou como no exemplo 9.1.1, o sinal da renda e da
taxa de juros
111
na funo consumo) j , pelo menos, uma evidncia de multicolinearidade.

No prprio exemplo 9.1.1, verificamos que o clculo direto da correlao entre as variveis
tambm uma forma de identificar a presena de multicolinearidade.

O clculo da correlao, no entanto, pode no funcionar muito bem quando temos mais do
que duas variveis no modelo. Quando calculamos a correlao entre as variveis, duas a duas, se
encontramos uma correlao prxima de 1 em valores absolutos para qualquer par de variveis,
ento certamente h multicolinearidade. A recproca, no entanto, no verdadeira, porque pode
haver no um par de variveis correlacionadas entre si, mas trs (ou mais) variveis correlacionadas

110
No caso de multicolinearidade exata, o determinante da matriz X, assim como o da matriz XX seria zero e, portanto,
nenhuma delas poderia ser invertida.
111
Claro que, como foi visto no prprio exemplo, o fato dos sinais serem de acordo com o esperado no exclui a
possibilidade de multicolinearidade.
240
simultaneamente, cujo valor da correlao, tomando-as duas a duas, no indique um valor muito
alto.

Neste caso uma soluo
112
observar o comportamento dos coeficientes quando
adicionamos ou retiramos variveis ou a mudanas na amostra. Se ocorrerem mudanas muito
drsticas, inclusive nos sinais dos mesmos, temos a uma evidncia de que h multicolinearidade no
modelo.

Como decorrncia de tudo isto, podemos notar que um modelo que inclua muitas variveis
no aconselhvel, pois maior a probabilidade de ocorrncia de correlaes altas entre diversas
variveis, tornando seu resultado muito pouco confivel.

9.1.3 O que fazer quando h multicolinearidade?

A providncia bvia retirar variveis correlacionadas do modelo. No caso do exemplo
9.1.1, que s tem duas variveis explicativas, retiraramos uma delas. A escolha, em princpio,
recairia em qualquer uma delas. Como o mais tradicional considerar a funo consumo tendo
como argumento apenas a renda
113
, retiramos a taxa de juros.

Exemplo 9.1.3.1
Mostramos na tabela abaixo o resultado da estimao do modelo:
C
t
=
0
+
1
Y
t
+
t


Tabela 9.1.3.1
coeficiente desvio-padro estatstica t
constante -7,859 17,405 0,452
renda 0,830 0,159 5,221
estatstica F = 27,264

Neste caso, evidentemente, a multicolinearidade necessariamente foi eliminada pois sobrou
apenas uma varivel explicativa. Mesmo que no fosse este o caso, a alta significncia apresentada
pelo coeficiente da renda no deixa dvidas. O valor encontrado para a propenso marginal a
consumir encontrado, 0,83, bem mais confivel que o anterior, tendo em vista a sua menor
varincia
114
.

O critrio por trs da retirada de variveis , que, em sendo altamente correlacionadas com
a(s) varivel(is) restante(s) esta j capta o efeito das alteraes na varivel retirada, ficando esta
desnecessria no modelo.

A soluo pode, entretanto, no ser satisfatria quele pesquisador que pretendia obter
tambm a influncia direta das taxas de juros sobre o consumo
115
.


112
Uma outra soluo, neste caso, seria fazermos sub-regresses combinando as variveis explicativas do modelo e
observando o valor do R
2
das mesmas. Se este fosse alto, identificaramos a multicolinearidade. Este procedimento seria
muito trabalhoso, especialmente quando tivssemos muitas variveis, a no ser que, seja pela teoria, por bom senso, ou
conhecimento especfico do assunto, tivssemos uma pista de quais so os grupos de variveis correlacionadas entre
si.
113
O que a reduziria conhecida funo keynesiana de consumo.
114
Ou, em outros termos, um intervalo de confiana construdo para este coeficiente (a um nvel de confiana dado)
ser menor do que um construdo para o coeficiente obtido no exemplo 9.1.1.
115
O pesquisador pode considerar, por exemplo, que alm do efeito sobre a renda, h o efeito da troca de consumo
presente por consumo futuro.
241
Muitas vezes possvel reduzir os efeitos da multicolinearidade atravs do aumento da
amostra. Isto porque a correlao alta observada pode ser decorrente da prpria amostra, isto , esta
correlao no existir na populao e um aumento das observaes poderia refletir melhor este fato;
ou ainda, ser resultado de algum tipo de poltica econmica transitria, e que se amostra incluir
observaes de perodos em que esta poltica no foi adotada, a correlao obtida ser bem menor.
No caso do exemplo 9.1.1, isto provavelmente no aconteceria, pois a relao entre renda e taxa de
juros no resultado de nenhuma coincidncia amostral, nem resultado de algum tipo de poltica,
mas algo que se supe existir sempre
116
.

Em alguns casos, seria possvel reespecificar o modelo. Imagine um modelo que relaciona o
preo de apartamentos a diversas caractersticas, entre elas o nmero de dormitrios e a rea til. Se
este estudo fosse realizado em um bairro ou uma pequena cidade onde o padro dos imveis no
varia muito, possvel que o tamanho dos aposentos tambm no varie, fazendo com que a rea til
dos apartamentos esteja altamente correlacionada ao nmero de dormitrios. Neste caso, talvez
fosse melhor substituir o preo total dos apartamentos pelo preo por metro quadrado (obtido pela
simples diviso do preo total pela rea til).

Procedimento semelhante poderia ser adotado no caso de um modelo que explicasse o preo
de um produto agrcola em funo da rea plantada (ou colhida) e da produo, entre outras
variveis. Certamente haver uma forte correlao entre a rea plantada e a produo. Poderamos
ento substitu-las por uma nica varivel, a produtividade (que seria a razo entre a produo e a
rea).

H ainda a alternativa de no se fazer nada. H sempre que se lembrar que o estimador de
mnimos quadrados mantm as propriedades desejveis de um estimador (no vis, eficincia e
consistncia), mesmo na presena de multicolinearidade. Se o objetivo for, por exemplo, fazer
previses a respeito da varivel explicada, a retirada de variveis correlacionadas s vai reduzir a
eficincia das previses. Para prevermos valores futuros do consumo naquela economia dos
exemplos 9.1.1 e 9.1.3.1, certamente os resultados obtidos no primeiro traro melhores previses,
ainda que os valores dos coeficientes, em funo de sua alta varincia, reflitam muito pouco sua real
relao.

De toda esta discusso podemos concluir que a multicolinearidade muito mais uma
questo numrica do que um problema. De fato, h quem argumente que h at um certo exagero
em atribuir um nome a uma questo como esta. Em seu livro, Goldberger
117
chega a literalmente
fazer gozao com o termo multicolinearidade, inventando a expresso micronumerosidade, que
seria o problema que decorre de termos uma amostra pequena. Se a amostra pequena, a
varincia dos estimadores ser grande, portanto no teremos uma estimativa precisa (o que
verdade, mas tambm bvio) e, no caso de micronumerosidade perfeita, isto , quando o
nmero de observaes numa amostra zero(!) no seria possvel (novidade!) fazer a estimao.

9.2 Violando a hiptese V: a autocorrelao

Autocorrelao significa a correlao de uma varivel com valores defasados (com
diferenas no tempo) dela mesmo. Se a varivel x
t
(t medido em anos) tem correlao
sistematicamente com seu valor no ano anterior (a correlao entre x
t
e x
t-1
no nula), dizemos que

116
Ainda assim haveria uma chance de que, em uma amostra maior, esta correlao fosse pelo menos menor do que a
obtida no exemplo 9.1.1
117
Goldberger, Arthur S. A Course in Econometrics. Harvard University Press. 1991.
242
x
t
uma varivel autocorrelacionada. Note que falamos aqui em variveis distribudas no tempo. De
fato, usualmente, autocorrelao algo associado a sries de tempo
118
.

A hiptese V faz meno a autocorrelao dos erros. Supe-se que no existam, o que
bastante razovel, pois estamos imaginando que o erro no uma varivel especificamente, mas um
conjunto de diversas influncias que, pela sua prpria natureza, so difceis de serem medidas, mas
no exercem influncia uma sobre a outra.

Mas, e se exercerem? E por que exerceriam? Imagine, por exemplo, que uma varivel
relevante esteja sendo omitida. A omisso desta varivel joga sua influncia, sistemtica, para o
termo de erro, que supostamente um conjunto de influncias no sistemticas na varivel
dependente. A omisso de uma varivel relevante pode, portando, fazer com que tenhamos
autocorrelao nos erros.

Outro tipo de erro que poderia levar a autocorrelao seria a m especificao funcional. Se,
por exemplo, assumssemos que uma relao linear, quando , digamos, quadrtica, o erro
apresentar um padro sistemtico pelo simples fato de estarmos ajustando a curva errada.

Mas a autocorrelao pode ocorrer pela prpria natureza do processo: por exemplo, a
produo na agricultura. A deciso de produzir no simultnea formao do preo, isto ,
decide-o quanto se vai produzir no momento do plantio, mas s quando se der a colheita que o
produtor saber qual o preo que poder obter pelo seu produto. Portanto, o preo que influencia a
quantidade produzida o do perodo anterior, no o atual. Mas, se produzir demais (ou de menos)
num certo perodo, isto influenciar a deciso de produzir no perodo seguinte (se o preo estiver
muito baixo, produzir menos), assim sendo este um processo em que a autocorrelao parte
integrante, mesmo sem haver algum erro de especificao.

Uma maneira possvel de representar um modelo de regresso em que a autocorrelao
esteja presente a seguinte:

Y
t
=
1
+
2
X
2t
+
3
X
3t
+
t
Onde

t
=
t-1
+
t

Sendo que o coeficiente de correlao e
t
um termo de erro com as caractersticas das
hipteses do modelo de regresso (isto , entre outras coisas, sem autocorrelao).

Se o erro segue um processo como o descrito acima, dito um processo autorregressivo de
ordem 1, ou simplesmente AR(1). Nada impede que o processo, seja, na verdade, de ordem 2, ou
seja, algo assim:


t
=
t-2
+
t
Ou assim:

t
=
1

t-1
+
2

t-2
+
t

E, neste caso, seria um AR(2).

9.2.1 Conseqncias da autocorrelao

118
Mas no necessariamente. O problema que, no tempo, s h dois vizinhos imediatos, a varivel no perodo
imediatamente anterior e o no perodo imediatamente posterior. No caso de variveis distribudas no espao, o nmero
de vizinhos pode ser maior, o que complica a anlise, embora ela seja possvel de ser feita, e o , mas numa literatura
mais especializada.
243

Como vimos no captulo anterior, a hiptese de no existncia de autocorrelao nos erros
um pr-requisito para a demonstrao do Teorema de Gauss-Markov, como o qual se mostra que o
estimador de mnimos quadrados de uma regresso linear um MELNV. Portanto, na presena de
autocorrelao o estimador de mnimos quadrados ordinrios
119
no mais aquele que tem a menor
varincia possvel entre todos os estimadores.

Isto sim, j pode ser considerado um problema de fato, algo a ser tratado, j que o
estimador no o mais preciso que poderamos obter.

H que se notar, entretanto, que a hiptese necessria para que o estimador seja no viesado
e consistente (que a de que os regressores, os X, no sejam correlacionados com o erro) no
violada e, portanto, ainda que no tenha a menor varincia, o estimador continua, em geral, no
viesado e consistente, mesmo na presena de autocorrelao. Mas h excees!

As excees so os modelos que incluem, entre as variveis dependentes (regressores),
defasagens da varivel independente, como no caso mostrado abaixo:

Y
t
=
1
+
2
X
t
+
3
Y
t-1
+
t
(9.2.1.1)

Suponha que o erro
t
apresente autocorrelao, com um processo do tipo AR(1):


t
=
t-1
+
t

Para que o estimador seja no viesado deveramos ter E(Y
t-1

t
) = 0, o que no ocorre, pois:

E(Y
t-1

t
) = E[Y
t-1
(
t-1
+
t
)] = E(Y
t-1

t-1
+ Y
t-1

t
) = E(Y
t-1

t-1
) + E(Y
t-1

t
)

Embora, por hiptese, Y
t-1
e
t
no sejam correlacionados, o mesmo no ocorre com Y
t-1
e
t-
1
, o que fica bvio se tomarmos uma defasagem da equao (9.2.1.1):
Y
t-1
=
1
+
2
X
t-1
+
3
Y
t-2
+
t-1


Portanto Y
t-1
e
t-1
so correlacionados e, portanto E(Y
t-1

t-1
) 0 e, conseqentemente, E(Y
t-
1

t
) 0. Como Y
t-1
uma varivel dependente no modelo expresso pela equao (9.2.1.1), este
um caso que a existncia de autocorrelao implica no vis do estimador de mnimos quadrados
ordinrios.

Alm disso, temos que lembrar que os estimadores para a varincia dos coeficientes foram
calculados supondo que no h autocorrelao entre os erros, isto , supondo que (em notao
matricial), que var(e) =
2
I, o que no verdade. Os estimadores das varincias sero (sempre!)
viesados, o que invalida os testes de hipteses realizados na presena de autocorrelao.

9.2.2 Como identificar a autocorrelao?

A maneira mais comum de identificar a existncia de autocorrelao atravs do teste de
Durbin-Watson, cuja estatstica calculada por:


119
Mnimos quadrados ordinrios como chamado o mtodo e o estimador usual de mnimos quadrados. uma
traduo no mnimo discutvel da expresso em ingls ordinary least squares.
244
DW =

=
=

n
1 t
2
n
2 t
2
1

) (
t
t t




Para entender o seu significado, vamos desenvolver a expresso acima:

DW =

=
=

+
n
1 t
2
n
2 t
2
1 1
2

) 2 (
t
t t t t



DW =


=
= =

=

+
n
1 t
2
n
2 t
n
2 t
2
1
n
2 t
1
2

2
t
t t t t




Se a amostra for suficientemente grande, a diferena entre a soma de
2

t
e
2
1

t
muito
pequena, assim como muito pequena a diferena entre somar de 1 a n ou de 2 a n. Ento, podemos
dizer que estas somas so (quase) iguais:

DW


=
= =

n
1 t
2
n
1 t
n
2 t
1
2

2 2
t
t t t



DW 2(

=
=

=
=

n
1 t
2
n
2 t
1
n
1 t
2
n
1 t
2

t
t t
t
t

)

O primeiro termo obviamente igual a 1. O segundo um estimador para o coeficiente de
correlao dos erros.

DW 2(1 )

Se no h autocorrelao ( = 0), o valor de dever ser em torno de zero e, portanto, o
valor de DW dever ser prximo de 2. Um valor prximo de 2 para DW implica, desta forma, na
no existncia de autocorrelao.

Havendo autocorrelao, esta pode ser positiva ou negativa. Os casos extremos seriam = 1
ou = -1. Se o valor de for prximo de 1, o valor de DW ser prximo de 0. Portanto, valores
de DW (razoavelmente) abaixo de 2 indicam autocorrelao positiva. Da mesma forma, se for
prximo de 1, DW ser prximo de 4, isto , valores (razoavelmente) acima de 2 indicam
autocorrelao negativa.

Mas quo distante de 2 deve estar o valor da estatstica DW para que possamos concluir que
existe, de fato, autocorrelao? Isto foi resolvido atravs de simulaes que resultaram numa tabela
245
semelhante quelas que vnhamos utilizando at agora, com a diferena que ela no vem de uma
frmula analtica, como era o caso das distribuies derivadas da distribuio normal.

Observando esta tabela ao final do livro, verificamos que o teste de Durbin-Watson
apresenta uma limitao (no a nica!). Existe um intervalo de valores em que o teste
inconclusivo. Se, por exemplo, estivermos testando um modelo com duas variveis explicativas,
com 20 observaes, para um nvel de significncia de 5%, encontramos os valores d
i
= 1,10 e d
s
=
1,54. Se o valor de DW for abaixo de 1,10, rejeitamos a hiptese nula de no autocorrelao, isto ,
conclumos que existe autocorrelao. Se DW estiver entre 1,54 e 2, conclumos que no h
autocorrelao (aceitamos a hiptese nula). Se, entretanto, o valor de DW cair entre 1,10 e 1,54, o
teste inconclusivo, no d para dizer se h ou no autocorrelao.

Note que a tabela montada para autocorrelaes positivas (DW < 2). Se encontrarmos um
DW maior do que 2, o que indicaria uma autocorrelao negativa, basta que faamos DW* = 4
DW, e o valor de DW* pode ser comparado normalmente com os valores da tabela.

Exemplo 9.2.2.1
Na tabela abaixo encontramos dados de consumo e renda
trimestrais de um pas durante 5 anos. Estime a funo consumo
(consumo como funo da renda) e teste a existncia de
autocorrelao, com 5 % de significncia.

Tabela 9.2.2.1
ano/trimestre consumo
(US$ bilhes)
renda
(US$ bilhes)
1994/3 757,6 970,0
1994/4 745,2 988,5
1995/1 673,4 866,5
1995/2 652,2 812,4
1995/3 676,2 845,3
1995/4 709,1 891,9
1996/1 704,7 899,3
1996/2 691,8 911,2
1996/3 696,6 903,2
1996/4 667,6 904,5
1997/1 667,2 906,7
1997/2 671,0 920,2
1997/3 716,9 958,4
1997/4 698,4 934,1
1998/1 676,7 944,4
1998/2 661,4 956,3
1998/3 686,8 971,7
1998/4 685,2 958,9
1999/1 684,9 961,9
1999/2 675,1 966,4
1999/3 663,1 977,5
1999/4 672,8 988,5
2000/1 675,2 1001,2
2000/2 693,1 996,7
246
2000/3 721,6 1005,6
2000/4 747,5 1011,2
2001/1 742,4 1004,2
2001/2 740,5 997,4
2001/3 741,5 1000,4
2001/4 722,6 1006,6

Os resultados da estimao sero dados por (verifique!):
coeficiente desvio-padro estatstica t
constante 402,672 87,676 4,59
renda 0,311 0,092 3,37
estatstica F = 11,32

Os resultados foram os esperados: o coeficiente da renda foi significante (a 1%) e a
regresso foi vlida (aprovada pelo teste F, a 1%). Antes de cometer a precipitao de afirmar que
j sabemos como a renda influencia o consumo, convm, especialmente porque se tratam de dados
em sries de tempo, testar a existncia de autocorrelao.

Os resduos foram obtidos dos resultados acima e esto mostrados na primeira coluna da
tabela 9.2.2.2. Nas colunas seguintes so feitos os clculos necessrios para obteno da estatstica
DW


Tabela 9.2.2.2
ano/trimestre resduos (
t
)
t
-
1

t
(
t
-
1

t
)
2
(
t
)
2
1994/3 53,70998 2884,7624
1994/4 35,5651 -18,1449 329,2369 1264,8761
1995/1 1,650302 -33,9148 1150,2133 2,7235
1995/2 -2,749784 -4,4001 19,3608 7,5613
1995/3 11,03363 13,7834 189,9826 121,7410
1995/4 29,46273 18,4291 339,6315 868,0522
1996/1 22,76477 -6,6980 44,8626 518,2348
1996/2 6,169411 -16,5954 275,4060 38,0616
1996/3 13,45369 7,2843 53,0607 181,0017
1996/4 -15,95001 -29,4037 864,5773 254,4028
1997/1 -17,03318 -1,0832 1,1733 290,1294
1997/2 -17,4254 -0,3922 0,1538 303,6445
1997/3 16,61218 34,0376 1158,5571 275,9647
1997/4 5,658172 -10,9540 119,9904 32,0149
1998/1 -19,24033 -24,8985 619,9356 370,1904
1998/2 -38,23569 -18,9954 360,8237 1461,9683
1998/3 -17,61792 20,6178 425,0924 310,3913
1998/4 -15,24308 2,3748 5,6399 232,3516
1999/1 -16,47469 -1,2316 1,5168 271,4153
1999/2 -27,67209 -11,1974 125,3819 765,7447
1999/3 -43,11902 -15,4469 238,6077 1859,2502
1999/4 -36,8349 6,2841 39,4902 1356,8101
2000/1 -38,37869 -1,5438 2,3833 1472,9239
2000/2 -19,08129 19,2974 372,3898 364,0955
2000/3 6,654957 25,7362 662,3542 44,2885
2000/4 30,81596 24,1610 583,7543 949,6237
247
2001/1 27,88971 -2,9263 8,5630 777,8357
2001/2 28,10134 0,2116 0,0448 789,6853
2001/3 28,16974 0,0684 0,0047 793,5341
2001/4 7,344423 -20,8253 433,6937 53,9405
SOMA
0
8425,8821 18917,2199


Portanto, a estatstica DW ser dada por:

DW =

=
=

n
1 t
2
n
2 t
2
1

) (
t
t t


=
2199 , 18917
8821 , 8425
= 0,4454

Como o limite inferior da tabela de DW , para 5% de significncia, 30 observaes e uma
varivel explicativa, d
i
= 1,35, ou, para 1% de significncia, 1,20 (em ambos os casos, maior do que
0,4454), conclumos que existe autocorrelao (rejeitamos a hiptese nula de no autocorrelao).

Como foi dito, o teste de Durbin-Watson apresenta algumas limitaes
120
. Alm da
existncia de um intervalo em que o teste inconclusivo, o teste no vlido se:

a regresso no incluir o intercepto (termo constante);
a regresso incluir, como variveis explicativas, defasagens da varivel dependente.

Alm disso, como claro pela prpria formulao do teste, ele feito para testar apenas
correlaes de primeira ordem.

9.2.3 O que fazer quando h autocorrelao?

Primeiro h a questo de qual a causa da autocorrelao. Se o problema de especificao,
ele pode ser corrigido com a incluso de mais variveis ou com a alterao da forma funcional.

Se no este o caso, ou seja, a autocorrelao uma parte integrante do modelo estimado,
a correo passa pelo conhecimento prvio de como a estrutura da autocorrelao. Suponhamos
que seja um modelo com uma varivel explicativa como mostrado abaixo:

Y
t
=
1
+
2
X
t
+
t
(9.2.3.1)

Em que existe autocorrelao e ela de primeira ordem ( um AR(1)), ou seja:


t
=
t-1
+
t

Suponhamos ainda que o coeficiente seja conhecido. Se multiplicarmos a equao
(9.2.3.1) defasada por , temos:

Y
t-1
=
1
+
2
X
t-1
+
t-1
(9.2.3.2)

Subtraindo a equao (9.2.3.2) da equao (9.3.2.1):

120
Em textos mais avanados de econometria possvel encontrar outros testes para autocorrelao.
248

Y
t
Y
t-1
=
1

1
+
2
(X
t
X
t-1
) + (
t

t-1
)

Mas sabemos que:


t

t-1
=
t


E, se fizermos com que:

Y
t
*
= Y
t
Y
t-1

1
*
=
1

1
e
X
t
*
= X
t
X
t-1

Reduziremos a um modelo que ser:

Y
t
*
=
1
*
+
2
X
t
*
+
t

Que um modelo sem autocorrelao (que pode, portanto, ser estimado sem problemas por
mnimos quadrados ordinrios) e, importante, apresenta o mesmo coeficiente
2
do modelo
original.

Mas ainda resta o problema de como conhecer o coeficiente . Uma estimativa pode ser
encontrada, entretanto, atravs do prprio valor de DW, j que:
DW 2(1 )

Ento:
1
2
DW


Exemplo 9.2.3.1
Refaa a estimao do exemplo 9.2.2.1, corrigindo o problema da
autocorrelao.

O primeiro passo encontrar uma estimativa para o coeficiente de correlao, o que, como
vimos, pode ser feito pela prpria estatstica DW:

1
2
DW
= 1
2
0,4454
0,777

Se, digamos, consumo a varivel Y
t
e renda a varivel X
t
, as variveis corrigidas, isto
, aquelas cuja regresso no apresentar autocorrelao (pelo menos assim esperamos), sero dadas
por:

Y
t
*
= Y
t
0,777Y
t-1
X
t
*
= X
t
0,777X
t-1


E so mostradas na tabela abaixo:

249
Tabela 9.2.3.1
ano/trimestre consumo (Y
t
) Y
t
*
renda (X
t
) X
t
*
1994/3 757,6 970,0
1994/4 745,2 156,5448 988,5 234,81
1995/1 673,4 94,3796 866,5 98,4355
1995/2 652,2 128,9682 812,4 139,1295
1995/3 676,2 169,4406 845,3 214,0652
1995/4 709,1 183,6926 891,9 235,1019
1996/1 704,7 153,7293 899,3 206,2937
1996/2 691,8 144,2481 911,2 212,4439
1996/3 696,6 159,0714 903,2 195,1976
1996/4 667,6 126,3418 904,5 202,7136
1997/1 667,2 148,4748 906,7 203,9035
1997/2 671 152,5856 920,2 215,6941
1997/3 716,9 195,533 958,4 243,4046
1997/4 698,4 141,3687 934,1 189,4232
1998/1 676,7 134,0432 944,4 218,6043
1998/2 661,4 135,6041 956,3 222,5012
1998/3 686,8 172,8922 971,7 228,6549
1998/4 685,2 151,5564 958,9 203,8891
1999/1 684,9 152,4996 961,9 216,8347
1999/2 675,1 142,9327 966,4 219,0037
1999/3 663,1 138,5473 977,5 226,6072
1999/4 672,8 157,5713 988,5 228,9825
2000/1 675,2 152,4344 1001,2 233,1355
2000/2 693,1 168,4696 996,7 218,7676
2000/3 721,6 183,0613 1005,6 231,1641
2000/4 747,5 186,8168 1011,2 229,8488
2001/1 742,4 161,5925 1004,2 218,4976
2001/2 740,5 163,6552 997,4 217,1366
2001/3 741,5 166,1315 1000,4 225,4202
2001/4 722,6 146,4545 1006,6 229,2892


Os resultados obtidos agora so:
coeficiente desvio-padro estatstica t
constante 33,401 17,210 1,94
X
*
0,566 0,081 6,97
estatstica F = 48,52
DW = 1,3716

O coeficiente da renda foi maior, e com um desvio padro menor (repare que esta ltima
comparao sequer era necessria, j que sabemos que o estimador do desvio padro do exemplo
9.2.2.1 era viesado em funo da autocorrelao).
Para ficarmos satisfeitos com este novo resultado, no entanto, temos que prestar ateno na
estatstica de Durbin-Watson. Se compararmos o valor encontrado (1,3716) com a tabela para 29
observaes (sim, temos uma observao a menos agora), veremos que, para 5% de significncia, d
i

= 1,34 e d
s
= 1,48, portanto o teste inconclusivo, o que no uma notcia maravilhosa, mas pelo
menos no podemos afirmar que h autocorrelao. A 1% de significncia, entretanto, os valores
tabelados so d
i
= 1,12 e d
s
= 1,25, portanto aceitamos a hiptese de no existncia de
autocorrelao com esta significncia.

250
9.3 Violando a hiptese IV: a heteroscedasticidade

A hiptese IV estabelece que a varincia dos erros deve ser constante (o que conhecido
como homoscedasticidade).

Imaginemos uma regresso em que a varivel dependente seja a altura das pessoas.
Medindo a altura com uma rgua comum podemos, evidentemente, cometer erros em funo da
medio desta altura em funo da preciso da rgua e mesmo da preciso de como a medida
feita. No h porque, entretanto, acreditarmos que a varincia deste erro de medio ser diferente
para diferentes grupos de pessoas (altas ou baixas, por exemplo). A hiptese IV, neste caso, bem
razovel.

Agora imagine se estamos fazendo um estudo de salrios em funo dos anos de estudo. A
relao certamente existe pois, pessoas com vrios anos de estudo ganham, em mdia, mais do que
pessoas com poucos anos de estudo. Mas a situao muda muito no que se refere ao erro: para
aqueles com pouco ou nenhum estudo, os salrios no devero variar muito (pelo menos para a
grande maioria), fazendo com que a varincia seja muito pequena. No caso de pessoas com muitos
anos de estudo (nvel superior, ps-graduao, etc.) embora se espere que ganhem mais, as
possibilidades so bem mais amplas: possvel que uma pessoa deste grupo tenha problemas em
avanar na carreira ou se torne presidente de uma grande empresa, o que torna a varincia dos
salrios neste caso muito alta.

H outros exemplos, como a poupana das famlias em funo da renda: famlias com renda
muito baixa, pouparo valores muito prximos entre si (um valor muito pequeno, por sinal, at
porque no tm muito para poupar), enquanto que entre famlias mais ricas, temos toda uma gama
de que vai desde famlias bastante perdulrias a outras que so muito poupadoras.

9.3.1 Conseqncias da heteroscedasticidade

A hiptese IV (assim como a hiptese V) uma hiptese necessria para a demonstrao do
Teorema de Gauss-Markov. Desta forma, as conseqncias so basicamente as mesmas da presena
da autocorrelao
121
: os estimadores de mnimos quadrados ordinrios continuam no viesados, mas
j no so aqueles de menor varincia. As varincias dos estimadores so viesadas, invalidando
assim os testes de hipteses.
9.3.2 Como identificar a heteroscedasticidade?

De vrios testes existentes na literatura que tm como objetivo identificar a presena de
heteroscedasticidade, ficamos com dois.

O teste de Goldfeld e Quandt consiste em separar a regresso em duas, uma com valores
menores de X, digamos, e outra com valores maiores e a fazer um teste para comparar a varincia
em cada regresso (um teste comum de comparao de varincias, isto , um teste F). Havendo
diferena nas varincias das duas regresses, a hiptese nula de homoscedasticidade rejeitada, e,
sendo este o caso, conclui-se que h presena de heteroscedasticidade, que dever ser corrigida.


121
Exceto quando h autocorrelao quando usamos defasagens da varivel dependente como variveis explicativas, o
que torna o estimador de mnimos quadrados ordinrios viesado, coisa que no ocorre na presena de
heteroscedasticidade.
251
Exemplo 9.3.2.1
So dados na tabela abaixo os dados dos salrios de 20 trabalhadores e os anos de estudo de cada
um. Faa uma regresso dos salrios em funo dos anos de estudo e teste para a existncia de
heteroscedasticidade utilizando o teste de Goldfeld e Quandt.

Tabela 9.3.2.1
anos de
estudo
salrios
(R$)
1 410,00
2 508,90
3 857,70
2 551,30
3 789,20
4 935,50
7 1529,30
8 1497,50
9 2317,70
11 2169,50
11 2596,80
13 2844,60
13 3391,00
14 2671,20
16 2653,80
16 2939,10
17 3437,00
18 4583,30
19 3559,30
19 4896,70

Os resultados da regresso tendo o salrio como varivel dependente so:



coeficiente desvio-padro estatstica t
constante 139,074 184,155 0,755
anos de estudo 205,621 15,400 13,35
F = 178,28

Os resduos desta regresso so:
65,30477 -26,05806 195,8953 -489,9094
-41,41617 -49,12089 32,45345 -197,6303
101,7629 -286,5418 578,8535 743,0487
0,983826 328,0372 -346,5675 -486,5722
33,26288 -231,4047 -775,2094 850,8278

Vejamos o comportamento dos resduos num grfico:
252
0 5 10 15 20
-800
-600
-400
-200
0
200
400
600
800
1000

O grfico nos d um indcio realmente que os resduos so mais espalhados quando os
salrios so maiores.

Para testarmos a heteroscedasticidade, dividiremos os dados em dois grupos como manda o
figurino do teste de Goldfeld e Quandt. Esta diviso arbitrria, mas o teste tende a ser mais
eficiente se omitirmos os dados do meio, isto , tomarmos um grupo com os valores de X
menores (1 a 4 anos de estudo) e outro com valores de X maiores (14 ou mais anos de estudo).

Teremos ento:

Grupo I:
anos de
estudo
salrios
(R$)
1 410,00
2 508,90
3 857,70
2 551,30
3 789,20
4 935,50

Resultado da regresso:
coeficiente desvio-padro estatstica t
constante (I) 183,797 69,187 2,66
anos de estudo (I) 196,655 25,844 7,61
F
I
= 57,9
SQR
I
= 14694,4
S
2
I
=
2 n
SQR
I

=
4
4 , 14694
= 3673,60
253

Grupo II:
anos de
estudo
salrios
(R$)
14 2671,20
16 2653,80
16 2939,10
17 3437,00
18 4583,30
19 3559,30
19 4896,70

Resultado da regresso:
coeficiente desvio-padro estatstica t
constante (II) -3171,137 2246,672 0,22
anos de estudo (II) 394,44 131,509 2,99
F
II
= 8,996
SQR
II
= 1729453,67
S
2
II
=
2 n
SQR
II

=
5
67 , 1729453
= 345890,73

Comparamos ento, a varincia das duas regresses num teste F e, para isto, dividimos uma
varincia pela outra:


2
I
2
II
S
S
=
3673,60
345890,73
= 94,16

Como o valor limite na tabela F, com 5% de significncia, para 5 graus de liberdade no
numerador e 4 graus de liberdade no denominador 6,26, rejeitamos a hiptese de que as varincias
sejam iguais (vale a hiptese de que a varincia da segunda regresso maior) e, portanto,
rejeitamos a hiptese nula de homoscedasticidade. Conclumos ento, que o modelo de regresso
estimado acima heteroscedstico.

Outro teste que pode ser usado para deteco do problema de heteroscedasticidade o teste
de White que consiste em, a partir de um modelo de regresso qualquer
122
:

Y
i
=
1
+
2
X
2i
+
3
X
3i
+
i

feita uma regresso auxiliar onde a varivel dependente o resduo ao quadrado e os
regressores so os prprios regressores da regresso original, seus quadrados e os produtos
cruzados, desta forma:


i

2
=
1
+
2
X
2i
+
3
X
3i
+
4
X
2i
2
+
5
X
3i
2
+
6
X
2i
X
3i
+
i


Um R
2
elevado nesta regresso auxiliar um indcio de que h heteroscedasticidade. Mais
precisamente, pode-se demonstrar que o produto nR
2
, sendo n o nmero de observaes, segue uma
distribuio de
2
com o nmero de graus de liberdade equivalente ao nmero de regressores da
regresso auxiliar (menos o intercepto).

122
Tomaremos um com duas variveis apenas por simplificao.
254

Exemplo 9.3.2.2
Na tabela abaixo temos os dados de consumo de energia eltrica mdio por residncia para 17
cidades. Cada cidade possui uma tarifa diferente e tambm dada a renda familiar mensal mdia.
Estime o consumo de energia em funo da tarifa e da renda e verifique se h heteroscedasticidade
pelo teste de White.














Tabela 9.3.2.2
cidade consumo
(kwh/ms)
tarifa
($/kwh)
renda
($/ms)
A 355,7 1,50 600
B 393,8 1,80 400
C 429,1 2,00 700
D 250,5 1,20 300
E 484,9 1,30 600
F 377,1 1,60 700
G 194,3 3,00 500
H 328,2 2,50 600
I 498,6 2,20 850
J 444,5 1,90 550
K 217,1 0,90 300
L 279,8 1,10 700
M 300,9 1,50 800
N 199,8 1,40 650
O 798,2 1,30 900
P 483,4 1,80 500
Q 518,9 2,40 400

Os resultados da regresso foram:
coeficiente desvio-padro estatstica t
constante 154,457 169,422 0,91
renda 0,371 0,204 1,82
tarifa 6,719 65,326 0,10
F = 1,65

255
O coeficiente da renda foi significante apenas a 10%, o coeficiente da tarifa (assim como o
intercepto) no foi significante (ainda bem, pois o sinal do coeficiente da tarifa supostamente seria
negativo). Alm disso, o teste F indica que a regresso no vlida. Mas estas concluses s so
vlidas se no existir heteroscedasticidade, o que ainda no sabemos.

Uma inspeo do grfico dos resduos sempre til nestes casos:
0 5 10 15 20
-300
-200
-100
0
100
200
300
400

No eixo horizontal, o nmero 1 corresponde cidade A, o 2 B e assim sucessivamente.

Novamente possvel visualizar uma discrepncia na disperso dos erros, ela parece maior
para as ltimas cidades da tabela do que para as primeiras. Para termos uma idia mais precisa,
usaremos o teste de White. Os dados para a regresso auxiliar so mostrados abaixo:

















cidade resduos resduos ao tarifa renda tarifa renda renda
256
quadrado ($/kwh)

($/ms)

ao
quadr.
ao
quadr.

tarifa
A -31,611 999,26 1,50 600 2,25 360000 900
B 78,731 6198,64 1,80 400 3,24 160000 720
C 1,300 1,69 2,00 700 4,00 490000 1400
D -23,408 547,92 1,20 300 1,44 90000 360
E 98,933 9787,70 1,30 600 1,69 360000 780
F -48,012 2305,17 1,60 700 2,56 490000 1120
G -165,961 27543,06 3,00 500 9,00 250000 1500
H -65,830 4333,65 2,50 600 6,25 360000 1500
I 13,762 189,41 2,20 850 4,84 722500 1870
J 73,066 5338,60 1,90 550 3,61 302500 1045
K -54,792 3002,16 0,90 300 0,81 90000 270
L -141,952 20150,50 1,10 700 1,21 490000 770
M -160,669 25814,64 1,50 800 2,25 640000 1200
N -205,404 42190,68 1,40 650 1,96 422500 910
O 300,845 90507,94 1,30 900 1,69 810000 1170
P 131,202 17214,03 1,80 500 3,24 250000 900
Q 199,800 39919,95 2,40 400 5,76 160000 960

coeficiente desvio-padro estatstica t
constante -41106,88 46462,86 -0,88
renda -67,308 127,155 -0,53
tarifa 81023,92 46659,85 1,74
renda ao quadrado 0,380 0,110 3,46
tarifa ao quadrado 9511,886 10013,56 0,95
renda tarifa -212,428 40,447 -5,25
R
2
= 0,7942

O valor encontrado para o R
2
foi alto, o que indica que h mesmo heteroscedasticidade.
Entretanto, o teste definitivo ser feito multiplicando-se o R
2
pelo nmero de observaes.

n R
2
= 17 0,7942 13,5

Como o valor limite
123
da distribuio
2
com 5 graus de liberdade e 5% de significncia
11,07, rejeitamos a hiptese nula de homoscedasticidade, ou seja, conclumos que o modelo
estimado apresenta, sim, heteroscedasticidade.

9.3.3 O que fazer quando h heteroscedasticidade?

Havendo heteroscedasticidade, o procedimento de correo mais simples se soubermos
(ou pelo menos, suspeitarmos) qual o padro da heteroscedasticidade.

Tomemos um modelo de regresso abaixo e suponhamos que exista heteroscedasticidade.

Y
i
=
1
+
2
X
2i
+
3
X
3i
+
i

Digamos que seja conhecido que a varincia dos erros dada por:

123
Limite superior, bem entendido. Portanto, na tabela, olharemos a coluna dos 95% se quisermos 5% de significncia.
257

var(
i
) =
2
i
= z
i

2


Ou seja, que a varincia, que no constante, uma varivel z
i
multiplicada por uma
constante. Se consegussemos eliminar a varivel z da varincia, teramos ento uma varincia
constante e a estaramos livres do problema da heteroscedsticidade.

Sabemos do captulo 2 que, para transformar uma varivel cuja varincia z
i

2
em outra
cuja varincia simplesmente z
i

2
, devemos dividi-la por
124

i
z . A soluo ento dividir todo o
modelo de regresso por
i
z :


i
i
z
Y
=
1
i
z
1
+
2
i
2i
z
X

+
3
i
3i
z
X
+
i


E ento, a varincia deste novo termo de erro
i
ser dada por:

var(
i
) = var(
i
i
z

) =
i
z
1
var(
i
) =
i
z
1

2
i
=
i
z
1
z
i

2
=
2


Que constante e, portanto, este modelo transformado ser homoscedstico (se, claro, a
varincia seguir de fato o padro indicado acima).

Quando estimamos o modelo transformado acima por mnimos quadrados, o mtodo ganha
um novo sobrenome
125
, ele chamado de mtodo dos mnimos quadrados ponderados.

Claro que o mtodo dos mnimos quadrados ponderados tambm pode ser usado quando o
padro conhecido o do desvio padro. Digamos que o desvio padro dos erros seja dado por:

dp(
i
) =
i
= z
i


E, neste caso, a soluo simplesmente dividir o modelo por z
i
:


i
i
z
Y
=
1
i
z
1
+
2
i
2i
z
X

+
3
i
3i
z
X
+
i


E o desvio padro do erro deste modelo ser dado por:

dp(
i
) = dp(
i
i
z

) =
i
z
1
dp(
i
) =
i
z
1

i
=
i
z
1
z
i
=

O desvio padro ser, ento, uma constante, e, obviamente, a varincia tambm, eliminando
a heteroscedasticidade.

Exemplo 9.3.3.1
Estime novamente a regresso do exemplo 9.3.2.1, corrigindo o problema da heteroscedasticidade.


124
Ressaltando que varincia lembra quadrados.
125
Ou, para aqueles que preferirem, este uma espcie diferente dentro do gnero dos mnimos quadrados.
258
Supostamente a causa da heteroscedasticidade naquele exemplo a de que a variao dos
salrios maior para maior tempo de estudo. Seria possvel imaginar que a varincia ou o desvio
padro sejam proporcionais ao tempo de estudo.

Se considerarmos o desvio padro proporcional aos anos de estudo, a soluo indicada
dividir toda a equao pelos anos de estudo. Neste caso, entretanto, a varivel a ser dividida a
prpria varivel dependente do modelo. Ou seja, o modelo inicial:

Y
i
=
1
+
2
X
i
+
i

Onde Y so os salrios e X os anos de estudo se torna:


i
i
X
Y
=
1
i
X
1
+
2
i
i
X
X
+
i


i
i
X
Y
=
1
i
X
1
+
2
+
i

Ento, para estimar os coeficientes
1
e
2
sem o problema da heteroscedasticidade devemos
estimar uma regresso simples onde a varivel dependente a razo salrio/anos de estudo e a
varivel dependente o inverso dos anos de estudo. Temos ento:






anos de
estudo (X)
salrios
(Y)
1/X Y/X
1 410,00 1,000000 410,0000
2 508,90 0,500000 254,4500
3 857,70 0,333333 285,9000
2 551,30 0,500000 275,6500
3 789,20 0,333333 263,0667
4 935,50 0,250000 233,8750
7 1529,30 0,142857 218,4714
8 1497,50 0,125000 187,1875
9 2317,70 0,111111 257,5222
11 2169,50 0,090909 197,2273
11 2596,80 0,090909 236,0727
13 2844,60 0,076923 218,8154
13 3391,00 0,076923 260,8462
14 2671,20 0,071429 190,8000
16 2653,80 0,062500 165,8625
16 2939,10 0,062500 183,6937
17 3437,00 0,058824 202,1765
18 4583,30 0,055556 254,6278
19 3559,30 0,052632 187,3316
19 4896,70 0,052632 257,7211
259

Os resultados desta nova regresso foram:
coeficiente desvio-padro estatstica t

2

198,869 9,126 21,79

1

188,745 29,716 6,35
F = 40,34

Os valores de

1
e

2
obtidos agora, por mnimos quadrados ponderados, representam uma
estimativa mais precisa dos dois coeficientes, alm do que possvel confiar nos testes de hipteses
tendo em vista que no h heteroscedasticidade. Bom, isto se no houver realmente. Para ter certeza
disso, usamos um dos testes vistos, por exemplo o teste de White. Antes disso, seria interessante
observarmos os resduos num grfico, depois de tabularmos os mesmos abaixo:

22,38656 -12,18006 20,04521 -26,97171
-38,79119 -7,361003 5,427646 -7,795078
24,11623 -35,27449 47,45842 45,27304
-17,59119 37,68168 -21,55068 -21,47127
1,282899 -18,80025 -44,80296 48,91820

0 5 10 15 20
-50
-40
-30
-20
-10
0
10
20
30
40
50


Como se v, pelo menos aparentemente, os resduos se mostram mais equilibrados no que
se refere a sua disperso. De fato, como podemos ver no resultado do teste de White abaixo:

Resultados da regresso auxiliar do teste de White
coeficiente desvio-padro estatstica t
constante 1172,566 337,864 3,47
varivel independente -2546,962 2502,224 -1,02
var. ind. ao quadrado 2026,627 2615,736 0,77
R
2
= 0,0758
260

n R
2
= 20 0,0758 1,52

Como o valor limite, a 5% de significncia, com 2 graus de liberdade, na distribuio
2

5,99, aceitamos a hiptese nula de homoscedasticidade para este modelo.

Quando no conhecemos o padro da heteroscedasticidade, as formas de correo so um
pouco mais complexas. H uma possibilidade, entretanto, que j foi at discutida no captulo
anterior: que, muitas vezes (mas nem sempre), quando o modelo nas variveis originais apresenta
heteroscedasticidade, o mesmo no ocorre se estas variveis estiverem em logaritmo.

Esta uma possibilidade, ento, a de calcular os logaritmos das variveis envolvidas na
regresso e testar novamente para a heteroscedasticidade. Temos ento um terceiro motivo
126
para o
uso de modelos com o logaritmo das variveis.

9.4 Violando a hiptese III: o problema da simultaneidade

A hiptese III estabelece que as variveis independentes, os regressores, os X, enfim, num
modelo de regresso devem ser fixos, isto , no estocsticos, no aleatrios. Uma verso mais
branda desta hiptese vista no captulo anterior estabelece que, se uma (ou mais) varivel
independente for estocstica, preciso que, pelo menos, ela no tenha correlao com o termo de
erro. E se tiver?

Isto remete a uma outra questo, que o que levaria uma varivel supostamente
127

independente a ter correlao com o termo de erro? A resposta a esta pergunta lembra uma antiga
propaganda de um biscoito em que se discutia a relao de causa e efeito: ele vende mais porque
est sempre fresquinho ou est sempre fresquinho porque vende mais?

Note que no modelo terico proposto pela propaganda, h duas funes: a quantidade de
biscoitos vendidos funo da probabilidade de que encontremos biscoitos fresquinhos; por outro
lado, o nmero de unidades fresquinhas ser maior se as vendas forem maiores, j que os
biscoitos no ficaro em estoque por muito tempo. H portanto, duas equaes simultneas, em
que as variveis estar sempre fresquinho e quantidade de vendas se determinam mutuamente.

Em Economia e outras cincias sociais estas situaes ocorrem freqentemente. Em
particular, o modelo de determinao de preos bsico na Economia, de oferta e demanda, um
destes casos: na oferta, o produtor ir produzir maior quantidade quanto maior for o preo; na
demanda, o consumidor comprar maiores quantidades quanto menor for o preo.

Assim, se o preo estiver muito baixo, muitos consumidores vo querer adquirir o produto,
mas a produo ser pequena, o que far com que o preo suba; da mesma forma, se a quantidade
produzida for muito grande, os produtores sero obrigados a baixar o preo para vender toda sua
produo. Preos e quantidades, portanto, se determinam mutuamente.

Suponhamos que a quantidade a ser produzida, chamada de quantidade ofertada, seja funo
nica e exclusivamente do preo:

Q
o
i
=
0
+
1
P
i
+
i



126
Os outros seriam um eventual melhor ajuste com logaritmos e a possibilidade de estimao direta das elasticidades.
127
Note que se ela tem, de fato, correlao com o erro, ela no to independente assim.
261
Onde
1
> 0.

J para os consumidores digamos que, alm do preo, eles levem em conta a renda na sua
deciso de consumir. Ento, para a quantidade demandada teremos:

Q
D
i
=
0
+
1
P
i
+
2
R
i
+
i


Onde
1
< 0.

Como no equilbrio de mercado, Q
O
= Q
D
, e o que observado so quantidades de equilbrio
(j que o que consumido tem que ser igual ao que vendido), no h ambigidade em chamar
ambas simplesmente de Q. Ento temos um sistema de duas equaes:

Q
i
=
0
+
1
P
i
+
i
(oferta)
Q
i
=
0
+
1
P
i
+
2
R
i
+
i
(demanda)

Onde as variveis Q e P se determinam mutuamente neste modelo, por isso so chamadas de
variveis endgenas. J R uma varivel que realmente independente no modelo, seu valor j
predeterminado, ento dizemos que uma varivel exgena.

A regresso por mnimos quadrados ordinrios das equaes acima levar a estimadores
viesados e inconsistentes, j que um dos regressores uma varivel endgena, determinada pelo
prprio modelo descrito pelas equaes acima, e portanto est correlacionado com o termo de erro.
Repare que a mesma situao do biscoito, pois, digamos que a renda dos consumidores aumente:
haver maior procura pelo produto, aumentando o preo; mas o preo maior estimula maior
produo. Quantidade afeta o preo que afeta a quantidade.

9.4.1 A questo da identificao

Partindo do sistema de equaes acima, vamos isolar as variveis endgenas. Se
igualarmos os Q das equaes de oferta e demanda (e omitindo os ndices i por simplicidade de
notao), teremos:

Q = Q

0
+
1
P + =
0
+
1
P +
2
R +

1
P
1
P =
0

0
+
2
R +
P =
1 1
0 0

+
1 1
2

R +
1 1



Encontramos uma equao que coloca o preo em funo apenas de variveis exgenas
(uma s, neste caso). Observando esta equao fica mais clara a correlao do preo com (os dois)
termos de erro.

Substituindo a equao do preo que acabamos de encontrar na equao de oferta:

Q =
0
+
1
P +
Q =
0
+
1
(
1 1
0 0

+
1 1
2

R +
1 1

) +

Fazendo as operaes adequadas chegamos a:

262
Q =
1 1
1 0 0 1

+
1 1
2 1

R +
1 1
1 1



Esta equao tambm coloca uma das variveis endgenas (Q) em funo da varivel
exgena R. Temos um novo sistema de equaes, que isola as variveis endgenas em cada
equao, e estas equaes so chamadas de equaes na forma reduzida. O sistema original de
equaes so a chamada forma estrutural do modelo.

As equaes na forma reduzida so, ento:
P =
1 1
0 0

+
1 1
2

R +
1 1


Q =
1 1
1 0 0 1

+
1 1
2 1

R +
1 1
1 1



Sistema que pode ser escrito de uma maneira mais simples como:

P =
1
+
2
R +
Q =
3
+
4
R +

Onde:

1
=
1 1
0 0

2
=
1 1
2

3
=
1 1
1 0 0 1

4
=
1 1
2 1


=
1 1


=
1 1
1 1



Note que as equaes na forma de reduzida no tm mais o problema de que um ou mais
regressores so correlacionados com o termo de erro e ento elas podem perfeitamente ser
estimadas por mnimos quadrados ordinrios. S que estimando as equaes na forma reduzida
encontraremos os e no os e . Fica o problema de, dados os parmetros da forma
reduzida, encontrar os da forma estrutural. Da equao de oferta:

Q =
0
+
1
P +

Substituindo pelas equaes da forma reduzida e omitindo os termos de erro (j que estamos
falando dos estimadores), temos:

3
+
4
R =
0
+
1
(
1
+
2
R)

3
+
4
R =
0
+
1

1
+
1

2
R

263
Lembrando que os estimadores j foram obtidos das equaes na forma reduzida por
mnimos quadrados ordinrios, nossas incgnitas so os . Para manter a igualdade acima teremos
que ter os coeficientes puros iguais em cada lado, bem como os coeficientes da renda:

3
=
0
+
1

4
=
1

2


Que um sistema de duas equaes e duas incgnitas que, no s tem soluo, como neste
caso at fcil de encontrar, pois, da segunda equao, temos:

1
=
2
4



E a, substituindo na primeira, temos:

3
=
0
+
1

3
=
0
+
2
4

0
=
3

2
4

1


Portanto, perfeitamente possvel encontrar os coeficientes da oferta a partir dos
coeficientes obtidos da estimao na forma reduzida. Vejamos se o mesmo ocorre para a demanda:

Q =
0
+
1
P +
2
R +

Fazendo o mesmo procedimento, isto , substituindo pelas equaes da forma reduzida e
omitindo os termos de erro:


3
+
4
R =

0
+

1
(
1
+
2
R) +

2
R

3
+
4
R =

0
+

1
+ (

2
+

2
)R

Que gera as equaes:

3
=

0
+

1


4
=

2
+

2


Temos agora trs incgnitas (

0
,

1
e

2
) e apenas duas equaes. No possvel
encontrar os coeficientes da demanda a partir dos coeficientes estimados na forma reduzida. Uma
outra maneira de dizer isto que no se pode identificar a equao de demanda, ou, simplesmente,
que a equao da demanda apresentada no modelo acima subidentificada.

A equao de oferta, ao contrrio, possvel de ser identificada. Dizemos que a equao de
oferta exatamente
128
identificada.

Para aqueles familiarizados com a teoria econmica a analogia clara. Como existe a renda
na equao da demanda, mudanas na mesma implicam em deslocamento da curva de demanda.

128
J veremos o motivo deste exatamente.
264
Deslocando a curva de demanda, podemos encontrar vrios pontos na curva de oferta e assim,
possvel identific-la.

Figura 9.4.1.1: uma curva de oferta e diferentes curvas de demanda (para diferentes nveis de renda) fazendo com que
vrios pontos da curva de oferta sejam identificados.

Note que, se alm da renda, a equao da demanda contemplasse tambm, digamos, o preo
de um bem substituto como varivel, seria mais uma varivel que poderia deslocar a demanda e
identificar a oferta. Neste caso, a equao de oferta estaria superidentificada (da o motivo de
termos usado o exatamente para qualificar a identificao da oferta).
Qual a regra? Temos duas variveis endgenas em cada equao. Para a equao ser
identificada, temos que ter uma varivel exgena fora da equao. D para estender o raciocnio
para trs variveis endgenas, a precisaramos duas exgenas fora e assim por diante. Podemos
generalizar da seguinte forma:

Se: nmero de variveis endgenas includas 1 = nmero de variveis exgenas excludas
ento: a equao exatamente identificada.

Se: nmero de variveis endgenas includas 1 > nmero de variveis exgenas excludas
ento: a equao subidentificada.

Se: nmero de variveis endgenas includas 1 < nmero de variveis exgenas excludas
ento: a equao superidentificada.

Mas ateno: isto se refere apenas condio necessria para a identificao, tambm
conhecida como questo de ordem. Veja que no exemplo visto acima de oferta e demanda, a
equao de oferta exatamente identificada desde que a renda de fato exista na equao da
demanda, isto , que o coeficiente
2
seja diferente de zero. Uma condio mais geral vista no
exemplo abaixo:

Exemplo 9.4.1.1
Dado o modelo abaixo:
(1) Y
t
= C
t
+ I
t
+ G
t

(2) C
t
=
0
+
1
Y
t
+
2
Y
t-1
+
3
r
t
+
1t

(3) I
t
=
0
+
1
r
t
+
2
Y
t
+
2t

(4) r
t
=
0
+
1
m
t
+
2
Y
t
+
3t

265

Onde Y a renda nacional, C o consumo, I o investimento, G so os gastos governamentais, r a
taxa de juros e m a quantidade de moeda emitida. O governo controla os seus gastos e a emisso
de moeda. Verifique a condio de identificao para cada uma das equaes.

A equao (1) uma identidade, no tem coeficientes a serem estimados, portanto no cabe
a questo da identificao para esta equao. Para as demais, sim, mas ficaremos restritos equao
(2), ficando as demais como exerccio.

O governo estipula quais sero seus gastos e a emisso de moeda, portanto estas so
variveis exgenas. As demais so endgenas, mas quando tomamos valores defasados das
mesmas, elas j esto, obviamente, predeterminadas (elas vem do passado, afinal), ento do ponto
de vista do modelo no perodo atual elas tm o mesmo comportamento que as variveis exgenas.
Ento temos:

variveis endgenas: Y
t
, C
t
, I
t
, r
t

variveis exgenas: G
t
, m
t
, Y
t-1


No caso da equao (2) temos:
variveis endgenas includas = 3
variveis exgenas excludas = 2

A equao, pela condio de ordem, exatamente identificada. Mas temos que verificar a
condio suficiente, o que mais complicado agora porque temos vrias equaes. Para isso vamos
montar uma tabela com as vrias equaes, onde preencheremos com uns e zeros para o caso
da varivel ser ou no includa na equao:

equao Y
t
C
t
I
t
G
t
r
t
m
t
Y
t-1
(1) 1 1 1 1 0 0 0
(2) 1 1 0 0 1 0 1
(3) 1 0 1 0 1 0 0
(4) 1 0 0 0 1 1 0

Montemos uma matriz a partir desta tabela com a seguinte regra: excluir a linha
correspondente a equao que estamos estudando e incluir as colunas correspondentes s variveis
excludas da equao (I
t
, G
t
e m
t
). Teremos uma matriz 33 mostrada abaixo:

1 1 0
1 0 0
0 0 1

No h nenhuma linha ou coluna cujos elementos sejam todos iguais a zero, ento a equao
est de fato identificada. Esta condio tambm conhecida como condio de posto. Se esta
condio no fosse verificada, a equao seria subidentificada.

9.4.2 Como estimar um modelo de equaes simultneas

266
Um mtodo j foi explicitado na seo anterior: estima-se os parmetros da forma reduzida.
Conhecida a relao entre os parmetros da forma reduzida e da forma estrutural, podemos
encontrar estes ltimos
129
. Este mtodo conhecido como dos mnimos quadrados indiretos.

Mas isto s pode ser feito para equaes exatamente identificadas. Se a equao for
subidentificada, no d para estimar mesmo. Mas se a equao for superidentificada, o que, em
princpio, uma coisa boa, pois h mais informao, no d para encontrar uma relao um entre
os parmetros da forma estrutural e reduzida que nos d uma nica soluo.

Um mtodo que pode ser estendido a equaes superidentificadas o dos mnimos
quadrados de dois estgios. Consiste em estimar as equaes da forma reduzida. A, encontrar os
valores estimados para as variveis endgenas. Como so valores estimados, no incluem os
resduos e portanto, no tm correlao com o termo de erro. Ento, usam-se estes valores
estimados como substitutos das variveis endgenas que, no modelo estrutural, aparecem no lado
direito das equaes.
Exemplo 9.4.2.1
Dado o modelo estrutural para o mercado de um bem:
Q
i
=
0
+
1
P
i
+
2
M
i
+
3
S
i
+
i
(oferta)
Q
i
=
0
+
1
P
i
+
2
R
i
+
i
(demanda)

Onde Q a quantidade comercializada, P o preo, R a renda mdia dos consumidores, M o
preo da matria prima e S so os salrios mdios pagos aos trabalhadores que trabalham na
produo deste bem. Com os dados da tabela abaixo, estime os parmetros do modelo

Tabela 9.4.2.1
Q P R M S
98 10,00 399,20 200,00 410,00
99 10,40 480,80 195,00 405,00
102 10,30 473,60 189,00 405,00
101 10,50 485,60 185,00 410,00
104 9,80 498,40 181,00 350,00
103 9,90 504,00 176,00 360,00
104 10,10 525,60 169,00 370,00
100 10,50 562,40 165,00 350,00
100 9,60 472,80 160,00 355,00
102 9,10 411,20 154,00 395,00
95 9,30 300,80 152,00 495,00
92 9,88 315,20 144,00 555,00
94 10,30 376,80 140,00 545,00
98 9,90 424,80 135,00 495,00
105 9,50 524,80 131,00 390,00
100 9,85 540,80 126,00 375,00
103 8,60 471,20 120,00 345,00
100 10,40 535,20 115,00 435,00
105 10,55 585,60 112,00 455,00


129
importante ressaltar que, em mtodos de equaes simultneas, no possvel, em geral, obter estimadores no
viesados, o que se consegue eliminar a inconsistncia.
267
H duas variveis endgenas (Q e P) e trs variveis exgenas (S, M e R). fcil verificar
que a equao de demanda superidentificada e a de oferta exatamente identificada.

As equaes na forma reduzida so:

P =
1
+
2
R
i
+
3
M
i
+
4
S
i
+
i

Q =
5
+
6
R
i
+
7
M
i
+
8
S
i
+
i


Os resultados da estimao por mnimos quadrados ordinrios das equaes na forma
reduzida foram:

P = -0,683 + 0,00867R
i
+ 0,0148M
i
+ 0,0102S
i

(0,850) (0,00075) (0,0017) (0,0009)
Q = 103,062 + 0,0215R
i
0,0107M
i
0,0269S
i

(10,561) (0,0093) (0,0207) (0,0116)

Os valores entre parnteses so os desvios padro.

A partir destas equaes, calculamos as estimativas de Q e P, que so includas na tabela
abaixo:

Q


R M S
98,4643 9,9287 399,20 200,00 410,00
100,4062 10,5109 480,80 195,00 405,00
100,3157 10,3597 473,60 189,00 405,00
100,4819 10,4557 485,60 185,00 410,00
102,4148 9,8940 498,40 181,00 350,00
102,3195 9,9708 504,00 176,00 360,00
102,5895 10,1567 525,60 169,00 370,00
103,9616 10,2121 562,40 165,00 350,00
101,9549 9,4125 472,80 160,00 355,00
99,6186 9,1986 411,20 154,00 395,00
94,5756 9,2343 300,80 152,00 495,00
93,3558 9,8542 315,20 144,00 555,00
94,9917 10,2268 376,80 140,00 545,00
97,4227 10,0577 424,80 135,00 495,00
102,4409 9,7919 524,80 131,00 390,00
103,2421 9,7033 540,80 126,00 375,00
102,6180 8,7044 471,20 120,00 345,00
101,6246 10,1053 535,20 115,00 435,00
102,2015 10,7023 585,60 112,00 455,00


Como o preo a nica varivel que aparece do lado direito da equao,Estes valores
estimados que sero utilizados para a estimao do modelo estrutural, cujos resultados so
mostrados abaixo:

Q
i
= 104,756 + 2,479P
i
0,0523M
i
0,0474S
i
(oferta)
(11,575) (1,254) (0,0097) (0,023)

Q
i
= 101,225 2,0568P
i
+ 0,0416R
i


(demanda)
268
(9,085) (0,984) (0,0063)

Note que os sinais obtidos foram os esperados e os coeficientes encontrados foram
significantes a, pelo menos, 10% (verifique!).

Exerccios
Enunciado para os exerccios 1 a 3: dados os modelos estimados abaixo, verifique (baseado em
intuio ou teoria) se os sinais obtidos so adequados bem como outras evidncias de
multicolinearidade e identifique as possveis causas e eventuais correes:

1. CONSENER = 234 - 0,8 POP + 0,2 CASAS + 1,2 RENDA - 12,1 PREO
(176) (0,7) (0,12) (0,7) (9,3)
R
2
= 0,92
n = 20 observaes
CONSENER = consumo de energia eltrica
POP = populao
CASAS = nmero de residncias
RENDA = renda mdia da populao
PREO = preo do kwh de energia eltrica

2. SALRIO = 23,5 - 1,89 PONTOS + 8,9 REB + 1,4 ASSIST + 0,89 ROUB +12,1 PERC
(18,7) (2,03) (4,0) (0,4) (0,75) (10,8)
F = 45,21
SALRIO = salrio pago em uma liga profissional de basquete
PONTOS = nmero de pontos por jogo
REB = nmero de rebotes por jogo
ASSIST = nmero de assistncias por jogo
ROUB = nmero de roubadas de bola por jogo
PERC = aproveitamento percentual dos arremessos cesta

3. CRIME = 18,9 - 2,91 REA + 0,31 RENDA + 0,78 POP - 3,1 ESCOLA
(11,2) (1,76) (0,20) (0,49) (2,1)
R
2
= 0,86
CRIME = ndice de criminalidade em uma cidade
REA = rea total da regio urbana em km
2

RENDA = renda per capita da cidade
POP = populao da cidade
ESCOLA = nmero mdio de anos de escolaridade da populao

4. Dados os valores de Y, X, Z e W na tabela abaixo:
Y X Z W
13,0 17,16 2,3 0,56
14,0 8,14 4,5 0,34
12,0 10,67 6,7 0,67
11,5 -3,39 8,9 0,21
16,0 -2,01 10,1 0,39
17,0 0,31 12,3 0,71
18,8 -15,02 14,4 0,18
15,4 -6,83 16,5 0,77
13,9 -16,57 17,8 0,43
16,2 -20,32 18,1 0,28
a) calcule os coeficientes de correlao simples entre X, W e Z.
269
b) possvel estimar o modelo de regresso Y
i
=
0
+
1
X
i
+
2
Z
i
+
1
W
i
+
i
? Justifique.
(Sugesto: faa regresses utilizando as variveis X, Z e W).

5. Em uma cidade, foram obtidos os valores da tabela abaixo. Faa uma regresso que tome como
varivel dependente o preo do imvel e como variveis explicativas as variveis distncia ao
centro, nmero de dormitrios, rea do imvel e renda mensal do chefe da famlia. Feita esta
estimao, calcule as correlaes amostrais entre as variveis explicativas; com estes ltimos
resultados, faa alteraes no modelo que voc julgar relevante e discuta os resultados obtidos.

Preo (R$) distncia (km) dormitrios rea (m
2
) renda mensal (R$)
107135 1 2 94 3537
107750 2 2 96 3174
108573 2 3 116 3072
99151 3 4 149 2683
85663 3 2 98 2512
80614 3 3 115 2580
74624 4 2 93 2031
64195 5 3 119 1549
40950 6 4 142 1104
82479 4 2 93 2119
41926 6 3 122 1068
20386 7 1 72 549
48141 6 1 72 1043
30062 7 2 97 671
65520 5 4 148 1521

6. Dados os resultados da estimao de um modelo de regresso abaixo, realizada com uma amostra
com 25 observaes:
coeficiente desvio-padro
constante 123,4 11,56
X
1
-12,43 11,41
X
2
0,89 0,77
F = 12,8
a) Teste a significncia dos parmetros.
b) Teste a validade da regresso.
c) Comente os resultados.

7. Com os dados da tabela abaixo, estime o consumo em funo da taxa de juros e da renda. Teste a
existncia de autocorrelao e, se for o caso, estime novamente o modelo corrigindo o problema



ano juros renda consumo
1974 11 500 409,0
1975 12 550 440,9
1976 13 540 424,5
1977 9 580 494,2
1978 8 530 468,2
270
1979 7 500 451,0
1980 14 510 385,4
1981 16 520 366,1
1982 18 550 361,2
1983 14 570 424,2
1984 13 580 445,8
1985 11 590 471,2
1986 10 610 488,1
1987 7 620 526,5
1988 5 630 561,7
1989 8 650 549,7
1990 9 660 550,1
1991 11 650 517,5
1992 12 630 482,2
1993 11 610 482,3
1994 10 600 478,3
1995 9 620 496,6
1996 7 630 534,9
1997 9 620 514,1

8. Use o teste de White para verificar se h heteroscedasticidade no exemplo 9.3.2.1.

9. No exemplo 9.3.2.2 suponha que sejam dadas as populaes das cidades:
cidade populao
A 100.000,00
B 120.000,00
C 130.000,00
D 140.000,00
E 160.000,00
F 210.000,00
G 250.000,00
H 340.000,00
I 450.000,00
J 570.000,00
K 620.000,00
L 800.000,00
M 950.000,00
N 1.020.000,00
O 1.300.000,00
P 1.400.000,00
Q 1.600.000,00
Use o teste de Goldfeld-Quandt para testar a heteroscedasticidade deste modelo, usando a
populao como separador.

10. Ainda no exemplo 9.3.2.2., faa uma estimao corrigindo o problema da heteroscedasticidade,
admitindo-se que a varincia (ou o desvio padro) seja proporcional populao da cidade.

11. Suponha um modelo de oferta e demanda dado por:
Q
t
=
0
+
1
P
t
+
2
P
t-1
+
t
(oferta)
Q
t
=
0
+
1
P
t
+
2
R
t
+
t
(demanda)
271
Onde Q so as quantidades, P o preo e R a renda. Classifique cada equao em relao
identificao.

12. No exemplo 9.4.1.1, classifique as demais equaes em relao identificao.

13. No exemplo 9.4.2.1, suponha que a varivel salrios no tenha sido dada. Estime este novo
modelo por mnimos quadrados indiretos e mnimos quadrados de dois estgios e comente os
resultados.

14. Assinale verdadeiro ou falso:
a) Quando h correlao entre as variveis, ainda que no perfeita, embora a estimao seja
possvel, devemos fazer necessariamente as devidas correes.
b) Como as varincias so maiores quando h multicolinearidade, isto implica que os estimadores
no so eficientes.
c) Se os coeficientes da regresso apresentam desvios-padro muito altos, ento certamente h
multicolinearidade.
d) A multicolinearidade mais um problema numrico, com os dados, do que um problema no
modelo propriamente dito.
e) Na presena de autocorrelao nos resduos, o estimador de mnimos quadrados ordinrios ser
sempre no viesado.
f) Na presena de heteroscedasticidade, o estimador de mnimos quadrados ordinrios ser viesado.
g) Na presena de autocorrelao nos resduos, o estimador de mnimos quadrados ordinrios ser
eficiente.
h) Na presena de heteroscedasticidade, o estimador de mnimos quadrados ordinrios ser
eficiente.
i) Com o teste de Durbin-Watson sempre possvel testar autocorrelao, desde que os erros sigam
um processo do tipo AR(1).
j) O mtodo dos mnimos quadrados ponderados recomendado quando h heteroscedasticidade.
k) Havendo simultaneidade, o estimador de mnimos quadrados ordinrios no viesado, porm
consistente.
l) O mtodo dos mnimos quadrados indiretos e de dois estgios produz estimadores no viesados.
Apndice 9.A O mtodo dos mnimos quadrados
generalizados

Como vimos, as hipteses IV e V:

IV) var(
i
) =
2
(constante)
V) E(
i

j
) = 0, i j (erros no so autocorrelacionados).

Podem ser resumidas, em notao matricial, como:

var(e) =
2
I

Um modelo que no siga estas hipteses pode ter como matriz de varincia e covarincia do
vetor de erros, uma matriz qualquer, que chamaremos de .

var(e) =

272
J sabemos que o estimador de mnimos quadrados, nestas condies, ineficiente. Para
encontrar um estimador eficiente para esta situao, suponha uma matriz T tal que:

TT = I


Expresso que tambm pode ser escrita assim:

TT =
-1

O modelo de regresso linear, em notao matricial, :

Y = X + e

Pr-multiplicando a equao por T, temos:

TY = TX + Te

A varincia do erros deste novo modelo pode ser escrita como:

var(e) = E(TeeT) = TT = I

Que um caso particular da hiptese usual (em que
2
= 1). Portanto, o modelo
transformado pode ser estimado por mnimos quadrados ordinrios. O estimador usual de mnimos
quadrados ordinrios :

= (XX)
-1
XY

Mas, neste modelo transformado, no temos X e Y, mas TX e TY, ento:

= (XTTX)
-1
XTTY

= (X
-1
X)
-1
X
-1
Y

Este estimador, por levar em conta um caso mais geral em que pode haver autocorrelao
e/ou heteroscedasticidade conhecido por estimador de mnimos quadrados generalizados.

No uma grande panacia, entretanto, pois em geral exige-se o conhecimento da estrutura
da matriz . Estim-la no uma soluo vivel, pois uma matriz quadrada de ordem n, o que
significa que, numa amostra com n observaes, teramos n
2
elementos da matriz a serem
estimados.

Nos casos vistos neste captulo, por exemplo uma heteroscedasticidade em que saibamos
que a varincia dos erros seja dada por z
i

2
, em que os valores de z sejam conhecidos, a matriz
ser dada por:

=
2

(
(
(
(

n
2
1
z ... 0 0
... ... ... ...
0 ... z 0
0 ... 0 z


273
Da mesma forma, se houver autocorrelao representada por um processo autorregressivo de
ordem 1, com coeficiente de correlao , a matriz ser dada por:

=
2

(
(
(
(
(
(

1 ...
... ... ... ... ...
... 1
... 1
... 1
3 2 1
3 2
2
1 2
n n n
n
n
n






E assim, conhecidos os padres da heteroscedasticidade, ou da autocorrelao, ou de ambas,
podemos montar a matriz e fazer diretamente a estimao por mnimos quadrados
generalizados e obter um estimador que tenha varincia mnima.

274
275
CAPTULO 10 SRIES DE TEMPO


Neste captulo nos dedicaremos introduo ao tratamento de sries temporais e, a partir
delas, a previso de valores futuros de uma varivel a partir de valores passados da mesma.

10.1 Mtodos ingnuos de previso

O mtodo mais simples de previso de uma varivel aquele em que usamos para a
previso justamente o ltimo valor da varivel. Por exemplo o valor de uma ao nos ltimos cinco
dias foi: 23, 22, 25, 24 e 23. Ento a nossa previso para o valor da ao ser 23, que justamente o
ltimo valor da srie.

O pressuposto deste mtodo de previso, na verdade, no to ingnuo assim. Este tipo de
mtodo s ser til se o comportamento da varivel for alguma coisa como o modelo mostrado
abaixo:

y
t
= y
t-1
+
t


Ou seja, o valor da varivel no perodo t o valor que ela tinha no perodo t 1 mais um
componente de erro. Este processo conhecido como random walk ou, traduzindo, passeio
aleatrio.

O termo de erro tem, eventualmente, as mesmas caractersticas do erro do modelo de
regresso linear (homoscedstico, no autocorrelacionado, etc.). Mas, principalmente, tem mdia
zero. Vale dizer que no um componente sistemtico, mas aleatrio, que pode subir, descer (ser
positivo, negativo) ao sabor do acaso. um componente que, por suas caractersticas, no
previsvel.

Desta forma, a melhor forma de prevermos y
t
mesmo atravs do valor de y
t-1
. E, de fato, se
aplicarmos o operador esperana na equao acima, teremos:

E(y
t
) = E(y
t-1
+
t
)
E(y
t
) = E(y
t-1
) + E(
t
)

Como y
t-1
j conhecido
130
e o termo erro tem mdia zero:

E(y
t
) = y
t-1
+ 0
E(y
t
) = y
t-1


Portanto, a melhor previso para y
t
realmente y
t-1
, isto, claro, se a varivel y
t
tiver um
comportamento de um passeio aleatrio.

10.2 Sries estacionrias e regresso espria
Uma srie que segue um comportamento como o do item anterior, isto :

y
t
= y
t-1
+
t



130
Com isto em vista, o mais correto deveria ser E(y
t
| y
t-1
), ou seja, a esperana de y
t
dado y
t-1
, j que este conhecido.
276
dita uma srie no estacionria, porque se num dado perodo ocorre um choque, que
ser dado por um valor de
t
diferente de zero, este valor fica incorporado eternamente nos valores
futuros da varivel y
t
. Se o processo, no entanto, for dado por:

y
t
= 0,8y
t-1
+
t


Um choque que ocorra num determinado ano ser amortecido nos anos seguintes. Suponha
que o valor de y
t
vinha sendo zero at que, em 1990 houve um choque positivo
t
= 20, isto , em
1990, o valor de y
t
foi 20. O que ocorrer nos anos seguintes, admitindo que
t
seja igual a zero
para os demais anos?

y
1988
= 0
y
1989
= 0,8y
1988
+
1989
= 0 + 0 = 0
y
1990
= 0,8y
1989
+
1990
= 0 + 20 = 20
y
1991
= 0,8y
1990
+
1991
= 0,820 + 0 = 16
y
1992
= 0,8y
1991
+
1992
= 0,816 + 0 = 12,8
y
1993
= 0,8y
1992
+
1993
= 0,812,8 + 0 = 10,24
y
1994
= 0,8y
1993
+
1994
= 0,810,24 + 0 = 8,192
y
1995
= 0,8y
1994
+
1995
= 0,88,192 + 0 = 6,5536
y
1996
= 0,8y
1995
+
1996
= 0,86,5536 + 0 = 5,24288

E assim sucessivamente. Verificamos que y
t
tende a voltar para o seu valor histrico
(zero), pois o efeito do choque dissipado ao longo dos anos, o que no ocorre com o passeio
aleatrio. A srie dita estacionria.

Mais precisamente, uma srie dita estacionria
131
se acontecer:

E(y
t
) = constante
var(y
t
) = constante

E a cov(y
t
, y
t-s
), s0, s depende do valor de s, isto , s depende do tamanho da defasagem,
mas no do perodo t. Por exemplo:

cov(y
1998
, y
1996
) = cov(y
1997
, y
1995
) = cov(y
1996
, y
1994
) = ...

Mais adiante veremos como testar se uma srie ou no estacionria. Para o processo
apresentado:
y
t
= 0,8y
t-1
+
t


Temos que:

E(y
t
) = E(0,8y
t-1
+
t
)
E(y
t
) = E(0,8y
t-1
)

+ E(
t
)
E(y
t
) = 0,8E(y
t-1
)

+ E(
t
)

Como a srie estacionria e E(
t
) = 0:

E(y
t
) = 0,8E(y
t
)

+ 0

131
A definio apresentada para as chamadas sries fracamente estacionrias. A definio de sries fortemente
estacionrias inclui sries que possuem mdia ou varincia infinitas.
277
0,2E(y
t
) = 0
E(y
t
) = 0

A mdia do processo zero. claro que, para ser estacionria, a srie no precisa ter mdia
zero, basta ser constante. Um processo semelhante com mdia diferente de zero dado por:

y
t
= y
0
+ 0,8y
t-1
+
t


E, neste caso, a mdia do processo ser dada por (verifique!):

E(y
t
) = 5y
0


A varincia dada por:

var(y
t
) = var(0,8y
t-1
+
t
)
var(y
t
) = var(0,8y
t-1
) + var(
t
)
var(y
t
) = 0,64var(y
t-1
) + var(
t
)

De novo, sendo a srie estacionria e var(
t
) =
2

var(y
t
) = 0,64var(y
t
) +
2

0,36var(y
t
) =
2

var(y
t
) =
36 , 0
1

2

var(y
t
) 2,77
2



Alguma ateno especial deve ser dada a sries que no so estacionrias, especialmente
quando queremos fazer uma regresso entre elas, como no exemplo a seguir.

Exemplo 10.2.1
A tabela a seguir mostra o percentual de residncias atendidas por servios de esgoto na Meltvia e
as exportaes de trigo do Kazimenisto em milhares de toneladas. Estime a regresso com as
exportaes de trigo como varivel dependente e o percentual de residncias com esgoto como
varivel independente.

Tabela 10.2.1
ano

% de residncias
atendidas por esgoto (X)
exportaes de
trigo (Y)
1971 21,15 183,6
1972 22,5 198,0
1973 24,3 234,0
1974 27,9 252,0
1975 30,6 271,8
1976 32,4 291,6
1977 35,1 316,8
1978 36,9 336,6
1979 39,6 361,8
1980 41,4 379,8
1981 43,2 394,2
1982 45,9 415,8
278
1983 48,6 439,2
1984 51,3 460,8
1985 54,9 500,4
1986 56,7 518,4
1987 57,6 532,8
1988 60,3 558,0
1989 63,9 577,8
1990 64,8 613,8
1991 67,5 666,0
1992 68,4 685,8
1993 69,3 709,2
1994 70,2 739,8
1995 72,0 757,8
1996 72,9 795,6
1997 74,7 820,8
1998 77,4 840,6
1999 78,3 865,8
2000 79,2 882,0

Os resultados da regresso foram:

Y = 93,64 + 11,59 X
(20,08) (0,36)
R
2
= 0,9739
F = 1043,8
DW = 0,1336

Os valores entre parnteses so os desvios padro.

O resultado da regresso foi, em princpio, excepcional. As estatsticas t foram muito altas,
especialmente para o coeficiente da varivel X (32,3!!) mostrando que ele , altamente significante.
O R
2
prximo de 1 e o valor calculado de F tambm foi muito alto.

O ministro da agricultura do Kazimenisto, ao tomar conhecimento destes resultados,
deveria tomar providncias no sentido de estimular a expanso do servio de esgoto na Meltvia,
pois isto aparentemente tem um forte efeito sobre as exportaes de trigo de seu pas.

claro que isto um absurdo. Apesar dos resultados aparentemente muito bons, no
possvel que o nmero de casas atendidas por esgoto na Meltvia tenha algum efeito sobre as
exportaes do Kazimenisto, quanto mais ser to determinante quanto indicam os resultados
obtidos.

H uma dica que alguma coisa est errada: a estatstica de Durbin-Watson encontrada foi
muito prxima de zero, indicando a presena de uma autocorrelao positiva nos erros.

Se observarmos o comportamento das duas variveis num grfico:

279
0
20
40
60
80

grfico 10.2.1
evoluo do percentual de residncias com esgoto na Meltvia

0
200
400
600
800
1000

grfico 10.2.2
evoluo das exportaes de trigo no Kazimenisto

Pelos grficos, podemos perceber que ambas as variveis no so estacionrias, e o
resultado obtido, na verdade, tpico de quando fazemos uma regresso utilizando duas variveis
no estacionrias. Mesmo que uma varivel no tenha nada a ver com a outra, o R
2
ser muito
prximo de 1, as estatsticas t e F sero muito grandes (mas, evidentemente, no tero nenhum
significado
132
) e a estatstica DW ser prxima de zero. Este tipo de regresso conhecido como
regresso espria.


10.3 Procedimento de Box e Jenkins (modelos ARIMA)

O procedimento de Box e Jenkins
133
consiste em explicar uma varivel atravs de valores
passados dela mesma e de valores passados de choques. Como nenhuma outra varivel est
explicitamente envolvida no modelo, este chamado de univariado.

10.3.1 Modelos

Uma classe dos modelos de Box e Jenkins aquela em que a varivel explicada
unicamente por valores passados dela mesma, como este:

y
t
= y
t-1
+
t


132
Mas h excees como veremos ao longo deste captulo.
133
Este nome dado a uma srie de processos que foram sintetizados numa nica metodologia por Box e Jenkins (Box,
G. e G. Jenkins. Time Series Analysis, Forecasting and Control. So Francisco: Holden Day, 1976).
280

Neste caso o intercepto pode ou no ser includo, como vimos, dependendo da mdia do
processo ser (ou no) zero.

Este processo uma regresso desta varivel por ela mesma, portanto, como j vimos, um
processo auto-regressivo. E, como temos uma defasagem da varivel, um processo auto-
regressivo de ordem 1 ou AR(1).

O erro
t
representa os choques que podem ocorrer sobre a varivel y
t
e tem todas as
caractersticas das hipteses bsicas de um modelo de regresso linear, ou seja, ele mesmo um
processo estacionrio com mdia zero com o detalhe de no apresentar autocorrelao. Um
processo deste tipo conhecido como rudo branco.

Podemos ter tambm um processo AR(2):

y
t
=
1
y
t-1
+
2
y
t-2
+
t


Ou mesmo um processo auto-regressivo de qualquer ordem, por exemplo, um AR(p):

y
t
=
1
y
t-1
+
2
y
t-2
+ ... +
p
y
t-p
+
t


Podemos escrever este processo de maneira mais resumida se utilizarmos o operador
134
L,
definido da seguinte forma:

Ly
t
= y
t-1

L
2
y
t
= LLy
t
= Ly
t-1
= y
t-2

L
n
y
t
= y
t-n


Desta forma, o processo AR(p) pode ser escrito assim:

y
t

1
y
t-1

2
y
t-2
...
p
y
t-p
=
t

y
t

1
Ly
t

2
L
2
y
t
...
p
L
P
y
t
=
t


Embora o operador L no seja um nmero (ele, sozinho, no vale nada), ele pode ser tratado
algebricamente como se fosse um nmero. Se colocarmos y
t
em evidncia:

(1
1
L
2
L
2

...
p
L
p

) y
t
=
t


Temos, multiplicando y
t
, um polinmio de ordem p na varivel L, que podemos chamar
simplesmente de
p
(L). Assim:


p
(L) 1
1
L
2
L
2

...
p
L
p


E ento, podemos escrever o modelo do tipo AR(p) de uma maneira mais sinttica como:


p
(L) y
t
=
t


Uma forma diferente quando o processo uma combinao de choques passados:

y
t
=
t

t-1


134
Do ingls last. Alguns autores utilizam B (de back).
281

Neste caso, a varivel y
t
uma combinao de um choque presente com um choque passado,
especificamente um choque ocorrido no perodo imediatamente anterior. Este processo conhecido
como de mdias mveis, neste caso, de ordem 1, o que abreviado
135
por MA(1).

Um processo MA(2) seria dado por:
y
t
=
t

1

t-1

2

t-2


E um processo de mdias mveis de ordem qualquer, digamos, um MA(q) seria assim:
y
t
=
t

1

t-1

2

t-2
...
q

t-q


Da mesma forma que um processo auto-regressivo, podemos utilizar o operador L:

y
t
=
t

1
L
t

2
L
2

t
...
q
L
q

t


Colocando
t
em evidncia:

y
t
=
t
(1
1
L
2
L
2
...
q
L
q
)

E, de novo, temos um polinmio em L, desta vez de ordem q, que denominaremos
q
(L):


q
(L) 1
1
L
2
L
2
...
q
L
q


E o processo MA(q) pode ser escrito como se segue:

y
t
=
q
(L)
t


Podemos ainda ter processos que so combinaes de processos auto-regressivos e de
mdias mveis, como por exemplo:

y
t
= y
t-1
+
t

t-1


Que uma combinao de um processo auto-regressivo de ordem 1 e de mdias mveis de
ordem 1, que conhecido como ARMA(1,1) sendo o primeiro nmero a ordem do AR e o segundo
a ordem do MA.

Assim, um ARMA(2,3) ser dado por:

y
t
=
1
y
t-1
+
2
y
t-2
+
t

1

t-1

2

t-2

3

t-3

E, genericamente, um ARMA(p,q) seria:

y
t
=
1
y
t-1
+
2
y
t-2
+ ... +
p
y
t-p
+
t

1

t-1

2

t-2
...
q

t-q


Ou ainda:
y
t

1
y
t-1

2
y
t-2
...
p
y
t-p
=
t

1

t-1

2

t-2
...
q

t-q

y
t

1
Ly
t

2
L
2
y
t
...
p
L
P
y
t
=
t

1
L
t

2
L
2

t
...
q
L
q

t

(1
1
L
2
L
2

...
p
L
P
) y
t
=
t
(1
1
L
2
L
2
...
q
L
q
)

Ou, simplesmente:

135
Do ingls moving average.
282

p
(L) y
t
=
q
(L)
t


Ainda temos que prestar ateno a um detalhe: se, nestes processos, a varivel explicada
por valores passados dela mesma (e/ou choques passados), convm que ela seja uma varivel
estacionria.

Quando a varivel y
t
no estacionria, podemos tentar definir uma nova varivel z
t
como
sendo a primeira diferena de y
t
, isto :

z
t
= y
t
y
t-1
= y
t


Se
136
y
t
no estacionria, mas z
t
, diz-se que y
t
integrada
137
de ordem 1, ou I(1). s
vezes, tomar a primeira diferena no suficiente e, para obtermos uma varivel estacionria, temos
que tomar a segunda diferena (a diferena da diferena) , ou seja:

z
t
=
2
y
t
= ( y
t
) = y
t
y
t-1


Se s assim obtemos uma varivel estacionria, ento y
t
dita integrada de ordem 2, I(2).

Tomamos quantas diferenas forem necessrias at obter uma varivel estacionria. Se
forem d diferenas, ento y
t
dita I(d). Evidentemente, uma varivel dita I(0) uma varivel
estacionria.

Se y
t
no uma varivel estacionria, mas a sua d-sima diferena , ento temos:

z
t
=
d
y
t


E, se esta varivel z
t
segue um processo ARMA(p,q), isto :

z
t
=
1
z
t-1
+
2
z
t-2
+ ... +
p
z
t-p
+
t

1

t-1

2

t-2
...
q

t-q


Ento y
t
segue um processo ARIMA(p,d,q) onde a letra I do meio (e o nmero d tambm) se
referem ordem de integrao. Isto , y
t
integrada de ordem d, e a sua d-sima diferena segue um
processo combinado auto-regressivo (de ordem p) e de mdias mveis (de ordem q). O processo
para y
t
ser dado por:

d
y
t
=
1

d
y
t-1
+
2

d
y
t-2
+ ... +
p

d
y
t-p
+
t

1

t-1

2

t-2
...
q

t-q


Exemplo 10.3.1.1
Suponha que uma varivel y
t
segue um processo ARIMA(1,1,2). Escreva este processo em sua
forma analtica.

A varivel y
t
integrada de ordem 1 ( I(1)). Portanto, a varivel z
t
dada por:

z
t
= y
t


estacionria e segue um processo ARMA(1,2), ou seja:


136
Note que 1 L
137
uma idia semelhante do clculo integral, porm em termos discretos, pois y
t
obtido a partir da soma de z
t
.
283
z
t
= z
t-1
+
t

1

t-1

2

t-2


Portanto:
y
t
= y
t-1
+
t

1

t-1

2

t-2



10.3.2 Identificao dos modelos ARIMA

Antes de estimar um modelo ARIMA preciso descobrir (ou, pelo menos, ter uma boa
idia) de qual o processo a ser estimado. Isto feito atravs das funes de autocorrelao
(FAC) e autocorrelao parcial (FACP).

Vejamos o comportamento destas funes para um AR(1). Isto , supomos que o processo
seja do tipo:

y
t
= y
t-1
+
t


Em sendo estacionria a covarincia (e portanto o coeficiente de correlao) entre a varivel
e valores defasados dela mesma constante se for dado o nmero de defasagens. Portanto, teremos
um valor para a autocorrelao para cada nmero de defasagens, isto :


1
= corr(y
t
, y
t-1
)

2
= corr(y
t
, y
t-2
)
... ...

k
= corr(y
t
, y
t-k
)

E, como sabemos, o coeficiente de correlao dado por:

k
= corr(y
t
, y
t-k
) =
) var( ) var(
) , cov(
k - t t
k - t t
y y
y y
=
) var( ) var(
) , cov(
t t
k - t t
y y
y y
=
) var(
) , cov(
t
k - t t
y
y y


J que, em se tratando de uma varivel estacionria, a varincia constante.

Fazendo:


k
= cov(y
t
, y
t-k
) e

0
= var(y
t
)

Ento:

k
=
0

k


A varincia de y
t
dada por:

var(y
t
) = var( y
t-1
+
t
)
var(y
t
) = var( y
t-1
) + var(
t
)
var(y
t
) =
2
var(y
t-1
) + var(
t
)
var(y
t
) =
2
var(y
t
) + var(
t
)
(1
2
)var(y
t
) =
2


0
= var(y
t
) =
2
2
1


284

Ento, para sabermos como se comporta a funo de autocorrelao, basta sabermos como
se comporta autocovarincia, isto ,
1
,

2
,
3
, etc.


k
= cov(y
t
, y
t-k
) = E(y
t
y
t-k
) E(y
t
)E(y
t-k
)

E, como o processo tem mdia zero:

k
= E(y
t
y
t-k
)

Portanto:

1
= E(y
t
y
t-1
)

Sendo que:
y
t
= y
t-1
+
t

y
t-1
= y
t-2
+
t-1


Ento:

1
= E(y
t
y
t-1
) = E[( y
t-1
+
t
) y
t-1
)

1
= E[ y
t-1
2
+
t
y
t-1
]

1
= E( y
t-1
2
) + E(
t
y
t-1
)

1
= E(y
t-1
2
) + 0

1
= var(y
t
) =
0


Assim sendo:

1
=

O mesmo procedimento ser feito para
2
:


2
= E(y
t
y
t-2
)

2
= E[( y
t-1
+
t
) y
t-2
]

2
= E[( (y
t-2
+
t-1
) +
t
) y
t-2
]

2
= E[
2
y
t-2
2
+
t-1
y
t-2
+
t
y
t-2
]

2
= E(
2
y
t-2
2
) + E(
t-1
y
t-2
) + E(
t
y
t-2
)

2
=
2
E(y
t-2
2
) + E(
t-1
y
t-2
) + E(
t
y
t-2
)

2
=
2
var(y
t
) + 0 + 0

2
=
2

0


Portanto:

2
=
2


E como menor do que 1, em mdulo (porque caso contrrio a srie no seria
estacionria),
2
menor do que (em mdulo). fcil ver que os valores seguintes para a funo
de autocorrelao sero
3
,
4
, etc., de modo que a funo de autocorrelao de um processo AR(1)
ser declinante. Isto, entretanto, no suficiente para identificar o processo como AR(1).

O conceito de correlao parcial se refere correlao entre duas variveis eliminando o
efeito de outras variveis, o que feito atravs de uma regresso. De fato, a funo de
autocorrelao parcial dada pelos coeficientes
1
,
2
,
3
, etc., que so encontrados assim:

O coeficiente
1
encontrado na regresso abaixo:
285
y
t
= +
1
y
t-1
+
t


Enquanto o coeficiente
2
ser o correspondente estimado pela seguinte regresso:
y
t
= +
1
y
t-1
+
2
y
t-2
+
t


E assim sucessivamente. fcil ver que, se o processo AR(1), o coeficiente
2
no existe
(no ser significante numa regresso). De um modo geral, num AR(p)
k
0 para k menor ou igual
a p e
k
= 0 para valores maiores do que k.

Portanto, um processo auto-regressivo apresenta funo de autocorrelao declinante
138
e a
funo de autocorrelao parcial truncada exatamente na ordem do processo.

1 2 3 4 5 6

funo de autocorrelao de um AR(p) qualquer p

1 2 3 4 5 6

funo de autocorrelao parcial de um AR(1)



138
S fizemos para AR(1) mas o resultado pode ser generalizado.
286
1 2 3 4 5 6

funo de autocorrelao parcial de um AR(3)


Vejamos o comportamento destas duas funes para um MA(1).

y
t
=
t

t-1


A varincia ser dada por:
var(y
t
) = var(
t

t-1
)
var(y
t
) = var(
t
) + var(
t-1
)
var(y
t
) = var(
t
) +
2
var(
t-1
)
var(y
t
) = var(
t
) +
2
var(
t
)
var(y
t
) = (1 +
2
)var(
t
)
var(y
t
) = (1 +
2
)
2


Determinemos as autocovarincia de ordem 1:


1
= E(y
t
y
t-1
)

1
= E[(
t

t-1
)(
t-1

t-2
)]

1
= E(
t

t-1

t-1
2

t

t-2
+
2

t-1

t-2
)

1
= E(
t

t-1
) E(
t-1
2
) E(
t

t-2
) + E(
2

t-1

t-2
)

1
= E(
t

t-1
) E(
t-1
2
) E(
t

t-2
) +
2
E(
t-1

t-2
)

1
= 0 E(
t-1
2
) 0 + 0

1
= var(
t
)

1
=
2


Portanto:


1
= / (1 +
2
)

Para ordem 2, teremos:


2
= E(y
t
y
t-2
)

2
= E[(
t

t-1
)(
t-2

t-3
)]

2
= E(
t

t-2

t-1

t-2

t

t-3
+
2

t-1

t-3
)

2
= E(
t

t-2
) E(
t-1

t-2
) E(
t

t-3
) + E(
2

t-1

t-3
)

2
= E(
t

t-1
) E(
t-1

t-2
) E(
t

t-3
) +
2
E(
t-1

t-3
)

2
= 0 0 0 + 0 = 0

287
A funo de autocorrelao s diferente de zero para k =1 quando se trata de um MA(1).
Generalizando, a funo de autocorrelao de um MA(q) diferente de zero para valores de k
menores ou iguais a q e zero para k maior do que q. O ponto em que a funo de autocorrelao
truncada determina a ordem do processo MA.

Agora, passemos funo de autocorrelao parcial. Antes, faremos uma transformao no
modelo:

y
t
=
t

t-1


t
= y
t
+
t-1

Mas:

t-1
= y
t-1
+
t-2

Substituindo, vem:

t
= y
t
+ ( y
t-1
+
t-2
)


t
= y
t
+ y
t-1
+
2

t-2

De novo:

t-2
= y
t-2
+
t-3

E, substituindo mais uma vez, temos:

t
= y
t
+ y
t-1
+
2
(y
t-2
+
t-3
)

t
= y
t
+ y
t-1
+
2
y
t-2
+
3

t-3


E, se repetirmos o processo indefinidamente chegaremos a:

t
= y
t
+ y
t-1
+
2
y
t-2
+
3
y
t-3
+
4
y
t-4
+
5
y
t-5
+ ...

Que uma representao de um processo auto-regressivo de ordem infinta. Portanto, um
processo MA pode ser escrito como um AR infinito. Como o coeficiente tem que ser menor do
que 1, em mdulo (caso contrrio, esta inverso no seria possvel, pois o valor de
t
no
convergiria na expresso acima), os coeficientes so declinantes. Assim, a funo de autocorrelao
parcial de um MA(1) seria equivalente desse processo AR infinito, isto , apresentaria
coeficientes declinantes.
1 2 3 4 5 6

funo de autocorrelao de um MA(1)


288
1 2 3 4 5 6

funo de autocorrelao de um MA(2)

1 2 3 4 5 6

funo de autocorrelao parcial de um MA(q) qualquer q


Finalmente, se o processo for um ARMA(p,q) ele ter as funes de autocorrelao e
autocorrelao parcial combinadas dos dois processos. Desta forma, um processo deste tipo
apresentar as duas funes indefinidamente declinantes. O quadro abaixo resume a identificao
de processos ARMA:

tipo de processo funo de autocorrelao funo de autocorrelao parcial
AR(p) declinante truncada em p
MA(q) truncada em q declinante
ARMA(p,q) declinante declinante


Exemplo 10.3.2.1
Identifique o processo da varivel dada na tabela abaixo:





ano Y
t
ano Y
t
1961 32,2 1981 36,5
1962 32,7 1982 35,1
1963 31,4 1983 36,4
289
1964 34,2 1984 36,8
1965 32,8 1985 35,3
1966 35,1 1986 37,1
1967 33,5 1987 38,2
1968 32,1 1988 37,5
1969 32,7 1989 34,7
1970 31,7 1990 34,8
1971 34,4 1991 32,4
1972 36,3 1992 33,5
1973 37,5 1993 31,8
1974 38,0 1994 32
1975 35,9 1995 32,4
1976 35,0 1996 32,6
1977 35,5 1997 31,6
1978 34,7 1998 33
1979 36,4 1999 32,9
1980 37,9 2000 33,3

Se observarmos o grfico de Y
t
:
30
32
34
36
38
40
65 70 75 80 85 90 95 00

Aparentemente, uma varivel estacionria. Ento, passamos a calcular as autocorrelaes e
autocorrelaes parciais. A tabela abaixo mostra os valores de Y
t
e suas defasagens:








ano Y
t
Y
t-1
Y
t-2
Y
t-3
Y
t-4
Y
t-5

1961 32,2
1962 32,7 32,2
1963 31,4 32,7 32,2
1964 34,2 31,4 32,7 32,2
1965 32,8 34,2 31,4 32,7 32,2
1966 35,1 32,8 34,2 31,4 32,7 32,2
1967 33,5 35,1 32,8 34,2 31,4 32,7
1968 32,1 33,5 35,1 32,8 34,2 31,4
290
1969 32,7 32,1 33,5 35,1 32,8 34,2
1970 31,7 32,7 32,1 33,5 35,1 32,8
1971 34,4 31,7 32,7 32,1 33,5 35,1
1972 36,3 34,4 31,7 32,7 32,1 33,5
1973 37,5 36,3 34,4 31,7 32,7 32,1
1974 38,0 37,5 36,3 34,4 31,7 32,7
1975 35,9 38,0 37,5 36,3 34,4 31,7
1976 35,0 35,9 38,0 37,5 36,3 34,4
1977 35,5 35,0 35,9 38,0 37,5 36,3
1978 34,7 35,5 35,0 35,9 38,0 37,5
1979 36,4 34,7 35,5 35,0 35,9 38,0
1980 37,9 36,4 34,7 35,5 35,0 35,9
1981 36,5 37,9 36,4 34,7 35,5 35,0
1982 35,1 36,5 37,9 36,4 34,7 35,5
1983 36,4 35,1 36,5 37,9 36,4 34,7
1984 36,8 36,4 35,1 36,5 37,9 36,4
1985 35,3 36,8 36,4 35,1 36,5 37,9
1986 37,1 35,3 36,8 36,4 35,1 36,5
1987 38,2 37,1 35,3 36,8 36,4 35,1
1988 37,5 38,2 37,1 35,3 36,8 36,4
1989 34,7 37,5 38,2 37,1 35,3 36,8
1990 34,8 34,7 37,5 38,2 37,1 35,3
1991 32,4 34,8 34,7 37,5 38,2 37,1
1992 33,5 32,4 34,8 34,7 37,5 38,2
1993 31,8 33,5 32,4 34,8 34,7 37,5
1994 32,0 31,8 33,5 32,4 34,8 34,7
1995 32,4 32,0 31,8 33,5 32,4 34,8
1996 32,6 32,4 32,0 31,8 33,5 32,4
1997 31,6 32,6 32,4 32,0 31,8 33,5
1998 33,0 31,6 32,6 32,4 32,0 31,8
1999 32,9 33,0 31,6 32,6 32,4 32,0
2000 33,3 32,9 33,0 31,6 32,6 32,4

Usando a tabela acima, podemos encontrar os valores da funo de autocorrelao
139
:


1
= corr(Y
t
, Y
t-1
) = 0,7538

2
= corr(Y
t
, Y
t-2
) = 0,6015

3
= corr(Y
t
, Y
t-3
) = 0,3928

4
= corr(Y
t
, Y
t-4
) = 0,2645

5
= corr(Y
t
, Y
t-5
) = 0,1927

O que indica uma funo de autocorrelao declinante, tpica de um processo AR ou
ARMA. De fato, pode-se mostrar que o intervalo de 95% confiana dado por:

IC
95%

n
2
=
40
2
0,3162


139
Os valores amostrais das FAC e FACP conhecido por correlograma.
291
Portanto, os valores de
1
,

2
e
3
so significantes, ento temos uma funo de
autocorrelao declinante (possivelmente
140
, tendo em vista os demais valores) ou uma funo
truncada em 3.

Para encontrar os valores da funo de autocorrelao parcial, estimamos as regresses com
os valores defasados. Os resultados foram:

Y
t
= 9,03 + 0,7370Y
t-1
Y
t
= 8,05 + 0,6861Y
t-1
+ 0,0811Y
t-2

Y
t
= 10,12 + 0,6905Y
t-1
+ 0,2242Y
t-2
0,2066Y
t-3

Y
t
= 9,92 + 0,6959Y
t-1
+ 0,1666Y
t-2
0,2007Y
t-3
+ 0,0527Y
t-4

Y
t
= 8,24 + 0,7299Y
t-1
+ 0,1622Y
t-2
0,1580Y
t-3
0,0340Y
t-4
+ 0,0617Y
t-5

Os valores da funo de autocorrelao parcial, ento, so:


1
= 0,7370

2
= 0,0811

3
= 0,2066

4
= 0,0527

5
= 0,0617

Neste caso, fica claro que a funo truncada em 1, pois, no s a queda de
1
para
2

abrupta, como todos os valores de
2
em diante ficam bem abaixo do valor crtico de 0,3162 (em
mdulo).

Temos, portanto, uma funo de autocorrelao declinante e uma funo de autocorrelao
parcial truncada em 1, o que nos indica que o processo um AR(1).
10.3.3 Estimao de modelos ARIMA

A estimao de um modelo AR pode ser feita por mnimos quadrados ordinrios. Para um
modelo MA ou ARMA, a estimao deve ser feita por um processo recursivo, j que os erros
(choques) passados, que atuam como variveis independentes no modelo, no so diretamente
observveis.

Exemplo 10.3.3.1
Estime um modelo ARIMA para a varivel apresentada no exemplo 10.3.2.1.

A identificao sugere um modelo AR(1), que pode ser estimado por mnimos quadrados
ordinrios o que, alis, j foi feito quando estimvamos a funo de autocorrelao parcial. O
resultado foi:

Y
t
= 9,03 + 0,7370Y
t-1

Exemplo 10.3.3.2
Dada a srie na tabela abaixo, suponha que ela um MA(1) e estime o modelo.
ano Z
t
ano Z
t
1961 3,8 1981 2,0

140
Lembre-se que, como em qualquer processo de estimao (a identificao seria o primeiro passo), estamos lidando
com valores amostrais.
292
1962 2,9 1982 1,3
1963 3,3 1983 2,8
1964 0,4 1984 4,6
1965 0,4 1985 4,0
1966 3,1 1986 2,5
1967 5,4 1987 1,9
1968 0,8 1988 1,2
1969 -0,7 1989 -1,1
1970 -0,6 1990 -1,6
1971 -1,3 1991 3,3
1972 -1,1 1992 0,7
1973 0,8 1993 0,2
1974 4,3 1994 4,3
1975 4,1 1995 4,7
1976 -0,5 1996 3,8
1977 -0,1 1997 4,6
1978 1,1 1998 3,3
1979 -1,0 1999 4,5
1980 2,5 2000 3,0

Se um MA(1), ento do tipo:

Z
t
= +
t

t-1


Como
t-1
no observvel, uma forma de estimar dar um chute inicial para e . O
chute inicial para fcil, pois:

E(Z
t
) = E() + E(
t
) E(
t-1
) =

Portanto, a prpria mdia do processo, ento chutaremos o valor inicial para como
sendo a mdia amostral dos Z
t
, que dada por 1,9.

Para o chute inicial do coeficiente , usamos o fato de que um MA(1) pode ser escrito
como um AR infinito, isto :

t
= y
t
+ y
t-1
+
2
y
t-2
+
3
y
t-3
+
4
y
t-4
+
5
y
t-5
+ ...

Ou

y
t
= y
t-1

2
y
t-2

3
y
t-3

4
y
t-4

5
y
t-5
+ ... +
t


Evidentemente, no possvel estimar um AR infinito, mas podemos ter uma boa idia do
coeficiente se estimarmos um processo AR com vrias defasagens. Estimamos um AR(5) e o
resultado foi:

y
t
= 1,34 + 0,67 y
t-1
0,42 y
t-2
+ 0,35 y
t-3
0,27 y
t-4
0,04 y
t-5


O chute inicial ser = 0,67

Ento, o modelo inicial ser dado por:

Z
t
= 1,9 +
t
+ 0,67
t-1

293

Considerando
141

1960
= 0, computamos
t
a partir de:


t
= Z
t
1,9 0,67
t-1


O que feito na tabela abaixo:












ano Z
t

t-1
1961 32,2 1,9 0
1962 32,7 -0,273 1,9
1963 31,4 1,58291 -0,273
1964 34,2 -2,56055 1,58291
1965 32,8 0,215568 -2,56055
1966 35,1 1,055569 0,215568
1967 33,5 2,792769 1,055569
1968 32,1 -2,97115 2,792769
1969 32,7 -0,60933 -2,97115
1970 31,7 -2,09175 -0,60933
1971 34,4 -1,79853 -2,09175
1972 36,3 -1,79499 -1,79853
1973 37,5 0,102641 -1,79499
1974 38,0 2,33123 0,102641
1975 35,9 0,638076 2,33123
1976 35,0 -2,82751 0,638076
1977 35,5 -0,10557 -2,82751
1978 34,7 -0,72927 -0,10557
1979 36,4 -2,41139 -0,72927
1980 37,9 2,215631 -2,41139
1981 36,5 -1,38447 2,215631
1982 35,1 0,327597 -1,38447
1983 36,4 0,68051 0,327597
1984 36,8 2,244058 0,68051
1985 35,3 0,596481 2,244058
1986 37,1 0,200358 0,596481
1987 38,2 -0,13424 0,200358
1988 37,5 -0,61006 -0,13424
1989 34,7 -2,59126 -0,61006
1990 34,8 -1,76386 -2,59126

141
Poderia ser outro critrio. Note que a estimao feita usando outro critrio poder dar resultados diferentes.
294
1991 32,4 2,581783 -1,76386
1992 33,5 -2,92979 2,581783
1993 31,8 0,262963 -2,92979
1994 32,0 2,223815 0,262963
1995 32,4 1,310044 2,223815
1996 32,6 1,022271 1,310044
1997 31,6 2,015079 1,022271
1998 33,0 0,049897 2,015079
1999 32,9 2,566569 0,049897
2000 33,3 -0,6196 2,566569

E ento, usamos
t-1
computado como uma varivel numa nova estimao. O resultado
obtido foi:

Z
t
= 1,9193 +
t
+ 0,6232
t-1


Repetimos o procedimento com estes novos valores. Computamos novamente
t
e
t-1
e
refazemos a estimao, cujo resultado foi:

Z
t
= 1,9273 +
t
+ 0,6297
t-1


Repetindo novamente:

Z
t
= 1,9302 +
t
+ 0,6295
t-1


E novamente:

Z
t
= 1,9313 +
t
+ 0,6296
t-1


E repetimos o procedimento quantas vezes forem necessrias, at que a as diferenas entre
os coeficientes seja suficientemente pequena dentro de um critrio estabelecido. Notamos que a
diferena est na terceira casa decimal, isto , o erro j menor do que 0,01. Portanto, o resultado
da estimao :

Z
t
= 1,93 +
t
+ 0,63
t-1


10.3.4 Diagnstico de modelos ARIMA

Como bvio, quando fazemos a identificao do modelo, as funes de autocorrelao e
autocorrelao parcial no so populacionais, mas amostrais. Assim sendo, a identificao, na
maioria dos casos, no nos d uma resposta definitiva de qual o modelo a ser estimado. Aps a
estimao, um diagnstico do modelo deve ser feito para termos certeza de que o modelo escolhido
foi adequado
142
.

E o que um modelo adequado? aquele que explica todas as interaes entre a varivel e
valores passados dela mesma ou de choques passados. Isto significa que os resduos devem ser
desprovidos de qualquer tipo de autocorrelao, portanto devem ter caractersticas de um rudo
branco.


142
Note que possvel que mais de um modelo ARIMA se mostre adequado para estimar uma srie, a escolha do
modelo recai ento nos critrios de escolha como os crtrios de informao de Schwarz e de Akaike.
295
Para tanto, calculamos a funo de autocorrelao dos resduos. Para se testar a hiptese
nula de que todas as autocovarincias so nulas, usa-se a estatstica de Box e Pierce:

Q = n

=
m
1 k
2
k


Que segue uma distribuio de
2
com m graus de liberdade. Ou ainda, a estatstica de Ljung
e Box (que costuma apresentar melhor desempenho em amostras pequenas):

Q = n(n +2)

=
m
1 k
2
k
k - n




Que segue uma distribuio de
2
com os mesmos m graus de liberdade.

Exemplo 10.3.4.1
Faa o diagnstico do modelo estimado no exemplo 10.3.3.1

Os resduos so mostrados na tabela abaixo:
-0,05911 1,91947 -0,82825 0,59349
-1,72761 1,719151 1,503563 -1,91722
2,0305 1,334739 0,94545 -0,4643
-1,43313 -1,13377 -0,84935 -0,21171
1,898686 -0,48605 2,056161 -0,30651
-1,39644 0,677264 1,829543 -1,45391
-1,61722 -0,49124 0,318832 0,683098
0,014593 1,798367 -1,96526 -0,44872
-1,42761 2,04545 0,198367 0,024985
2,009397 -0,46007 -2,27533

E a partir dos mesmos, calculamos os
k
e as estatsticas Q, mostradas na tabela abaixo:
k
k

Ljung-Box Box-Pierce
2
(k, 90%)
1 -0,0609 0,1562 0,1448 2,71
2 0,1421 1,0289 0,9323 4,61
3 -0,0462 1,1239 1,0157 6,25
4 -0,1029 1,6075 1,4285 7,78
5 -0,0883 1,9738 1,7323 9,24
6 0,0751 2,2470 1,9522 10,64
7 0,2058 4,3632 3,6039 12,02
8 0,1854 6,1358 4,9441 13,36
9 -0,1772 7,8085 6,1681 14,68
10 -0,1881 9,7595 7,5480 15,99
11 -0,2229 12,5960 9,4852 17,28
12 -0,0860 13,0344 9,7739 18,55
13 0,1073 13,7418 10,2225 19,81
14 0,0145 13,7553 10,2307 21,06
15 0,2171 16,8968 12,0696 22,31

Primeiramente, voltemos nossa ateno para a coluna dos
k
. O valor limite dado por:

296

39
2
0,32

Todos os valores individuais de
k
esto dentro do limite, o que j alentador, pois, pelo
menos tomadas uma a uma, as autocorrelaes so no significantes. O teste conjunto feito pelas
estatsticas Q, e tanto a de Ljung e Box como a de Box Pierce esto abaixo do valor limite da
distribuio
2
com os respectivos graus de liberdade.

Portanto, aceitamos a hiptese nula de que todas as autocorrelaes so nulas e, assim
sendo, os resduos se comportam como um rudo branco e, desta forma, conclui-se que o modelo
estimado foi adequado.


10.3.5 Condies de estacionariedade e invertibilidade de um modelo ARIMA

Tomemos um modelo AR(1):

y
t
= y
t-1
+
t


Sabemos que a srie y
t
s ser estacionria se , em mdulo, for menor do que 1, isto :

|| < 1

O que vale dizer, se escrevermos o modelo como se segue:

1
(L) y
t
=
t


Onde:


1
(L) 1 L

um polinmio em L, cuja raiz ser dada por (substituindo L por ):

1 = 0
=

1


E, se for menor do que 1, em mdulo, ser maior do que 1 (tambm em mdulo). A raiz
do polinmio deve, ento, ser maior do que 1 em valores absolutos, o que se diz, de uma maneira
um tanto sofisticada, que a raiz cai fora do crculo unitrio.

Para um modelo AR(p) qualquer, isto :

y
t
=
1
y
t-1
+
2
y
t-2
+ ... +
p
y
t-p
+
t


Que pode ser escrito como:

p
(L) y
t
=
t


Onde

p
(L) 1
1
L
2
L
2

...
p
L
p

297

A condio de estacionariedade deste processo a de que todas as razes de
p
(L) caiam
fora do crculo unitrio.

A contrapartida da condio de estacionariedade do modelo auto-regressivo a condio de
invertibilidade do modelo de mdias mveis.

Dado um modelo MA(1):

y
t
=
t

t-1


Vimos que este modelo pode ser escrito (invertido) como um AR infinito. Mas para isso
necessrio que o coeficiente seja menor do que 1, em mdulo.

Vale dizer que a raiz do polinmio
1
(L) dado por:

1
(L) 1 L

Caia fora do crculo unitrio.

Da mesma forma, um modelo MA(q) dado por:

y
t
=
q
(L)
t


Onde:

q
(L) 1
1
L
2
L
2
...
q
L
q


Para que este modelo possa ser invertido para um AR infinito, necessrio que todas as
razes de
q
(L) caiam fora do crculo unitrio.

10.4 Testes de razes unitrias

Fica clara a importncia, pelo que foi visto at agora, de testar, para uma srie y
t
, se num
modelo do tipo AR(1):

y
t
= y
t-1
+
t


Se o coeficiente igual a 1. Se isto ocorrer, y
t
no estacionrio e diz-se que apresenta
uma raiz unitria, isto , a raiz do polinmio auto-regressivo igual a 1.
Se for mesmo igual a 1, a varincia de y
t
vai para infinito medida que t aumenta. Desta
forma, os testes usuais (usando a distribuio de Student, por exemplo) no so vlidos.

Atravs de simulaes, Dickey e Fuller chegaram a valores limites que so vlidos para
quando se testa a hiptese de que igual a 1.

Na verdade, o que se testa um pouco diferente: subtrai-se y
t-1
do modelo acima:

y
t
y
t-1
= y
t-1
y
t-1
+
t

y
t
= ( 1) y
t-1
+
t

y
t
= y
t-1
+
t


298
Testar igual a 1 equivale a testar = 0. O teste feito computando-se a estatstica t como
se fosse um teste comum numa regresso qualquer, mas como os limites no so dados pela
distribuio de Student, a estatstica denominada e o teste conhecido como teste de Dickey e
Fuller (DF), cujos valores limites so dados ao final do livro.

Usualmente so testadas tambm as seguintes formas:

y
t
= + y
t-1
+
t
(com intercepto)
y
t
= + t + y
t-1
+
t
(com intercepto e tendncia determinstica
143
)

Cada um deles com valores crticos prprios

Exemplo 10.4.1
Teste a presena de raiz unitria na varivel percentual de residncias atendidas por esgoto na
Meltvia

Os valores so repetidos na tabela abaixo:











ano y
t
y
t-1
y
t

1971 21,15
1972 22,5 21,15 1,35
1973 24,3 22,5 1,8
1974 27,9 24,3 3,6
1975 30,6 27,9 2,7
1976 32,4 30,6 1,8
1977 35,1 32,4 2,7
1978 36,9 35,1 1,8
1979 39,6 36,9 2,7
1980 41,4 39,6 1,8
1981 43,2 41,4 1,8
1982 45,9 43,2 2,7
1983 48,6 45,9 2,7
1984 51,3 48,6 2,7
1985 54,9 51,3 3,6
1986 56,7 54,9 1,8
1987 57,6 56,7 0,9
1988 60,3 57,6 2,7

143
Vale uma lembrana: um modelo do tipo y
t
= + t +
t
, isto , com tendncia determinstica, no um modelo
estacionrio da maneira como definimos anteriormente, j que a mdia no constante. Mas, se subtrairmos a
tendncia, teremos y
t
t, que ser uma varivel estacionria. Diz-se que y
t
estacionria em torno da tendncia.
299
1989 63,9 60,3 3,6
1990 64,8 63,9 0,9
1991 67,5 64,8 2,7
1992 68,4 67,5 0,9
1993 69,3 68,4 0,9
1994 70,2 69,3 0,9
1995 72,0 70,2 1,8
1996 72,9 72,0 0,9
1997 74,7 72,9 1,8
1998 77,4 74,7 2,7
1999 78,3 77,4 0,9
2000 79,2 78,3 0,9

y
t
= 0,0324 y
t-1
= 7,4
(0,0044)

y
t
= 3,35 0,0195 y
t-1

= 2,22
(0,0088)

y
t
= 3,32 0,0034t 0,0180 y
t-1

= 0,20
(0,0886)

Os valores crticos da tabela so, para n = 25 (o valor mais prximo, j que utilizamos uma
regresso com 29 observaes) e 10% de significncia so: 1,60 (sem intercepto), 2,62 (com
intercepto) e 3,24 (com intercepto e tendncia). Portanto, aceitamos a hiptese nula de que = 0 e,
portanto, = 1, assim sendo, conclumos que a varivel apresenta raiz unitria e, sendo assim, no
estacionria.
O teste de Dickey e Fuller assim formulado testa apenas a raiz unitria num processo do tipo
AR(1). Para um processo AR(p) deve-se utilizar o teste de Dickey e Fuller Aumentado (ADF).
Isto feito fazendo as seguintes regresses:

y
t
= y
t-1
+

=
+

p
2 i
1 i - t i
y +
t
(sem intercepto)
y
t
= + y
t-1
+

=
+

p
2 i
1 i - t i
y +
t
(com intercepto)
y
t
= + t + y
t-1
+

=
+

p
2 i
1 i - t i
y +
t
(com intercepto e tendncia)


Uma varivel pode apresentar mais de uma raiz unitria, que o caso que j discutimos, de
variveis que, para se tornarem estacionrias, precisam de duas ou mais diferenas. Uma varivel
I(2) (estacionria na segunda diferena), por exemplo, apresenta duas razes unitrias.

10.5 Co-integrao

Como vimos anteriormente, uma regresso entre suas variveis no estacionrias pode ser
espria, e os testes usuais no tm validade. Portanto, se na regresso:

Y
t
= + X
t
+
t


300
Se X e Y apresentam raiz unitria, h uma boa chance de que a regresso seja espria.
Entretanto, se X e Y so integradas de mesma ordem (so ambas I(1), por exemplo), possvel que
elas caminhem juntas, e assim sendo, o resultado da regresso entre as variveis (bem como os
testes) passam a fazer sentido.

Quando duas sries so integradas de mesma ordem e caminham juntas, elas so ditas co-
integradas. Como testar se duas variveis so co-integradas? Imagine os resduos da regresso de
Y por X: se elas no caminham juntas, o resduo desta regresso tender a aumentar, em valor
absoluto. O resduo de uma regresso espria no estacionrio (o que consistente com o fato de
que os resduos apresentam autocorrelao positiva), portanto, a maneira mais simples
144
de
verificar se duas sries so co-integradas testar a existncia de uma raiz unitria nos resduos.

144
Para testes mais complexos de co-integrao ou mesmo de razes unitrias, procure textos mais avanados sobre o
tema, como Hamilton, J. Time Series Anlysis. Princeton University Press, 1994 ou Enders, W. Applied Econometric
Time Series. Nova York: John Wiley & Sons, 1995.
301
Exerccios
1. D a forma analtica dos seguintes processos:
a) ARMA(3,1)
b) ARIMA(2,2,1)
c) IMA(1,4)
d) ARI (1,2)

2. Teste a existncia de uma raiz unitria na varivel exportaes de trigo do Kazimenisto
apresentada no exemplo 10.2.1

3. Faa a identificao da varivel apresentada no exemplo 10.3.3.2

4. Com base no exerccio 3, possvel encontrar algum outro modelo, que no um MA(1), para Z
t
?
Se sim, estime o modelo.

5. Faa o diagnstico do modelo MA(1) e do modelo estimado (se houver) no exerccio 4 para a
varivel Z
t
. Se ambos forem adequados, escolha o melhor modelo usando um dos critrios de
informao vistos no captulo 8.

6. Usando o teste de Dickey-Fuller para os resduos, verifique as duas variveis do exemplo 10.2.1
so co-integradas.

7. Dado o modelo:
Y
t
= 10 + 0,7Y
t-1
+
t

a) determine a mdia do processo, isto E(Y
t
).
b) se Y
t
= 7, qual o valor previsto para Y
t+2
? (Isto , E(Y
t+2
| Y
t
)?)
c) determine a varincia do processo.

8. Dado o modelo:
Y
t
= 6 +
t
+ 0,2
t-1

a) determine a mdia do processo, isto E(Y
t
).
b) se Y
t
= 3,5, qual o valor previsto para Y
t+1
? (Isto , E(Y
t+1
| Y
t
)?)
c) determine a varincia do processo.

9. Assinale verdadeiro ou falso:
a) Se z
t
= w
1
z
t-1
+ w
2
z
t-2
+ w
3
z
t-3
+
t
, se w
1
+ w
2
+ w
3
=1, ento z
t
no estacionrio.
b) No modelo de regresso Y
t
= + X
t
+
t
, se Y
t
e X
t
apresentam raiz unitria, ento a regresso
espria.
c) Na regresso Y
t
= + Y
t-1
+
t
, possvel testar a hiptese de que = 1 atravs da distribuio
t, de Student.

10. Considerando os operadores defasagem (L) e diferena (), mostre que:
a)
2
= 1 2L + L
2

b)
L 1
1

= 1 + L + L
2
+ L
3
+ L
4
+ ...
302
303
CAPTULO 11 NMEROS NDICE

11.1 Construindo nmeros ndice

Suponha que esteja se fazendo um estudo das exportaes da Xenodvia, medidas em moeda
local, o xenodvio. As exportaes da Xenodvia na dcada dos 90 so dadas na tabela abaixo:

tabela 11.1.1
ano valor das exportaes em X$
1991 1.234.321
1992 2.345.678
1993 3.456.809
1994 3.312.090
1995 3.211.601
1996 4.567.011
1997 5.299.181
1998 6.450.222
1999 5.878.477
2000 4.990.670


O objetivo da apresentao desta tabele , evidentemente, mostrar a evoluo das
exportaes daquele pas ao longo da dcada, j que o leitor provavelmente no ter noo do que
significam um milho de xenodvios. Sendo assim, a apresentao dos valores em si no to
importante.

Da a utilidade do nmero ndice: uma seqncia que apresenta a mesma evoluo da
seqncia original (isto , os nmeros mantm a mesma proporo entre si) mas, como o valor
propriamente dito no importante, seus nmeros so mais amigveis e, supostamente, de leitura
mais fcil.

Para a construo do nmero ndice, escolhemos, arbitrariamente, um valor qualquer da
tabela. Digamos, o valor correspondente ao ano de 1995 (porque a partir da as exportaes passam
a crescer muito nos anos seguintes, mas poderia ser por outro motivo qualquer ou mesmo nenhuma
razo em particular). Atribumos a este ano o valor 100, o que, diga-se de passagem, bem mais
amigvel do que 3.211.601.

Partimos do valor de 1995 (que ser ento o ano base) para encontrarmos os valores dos
demais anos, o que pode ser feito atravs de uma regra de trs simples. Por exemplo, para o ano de
1991, temos:

3.211.601 100
1.234.321 x

Portanto, o valor correspondente ao ano de 1991 ser:
x =
601 . 211 . 3
100 321 . 234 . 1
= 38,43

E, desta forma, podemos estabelecer uma regra prtica para calcular os valores do nmero
ndice para os demais anos: multiplicar por 100 e dividir pelo valor da base. Assim:
304
1992: 2.345.678
601 . 211 . 3
100
= 73,04
1993: 3.456.809
601 . 211 . 3
100
= 107,64
1994: 3.312.090
601 . 211 . 3
100
= 103,13
1995: 3.211.601
601 . 211 . 3
100
= 100
1996: 4.567.011
601 . 211 . 3
100
= 142,20
1997: 5.299.181
601 . 211 . 3
100
= 165,00
1998: 6.450.222
601 . 211 . 3
100
= 200,84
1999: 5.878.477
601 . 211 . 3
100
= 183,04
2000: 4.990.670
601 . 211 . 3
100
= 155,40

Repare que a conta referente ao ano de 1995 desnecessria j que o valor de 1995 foi
definido a priori como sendo 100.

Ento o nmero ndice referente aos valores das exportaes do extico pas seria como
mostrado na tabela abaixo:

tabela 11.1.2
ano ndice de valor das exportaes
(base: 1995 =100)
1991 38,43
1992 73,04
1993 107,64
1994 103,13
1995 100,00
1996 142,20
1997 165,00
1998 200,84
1999 183,04
2000 155,40

Repare que fundamental que aparea na tabela qual foi o ano
145
que foi tomado como base,
at porque no necessariamente ele aparecer na tabela apresentada (poderamos, por exemplo,
apresentar os valores a partir de 1997 usando a mesma base).

Com base na tabela com o nmero ndice, podemos facilmente constatar que, entre os anos
de 1995 e 1997 houve um crescimento de 65% no valor das exportaes; ou que, em 1992, o valor
das exportaes era cerca de 27% menor do que 1995.


145
bvio que ano neste caso especfico, poderia ser qualquer data, ou mesmo outra varivel qualquer..
305
Exemplo 11.1.1 (mudana de base)
A partir da tabela 11.1.2, construa um novo nmero ndice de tal modo que o ano base seja 1991.

Supe-se, ento, que a tabela original no conhecida, j que partiremos da tabela com o
nmero ndice cuja base 1995. Trata-se ento, simplesmente, de construir um nmero ndice da
mesma forma que fizemos anteriormente, a nica diferena que partiremos de uma seqncia de
dados que j esto na forma de nmero ndice.

Para cada ano, ento, multiplicaremos por 100 e dividiremos pelo valor do ano base, que
agora 38,43 (1991).

1992: 73,04
43 , 38
100
= 190,04
1993: 107,64
43 , 38
100
= 280,06
1994: 103,13
43 , 38
100
= 268,33
1995: 100
43 , 38
100
= 260,19
1996: 142,20
43 , 38
100
= 370,00
1997: 165,00
43 , 38
100
= 429,32
1998: 200,84
43 , 38
100
= 522,57
1999: 183,04
43 , 38
100
= 476,25
2000: 155,40
43 , 38
100
= 404,33

Repare que chegaramos aos mesmos valores se construssemos o ndice a partir dos dados
originais.
11.2 ndices de preos

Uma varivel que uma candidata natural a ser representada por um nmero ndice o
preo, em particular quando estamos nos referindo a nvel geral de preos, em vez do preo de um
bem especfico.

Quando se diz que a taxa de inflao foi de 10%, o que algo perfeitamente
compreensvel para a maioria das pessoas, o que se quer dizer exatamente? Que o nvel geral de
preos subiu de 1.000.000.000.000 de reais para 1.100.000.000.000 reais? Bom, isto no muito
compreensvel.

Mas, na verdade, algo parecido. A tal da taxa de inflao aumentar 10%, ou, o que talvez
seja mais preciso, o nvel de preos aumentou 10% significa que o preo de uma cesta de bens, que
representaria o consumo da sociedade, aumentou em 10%.

306
Como medir esta variao? Bom, como os preos no variam todos na mesma proporo ao
mesmo tempo, esta resposta no bvia. H, como veremos nas sees seguintes, mais de uma
resposta possvel.

11.2.1 ndice agregativo simples

A idia deste ndice simplesmente comparar os preos entre um perodo e outro.

IAS =

=
=
n
i
n
i
1
0
i
1
1
i
p
p


Onde o subscrito representa o bem e o sobrescrito representa o perodo. Assim,
0
i
p
representa o preo do bem i no perodo zero.

Exemplo 11.2.1.1
Suponha que existam apenas 3 bens: arroz, feijo e televiso, cujos preos no ano de 1999 e 2000
so mostrados na tabela abaixo. Determine a variao de preos pelo IAS.
bem preos 1999 (R$) preos 2000 (R$)
arroz (kg) 1,00 2,00
feijo (kg) 0,50 1,20
televiso 400,00 440,00

IAS =

=
=
n
i
n
i
1
0
i
1
1
i
p
p
=
400 5 , 0 1
440 2 , 1 2
+ +
+ +
=
5 , 401
2 , 443
1,1039

Portanto, a variao do nvel de preos medida pelo IAS
146
10,39%.

Fica fcil perceber que esta no uma boa forma de medir a variao de preos pois, como
possvel que o arroz dobre de preo, o feijo mais que dobre, e a variao total seja apenas cerca de
10%, no por coincidncia, muito prxima da variao do preo da televiso? que, calculando
desta forma, o bem que tem preo maior ter, ainda que involuntariamente, maior peso na medio,
j que uma variao de 70 centavos no preo do feijo acaba sendo comparada com um preo de
400 reais, da televiso.

11.2.2. ndice de Sauerbeck

O ndice de Sauerbeck apresenta uma mudana importante em relao ao IAS. calculado
da seguinte forma:

S =

=
n
1 i
0
i
1
i
p
p
n
1



146
Pode ser obtida facilmente atravs de (IAS-1)100%. Ou ainda, podemos manter a representao que estvamos
utilizando para os nmeros ndices de um modo geral: se considerarmos 1999 como ano base (valor do ndice igual a
100), teremos que o ndice em 2000 ser 110,39.
307
Ou seja, uma mdia aritmtica simples da razo
147
entre os preos dos bens nos dois
perodos.

Exemplo 11.2.2.1
Suponha que existam apenas 3 bens: arroz, feijo e caviar, cujos preos no ano de 1999 e 2000 so
mostrados na tabela abaixo. Determine a variao de preos pelo ndice de Sauerbeck.
bem preos 1999 (R$) preos 2000 (R$)
arroz (kg) 1,00 1,00
feijo (kg) 0,90 1,00
caviar (kg) 200,00 400,00

S =
3
1
(
1
1
+
9 , 0
1
+
200
400
) 1,3704

Portanto, a variao de preos medida pelo ndice de Sauerbeck de 37,04%.

Claramente este resultado tambm no dos mais adequados. O arroz ficou estvel, o feijo
aumentou 11%, e estes dois bens (dentre os trs existentes) devem ter um peso muito maior no
gasto dos consumidores do que o caviar, que puxou o ndice para cima, certamente bem mais do
que deveria. necessrio levar-se em conta o quanto cada bem consumido. No d para fazer uma
medida que represente a variao dos preos sem que consideremos tambm as quantidades que
so consumidas.

11.2.3. ndices de Laspeyres e Paasche

Quando, ao compararmos preos em dois perodos, levamos em conta as quantidades
consumidas, um problema que temos que ter em mente o de que as quantidades tambm podem
mudar de um perodo para outro. Fica a questo de quais devem ser as quantidades escolhidas, o
que respondido no exemplo seguinte:

Exemplo 11.2.3.1
Numa sociedade onde h apenas 3 bens (denominados A, B e C), temos os preos e as quantidades
consumidas em dois anos mostradas na tabela abaixo. Determine a variao de preos no perodo.
1999 2000
preos quantidades preos quantidades
bem A $1 1000 $2 500
bem B $3 1500 $4 1200
bem C $4 1000 $3 1200

Num primeiro momento, poderamos imaginar que a ponderao dos preos pelas
quantidades se daria perodo a perodo. Isto , os preos de 2000 seriam ponderados pelas
quantidades daquele ano e o mesmo ocorreria com os preos de 1999.

Entretanto, se o objetivo a comparao dos preos, o uso de quantidades diferentes em
diferentes perodos contaminaria a comparao. preciso escolher o perodo do qual utilizaremos
as quantidades
148
.

E esta escolha arbitrria: no h, em princpio, nenhum motivo pelo qual possamos dizer
que as quantidades de um perodo sejam mais adequadas do que outro. Podemos escolher o perodo

147
Razo esta que conhecida como relativo de preos, ou, mais comumente, preo relativo.
148
Ou, o que tambm possvel como veremos adiante, tomarmos a mdia das quantidades.
308
inicial, neste caso 1999. Ento cada preo ser multiplicado pela respectiva quantidade consumida
em 1999.

L =
4 1000 3 1500 1 1000
3 1000 4 1500 2 1000
+ +
+ +
=
9500
11000
1,1579

E a variao de preos, calculada desta forma, de 15,79%. A letra L colocada no clculo
acima se deve ao fato de que, quando utilizamos as quantidades iniciais, o ndice chamado ndice
de Laspeyres. Se escolhermos as quantidades do perodo final, o que feito a seguir, ento
chamamos de ndice de Paasche.

P =
4 1200 3 1200 1 500
3 1200 4 1200 2 500
+ +
+ +
=
8900
9400
1,0562

Portanto, pelo ndice de Paasche, a variao foi de 5,62%. O resultado foi um tanto
assustador primeira vista, j que a diferena foi substancial. Entretanto, preciso lembrar que, em
geral, ndices de preos so calculados para perodos mais curtos (um ms, por exemplo), em que as
mudanas nas quantidades no so to grandes. E, mesmo em perodos longos, pouco provvel
que observemos uma mudana to radical no consumi de todos os bens de uma economia como nos
trs bens do exemplo acima.

Independente dessas questes, o fato que, qualquer dos critrios vlido. Temos, ento,
duas formas de calcular ndice de preos, os ndices de Laspeyres e Paasche:

L =

=
=
n
1 i
0
i
0
i
n
1 i
0
i
1
i
q p
q p

P =

=
=
n
1 i
1
i
0
i
n
1 i
1
i
1
i
q p
q p


Exemplo 11.2.3.2
Dada a tabela abaixo, determine a variao de preos pelos ndices de Laspeyres e Paasche.
1999 2000
preos quantidades preos quantidades
bem A $2 1000 $4 800
bem B $6 1000 $6 900
bem C $4 1800 $3 2200

L =
4 1800 6 1000 2 1000
3 1800 6 1000 4 1000
+ +
+ +
=
15200
15400
1,0132

P =
4 2200 6 900 2 800
3 2200 6 900 4 800
+ +
+ +
=
15800
15200
0,962

Encontramos um aumento de 1,32% no nvel de preos por Laspeyres e uma queda de 3,8%
por Paasche.
309

Note que, de novo, encontramos um valor maior para Laspeyres do que para Paasche, isto ,
L> P nos dois exemplos. Isto vale sempre? Vejamos o exemplo abaixo:

Exemplo 11.2.3.3
Dada a tabela abaixo, determine a variao de preos pelos ndices de Laspeyres e Paasche.
1999 2000
preos quantidades preos quantidades
bem A $1 1000 $2 1400
bem B $2 1000 $3 1200
bem C $3 1000 $2 900

L =
3 1000 2 1000 1 1000
2 1000 3 1000 2 1000
+ +
+ +
=
6000
7000
1,1667

P =
3 900 2 1200 1 1400
2 900 3 1200 2 1400
+ +
+ +
=
6500
8200
1,2615

Desta vez, houve aumento de 16,67% calculado por Laspeyres e 26,15% por Paasche. Isto ,
agora estamos num caso em que P>L.

Respondida a pergunta (nem sempre L>P), resta saber o que h de diferente neste exemplo
dos dois anteriores. imediato que, neste ltimo, queda nos preos foram acompanhadas de queda
nas quantidades e aumentos nos preos de aumento nas quantidades. Foi o contrrio nos exemplos
anteriores.

Neste ltimo exemplo, preos e quantidades se moveram na mesma direo, enquanto nos
dois primeiros, o movimento se deu em direes opostas. Do captulo 2, sabemos que o caso do
ltimo exemplo o de um coeficiente de correlao positivo entre preos e quantidades, enquanto
nos dois primeiros temos um coeficiente de correlao negativo
149
entre estas duas variveis.
Portanto:


pq
< 0 L > P

pq
> 0 P > L

Vale dizer que, num caso pouco provvel, se o coeficiente de correlao for nulo, teremos L
= P.

Os ndices de Laspeyres e Paasche podem ser calculados de uma forma alternativa, que pode
ser encontrada atravs de transformaes algbricas da frmula original. Vejamos como isso feito
para o ndice de Laspeyres:

L =

=
=
n
1 i
0
i
0
i
n
1 i
0
i
1
i
q p
q p


149
Este caso pode parecer a primeira vista o mais comum. De fato o , de modo que muitas vezes se diz que o ndice de
Laspeyres , em geral, maior que o de Paasche. Entretanto, pela teoria econmica, as duas situaes so possveis,
dependendo da origem da variao de preos; se resulta de uma variao da curva de oferta, a correlao negativa, e
positiva se originria de um deslocamento da curva de demanda.
310

Desmembrando, vem:

L =

=
+ + +
n
1 i
0
i
0
i
0
n
1
n
0
2
1
2
0
1
1
1
q p
q p ... q p q p

Ou ainda:
L =

=
n
1 i
0
i
0
i
0
1
1
1
q p
q p
+

=
n
1 i
0
i
0
i
0
2
1
2
q p
q p
+...+

=
n
1 i
0
i
0
i
0
n
1
n
q p
q p


Se multiplicarmos e dividirmos cada termo da equao acima por
0
i
p , teremos:
L =
0
1
1
1
p
p

=
n
1 i
0
i
0
i
0
1
0
1
q p
q p
+
0
2
1
2
p
p

=
n
1 i
0
i
0
i
0
2
0
2
q p
q p
+...+
0
n
1
n
p
p

=
n
1 i
0
i
0
i
0
n
0
n
q p
q p


Desta forma, a exemplo do que ocorria com o ndice de Sauerbeck, calculamos uma mdia
dos preos relativos de cada bem, s que desta vez uma mdia ponderada
150
, cujos pesos so
dados por:


0
i
w =

=
n
1 i
0
i
0
i
0
i
0
i
q p
q p

E estes pesos tm um significado muito claro, pois a expresso
0
i
0
i
q p (preo vezes a
quantidade do bem i no perodo zero) significa o gasto no bem i no perodo zero, enquanto que a
expresso

=
n
1 i
0
i
0
i
q p significa o gasto total (em todos os bens) no mesmo perodo. Portanto,
0
i
w significa a participao relativa (percentual) no gasto do bem i, no perodo zero, isto , cada um
dos bens ser ponderado pela sua participao no oramento das famlias no perodo zero. Assim,
teremos:

L =
0
1
1
1
p
p

0
1
w +
0
2
1
2
p
p

0
2
w +...+
0
n
1
n
p
p

0
n
w

Ou, resumidamente:

L =
0
i
1
0
i
1
i
w
p
p

=

n
i


Portanto, o ndice de Laspeyres pode ser interpretado como uma mdia aritmtica
(ponderada) dos preos relativos, onde os pesos so o percentual que cada bem representa no
oramento, considerando-se o perodo inicial (zero).

Falamos anteriormente em forma alternativa de se calcular o ndice. Na verdade, esta a
forma mais comum, j que uma pesquisa de quantidades muito mais trabalhosa do que uma

150
Ressalte-se que uma mdia aritmtica ponderada.
311
pesquisa de preos ( muito mais fcil ir ao supermercado ou feira e verificar qual o preo de
determinado bem do que saber quanto as pessoas compram deste bem). Normalmente, os institutos
que calculam ndices de preos fazem pesquisas sobre as quantidades (na verdade, sobre os
oramentos) apenas uma vez em cada certo nmero de anos e a so estabelecidos os pesos que
sero utilizados para as pesquisas de preos.

Transformao semelhante pode ser feita com o ndice de Paasche:

P =

=
=
n
1 i
1
i
0
i
n
1 i
1
i
1
i
q p
q p


Que pode ser escrito assim:

P =

=
=
n
1 i
1
i
1
i
n
1 i
1
i
0
i
q p
q p
1


Desmembrando, temos:

P =

= = =
+ + +
n
1 i
1
i
1
i
1
n
0
n
n
1 i
1
i
1
i
1
2
0
2
n
1 i
1
i
1
i
1
1
0
1
q p
q p
...
q p
q p
q p
q p
1


Multiplicando e dividindo cada termo do denominador por
1
i
p :

P =

= = =
+ + +
n
1 i
1
i
1
i
1
n
1
n
1
n
0
n
n
1 i
1
i
1
i
1
2
1
2
1
2
0
2
n
1 i
1
i
1
i
1
1
1
1
1
1
0
1
q p
q p
p
p
...
q p
q p
p
p
q p
q p
p
p
1


E temos de novo os relativos de preos, s que invertidos e no denominador, multiplicados
por um peso que agora definido por:


1
i
w =

=
n
1 i
1
i
1
i
1
i
1
i
q p
q p


Que a participao relativa no gasto no bem i, no perodo um. Assim, o ndice de Paasche
pode ser escrito:

312
P =
1
n
1
n
0
n 1
2
1
2
0
2 1
1
1
1
0
1
w
p
p
... w
p
p
w
p
p
1
+ + +


Que uma mdia harmnica
151
(e ponderada) dos preos relativos, e pode ser escrita
resumidamente como se segue:

P =

=

n
1 i
1
i
1
i
0
i
w
p
p
1


H que se fazer duas observaes importantes: a primeira que o peso utilizado no clculo
do ndice de Paasche obtido atravs das quantidades consumidas finais (atuais). Portanto,
necessrio pesquisar quantidades com a mesma periodicidade que se pesquisam preos o que torna
a pesquisa muito trabalhosa e muito cara. No surpreendente, portanto, que os institutos que
pesquisam preos sistematicamente prefiram o ndice de Laspeyres.

A outra que o fato do ndice de Laspeyres ser uma mdia aritmtica dos preos relativos,
enquanto Paasche uma mdia harmnica induz noo (errada, como j vimos) que o primeiro
sempre maior, isto porque a mdia aritmtica sempre maior ou, no mmimo, igual mdia
harmnica, desde que, obviamente, os pesos sejam os mesmos, o que no o caso.

Exemplo 11.2.3.3
Calcule a variao do nvel de preos pelos ndices de Laspeyres e de Paasche.
1999 2000
preos % do gasto preos % do gasto
bem A $11 25% $12 40%
bem B $15 35% $18 20%
bem C $22 40% $23 40%

Agora temos como dados no as quantidades, mas as participaes relativas no gasto em
cada perodo. Devemos calcular os dois ndices como mdias (aritmtica e harmnica,
respectivamente) dos preos relativos.

L =
11
12
0,25 +
15
18
0,35 +
22
23
0,4 = 1,0509
P =
4 , 0
23
22
2 , 0
18
15
4 , 0
12
11
1
+ +
= 1,0918

Portanto, verificou-se um aumento de 5,09% no nvel de preos pelo ndice de Laspeyres e
de 9,18% pelo ndice de Paasche.


11.2.4. Critrios e ndice de Fisher


151
Sobre mdia harmnica, veja o captulo 2.
313
Como vimos, h diferentes maneiras de calcular ndices de preos. Como dizer se um tipo de
ndice de preos bom ou ruim? Uma tentativa de responder a esta questo foi estabelecimento
de critrios por Fisher
152
. So eles
153
:

I) Critrio de Identidade: se o perodo para o qual ndice calculado o mesmo do perodo base,
ento o valor do ndice tem que ser igual a 1. Isto :

I
00
= 1

Este critrio atendido por Laspeyres e Paasche. Se no, vejamos:

L
00
= P
00
=

=
=
n
1 i
0
i
0
i
n
1 i
0
i
0
i
q p
q p
=1

J que os dois perodos coincidem.

II) Critrio da homogeneidade: o valor do ndice no deve ser alterado por alteraes nas unidades
de medida.

fcil ver que tanto Laspeyres como Paasche atendem a este critrio, j que, se trocarmos
os pesos de quilogramas para libras
154
, ou os preos de reais para UFIR, esta alterao se dar tanto
no numerador como no denominador, deixando inalterado o resultado final.

III) Critrio da Proporcionalidade: se os preos relativos so todos iguais a um certo valor, o ndice
tambm o ser.

Basta lembrarmos que Laspeyres e Paasche podem ser escritos como mdias de preos
relativos, e mdia de valores iguais tem que ser o mesmo valor, caso contrrio no seria mdia.

IV) Critrio da determinao: o ndice no pode ser nulo, infinito ou indeterminado se um nico
preo ou quantidade for nulo.

Seria nulo se o numerador fosse zero, infinito se o denominador se anulasse e indeterminado
no caso de ambos.Enfim... isto no ocorreria nem em Laspeyres, nem em Paasche j que tanto o
numerador como o denominador so somatrios e, portanto, uma nica parcela sendo zero no
tornaria a soma total zero.

V) Critrio da reversibilidade: se calcularmos o ndice de maro em relao a fevereiro, por
exemplo, e encontramos um aumento nos preos, quando calculamos o ndice de fevereiro em
relao a maro (invertendo a ordem), deveramos encontrar uma queda que cancelaria o aumento
encontrado anteriormente. Isto :

I
01
I
10
=1

Isto no vale para Laspeyres e Paasche. Vejamos:

152
Irving Fisher, economista americano (1867-1947).
153
Usaremos agora a seguinte notao: I
01
o ndice do perodo 1 em relao ao perodo zero.
154
Neste caso teramos que alterar os preos tambm, j que eles so dados em R$/kg ou R$/libra, o que manteria o
total do gasto no bem tambm inalterado.
314

L
01
L
10
=

=
=
n
1 i
0
i
0
i
n
1 i
0
i
1
i
q p
q p

=
=
n
1 i
1
i
1
i
n
1 i
1
i
0
i
q p
q p
1
P
01
P
10
=

=
=
n
1 i
1
i
0
i
n
1 i
1
i
1
i
q p
q p

=
=
n
1 i
0
i
1
i
n
1 i
0
i
0
i
q p
q p
1

VI) Critrio da circularidade: se, digamos, calculamos o ndice de fevereiro em relao a janeiro, e
o de maro em relao a fevereiro, o acumulado dos dois deveria ser igual ao clculo feito
diretamente entre maro e janeiro. Ou seja:

I
01
I
12
=I
02


De novo, este critrio no vale para Laspeyres e Paasche, como verificado abaixo:

L
01
L
12
=

=
=
n
1 i
0
i
0
i
n
1 i
0
i
1
i
q p
q p

=
=
n
1 i
1
i
1
i
n
1 i
1
i
2
i
q p
q p

=
=
n
1 i
0
i
0
i
n
1 i
0
i
2
i
q p
q p
= L
02

P
01
P
12
=

=
=
n
1 i
1
i
0
i
n
1 i
1
i
1
i
q p
q p

=
=
n
1 i
1
i
2
i
n
1 i
2
i
2
i
q p
q p

=
=
n
1 i
2
i
0
i
n
1 i
2
i
2
i
q p
q p
= P
02

O fato de Laspeyres e Paasche no atenderem aos dois ltimos critrios pode trazer um certo
incmodo. Por isso, Fisher props um novo ndice, chamado, de uma maneira talvez um pouco
pretensiosa, de ndice ideal de Fisher, que nada mais do que a mdia geomtrica dos ndices de
Laspeyres e Paasche.

F = P L

fcil verificar que o ndice de Fisher atende o critrio da reversibilidade, mas tambm no
atende o da circularidade
155
.

Exemplo 11.2.4.1
Do exemplo 11.2.3.1, determine a variao de preos pelo ndice de Fisher.
1999 2000
preos quantidades preos quantidades
bem A $1 1000 $2 500
bem B $3 1500 $4 1200
bem C $4 1000 $3 1200

Como j calculamos o ndice de Laspeyres e o de Paasche, o clculo do ndice de Fisher
imediato.

155
O que, por si s, torna bastante discutvel o termo ideal.
315

F = P L = 0562 , 1 1579 , 1 = 1,1059

Portanto, pelo ndice de Fisher, medimos um aumento de 10,59%.

claro que, independente de qual seja o maior entre Laspeyres e Paasche, Fisher ser
sempre um valor intermedirio entre os dois, j que uma mdia geomtrica de ambos.

Quanto utilidade prtica do ndice de Fisher, ele tem, no mnimo, os mesmos
inconvenientes do ndice de Paasche, j que as quantidades
156
tm que ser atualizadas como os
preos. No mnimo porque as quantidades iniciais tambm tm que ser conhecidas.

11.2.5 ndice de Marshall-Edgeworth

Na dvida entre escolher as quantidades iniciais (Laspeyres) ou as atuais (Paasche),
possvel ficar em cima do muro, escolhendo a mdia das duas. Quando fazemos isto, calculamos
o ndice de Marshall-Edgeworth.
O ndice de Marshall-Edgeworth , portanto, calculado da seguinte forma:

ME =

=
=
+
+
n
1 i
1
i
0
i 0
i
n
1 i
1
i
0
i 1
i
2
) q (q
p
2
) q (q
p


Que, simplificando, fica:

ME =

=
=
+
+
n
1 i
1
i
0
i
0
i
n
1 i
1
i
0
i
1
i
) q (q p
) q (q p


Do ponto de vista prtico, entretanto, o ndice de Marshall-Edgeworth apresenta os mesmos
inconvenientes do ndice de Fisher, pois necessitamos das quantidades dos dois perodos para
calcular o ndice.

11.3 ndices de quantidades e de valor

Da mesma forma que calculamos ndices de preos, o que vale dizer, comparamos preos de
perodos diferentes, possvel tambm comparar quantidades.

E, analogamente, se usamos as quantidades para ponderar os preos, usaremos os preos
para ponderar as quantidades. Desta forma, teremos, por exemplo, ndice de Laspeyres de
quantidades e ndice de Paasche de quantidades:

L
q
=

=
=
n
1 i
0
i
0
i
n
1 i
1
i
0
i
q p
q p


156
Ou, evidentemente, a proporo no gasto.
316
P
q
=

=
=
n
1 i
0
i
1
i
n
1 i
1
i
1
i
q p
q p


Repare que, em ambos os casos acima (e ao contrrio do que ocorre com os ndices de
preos), os preos esto fixos e as quantidades que variam.

E se ambos variam? Neste caso, no estamos nem comparando preos nem quantidades, mas
gasto, ou, mais genericamente, valor. De fato, quando fazemos isto calculamos o chamado ndice
de valor:

V =

=
=
n
1 i
0
i
0
i
n
1 i
1
i
1
i
q p
q p



Uma propriedade interessante para os ndices (que poderia ser um stimo critrio) a de que
o ndice de preos multiplicado pelo ndice de quantidades seja igual ao ndice de valor. Esta
propriedade no atendida pelos ndices de Laspeyres e Paasche como verificado abaixo:

L
p
L
q
=

=
=
n
1 i
0
i
0
i
n
1 i
0
i
1
i
q p
q p

=
=
n
1 i
0
i
0
i
n
1 i
1
i
0
i
q p
q p

=
=
n
1 i
0
i
0
i
n
1 i
1
i
1
i
q p
q p
= V

P
p
P
q
=

=
=
n
1 i
1
i
0
i
n
1 i
1
i
1
i
q p
q p

=
=
n
1 i
0
i
1
i
n
1 i
1
i
1
i
q p
q p

=
=
n
1 i
0
i
0
i
n
1 i
1
i
1
i
q p
q p
= V

Mas fcil verificar que o ndice de Fisher tem esta propriedade
157
.

Exemplo 11.3.1
Do exemplo 11.2.3.1, determine a ndice de quantidades de Laspeyres e Paasche e o ndice de valor.
1999 2000
preos quantidades preos quantidades
bem A $1 1000 $2 500
bem B $3 1500 $4 1200
bem C $4 1000 $3 1200

L
q
=
1000 4 1500 3 1000 1
1200 4 1200 3 500 1
+ +
+ +
= 0,9368

P
q
=
1000 3 1500 4 1000 2
1200 3 1200 4 500 2
+ +
+ +
= 0,8545

157
Um argumento a mais para o ideal. Suficiente?
317

V =
1000 4 1500 3 1000 1
1200 3 1200 4 500 2
+ +
+ +
= 0,9895

Todos os ndices apresentaram queda: o ndice de quantidades apresentou queda de 6,32%
medida por Laspeyres e 4,55% medida por Paasche. J o ndice de valor apresentou queda de
1,05%.

11.4 Valores nominais e reais deflacionamento de sries

Tomemos a tabela abaixo que mostra os salrios de uma categoria profissional em um
perodo inflacionrio.

tabela 11.4.1
Ms salrios
a preos correntes
ndice de preos
(base: jan/YY = 100)
jan/XX R$ 1.000 300
fev/XX R$ 1.100 320
mar/XX R$ 1.200 340
abr/XX R$ 1.300 360
mai/XX R$ 1.400 400
jun/XX R$ 1.500 410
jul/XX R$ 1.600 430

Repare que esta categoria teve um aumento (alguns preferem falar reajuste) em fevereiro de
10%. O valor, em moeda, foi 10% maior. Isto significa que o trabalhador pertencente a esta
categoria pode comprar 10% a mais em bem e servios? A resposta claramente no, bastando
para isso uma rpida olhadela na coluna referente ao ndice de preos.

Quando olhamos esta coluna, verificamos que os preos aumentaram de janeiro para
fevereiro. De fato, possvel inclusive quantificar este aumento no nvel de preos:


300
320
= 1,0667

Ou seja, houve um aumento de preos (inflao) de 6,67%. O aumento dos salrios
superior a esta taxa, o que vale dizer que houve sim, um aumento do poder aquisitivo, mas no de
10%. Alis, da matemtica financeira
158
podemos facilmente encontrar o quanto foi este aumento de
poder aquisitivo, que foi de 3,12%.

Este aumento de poder aquisitivo significa aumento de salrio real, isto , no expresso
simplesmente no valor monetrio, mas em termos de bens e servios que podem ser adquiridos.

Ora, se o aumento de 10% em moeda no significa aumento equivalente em bens e servios,
isto significa que a moeda perdeu valor. Reais em fevereiro valem menos do que reais em janeiro.

Seria til que nossa unidade de medida tivesse um valor constante, de tal modo que fosse
possvel identificar diretamente quando o poder aquisitivo aumentou ou caiu. Isto possvel se
todos os valores da tabela estivessem no mesmo real, isto , fosse estabelecido o valor da moeda

158
Basta fazermos a conta 1,1/1,0667 que nada mais que o aumento dos salrios (mais 1) dividido pela taxa de
inflao (mais 1).
318
em um ms especfico e ento todos os valores seriam calculados com base nesta moeda. Isto
equivale a encontrar uma srie de valores reais, ou seja, retirando-se os efeitos da desvalorizao
da moeda (inflao), o que conhecido como deflacionamento de uma srie.

Exemplo 11.4.1
Com base na tabela 11.4.1, construa uma srie de salrios reais medidos em reais constantes de abril

A questo : qual seria o valor equivalente ao salrio de cada ms se os preos de abril
fossem vlidos em todos os meses? Ou, melhor dizendo, qual o valor do salrio de cada ms a
preos constantes de abril?

Este clculo pode ser feito a partir de uma simples regra de trs. O valor de maio, por
exemplo, a preos de maio (ndice = 400) R$ 1400. Ento, podemos encontrar o valor de maio a
preos de abril (ndice = 360) por:
1400 400
x 360

salrio real de maio (preos de abril) = 1400360/400 = R$ 1260

Portanto nota-se que o salrio real em maio sofreu uma queda (diminuio de poder
aquisitivo) de aproximadamente 3%.

Para os outros meses o clculo feito da mesma forma: multiplica-se pelo ndice de abril e
divide-se pelo ndice do ms em questo:

salrio real de janeiro (preos de abril) = 1000360/300 = R$ 1200,00
salrio real de fevereiro (preos de abril) = 1100360/320 = R$ 1237,50
salrio real de maro (preos de abril) = 1200360/340 = R$ 1270,59
salrio real de abril (preos de abril) = 1300360/360 = R$ 1300
salrio real de junho (preos de abril) = 1500360/410 = R$ 1317,07
salrio real de julho (preos de abril) = 1600360/430 = R$ 1339,53

Poderamos ento completar a tabela 11.4.1:




Tabela 11.4.2
Ms salrios
a preos correntes
ndice de preos
(base: jan/YY = 100)
salrios reais
(preos constantes de abril/XX)
jan/XX R$ 1.000 300 R$1.200,00
fev/XX R$ 1.100 320 R$1.237,50
mar/XX R$ 1.200 340 R$1.270,59
abr/XX R$ 1.300 360 R$1.300,00
mai/XX R$ 1.400 400 R$1.260,00
jun/XX R$ 1.500 410 R$1.317,07
jul/XX R$ 1.600 430 R$1.339,53

Houve queda no poder aquisitivo do salrio apenas em maio, nos demais meses o salrio real
aumentou.

319
Repare que, de janeiro a fevereiro, a variao no salrio real foi de 3,12%, como havamos
calculado anteriormente.

Outra coisa importante que o ms tomado como base para os valores reais no tem que ser
o mesmo ms base utilizado para o ndice. De fato, o ms base do ndice nem sequer aparece na
tabela ( janeiro de um outro ano).

11.5 Tipos de ndices de preos

Quando lemos sobre o assunto na imprensa, geralmente somos bombardeados com uma
infinidade de ndices que, freqentemente, apresentam valores diferentes, muitas vezes de maneira
significativa. Na verdade so diferentes porque medem coisas diferentes.

Os ndices so calculados por diferentes institutos (no Brasil, por exemplo, temos ndices
calculados pelo IBGE, FIPE, Fundao Getlio Vargas, entre outros), mas esta no a nica
diferena.

Os ndices podem ser especificamente de preos finais ao consumidor. Recebem abreviaes
do tipo IPC (ndice de preos ao consumidor) e ICV (ndice de custo de vida). Estes ndices ainda
variam segundo a faixa de renda da populao que abrangem (isto , da faixa de renda das famlias
de cujos oramentos so extrados os pesos para o clculo do ndice).

Os ndices podem ser, entretanto, de preos no atacado, normalmente conhecidos como IPA
ou podem se referir especificamente a um setor especfico da economia, como a construo civil,
por exemplo.

H ainda ndices gerais de preos (usualmente abreviados IGP), que, como o prprio nome
diz so uma mdia de ndices como o de preos ao consumidor, atacado e construo civil.


Exerccios
1. So dados os valores das exportaes de um pas em moeda local:
ano exportaes (X$)
1994 1.234.567
1995 1.345.234
1996 1.027.123
1997 1.825.621
1998 1.975.454
1999 1.754.141

a) Construa um ndice tomando como base o ano de 1997.
b) Transforme a base do ndice para 1994.

2. dada uma srie de nmeros ndice
ms ndice
(base: jan/96 = 100)
janeiro/99 410
fevereiro/99 430
maro/99 427
abril/99 450
maio/99 478
320
junho/99 490
julho/99 465
agosto/99 481

a) Calcule a variao percentual em cada ms.
b) Transforme a base do ndice para agosto de 1999.

3. Calcule as variaes de preos pelos ndices de Laspeyres, Paasche, Fisher e Marshall-
Edgeworth.
a)
1997 1998
preos quantidades preos quantidades
bem A $1 1000 $2 500
bem B $3 1500 $4 1200
bem C $4 2000 $3 2500

b)
1999 2000
preos quantidades preos quantidades
bem 1 $10 1000 $12 800
bem 2 $3 2000 $5 1500
bem 3 $2 3000 $3 2500
bem 4 $5 500 $4 700

c)
2000 2001
preos quantidades preos quantidades
bem X $5 1500 $7 1800
bem Y $8 1500 $6 1200
bem Z $4 1000 $4 800

4. Calcule as variaes de preos pelos ndices de Laspeyres e Paasche
1998 1999
preos % do gasto preos % do gasto
bem A $10 30% $14 20%
bem B $20 40% $18 60%
bem C $22 30% $25 20%

5. Calcule a participao percentual de cada bem no gasto total para o ano de 1997
1997
preos quantidades
bem 1 $15 1000
bem 2 $20 1200
bem 3 $25 800
bem 4 $22 600

6. Utilizando os resultados do exerccio anterior, calcule o ndice de Laspeyres em 1998, 1999 e
2000.
1998 1999 2000
preos preos preos
321
bem 1 $16 $18 $20
bem 2 $22 $25 $26
bem 3 $24 $23 $22
bem 4 $22 $23 $25

7. Verifique se o ndice de Fisher atende aos critrios de reversibilidade e circularidade e se tem a
propriedade de que o ndice de preos multiplicado pelo de quantidades igual ao ndice de valor.

8. Verifique se o ndice de Marshall-Edgeworth atende aos critrios de Fisher e se tem a
propriedade de que o ndice de preos multiplicado pelo de quantidades igual ao ndice de valor.

9. O ndice geomtrico simples uma mdia geomtrica (simples, no ponderada) dos preos
relativos. Verifique se este ndice atende aos critrios de Fisher.




10. So dados os salrios nominais de uma categoria profissional e o ndice de preos:
ms salrio nominal (R$) ndice de preos
(base: janeiro = 100)
janeiro 1.000,00 100
fevereiro 1.100,00 120
maro 1.300,00 140
abril 1.650,00 170
maio 1.700,00 190
junho 2.000,00 220
a) Determine a variao percentual dos salrios nominais.
b) Determine a variao percentual dos preos (taxa de inflao).
c) Determine a variao percentual dos salrios reais.

11. So dados os valores das importaes de um pas em moeda corrente local e o ndice de preos
deste pas:
Ano importaes (X$) ndice de preos
(base: 1990 =
100)
1996 978.503 127
1997 1.130.544 150
1998 1.475.612 171
1999 1.121.300 187
a) Construa um ndice para as importaes tomando como base o ano de 1997.
b) Calcule a taxa de inflao (variao no nvel de preos) em cada ano.
c) Construa uma srie com os valores reais das importaes (utilize os preos de 1999).

12. So dados:
ndice de valor = 120
322
ndice de quantidades de Laspeyres = 80
Determine a variao de preos medida pelo ndice de Paasche.

13. Um produto teve aumento de 20%. Se isto representou um aumento de 0,5% no custo de vida,
qual o percentual do oramento representado por este produto na poca do perodo base?

14. Assinale verdadeiro ou falso:
a) Se h inflao, o salrio real sempre cai.
b) O ndice de preos de Laspeyres compara o custo de aquisio de uma cesta de bens num certo
perodo com o custo de aquisio desta mesma cesta no perodo base.
c) O ndice de preos de Paasche compara o custo de aquisio de uma cesta de bens num certo
perodo com o custo de aquisio desta mesma cesta no perodo base.
d) O ndice de preos de Laspeyres sempre maior ou igual do que o ndice de preos de Paasche.
e) O ndice de Fisher sempre maior do que os ndices de Laspeyres e de Paasche.
f) A diferena entre o ndice de preos de Laspeyres e o ndice de preos de Paasche que, para o
primeiro, a ponderao fixa na poca base e para o segundo varivel na poca atual.


323

Оценить