Econometria I - EESP

Econometria na Escola de Economia de São Paulo
Bruno Eduardo da Costa Sales
2019
1 Introduction
Econometria, em suas três subdivisões, recebe o tı́tulo de ”portão do inferno” na

EESP, isto é, um conjunto de matérias famosas por sua dificuldade e potencial
de DP. Justificadamente, deve-se dizer.
Exige-se, a fim de se obter aprendizado completo, um domı́nio mais

do que trivial das matérias anteriores de Estatı́stica, Probabilidade e Cálculo.
Mesmo com isso, ainda se faz necessário entender os próprios conceitos e técnicas
Econométricas, que são um desafio por si só. O uso do R, principalmente durante
Econometria II, também se mostra um obstáculo a parte, demandando várias
horas de empenho.
Nesta apostila, eu busco auxiliar os alunos dos anos vindouros a con-

quistar esta matéria e, de forma mais aprofundada, ter mais ferramentas e in-
tuições para enfrentar as diversas problemáticas comuns encontradas por Economis-
tas.
A fim de atingir este propósito, ela está organizada de acordo com

os programas que eu tive no ano de 2018. Isto é, o workbook de 2018, em
Econometria I.
Busquei discutir intuições e colocar formalidades. Dividi por tutoriais,

tentando, ao máximo, ficar atento ao que exatamente o tutorial pedia. Realizei
revisões, mas obviamente ainda se encontrarão erros - principalmente gramati-
cais.
Espero que a apostila seja de alguma utilidade!
Espero que seja útil!
1
2 Econometria I
Tutorial 03
Inicia-se com uma pergunta simples: se eu sei qual o Estado Civil de um in-
divı́duo, qual é a melhor forma de usar esta informação para prever seu salário?
Esta questão, contudo, esconde ao menos duas outras perguntas essen-

ciais para uma análise rigorosa da questão.
1. O que é ”prever a partir do Estado Civil?”

2. O que é a ”melhor previsão”?
A primeira pergunta talvez pareça trivial, mas ainda assim demanda

uma explicação rigorosa. Especificamente, estamos nos referindo a usar uma
função cujo domı́nio é o Estado Civı́l e a imagem um valor para o
salário do indivı́duo. Por exemplo, dizer que ”se um indivı́duo é solteiro,
então seu salário é dez mil reais; se for casado, então é cinco mil” é simplesmente
enunciar uma função especı́fica: C
(
10000 se x=1
f (x) =
5000 se x=0
Obviamente, pode-se enunciar vários tipos de função. Também intu-

itivamente, nem todas parecem ”igualmente boas”. A função exemplo acima,
por exemplo, é extremamente arbitrária: por que diabos alguém casado gan-
haria o dobro? Da mesma forma, fixar que, independente do Estado Civil, os
indivı́duos ganham zero de salário parece péssimo. Por outro lado, a afirmação
”a melhor previsão para o salário de um indivı́duo, baseado no seu estado civil,
é a média aritmética do salário de todos os outros indivı́duos na população com
este mesmo estado” parece, de alguma maneira, mais robusta.
Novamente, deve-se, para seguir na discussão, usar uma linguagem

matemática rigorosa. Neste caso, precisa-se perguntar qual métrica estamos
usando para dizer que uma previsão é ”pior” ou ”melhor”. A resposta disso
pode ser colhida a partir de algumas observações simples sobre nossas intenções
com a previsão:
1. Deve-se penalizar simétricamente.

Ou seja, se o salário real é x, qualquer desvio de x deve ser tratado igual-
mente como um erro. De fato, não faz sentido dizer que, se eu errei mil
2
para cima, estou de alguma maneira mais correto do que alguém que errou
mil para baixo.
2. Deve ser uma função derivável em todos os pontos.
Embora este seja uma condição mais formal, ela se justifica porque, na
nossa busca pelo ’melhor previsor’, em muitos momentos argumentos de
maximização/minimização serão necessários, de maneira que seria muito
desagradável encontrar uma situação em que não pudéssemos derivar a
função, sendo obrigados a utilizar de técnicas mais complexas. Assim,
talvez por comodidade, busquemos uma função especificada acima.
Qual candidato se eleva? Que tal o quadrado dos erros, como foi visto
em Estatı́stica? Vamos usar algo semelhante, mas não exatamente o mesmo
trabalhado em Estatı́stica, conforme discutiremos em alguns tutoriais mais à
frente.
Por enquanto, vale definir alguns pontos antes. Seja Y uma variável
aleatória. No caso, o seu sampling space é o conjunto de eventos ”Receber o
salário y” e sua imagem são os reais positivos. Neste sentido, y é um valor
especı́fico desta variável aleatória. É fácil notar que o evento ”Receber o salário
y” é imprevisı́vel - o que gera a caracterização de variável aleatória - porque
uma série de forças governam a determinação do salário de alguém, não sendo
possı́vel uma previsão determinı́stica disto.
Ainda, defina a variável aleatória Ye como a nossa previsão para o

salário, baseado na caracterı́stica de estado civil, isto é, relaciona cada indivı́duo
com o salário que previmos para ele a partir do estado civil.Da mesma forma,
ye é um valor especı́fico desta variável aleatória Ye .
Com isso, pode-se definir o seguinte:
ε = Y − Ye (1)
Este é o nosso ”erro de previsão”. Obviamente, também é uma variável aleatória,
dado que a substração de outras duas. Seu valor especı́fico é definido como
= y − ye. A partir disso, pode-se definir a nossa métrica como o velho Mean-
Squared-Error que encontramos em estatı́stica. Formalmente:
Z +∞
2
E[ε ] = E[(Y − Ye )2 ] =
2
(y − ye) f ()d
−∞
(2)
3
Com isso definido, deve-se agora passar para a segunda das ”perguntas
essenciais”: qual é o melhor previsor? Para o leitor atento, a resposta, ao menos
em seus termos mais genéricos, deve ser clara: a função cujos elementos do
conjunto imagem, associados com cada indivı́duo i a partir de seu estado civil,
minimizam (2).
Se definirmos o estado civil como a variável aleatória X, clamo para

vocês que a função que estamos perseguindo é a seguinte:
Z +∞
E[Y |X = x] = yf (Y = y|X = x)dy (3)
−∞
Ou seja, sabendo que o estado civil é x, eu atribuo para o indivı́duo

a esperança do salário, dado x . Para isso, eu preciso saber a distribuição de
probabilidade condicional de Y dado X. De inı́cio, um comentário possı́vel
é: ”Mas eu nunca vou saber essa probabilidade. Qual a relevância disso??”,
o que é um comentário sensato. No entanto, ao menos nesta etapa do curso,
estamos sempre assumindo que temos a base dados ideal e todas as informações
necessárias. Nessas condições ideais, pergunta-se qual é o melhor que podemos
fazer para realizar nossa previsão.
Dito isso, deve-se provar que, de fato, (3) minimiza (2). Por comodi-
dade, chama-se (3) de Φ.
2 2
E[(Y − Ye ) ] = E[(Y − Φ) + (Φ − Ye )) ] (4)
2 2
= E[(Y − Φ) ] + 2E[(Y − Φ)(Φ − Ye )] + E[(Φ − Ye ) ] (5)
Vamos destrinchar o termo central da expressão (5). Antes disso, con-

tudo, vale lembrar que tanto Ye ) quanto Φ são funções da variável x, que é o
estado civil. Especialmente no caso, de Φ, isto talvez não seja claro: a esperança
condicional de Y dado X = x é SEMPRE uma função de X, pois, para cada
valor x eu tenho um valor para a expectativa condicional.
Ademais, também lembremos que, para qualquer função densidade

de probabilidade conjunta de variáveis aleatórias Z e W quaisquer, há que:
f (Z, W ) = f (Z|W )f (W ). Isto é, o produto entra a condicional e a marginal.
Assim, de (5):
4
ZZ
E[(Y − Φ)(Φ − Ye )] = (y − φ)(φ − ye)f (X = x, Y = y) dx dy
R2
ZZ
= (y − φ)(φ − ye)f (Y = y|X = x)f (X = x) dx dy
R2
Z +∞ Z +∞
= ( (y − φ)f (Y = y|X = x)dy)(φ − ye)f (X = x)dx)
−∞ −∞
Seja o foco na parte destacada acima.

Z +∞ Z +∞ Z +∞
(y − φ)f (Y = y|X = x)dy = yf (Y = y|X = x)dy − φ( f (Y = y|X = x)dy)
−∞ −∞ −∞
= E[Y |X] − Φ
=0
Do que a passagem para a segunda usa precisamente a definição que

demos para Φ.
Se substituirmos este resultado, fica-se que:
E[(Y − Φ)(Φ − Ye )] = 0
Daı́, ao substituir este resultado em 5:
2
E[(Y − Ye ) ] = E[(Y − Φ)2 ] + E[(Φ − Ye )2 ] (6)
Ora, E[(Φ− Ye )2 ] ≥ 0. Assim, o mı́nimo vem quando Ye = Φ = E[Y |X],

que era exatamente o ponto que gostarı́amos de demonstrar, completando, por-
tanto, este tutorial.
Tutorial 03-04-05
Correlação x Causalidade
O tutorial faz a seguinte pergunta: se há correlação entre as variáveis anos de

educação e salário, pode-se inferir uma causalidade entre elas? Para responder
isso, precisa-se definir o que seria causalidade. Embora se possa fazer isso de
forma rigorosa, opto por uma apresentação mais intuitiva.
5
Especificamente, em Econometria se está preocupado com o ”efeito
de uma causa”. Mais precisamente, vamos definir o conceito de ”tratamento”:
dado um ente i - indivı́duo, paı́s, instituição, etc. - com certo conjunto de
caracterı́sticas - ou variáveis aleatórias - S, um tratamento em i é um ação que
mude numericamente algum elemento do conjunto S. Por exemplo, se os entes
forem indivı́duos, uma caracterı́stica interessante é ”anos de educação”. Um
tratamento seria, por exemplo, ”fornecer um ano a mais de educação para um
indivı́duo”, por meio de, em ilustração, um programa novo de ensino.
Visto isto, pode-se dar uma possı́vel definição para ”causalidade”. Seja
uma caracterı́stica s1 e outra s2 . Ao mesmo tempo em que se aplica um trata-
mento em s2 , mantém todos os outros elementos de S que não s1 , bem como
qualquer elemento fora de S que possa influenciar em s1 , constante - ceteris
paribus, para o leitor atento. Com isto feito, avalia-se, dado este tratamento
e esta condição de constância, o que ocorreu com s1 , numericamente. Esta
mudança numérica é o efeito causal de s2 em s1 . 1 .
Por exemplo, se há um tratamento que aumenta marginalmente os anos

de educação de um indivı́duo e, tudo mais no universo constante, isto aumenta
em 5 reais o saslário dele, então o efeito causal dos anos de educação sobre o
salário é de 5 reais.
Posto isto, cabe agora definir o que seria correlação. Formalmente:
E[X − E[X]]E[Y − E[Y ]]

Cor(X, Y ) = (7)
σx σy
Em português, correlação é simplesmente uma medida de relação linear entre
duas variáveis aleatórias. Visto isso, fica evidente que não necessariamente
correlação implica causalidade: não necessariamente o efeito causal de X e Y
seguira uma relação linear e, mais importante do que isso, em nenhum momento
a condição ceteris paribus está sendo usada na definição de correlação.
De fato, entender que correlação não é causalidade talvez seja um dos

maiores super-poderes argumentativos e analı́ticos que um graduado em Econo-
mia adquire. Isto permite a identificação de uma série de erros no raciocı́nio
alheio e no seu próprio, contribuindo para uma visão mais fundamentada de
mundo. 2
1 Uma discussão aprofundada deste assunto é feita no artigo ’Statistics and Causal Infer-
ence” (1986), de Paul Holland

2 Se quiser usar um pouco deste super poder, reocmendo este site:
http://www.tylervigen.com/spurious-correlations
6
MQO simples - Identificação
Como já foi discutido, a nossa melhor previsão, se queremos minimizar o MSE,
é feita a partir de E[Y |X = x]. Também como mencionado, para se ter exata-
mente, para cada x, este valor, seria necessário um nı́vel de informação grande
sobre nossa população.
Via de regra, isso não é possuı́do, de maneira que realizamos uma

hipótese - uma ”acochambrada” - para como esta esperança condicional, sendo
uma função de x, deve ser:
E[Y |X = x] = β0 + β1 x (8)
Ou seja, uma reta. Quando se faz isso, deixa-se de buscar o ”melhor

previsor” para ir para uma classe mais singela, mas ao mesmo tempo mais fácil
de trabalhar: o melhor previsor linear.
No mais, cabe a seguinte pergunta: qual reta eu devo especificar para

(8)? Obviamente, a depender de β0 e β1 , terei infinitas retas diferentes. Precisa-
se de um critério para esta escolha. Ora, todo o objetivo para se usar E[Y |X =
x] era minimizar o erro quadrado médio. Portanto, a nossa aproximação linear
para E[Y |X = x] deve focar no mesmo objetivo. A reta que procuramos - i.e,
β0 e β1 - é, portanto, é aquela que minimiza o erro quadrado médio.
Para identificar esses parâmetros, far-se-á o seguinte.

Z +∞
2 2
E[(Y − βo − β1 X) ] = (y − βo − β1 x) f (e)de (9)
−∞
Vamos derivar 9. Com algumas condições fracas, pode-se aplicar a

”regra de integral de Leibniz” e colocar a derivada ”para dentro” da integral,
de modo que se fica, como CPO para βo , com o seguinte:
E[(Y − βo − β1 X)] = 0
(10)
βo = E[Y ] − β1 E[X] (11)
Dito isso, coloquemos o resultado de (11) em (9):
7
E[(Y − E[Y ] − β1 (X − E[X]))2 ] = E[(Ȳ − β1 X̄)2 ] (12)
Se aplicarmos a CPO para β1 , fica-se com:
E[(Ȳ − β1 X̄)X̄)] = 0 (13)

E[Ȳ X̄]
⇐⇒ β1 = (14)
E[X̄ 2 ]
Cov(X, Y )
= (15)
V ar(X)
Ao se substiuir (15) em (11), também se identifica β0 , findando o que

havı́amos nos proposto: encontramos qual é o melhor previsor linear para a
variável Y ou, o que é o mesmo, a melhor aproximação linear para E[Y—X=x].
Estimação x Identificação
Na seção acima, sublinhei a palavra ”identificação”. O que seria isso? Basi-

camente, é a resposta para a pergunta: ”se tivéssemos infinitos dados e a dis-
tribuição de probabilidade dos mesmos, conseguerı́amos expressar os parâmetros
como função dos momentos populacionais”?
Vimos que a resposta, no caso acima, é ”sim”, bastando ver a equação

(16) e a (12). Uma vez que isto foi estabelecido, pode-se passar para outro
gênero de problema: a ”estimação”. Isto é, a partir de um conjunto finito
de dados - a amostra - conseguir um valor para o parâmetro. Este valor é a
”estimativa”, enquanto a expressão pela qual a conseguimos é o ”estimador”.
A próxima subseção tratatá disto em detalhe.
No entanto, existem situações em que não necessariamente a identi-

ficação é possı́vel. No nosso caso simples, por exemplo, se V ar(X) = 0 - todo
mundo com o mesmo número de anos de educação, não existiria um único β1
para identificarmos a partir dos dados, uma infinidade deles. De maneira mais
geral - mas ainda intuitiva - se o mesmo parâmetro possui duas expressões
diferentes, então há um problema de identificação. Se este é o caso, então não
é possı́vel realizar a estimação e se tem um obstáculo grave em mãos.
Por isso, por prudência e rigor intelectual, sempre se deve, depois de

se formular um modelo - no nosso caso, uma expressao para E[Y |X = x] -,
garantir-se que os parâmetros do mesmo são identificáveis. Se sim, parte-se
para a estimação. Se não, chora-se.
8
Estimação por MQO Simples - Propriedades Algébricas
Talvez a maneira mais intuitiva de, a partir de uma amostra com dados finitos,
chegar-se em uma estimativa para β0 e β1 seja simplesmente replicando o que
foi feito na identificação com os paralelos amostrais.
Vamos expor isso com cuidado. Então, da população original, retira-se

um número n finito de indivı́duos ou, de maneira mais distanciada, pares or-
denados (x, y). Cada um desses para ordenados se relaciona com um indivı́duo
que retiramos da amostra, de modo que, para os dados amostrais, pode-se usar
a notação (xi , yi ). Notavelmente, isto também se relaciona com uma variável
aleatória. Veja só: seja um ”i” especı́fico, como ”1”. Naturalmente, estamos
nos referindo ao ”indivı́duo 1”, mas quem é o ”indivı́duo 1” depende funda-
mentalmente de qual amostra estou. Assim, tem-se um evento imprevisı́vel -
qual amostra de n indivı́duos teremos - relacionado com um valor especı́fico xi .
Então, sendo muito rigoroso, pode-se dizer que (xi , yi ) são valores especı́ficos
das variáveis aleatórias X i , Y i , cujo o sample space é o conjunto de todas as
amostras possı́veis e o contra-domı́nio são os valores (xi , yi .
No entanto, vou me dar a permissão - seguindo o que todos os livros

fazem- de cometer um pequeno abuso de notação aqui: mesmo que, rigorosa-
mente, (xi , yi ) sejam VALORES especı́ficos das variáveis aleatórias, eu vou usar
de maneira ”intercambiável” (xi , yi ) para representar tanto valores especı́ficos
quanto variáveis aleatórias da amostra. Obviamente, vou deixar claro quando
elas querem dizer uma coisa e quando querem dizer outra. Não se preocupe se
isso não ficou claro agora: com o uso, acaba se tornando mais simples.
Ao colocar (xi , yi ) em um gráfico, tento simular o que eu realizei para a

identificação: aproximo E[Y |X = x] a partir de uma reta, sendo esta aquela que
minimiza o erro quadrado médio. Contudo, logo percebo, eu não tenho como
encontrar o MSE, porque tenho somente finitos dados e nenhuma distribuição
de probabilidade. O análogo disto, em uma amostra finita, seria o seguinte:
n
X
(ei )2 (16)
i=0
Que é o chamamos de ”soma dos resı́duos ao quadrado”. RESÍDUO

NÃO É ERRO. O erro, como já foi discutido, advém entre a diferença entre o
valor do salário e a previsão que realizamos, mas a partir dos PARÂMETROS.
Na estimação, não se tem os parâmetros, somente estimativas paras os mesmos,
de modo que a diferença entre o salário e a previsão estimada NÃO pode ser o
erro. RESÍDUO É O ANÁLOGO AMOSTRAL DO ERRO.3
3A Cristine vai corrigir vocês TODAS as vezes que você confundirem. Não é agradável!
9
Colocado isto, como se pode encontrar a estimativa? Ora, simples-
mente minimizando (17) de maneira muito semelhante àquela feita na identi-
ficação. Ao se fazer isso, conseguir-se-á as seguintes expressões:
Cov(X,
d Y)
b1 = (17)
V ar(X)
d
b0 = Y̆ − b1 X̆ (18)
Em que Y̆ e X̆ são as médias amostrais de Y e X. De forma relevante, os

”chapéus” em cima da covariância e variância indicam que estamos lidando com,
novamente, os análogos amostrais das mesmas. As letras minúsculas e perten-
centes ao alfabeto latino também indicam a diferenciação entre os valores aqui
colocados, que, dado a amostra, são estimativas, e os verdadeiros parâmetros.
Deve-se refletir um pouco sobre as expressões (17) e (18). A rigor,

elas são funções, as quais chamaremos de ”estimadores”. ”Funções de quê?”.
Da amostra! Para cada amostra que tivermos da população, ter-se-á diferentes
valores para b0 e b1 . Isto ocorre pois, claramente, as médias amostrais, co-
variância e variância amostrais dependem fundamentalmente das amostras que
tivemos. Quando fixamos uma amostra, daı́ temos um número, que se chama
”estimativa”.
Com isso colocado, quais são as propriedades algébricas deste esti-

mador? Defina ”propriedades algébricas” como aquelas que advém simples-
mente de operações matemáticas que podem ser provadas a partir da simples
definição do estimador. No nosso caso, o estimador é aquele que minimiza a
soma dos resı́duos ao quadrado. O que se pode chegar? Elencarei e provarei.
Pn
1. i=1 ei = 0
Ou seja, sob o estimador de MQO, a soma dos resı́duos é zero. A prova
disto é simples, bastando olhar para a condição de primeira ordem para
b0 . Isto é, deveriva-se (16) em relação a bo eseigualaazero.T eremos :
Pn
i=1 (yi − β0 − β1 x i ) = 0
Que é exatamente o que gostarı́amos de provar.
2. Cov(X,
d e) = 0
Ou seja, a covariância amostral entre os valores de X - os ”regressores”- e os
resı́duos são zero. Para ver isso, retome a definição de covariância amostral:
Pn
i=1 (xi − x̆)(ei − ĕ) Pn
E a condição de primeira ordem para β1 : i=1 ei xi = 0
Daı́,
Pn como ĕ, do item 1 acima. , é zero, a expressão para a covariância fica:
Pi=1 (xi − x̆)(ei ) P
n n
i=1 (xi )(ei ) − x̆ i=1 ei
10
Que é zero, pela condição de primeira ordem e pelo item 1.
3. Cov(Ŷ , e) = 0
Com Ŷ sendo os valores ”fittados”, isto é, que compõem a reta b0 + b1 xi
Pn ˘ i − ĕ)
(yî − ŷ)(e
Pi=1
n ˘ i)
(yî − ŷ)(e
Pi=1
n ˘ i)
i=1 (b0P + b1 xi − ŷ)(e
˘ n Pn
(b0 − ŷ) i=1 (ei ) + b1
i=1 ei xi
Que é zero, pelo Item 1 e 2.
4. y̆ = b0 + b1 x̆
Ou seja, a reta com as estimativas inclui o ponto (x̆, y̆) ou, ainda, ela contém o
par ordenado das médias amostrais.
Para ver isso, basta realizar um somatório em ambos os lados:
Pn Pn
i=1 yi = nb0 + b1 i=1 xi
Se dividimos por ”n”, chegamos na demonstração que almejávamos.
5. ŷ˘ = y̆ Ou seja, a média dos valores fitados é igual a média amostral de todos os
valores.
Como se sabe, o valor fittado é dado por:
b0 + b1 xi = yî
Se fazemos o mesmo processo que em 4., chega-se em:
ŷ˘ = b0 + b1 x̆
Ao igular a 4., demonstra-se o requerido.
Ressalta-se que essas propriedades são simplesmente derivações matemáticas

da forma que definimos o estimador.
Outro ponto relevante é se questionar uma métrica para o quão bem a

nossa reta fitta os dados. Ora, uma possı́vel é ver simplesmente o tamanho das
somas dos resı́duos ao quadrado. No entanto, isto é pouco sofisticado, uma vez
que depende das unidades dos dados. Relembro-me de um trabalho de Projetos
II cujo tema era receito de filmes e os resı́duos ao quadrado deram na ordem de
101 5. Em outro, que tratava de milimetros de chuva, 10− 4. É difı́cil comparar
essas situações. É interessante que tenhamos uma fração, que varie de 0 a 1.
Esta é a ideia do R2 .
Existem muitas formulações para elas. Vou expor duas.
1. R2 enxuto
yi = b0 + b1 xi + ei
yi = ŷ + ei
V ar(Y ) = V ar(Ŷ ) + V ar(e) + Cov(Ŷ , e)
11
Da propriedade algébrica 3., sabemos que a terceira parte é zero. Logo:
V ar(Y ) = V ar(Ŷ ) + V ar(e)
SST = SSE + SSR
A partir disso, o R2 é definido como:
SSE
R2 = SST
De maneira mais clara, o R2 é, simplesmente, a correlação amostral, ao
quadrado, entre os valores de Y fittado e os valores de Y da amostra:
2 Cov(Ŷ , Ŷ + e) 2
d
Cor(Ŷ , Y ) = ( q )
d
V ar(Ŷ )V ar(Y )
d d
Cov(Ŷ , Ŷ ) + Cov(Ŷ , e) 2
d d
=( q )
V ar(Ŷ )V ar(Y )
d d
2
V ar(Ŷ )
d
= (q )
V ar(Ŷ )V ar(Y
d )
d
V ar(Ŷ )2
d
=
V ar(Ŷ )V ar(Y
d )
d
V ar(Ŷ )
d
=
V ar(Y
d )
Que é exatamente o R2 acima.
2. R2 aberto
yi = b0 + b1 xi + ei
Ao colocar aqui a equação (19):
yi − Y̆ = b1 (x − X̆) + ei
P n 2 2 Pn 2
Pn Pn 2
i=1 (yi − y̆) = b 1 i=1 (xi − x̆) + 2b1 i=1 (xi − x̆)ei + i=1 ei
Da propriedade algébrica 2., o termo do centro é zero. Assim:
Pn Pn Pn
i=1 (yi − y̆)2 = b1 2 i=1 (xi − x̆)2 + 2
i=1 ei
Se dividirmos a equação acima por n, chegaremos nas variâncias expostas

no item 1. Desta forma, o R2 pode ser expresso como:
b21 n (x −x̆)2 b
P
R2 = Pni=1 i 2
i=1 (yi −y̆)
12
MQO simples - Propriedades estatı́sticas
Como se viu na subseção anterior, saber propriedades algébricas nos auxilia a

encontrar formas mais simples e métricas para o estimador. No entanto, isto
não é diz muito se o estimador é ”bom” ou ”não”. Quer dizer, ele parece
legal, né? Nós fizemos, basicamente, todos os análogos amostrais dos momentos
populacionais: a esperança virou a média amostral, as covariâncias e variâncias
viraram amostrais. No entanto, apesar de intuitivamente termos uma ideia de
que tudo está bem, precisamos ser mais rigorosos do que isto.
Ademais, como dito anteriormente, as expressões (18) e (19) são funções

da amostra: para cada conjunto de indivı́duos retirados da população, ter-se-á
estimativas diferentes. Abstraia um pouco isso: imagine que, de forma aleatória,
você retire uma infinidade de amostras e, para cada uma delas, faça uma es-
timativa de acordo com (18) e (19). Focando somente em b1 , se você colocar
todas estas infinitas estimativas em uma linha real, ter-se-à uma distribuição
para b1 . É a partir desta distribuição que avaliaremos se o estimador é ”bom”
ou ”ruim”. Chamemos esta distribuição de ζ.
A saber, usaremos três critérios:
1. Viés
O viés é uma proposição sobre a esperança da ζ que definimos acima.
Basicamente, estamos perguntando: ”o valor esperado da distribuição do
estimador se aproxima do valor real do parâmetro?”. Se ele É o valor,
então o estimador é não-viesado. Se não, é viesado. Formalmente:
Biasβ1 = E[b1 ] − β1
Naturalmente se, E[b1 ] = β1 , há ausência de viés.
2. Eficiência
O critério de eficiência se refere à variância de ζ. Mais tarde, quando
tratarmos de argumentos assintóticos, vamos refinar o que exatamente
quer dizer um estimador ”eficiente” - dica: Fisher Information. Aqui, con-
tudo, vamos focar em dizer que um estimador θ que possua uma variância
menor que outro estimador Φ é mais eficiente do que este.
3. Consistência
A consistência de um estimador não é, como os dois critérios anteriores,
uma proposição sobre os momentos da distribuição, mas sim sobre a dis-
tribuição ζ - ou, de forma mais rigorosa, sobre TODOS os momentos de
ζ.
No caso, note que, conforme já exaustivamente falado, o estimador b1 é
uma função da amostra e, mais do que isso, uma variável aleatória: liga
a amostra a um valor numérico. Da mesma forma, o parâmetro β1 pode
ser visto também como uma variável aleatória: todo valor de amostra é
associado com o mesmo número, a saber, β1 .
13
A ideia da consistência é dizer que, quando o número da amostra é muito
grande, a probabilidade de que a variável aleatória b1 difira da variável
aleatória β1 tende a zero. Formalmente:
limn−>∞ P [|b1 − β1 | > ] = 0
De maneira mais intuitiva, isto quer dizer que, se o número da amostra
é suficientemente grande (”infinito”), não importa qual amostra da pop-
ulação eu pegue, as estimativas ”sempre” - com uma probabilidade tão
próxima de 1 quanto se queira - serão iguais a β1 . 4
Dito isso, fica claro porque isto é uma proposição sobre a distribuição ζ
como um todo: nesta situação, ela é somente uma ”barra”. Ou, ainda,
uma distribuição com um valor cuja probabilidade de ocorrênia é 1.
Questiona-se, agora, quais são as propriedades estatı́sticas do esti-

mador de MQO simples? Esta talvez seja uma das mais complexas até agora.
Para respondê-la, diferente dos outros casos, vamos precisar de uma série de
”hipóteses” sobre a população, que, à rigor, serão a base de todo o curso de
Econometria daqui em diante.
1. Hipótese RLS - Linear nos parâmetros

Basicamente, é o que estávamos fazendo até aqui. Postularemos uma
forma para nosso modelo populacional.
Y = β0 + β1 X +
Note que é ”linear nos parâmetros”. Isto quer dizer que, possivelmente,
pode-se ter elementos não lineares nos dados. Por exemplo: Y = β0 +
β1 X 2 + ainda está no escopo desta hipótese.
2. Hipótese RLS - Amostragem aleatória, independente e identica-
mente distribuı́da
Basicamente, esta hipótese nos diz sobre como fomos na população e peg-
amos os dados. No caso, postule que haja certa distribuição para os pares
ordenados (xi , yi ). A ideia é que estou indo nesta distribuição e pegando
n dados de forma aleatória, de modo que não há nenhuma estrutura de
dependência entre eles. A importância disto ficará evidente mais tarde,
mas a ideia é que não haverá, dado esta independência, nenhuma estrutura
de correlação entre os dados.
3. Hipótese RLS - Variação amostral na variável explicativa
Assim, os valores da amostra são ”espalhados”, não sendo somente uma
constante. Isto é muito fácil de ser satisfeito e, se nos atentarmos para a
equação (18), fica evidente a razão de sua importância.
4 Isto é a definição de ”convergência em probabilidade”. Se você tem muitas dúvidas em
convergências, recomendo muito o site ”StatLect.”.
14
4. Hipótese RLS - Média condicional zero
Seja a variável aleatória i . De onda ela advém? Ora, seja o modelo
populacional:
Y = β0 + β1 X + ε
Isto também é válido, claro, quando usamos as seguintes variáveis aleatórias,
cujo sample space é o conjunto de todas as amostras possı́veis: 5
yi = β0 + β1 xi + i
Do que vem que:
i = y i − β0 − β1 x i
Agora, vamos imaginar a seguinte situação: vou fixar uma amostra par xi ,
de modo que ele deixa de ser uma variável aleatória e passa a ser somente
um valor. A ideia é como se eu tivesse valores fixos da variável aleatória
X na minha amostra, com somente Y podendo variar. 6 Cabe a atentar,
disto, que por não termos ”fixado” o valor para yi , se eleva o fato de que
i persiste como variável aleatória.
Assim, chega-se, enfim na hipótese: E[i |xi ] = 0, ∀i ∈ [1 : n]
Ou seja, uma vez que eu tenho qualquer valor para a variável aleatória
xi , aesperançadavariávelaleatória é zero. 7
5. Hipótese RLS - Variância constante
Novamente, atentemo-nos para a variável aleatória ε. Ela possui uma
distribuição que, como sabemos, possui valor esperado, condicional a X=x,
zero. Esta hipótese trata sobre a variância desta distribuição.
V ar(i |xi ) = σ 2 , ∀i ∈ [1 : n]
Ou seja, independente do valor de X que condicionamos, o valor da
variância sempre é o mesmo.
6. Hipótese RLS. i , condicional a X=xi )édistribuı́donormalmente
Ouseja, agora, temosumaproposiçãosobreoutrosmomentosdadistribuiçãodeε:
sabe-se que a assimetria é zero e que a curtose é 3, por exemplo.
Uma ilustração das hipóteses 1., 4., 5. e 6. é a seguinte:
Nesta, é possı́vel ver as distribuições de ε dado valores de x. Pode-se

reparar que elas, condicionadas as valores de x sempre possuem uma distribuição
normal CENTRADA na reta, o que é o mesmo que dizer que estão centradas
no valor zero. Ademais, elas tem o mesmo ”espalhamento”, ou seja, a mesma
variância.
5 Atenção,
como dito acima, para o abuso de notação!
6 Atente-se para o COMO SE. Eu não estou, efetivamente, fixando as amostras da variável
X. Apenas afirmei que a ideia se aplica e é uma simplificação conveniente. Em praticamente
qualquer aplicação, DE FATO fixar a amostra de X é bem pouco realista.
7 Note que, pela lei das Expectativas iteradas, a esperança incondicional, ou seja, sem
condicionar a X, também é zero.
15
Sendo perspicaz, é óbvio que algumas dessas hipóteses - sobretudo
normalidade - são incrivelmente fortes. Seria muito surpreendente que os erros,
formados a partir de uma hipótese de simplificação linear que fizéssemos, real-
mente fossem normais. No entanto, e isto é importante entender, colocar essas
hipóteses nos permite realizar uma análise mais sistemática das propriedades dos
estimadores e dos próprios argumentos econométricos, por meio da identificação
de falhas e locais que necessitam de mais sustentação.
Dito isso, passemos para algumas propriedades importantes do esti-

mador de MQO, definido em 18 e 19:
1. É um estimador linear 8
Ser um estimador linear quer dizer que ele pode ser expresso como uma
combinação linear dos valores da amostra. Neste sentido, retomemos (19):
Cov(X,
d Y)
b1 =
V ar(X)
d
Pn
(x − x̆)(yi − y̆)
= i=1 Pn i
(xi − x̆)2
Pn i=1
i=1 (xi − x̆)(yi )
= P n 2
i=1 (xi − x̆)
n
X
ci yi
i=1
Defina: ci ≡ Pn xi −x̆ 2.
9
Daı́:
i=1 (xi −x̆)
O que nos mostra que o estimador pode ser escrito como combinação linear
entre os valores que temos na amostra. Logo, é um estimador linear. 10
2. É não viesado.
Novamente, retome (18):
Cov(X,
d Y)
b1 =
V ar(X)
d
Pn
(x − x̆)(yi − y̆)
Pn i
= i=1
(xi − x̆)2
Pn i=1 Pn
(xi − x̆)(yi ) − y̆ i=1 (xi − x̆)
= i=1 Pn 2
i=1 (xi − x̆)
8 Esta foi uma pergunta de prova! Fique atento
9 Essa transformação pode parecer despropositada e, até, difı́cil de entender, mas é muito
útil. No denominador, tem-se um número - a variância amostral de X - de modo que estamos
somente realizando o somatório de frações.
10 O estimador para β é análogo. Isto ocorre porque sua diferença para o de β são somente,
0 1
dado a amostra, constantes.
16
Pn
i=1 (xi − x̆)(yi )
= P n 2
(19)
i=1 (xi − x̆)
Do que a última passagem vem de simplesmente desenvolver o segundo

somatório da penúltima equação. Ademais, lembremos do nosso modelo
populacional:
Y = β0 + β1 X + ε
Obviamente, isto também gera relações entre valores especı́ficos das variáveis
aleatórias Y, X e, por conseguinte, ε.
y = β0 + β1 X +
Um desses valores especı́ficos é, justamente, (yi , xi ), isto é, aqueles asso-
ciados com o indivı́duo i, em alguma amostra. Assim, pode-se fazer:
yi = β0 + β1 X + i
Ao colocar isto na equação 21, fica-se com:
Pn
i − x̆)(β0 + β1 xi + i )
i=1 (xP
b1 = n 2
i=1 (xi − x̆)
Pn Pn Pn
i=1 β0 (xi − x̆) + P i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)
= n 2
i=1 (xi − x̆)
Vamos, agora, fazer o seguinte: passar, de ambos os lados, o operador

esperança condicional. Vamos condicionar em ”X̄”, que, nesta contexto,
simbolizará uma amostra especı́fica (x1 , x2 ...xn ) - e não a variável aleatória
X, tome cuidado para não confundir!
Pn Pn Pn
i=1 β0 (xi − x̆) + P i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)
E[b1 |X̄] = E[ n 2
|X̄]
(x i − x̆)
Pn Pn i=1 Pn
E[ i=1 β0 (xi − x̆) + i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)|X̄]
= Pn 2
i=1 (xi − x̆)
Note que a variância amostral de X̄ ficou fora do operador esperança

porque, condicionado a amostra, ele é um valor fixo - a saber, a variância
amostral.
O primeiro somatório é zero. A razão disto é a mesma da passagem que
nos fez chegar na equação (20): estamos realizando o somatório de valores
menos a sua média amostral e multiplicando por uma constante, o que
sempre é zero.
Por uma razão semelhante, pode-se escrever o seguinte:
Pn Pn Pn Pn
i=1 (xi −x̆)(xi −x̆) = i=1 (xi )(xi −x̆)−x̆ i=1 xi −x̆ = i=1 (xi )(xi −x̆)
17
Desta forma, pode-se rescrever a equação que estamos focando como:
Pn 2 Pn
E[ i=1 β1 (xi − x̆) + i=1 ei (xi − x̆)|X̄]
E[b1 |X̄] = P n 2
i=1 (xi − x̆)
Pn 2
Pn
β1 (xi − x̆) E[ i=1 ei (xi − x̆)|X̄]
= Pn i=1 2
+ Pn 2
(x
i=1 i − x̆) i=1 (xi − x̆)
Novamente, para entender essas passagens e as posteriores, devemos nos

Pnatentar
que nós condicionamos a uma amostra especı́fica. Desta maneira β1 i=1 (xi −
x̆)2 é uma constante. De fato, se temos números especı́ficos para todos os xi ,
somá-los sempre dará uma constante.
Pn
E[ (x − x̆)|X̄]
Pn i i
β1 + i=1 2
i=1 (xi − x̆)
Pn
(x − x̆)E[ei |X̄]
Pn i
β1 + i=1 2
(20)
i=1 (xi − x̆)
Queremos provar, agora, que E[ei |X̄] é igual a zero. Embora os livros omitam
os passos para ser realizar isso, julgo muito danoso para o aprendizado e fran-
camente confuso quando atingimos o assunto de séries temporais. Assim, serei
bem rigoroso nisso.
Precisamos agora da Hipótese RLS 4. No caso, ela afirmava que o erro do
indivı́duo i é independente, em média, da variável explicativa do indivı́duo i.
Formalmente:
E[i |xi ] = 0, ∀i ∈ [1 : n]
Note que isso é diferente do que estamos querendo provar em um aspecto pe-
queno, mas crucial. Afirma-se, aı́, que independência em média somente para
a variável explicativa do indivı́duo que possui o erro . Não se diz nada so-
bre o conjunto de variáveis explicativas de todos os indivı́duos, isto é, X̄ =
(x1 , x2 , . . . , xn ). Isto cabe prova ainda.
Para darmos este passo, nos lembremos da Hipotese RLS.2, que afirmava que
amostragem era aleatória e independente. Isto quer dizer que, dado dois in-
divı́duos, as variáveis de cada um deles são indpendentes entre si. Especifica-
mente para nosso propósito, os erros e as variáveis explicativas são independentes
e as próprias variáveis explicativas são independentes entre si.
f (ei , xj ) = f (i )f (xj ), ∀i 6= j
f (xi , xj ) = f (xi )f (xj ) ∀i 6= j
A partir disso, vamos realizar um argumento indutivo para provar nosso ponto.
Assim, considere como caso base n = 2. Vamos provar um pequeno lema para
18
seguir com a demonstração:
f (x2 , i , x2 )
f (xj |i , xi ) =
f (i , xi )
f (i , xi |xj )f (xj )
=
f (xi , i )
f (i , xi )f (xj )
=
f (i , xi )
= f (xj )
Do que a penúltima passagem vem das independências entre ei , xj e xi ,xj .

Com isto posto, agora seguimos para:
f (i , xi , xj )
f (i |xi , xj ) =
f (xi , xj )
f (xj |i , xi )f (xi , i )
=
f (xi )f (xj )
f (xj )f (xi , i )
=
f (xi )f (xj )
f (xi , i )
=
f (xi )
= f (i |xi )
Isso permite que concluamos, por fim, que:

R +∞ R +∞
E[ei |xi , xj ] = −∞ (i |xi , xj ) = −∞ f (ei |xi ) = E[ei |xi ] = 0, ∀i∀j 6= i
Ou seja, quando n = 2, a hipótese RLS.4, em conjunto com a RLS.2, generaliza-
se para toda a amostra. Será que é possı́vel realizar essa generalização para
qualquer n?
Para buscar isto, aceite que para n = n∗ o resultado é válido. Ou seja:
f (1 |x1 , x2 , . . . xn∗ ) = f (1 |x1 )
Analisemos para n = n ∗ +1. Vamos deixar de demonstrar alguns resultados
intermediários, porque são muito parecidos com o que fizemos no caso base.
19
f (1 , x1 , x2 . . . xn∗+1 )
f (1 |x1 , x2 . . . xn∗+1 ) =
f (x1 , x2 . . . xn∗+1 )
f (xn∗+1 |e1 , x1 . . . xn∗ )f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ) . . . f (xn∗+1 )
f (xn∗+1 )f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ), . . . f (xn∗+1 )
f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ), . . . f (xn∗ )
= f (1 |x1 , x2 , . . . xn∗ )
= f (1 |x1 )
O que é o que gostarı́amos de demonstrar. Então, com o caso base n = 2

demonstrado e também o passo indutivo, prova-se que, para qualquer tamanho
de amostra, é verdade que, nas condições de RLS.4 e RLS.2:
E[i |X̄] = E[i |xi ] = 0 (21)
Agora, pode-se retornar para a equação (20), aplicando a equação (21):
Pn
(x − x̆)E[ei |X̄]
E[b1 |X̄] = β1 + Pn i
i=1
2
i=1 (xi − x̆)
= β1
Note a nossa conclusão: a esperança de b1 , condicional a uma amostra, é

o parâmetro real. Isso não prova a ausência de viés, porque precisamos da
esperança INCONDICIONAL. Felizmente, para encontrá-la, basta usar nova-
mente o operador esperança e lembrar da lei das expectativas iteradas:
E[E[b1 |X̄] = E[b1 ] = β1
Logo, conclui-se que o estimador de MQO, dado as hipóteses RLS 2 e 4, é
não-viesado.
3. Possui a menor variância entre os estimadores lineares não viesados.
Lembremos, novamente, que b1 é uma variável aleatória com uma distribuição.
Afirma-se aqui que, dado qualquer outro estimador linea não viesado, b1 tem
uma variância menor.
Esta prova é MUITO mais fácil por meio de matrizes, como demnstraremos
mais tarde. No entanto, fá-lo-ei também para o caso simples por questão de
coerência com o resto da apostila e porque é uma possı́vel questão de prova.
Então, lembremos daa propriedade estatı́stica 1 - a equação (20), que chegamos
anteriormente:
20
Pn
i=1 ci yi
ci ≡ Pn xi(x−x̆
i −x̆)
2
i=1
Como se pode expressar outro esitmador linear? Ora, se ele é diferente deste
acima, então seus coeficientes são diferentes. Assim, se eu realizar a diferença
entre os coeficientes do MQO e o deste outro estimador linear, terei ao menos
um dos resultados diferentes de zero. Mais formalmente:
Ji = ci + Di , ∃i|Di 6= 0
Especificado isto, vamos trabalhar com o seguinte estimador linear, chamado de
b∗1 :
Pn
i=1 Ji yi
Ji ≡ Pn xi(x−x̆
i −x̆)
2 + Di
i=1
Ora, a afirmação diz que a variância é a menor entre os estimadores NÃO

viesados. Assim, o que deve haver para garantirmos que é o caso de b∗1 ?
n
X n
X
Ji yi = Ji (β0 + β1 xi + i )
i=1 i=1
n
X n
X n
X
= β0 Ji + β1 J i xi + Ji i
i=1 i=1 i=1
Vamos, agora, ter o tedioso trabalho de abrir os dois primeiros termos.
n n
X X xi − x̆
Ji = ( Pn 2
+ Di )
i=1 i=1 i=1 (xi − x̆)
n n
X xi − x̆ X
= ( Pn 2
) + Di
i=1 i=1 (xi − x̆) i=1
n
X
= Di
i=1
Passemos agora para o segundo termo. Usaremos algumas transformações que

foram explicitadas acima sem muito detalhamento, agora.
n n n
(x (x − x̆))
Pni i
X X X
Ji xi = 2
+ xi Di ))
i=1 i=1 i=1 (xi − x̆ ) i=1
n
X
=1+ xi Di
i=1
21
Assim, nossa equação torna:
n
X n
X
Ji yi = Ji (β0 + β1 xi + i )
i=1 i=1
n
X n
X n
X
= β0 Ji + β1 J i xi + Ji i
i=1 i=1 i=1
Xn n
X n
X
= β0 Di + β1 (1 + xi Di ) + Ji i
i=1 i=1 i=1
Agora, vamos passar o operador esperança condicional à amostra. Ademais,

vamos aceitar, ainda que Di é uma função da amostra, para todo i. Isto é
plausı́vel porque um operador linear possui seus coeficientes todos expressos a
partir da amostra. Desta forma, fica-se com:
n
X n
X Xn
E[b∗1 |X̄] = β1 + β0 Di + β1 xi Di + E[ Ji i |X̄]
i=1 i=1 i=1
Se usarmos o mesmo argumento usado para provar não viés, o terceiro termo
se torna zero (tente!). No entanto, os dois termos centrais ainda permanecem,
impedindo que o estimador b∗1 seja não viesado. Então, para garantir o não viés,
colocamos algumas restrições nos Di :
Pn Pn
i=1 Di = i=1 xi Di = 0
Com isso, temos especificações suficientes para analisar agora a variância do
estimador b1 e o de b∗1 .
22
Xn
V ar(b1 |X̄) = V ar( ci yi |X̄)
i=1
n
X n X
X n
= V ar(ci yi |X̄) + Cov(ci yi , cj yj |X̄)
i=1 i=1 j6=i
n
X
= V ar(ci yi |X̄) (RLS.2)
i=1
Xn
= c2i V ar(yi |X̄)
i=1
n
X
= c2i V ar(β0 + β1 Xi + i |X̄)
i=1
n
X
= c2i V ar(i |X̄)
i=1
n
X n
X
= c2i σ 2 = σ 2 c2i
i=1 i=1
(RLS.5)
σ2
= Pn 2
(22)
i=1 (xi − x̆)
Vale lembrar que a hipótese RLS.5 enfrentaria o mesmo tipo de probelam de

RLS.4: ela está explicitada somente para valores especı́ficos, não para o con-
junto deles. No entanto, conseguimos demonstrar a equivalência entre os dois
conceitos da mesmı́ssima forma que fizemos com RLS.4, de modo que não ex-
porei aqui.
No mais, novamente, só temos a variância condicional, uma vez mais. Diferente-
mente antes, em que tı́nhamos a média independente dos valores da amostra,
agora não é o caso. De qualquer forma, pode-se escrever, usando a lei da
variância total:
V ar(b1 ) = E[V ar(b1 |X̄)] + V ar(E[b1 |X̄])

σ2
= E[ Pn 2
] + V ar(β1 )
i=1 (xi − x̆)
1
= σ 2 E[ Pn 2
]
i=1 (xi − x̆)
O resultado dessa esperança é bem pouco trivial de se encontrar, então, por

comodidade, escrevemos somente assim.
23
Agora, resta encontrar a variância b∗1 . Novamente, pularemos algumas etapas.
n
X
V ar(b∗1 |X̄) = V ar( Ji yi |X̄)
i=1
n
X n X
X n
= V ar(Ji yi |X̄) + Cov(Ji yi , Jj yj |X̄)
i=1 i=1 j6=i
n
X
= V ar(Ji yi |X̄) (RLS.2)
i=1
Xn
= Ji2 V ar(yi |X̄)
i=1
n
X
= σ 2 Ji2 (RLS.5)
i=1
n
X
= σ 2 (c2i + 2ci Di + Di2 )
i=1
n
X n
X n
X
= σ2 c2i + 2σ 2 ci Di + σ 2 Di2
i=1 i=1 i=1
n n
2 xi − x̆
X X
= V ar(b1 |X̄) + 2σ Pn D +
2 i
Di2
i=1
(x
i=1 i − x̆) i=1
Pn Pn n
Di xi − x̆ i=1 Di X 2
= V ar(b1 |X̄) + 2σ 2 i=1Pn 2
+ Di
i=1 (xi − x̆) i=1
Assim, da condição de não-viés que derivamos acima, o termo central é zero.

Nossa expressão, então, se torna:
Pn
V ar(b∗1 |X̄) = V ar(b1 |X̄) + i=1 Di2
Ou, focando no não condicional e lembrando uma vez mais do não viés, pode-se
escrever que:
Pn
V ar(b∗1 ) = V ar(b1 )+ i=1 E[Di2 ]
R +∞
Agora, basta focar que: E[Di2 ] = −∞ d2 f (Di = d). Ora, a probabilidade
sempre é maior ou igual a zero. Ademais, d2 também sempre é igual ou maior
que zero. Desta forma, E[Di2 ] ≥ 0.
Então, finalmente:
V ar(b∗1 ) ≥ V ar(b1 )
Ou seja: da classe dos estiamdores lineares não-viesados, o estimaro b1 , MQO,
é o que possui a menor diferença, como gostarı́amos de demonstrar (ufa!).
24
Juntando os três pontos- linear, não-viesado e com menor variância
- chega-se na conclusão que o estimador de MQO é BLUE: Best Linear Un-
biased Estimator. Ou seja, o que intuitivamente vı́amos, agora está provado
rigorosamente!
Tutorial 06
Teste de hipótese no modelo simples
A pergunta que o tutorial faz é a seguinte: dado uma estimativa, a partir do

estimador de MQO aplicada em uma amostra, como se pode ter certeza que o
parâmetro é diferente de zero?
A motivação para isto é que, por mais que nossa estimativa seja difer-
ente de zero, não se pode falar com certeza que o parâmetro o seja: pode ser, por
exemplo, que simplesmente pegamos uma amostra ”especial”, em que o valor
se distanciou de zero por mero acaso. Como se pode garantir que não é este o
caso?
Ora, uma maneria de responder esta pergunta é avaliando a distribuição

de probabilidade do estimador. Mais precisamente, perguntando: ”Dado que a
distribuição é assim, qual é a probabilidade de eu ter conseguido um valor maior
do que zero por puro acaso?”.
Afinal, o que eu sei sobre a distribuição de b1 |X̄?11 Sabemos a sua

variância e o seu valor esperado. No entanto, ainda não derivamos seus outros
momentos. A fim de alcançar isso, foquemos na seguinte proposição:
Uma combinação linear finita de normais independentes também

uma normal.
A maneira mais fácil de provar isso é por meio do uso de funções

caracterı́sticas. Nunca nos foi pedido para realizar isso em sala, mas, para
alguém tiver curiosidade, deixei a demonstração no Apêndice A, no final do
documento.
Com isto em mente, tome novamente a equação (20), mas sem a ex-
pectativa condicional - de fato, todos os resultados até ali não dependiam de
haver ou não a expectativa).
11 Aqui, como veremos, não há problema em tratarmos da distribuição condicional, ao invés
da incondicional. As conclusões serão as mesmas e tratar com o condicional e comumente

mais fácil.
25
Pn
(xi − x̆)i
b1 |X̄ = β1 + Pi=1
n 2
|X̄
i=1 (x1 − x̆)
n
X
= β1 + ci (i |X̄)
i=1
Ora, (i |X̄) é uma normal, conforme visto nas hipóteses. Lá, colocávamos
esta hipótese para xi , mas, por um processo parecido com antes, consegue-se
provar que isto funciona para toda amostra.
Ou seja, dado X̄,b1 pode ser expresso como uma combinação linear de
normais que, como demonstrado no apêndice, também uma normal. A
σ2
b1 |X̄ ∼ N (β1 , Pn 2
) (23)
i=1 (x1 − x̆)
σ2
Pode-se, por comodidade, chamar Pn 2 de ”sb2 ”. Ademais, é
i=1 (x1 −x̆)
costume padronizar a normal. Assim:
b1 − β1
|X̄ ∼ N (0, 1) (24)
sb
A questão é que para se analisar o que queremos a partir desta equação

nós precisarı́amos saber a variância real do erro. Obviamente, via de regra não
há acesso a essas informações. Então, faz-se necessário um estimador para a
variância. Embora eu não vá provar isto aqui, um estimador não-viesado para
a variância do erro é:
Pn 2
i=1 ei
n−1
Ou seja, a variância amostral do resı́duo, basicamente. Vamos colocar

este resultado no lado esquerdo do resultado (25):
b1 − β1 b1 − β 1
|X̄ = q |X̄ (25)
ˆ
Pn
sb e2
Pni=1 i 2
n−1 i=1 (x1 −x̆)
Antes, quando realizamos a transformação de (23) para (24), estávamos

apenas subtraindo uma constante e dividindo por outra, de modo que a dis-
tribuição não se alterava. Agora, contudo, estamos dividindo por OUTRA
variável aleatória - afinal, ei , mesmo dado a amostra de X, ainda depende de Y ,
que não está fixo. Assim, a distribuição não é a mesma do que antes. O que ela
26
é, então? Ora, no numerador, ainda temos uma normal, conforme destrinchado
em (23).
O denominador, contudo, é mais enigmático. Ora, como sabemos,

pela nossa hipótese RLS.6, i |xi é distribuı́do normalmente. Contudo, ei , seu
estimador, também o é? Siga o argumento:
yi = β0 + β1 xi + i
yi − b0 − b1 xi = β0 − b0 + (β1 − b1 )xi + i
ei = β0 − b0 + (β1 − b1 )xi + i
Assim, veja: dado uma amostra, os resı́duos possuem um mapa direto

com os erros e, assim, possuem a mesma distribuição, que é normal - emb-
ora com média distintas. Dito isso, há, no denominador, a soma de normais
independentes ao quadrado. No apêndice A, prova-se o seguinte resultado:
A soma de k normais independentes ao quadrado é uma qui-

quadrada com k graus de liberdade
Com isso posto, a pergunta agora fica é: qual é a distribuição resultante
da razão entre uma normal e uma qui-quadrada? A distribuição mais próxima
disso é a t-student, que é definida ocmo: ”A razão entre uma normal padronizada
e uma qui-quadrada, independentes entre si”.
Para se adequar nesta definição, precisamos fazer uma pequena trans-

formação em (26): o numerador que é uma normal, está com média zero, no
entanto sua variância não está padronizada. Assim, para de fato chegar no
estimador almejado, devemos dividir pelo desvio padrão sb:
b1 −β1
sb
ˆ
|X̄
sb
sb
Note que:
s Pn 2 pPn
ˆ 2
sb i=1 ei i=1 (x1 − x̆)
= Pn 2
sb n − 1 i=1 (x1 − x̆) σ
pPn
2
i=1 ei
=
σ
27
Disto, por fim:
b1 −β1
√Psb
n
|X̄ (26)
i=1 e2i
σ
Agora, de fato, temos precisamente a definição de uma ”t”, na equação

(26). Note ainda que, como Não vamos, como antes, demonstrar formalmente
que isto resulta em uma distribuição com uma pdf especı́fica. É trabalhoso e
pouco proveitoso no momento. Foquemos somente nas partes masi práticas.
A saber, agora, temos uma distribuição de probabilidade para os possı́veis

valores do nosso estimador, dado a amostra. Essa distribuição, como se pode
intuir, está centrada no zero. Ou seja, temos informações suficientes para re-
sponder a pergunta do tutorial: qual é a probabilidade de que estejamos signi-
ficativamente distante do zero em nossas estimativas?
Para definir isto, vamos introduzir um dos tópicos mais importantes

da Econometria: o teste de hipótese. Vou elencar os elementos que um teste de
hipótese precisa ter:
1. Estatı́stica de teste
A Estatı́stica de teste é a distribuição do nosso estimador. Ao longo da
discussão acima, buscou-se motivar a razão pela qual ela é importante:
para podermos saber a probabilidade com que cada estimativa se realiza.
Também conseguimos ver que essa distribuição é uma t-student com n
graus de liberdade, isto é, o mesmo número de indivı́duos na amostra.
2. Hipótese nula e alternativa
A hipótese nula, colocada de maneira simples e intuitiva, é o valor que
você hipotetiza para o parâmetro e que buscará testar. No nosto caso,
nosso interesse é saber se nosso parâmetro é diferente de zero. Assim,
nossa hipótese nula é que ele é zero, de modo que, por meio do teste de
hipótese, iremos rejeitar ou não-rejeitar este valor para o parâmetro.
A hipótese alternativa é a complementação da nula. Ou seja, ela é existe
para que, por meio do nosso teste, possa-se abarcar outros casos possı́veis
ou de interesse sobre o valor do parâmetro. Seguindo o exemplo do tu-
torial, se a nula é que o parâmetro é zero 12 , a complementação disto e,
pois, a hipótese alternativa, é que o parâmetro é diferente de zero. Outra
possı́vel hipótese alternativa é que o parâmetro é somente maior do que
zero.
Além disso, a especificação da hipótese nula e alternativa é extremamente
relevante porque, à rigor, ela define também a estatı́stica de teste. Se
12 Embora essa, de longe, seja a hipótese mais usada, não é necessário que seja a ûnica.
Podemos colocar como Ho, β0 = 3 por exemplo. Neste caso, devemos usar uma distribuição
t-studente não centralizada, ou seja, cuja média é 3. Isto nos mostra que a padronização da
média não é tão relevante assim.
28
você reparar bem na equação (26), verá que temos todos os valores que a
constituem na amostra, salvo o valor de β1 , que é o parâmetro do nosso
interesse. Sem uma hipótese - a hipótese nula - para o valor dele, não
conseguimos determinar o valor da estatı́stica de teste para nossa amostra
em especı́fico.
Ou seja: a distribuição e o valor da estatistica de teste sempre
existem DADO A AMOSTRA E DADO A HIPÓTESE NULA.
Isto é importantı́ssimo, porque é um conhecimento teórico básico e que a
Cristine cobrará muito.
3. Valor crı́tico e regiões de aceitação e rejeição
Agora que estamos de posse da distribuição e da hipótese nula, podemos
realizar a seguinte pergunta: ”Dado a hipótese nula que o parâmetro real
é zero, qual é a probabilidade de eu ter conseguido a estimativa b1 ?”.
A intuição por trás desta pergunta é que, se o parâmetro de fato for
zero, esperamos que os valores das estimativas fiquem, em algum sentido,
”próximos” disto. Se nossa estimativa for algo como ”100”, posso ter
certeza de que posso rejeitar a hipótese nula e afirmar ”O parâmetro não
é zero”. Se, contudo, for algo como 0.001, talvez eu não possa rejeitar.
Como se pode formalizar isso? A primeira coisa a notar é o seguinte:
mesmo que o parâmetro de fato seja zero, estamos tratando de um evento
probabilı́sitco, então pode ocorrer, como mencionado nas primeiras linhas
da nossa discussão, de conseguirmos, por puro acaso de pegar uma amostra
muito especı́fica, uma estimativa alta e que nos leve a uma inferência erra
sobre o parâmetro.
É possı́vel, por meio da distribuição, saber, para cada estimativa, qual é a
probabilidade desta inglória situação ocorrer. No caso, o pensamento é o
seguinte: sob a hipótese nula β1 = 0, a probabilidade do estimador nos dar
uma estimativa b1 ou maior do que isso é dada por 1−F (b1 ), em que F (b1 )
é a função densidade acumulada avaliada em b1 . Ou seja, para encontrar
esta probabilidade, estamos simplesmente integrando a estatı́stica de teste.
Intuitivamente, o que esta probabilidade está dizendo é: se, com esta
estimativa b1 , você afirmar que o parâmetro é de fato zero, estará errando
em 1 − F (b1 ) das vezes - esta é a porcentagem de amostras que me dariam
valores como b1 ou maiores, se o parâmetro de fato fosse zero. Este é o
chamado ”erro tipo 1”. 13
Cabe a decisão do quanto de tolerância possuı́mos com o erro do tipo
1. Claro, você pode ser sagaz e dizer: ”nunca quero cometer, minha
tolerância é 0 por cento”. Isto é equivalente a, independente da nossa
estimativa, sempre não-rejeitar a hipótese nula - NÃO dizer que ela NÃO
é zero ou, de forma mais clara, mas menos rigorosa, dizer sempre que ela
é diferente de zero. Neste caso, contudo, como visto em estatı́stica, você
13 A probabilidade que uma estimativa b possui de ter um erro Tipo 1 é denominada ”P-
1
value”.
29
estaria cometendo outro tipo de erro: dizer que o parâmetro não é zero
quando, na verdade ele é, o chamado ”erro tipo 2”.
Uma ”regra de ouro” é a tolerância de cinco por cento. Estou disposto a
cometer este erro do tipo 1 em no máximo cinco por cento das vezes. A
partir desta definição, nós podemos criar uma ”região” para rejeitarmos
ou não rejeitarmos a hipótese nula. Como fazer isso? Ora, uma ideia
inicial é a seguinte. De posse da distribuição sob a hipótese nula, posso
buscar qual é o valor da estimativa com a seguinte caracterı́stica: 1 −
F (b∗1 ) = 0, 05. Nesta situação, como a função distribuição acumulada é
estritamente crescente, sei que qualquer b1 ≥ b∗1 terá 1 − F (b1 ) ≤ 0, 05,
de modo que estará na região em que se pode, com tranquilidade interior,
rejeitar a hipótese nula que o parâmetro é zero. De fato, este conjunto de
valores das estimativas para os quais se pode rejeitar a hipótese nula é a
”região de rejeição”. Os demais valores são a ”região de não rejeição”. O
valor crı́tico, que separa as duas, é exatamente b∗1 .
O leitor atento terá percebido um problema na formulação acima: implici-
tamente, estamos aceitando que todas as estimativas são maiores do que
a hipótese nula ou, no nosso caso, maior do que zero. No entanto, não
necessariamente é o caso em muitos momentos. De fato, se a hipótese nula
é zero e eu consigo uma estimativa MUITO abaixo de zero, eu teria que,
pela nossa formulação acima, não rejeitar a hipótese nula, porque ela seria
menor do que b∗1 . Obviamente, isto não faz sentido: estamos preocupados,
em muitos momentos, com alguma espécie de distância que não discrimina
entre valores ”maiores” ou ”menores” do que a nula.
Por isso, é necessário agora dois valores crı́ticos: um para a ”cauda di-
reita” e outro para a ”cauda esquerda”, no chamado ”teste bi-caudal” -
o anterior era ”mono-caudal”. Felizmente, se há simetria, como há na t,
a relação entre esses dois valores crı́ticos é simplesmente de inversão de
sinal. Ademais, se a intenção é manter os cinco por cento de tolerância,
ele é ”distribuı́do entre as caudas”.
Então, estou procurando os valores b1 ∗ e −b1 ∗ nos quais:
F (−b∗1 ) = 0, 025 e 1 − F (b∗1 ) = 0, 025. Obviamente, no fundo, essas
condições são as mesmas, de modo que a restrição só é uma delas. O
importante de ter em mente é que, agora, tem-se três regiões: duas para
rejeição da hipótese nula, localizadas nas caudas, e uma, no centro entre
elas, para não-rejeição.
Após tudo isso ter sido dito, o único trabalho restante é notar em qual
das regiões nossa estimativa, para nossa amostra especı́fica, cai. A partir
disso, pode-se rejeitar ou não rejeitar a hipótese.
Outro ponto que, embora não se relacione com as caracterı́sticas do

teste de hipótese, é um conceito próximo e já cobrado em prova é o de ”intervalo
de confiança” do estimador, sob a hipótese nula. No caso, vamos focar, como
30
antes, em um intervalo de confiança de noventa e cinco por cento e na hipótese
nula de zero. Ora, nós sabemos que, dado uma amostra de X, pode-se dizer que
a probabilidade do valor da distribuição (t), sob a hipótese nula, ser maior que
b∗1 ou menor que −b∗1 é de somente 0,05, como estabelecido anteriormente.
b1
P r(| | ≥ b∗1 ) = 0, 05
ˆ
sb
b1
⇐⇒ P r(| | ≤ b∗1 ) = 0, 95
ˆ
sb
ˆ ∗ ≤ b1 ≤ sbb
= P r(−sbb ˆ ∗ ) = 0, 95
1 1
ˆ ∗ , sbb
Ou seja, o intervalo [−sbb ˆ ∗ ] nos dá o intervalo de valores em que,
1 1
se a hipótese nula é verdadeira, a nossa esimativa estará, com noventa e cinco
por cento de probabilidade.
Tutorial 07
Este tutorial representa um passo importante no estudo de Econometria: começa-

se a questionar as hipóteses RLS, que fizemos nos tutoriais anteriores. A ideia é
avaliar o que ocorre com as propriedades estatı́sticas do estimador conforme re-
tiramos as hipóteses. Embora a figura do tutorial trate de heterocedasticidade,
este tema possui, mais à frente, dois tutoriais focados somente nisso, de modo
que deixo a discussão mais aprofundada para lá.
Viés de variável omitida
As pergunta aqui são as seguintes:
1 - Imagine que haja uma variável, que não está no meu modelo, que
tenha relação com a variável dependente e com a variável explicativa. Isto tem
algum efeito para nós?
2 - E se só há relação somente a variável dependente? É problemático

para nós?
Para deixar tudo mais concreto, pensemos em salário como variável

dependente e educação como a explicativa, como está no tutorial.
Primeiramente, vamos especificar claramente o que queremos dizer com

”relação”. Formalmente, o que queremos dizer é que não há independência em
média. Ora, independência em média, para duas variáveis A e B, é o seguinte:
E[A] = E[A|B]
31
Embora não seja fácil provar isso com as ferramentas da graduação,
também é verdade que:
E[A] = E[A|B] ⇐⇒ E[h(A)g(B)] = 0, ∀g(.)h(.), com g(.) e h(.)

funções contı́nuas e limitadas. O que isso nos diz, de forma bem relevante é
que, há correlação entre A e B, então elas não podem ser independentes em
média. Isto é óbvio porque, seja: g(B)=B - E[B] e h(A) = A - E[A]. Elas são
funções contı́nuas e limitadas e, se há correlação, E[(A − E[A])(B − E[B]) 6= 0.
Feito isso, vamos refletir um pouco sobre o que exatamente é o termo .

Nele, está a parte do salário que não foi ”explicada” pela educação. Porque, ob-
viamente, seria incrı́vel se, somente com a educação de alguém, conseguı́ssemos
todas as variações do salário. Existem muitos outros pontos relevante que omiti-
mos: gênero, idade, região, área de atuação e mais uma pluralidade de termos.
Tudo isto, que é relevante para explicar o salário mas que não está no modelo,
está dentro do erro. Então, por essa definição, é óbvio que o erro, ou melhor, as
incontáveis variáveis que o compõem, sempre são correlacionadas com o salário,
que é variável explicativa. Neste sentido, não há independência em média entre
o salário e o erro em nenhuma situação.
Dito isso, em nenhum momento, para se provar a ausência de viés,

usou-se a hipótese de que E[Y ] = E[Y |]. Assim, se usamos as hipótese RLS
1-6, conseguimos provar a ausência viés, mesmo que nosso modela omita algu-
mas variável que influenciem a média de Y. O que isso quer dizer, intuitiva-
mente? Que não estamos interessados em E[Y] ou mesmo E[Y |], mas sim em
E[Y—X=x], então realmente pouco nos importa se ela é independente ou não -
e, de fato argumentado, ela nunca é indepente.
Uma problemática maior, contudo, é quando estas variáveis omitidas,

além de possuı́rem correlações com a variável dependentes, também possuem
com a explicativa. No nosso caso, imagine algo que impacte tanto o salário
quanto a educação. Por exemplo, a região: espera-se que alguém da zona rural
tenha tanto um salário quanto uma educação menores. Neste sentido, se há
correlação, não há independência em média. Se não há independência em média,
a esperança do erro, dado X=x, não pode ser igual à uma constante. Assim,
não pode ser igual a zero. Ou seja:
E[|X = x] = E[i |X̄] 6= 0
E se quebra a hipótese RLS. 4, que tratamos anteriormente com tanto

esmero. E, agora, tem-se um problema grande: para provar que o estimador de
MQO era não-viesado, usávamos a hipótese RLS.4. O que acontecerá agora?
Precisamos realizar a análise de forma distinta. Ora, vamos primeiro, levar em
consideração o ”modelo real”, ou seja, aquilo que está manifestado no mundo:
yi = β0 + β1 xi1 + β2 x2i + µi
32
x2i aqui é a variável que vamos omitir no nosso modelo, mas que possui
correlação tanto com yi quanto com xi1 . Ademais, µi é o erro que advém de de
yi ter sido explicado conjuntamente por xi1 e xi2 . 14 .
Apesar deste ser o modelo verdadeiro, o que vamos estimar é somente:

yi = b0 + b1 xi1 + ei
Dito isso, vamos fazer o mesmo processo que fizemos para provar o
não-viés:
Cov(Xd1 , Y )
b1 =
V ar(X
d 1)
Pn
(xi1 − x˘1 )(yi − y̆)
= i=1Pn
(xi − x̆)2
Pn i=1 Pn
i=1 (xi1 − Px˘1 )(yi ) − y̆ i=1 (xi1 − x˘1 )
= n 2
i=1 (xi1 − x̆)
Pn
i=1 (xi1 − x˘1 )(yi )
= P n
(xi1 − x̆)2
Pn i=1
(xi1 − x˘1 )(β0 + β1 xi1 + β2 x2i + µi )
= i=1 Pn 2
i=1 (xi − x̆)
Pn
i=1 (xi1 − x˘1 )x2i (xi1 − x˘1 )µi
= β1 + β2 P n 2
+ Pn 2
i=1 (xi − x̆) i=1 (xi − x̆)
Note o termo central: ele nada mais é do que o estimador de MQO

de uma regressão linear feita com x2 sendo a variável dependente e x1 sendo a
variável explicativa. Vamos aceitar que, nesta regressão, valha as hipóteses RLS
1-6.
Com isto feito, precisa-se esclarecer um ponto. De fato, como dito,

não é mais verdade que, se definirmos como yi − β0 − β1 xi1 : E[|X = x] =
E[i |X̄] = 0
No entanto, vamos substituir por outra hipótese: a de que, uma vez

que retirmos x2i de ou seja, o explicitamos no modelo, o restante é não cor-
relacionado com as variáveis explicativas. Ou seja, se definirmos X como o vetor
de variáveis explicativas (x1 , x2 ), o que quero expressar é o seguinte:
E[µ|X = x] = E[µi |X̄] = 0

14 No próximo tutorial, daremos um trato mais formal nesse tipo de situação.
33
Então, basta fazer o seguinte:
Pn
i=1 (xi1 − x˘1 )x2i (xi1 − x˘1 )E[µi |X̄]
E[b1 |X̄] = β1 + β2 E[ P n 2
|X̄] + Pn 2
(xi − x̆) i=1 (xi − x̆)
Pn i=1
i=1 (xi1 − x˘1 )x2i
= β1 + β2 E[ P n 2
|X̄]
i=1 (xi − x̆)
Pn
i=1 (xi1 −x˘1 )x2i ˆ e levando em consideração que
Se definirmos P n 2 ≡ rho,
i=1 (xi −x̆)
ele advém da regressão de x2i em xi1 e, com as hipóteses satisfeitas, ele é não
viesado, sei que: E[ρ̂] = E[ρ̂|X̄] = ρ, que é o parâmetro da regressão. Então:
E[b1 ] = β1 + β2 ρ (27)
Disto, note: por nossa hipótese, há correlação entre X1 e X2 . Sabe-

se, ainda que, sendo ρ o parâmetro da regressão, sua identificação é dada por:
Cov(X1 ,X2 )
V ar(X1 ) . Então, se há correlação, o numerador é diferente de zero. O de-
nominador é maior do que zero, pela RLS.3. Logo, chega-se na conclusão que
ρ 6= 0.
β2 como mencionado, é o parâmetro de X2 regressão de Y em X1 e

X2 . Embora eu não vá provar isto agora - veja na próximo tutorial! - o fato de
termos colocado que a correlação entre X2 e Y é diferente de zero também nos
garante que β2 não é zero.
Assim, a conclusão é que β2 ρ é diferente de zero, o que demonstra a

existência de viés, quando omitimos uma variável que é correlacionada tanto
com Y quanto com X1 , que é a outra variável explicativa. 15
Qual é a intuição disso? No caso, se realizamos uma mudança marginal

em X1 , deve-se lembrar que, como há um efeito de X1 em X2 (que é dado por
ρ e existe porque as variáveis são correlacionadas). Assim, mexer em X1 auto-
maticamente mexe em X2 . Daı́, quando esta mudança em X2 ocorre, também
se altera Y , porque X2 influencia, por meio de β2 , em Y . Assim, estamos cap-
tando, em b1 , que deveria representar somente a mudança ”pura” de Y após
uma mudança de X1 , também a mudança ”indireta” gerada por X2 . Esse valor
”indireto” é dado, como é claro, por meio do produto β1 ρ - afinal, a mudança
em X2 , após a mudança em X1 , não há uma unidade, mas a fração ρ desta
unidade.
O sinal do viés é fácil de determinar, bastando conjecturar o sinal

de β2 e de ρ. Por exemplo, se a variável omitida é ”habilidade inata”, como
o tutorial coloca, espera-se que quanto mais habilidade inata maior o salário,
15 O leitor atento verá que a resposta para a primeira pergunta também está contida aqui.
Se somente β2 é diferente de zero, mas ρ é zero, não há viés.
34
logo β2 ≥ 0. Ademais, espera-se, também, que, se há mais habilidade inata,
o indivı́duo possua mais educação. Neste sentido, o coeficiente de regredir X1
em X2 é diferente de zero. Note que, para desenvolver o raciocı́no anterior,
estávamos sempre regredindo X2 em X1 . Mas não há grande problema: o
coeficiente de regressão de X1 em X2 é dado por Cov(X 1 ,X2 )
V ar(X2 ) , se determinarmos
que o coeficiente de regressão é maior do que zero, então Cov(X1 , X2 ) > 0, o
que faz com que Cov(X 1 ,X2 )
V ar(X1 ) ≡ ρ > 0. Assim, o viés é positivo.
Um conceito semelhante, mas não totalmente idêntico, é se o valor

está ”superestimado” ou ”subestimado”. Nestes, sempre estamos analisando o
módulo de —β1 + viés—. Ademais, aceitamos que β2 ge0. No caso contrário, a
tabela se inverte em suas conclusões. Neste sentido, faz-se a tabela:
// Cov(X1 , X2 ) > 0 Cov(X1 , X2 ) < 0

β1 > 0 Superestimado Subestimado
β1 < 0 Subestimado Superestimado
E isto finda análise do tutorial.
Tutorial 08 - 09 - 10 - 11
Identificação no modelo multivariado
Como introduzimos anteriormente, vamos imaginar, agora, que queremo realizar

uma regressão linear com mais de uma variável explicativa. Ou seja, o modelo
é:
Y = β0 + β1 X1 + β2 X2 + . . . βk Xk + ε (28)
Como antes, aqui temos uma relação entre variáveis aleatórias. Pode-
se fazer, também, uma relação entre valores especı́ficos delas. Valores que es-
tarão na amostra também são valores especı́ficos das variáveis aleatórias, assim,
também se pode escrever:
yi = βo + β1 xi1 + β2 x2i + . . . βk xki + i (29)
As equações (28) e (29) são a ”forma analı́tica” de se escrever uma

regressão multivariada. Uma forma mais cômoda é a vetorial. No caso de (28),
ter-se-á:
~ 0β + ε
Y =X (30)
35

1
X1 
~ (k+1)x1
Em que: X ≡ . 
 
 .. 
Xk


β0
 β1 
β(k+1)x1 ≡ . 
 
 .. 
βk
A partir disso, pode-se realizar a identificação de β, que é um conjunto

de parâmetros. Para isso, precisamos, como foi feito no caso simples, encontrar
a linha que minimiza o MSE:
~ 0 β)2 ]
E[ε2 ] = E[(Y − X
~ 0 Y β + (X
E[Y 2 − 2X ~ 0 β)2 ] (31)
Precisa-se, agora, realizar a derivada em relação a β e notar as condições

de primeira ordem. Como fizemos antes, com algumas condições fracas, pode-
se afirmar que a derivada de uma integral - o valor esperado - é a integral da
derivada - fórmula de Leibliz. No entanto, há outro ponto relevante aqui: esta-
mos derivando em relação a um vetor, não um número! Assim, o que exatamente
é derivar um escalar por um vetor? Siga a definição:
Se a é um escalar e c é definido como:

 
c1
c2 
ckx1 ≡  . 
 
 .. 
ck
Então, a definição da derivada é:

 ∂a 
∂c1
 ∂a 
∂a  ∂c2 
∂c ≡ . 
 .. 
∂a
∂ck
No nosso caso especı́fico do MSE, precisaremos somente de uma derivada.

De acordo com essa definição, ela será:
36
 ∂(β0 +β1 X1 +β2 X2 +...βk Xk )   
∂β0 1
0
 ∂(β0 +β1 X1 +β2 X2 +...βk Xk )  X1 
~ β)
∂(X ∂β1 ~
 
≡ = . =X
 
..
 
  .. 
∂β  
 .
∂(β0 +β1 X1 +β2 X2 +...βk Xk ) Xk
∂βk
Ou seja, a rigor, além de fazer a derivada como estamos acostumados,

nós realizamos a transposição do vetor X. Com base nisto, o que precisa ser
feito agora é a derivação de E[Y 2 − 2X~ 0 Y β + (X
~ 0 β)2 ]
Vamos explicitar o resultado de derivar o terceiro termo em relação a

β, para justificar nossas passagens.

2(X~ 0 β)   2(β0 + β1 X1 + β2 X2 + . . . βk Xk )

∂(X~ 0 β)2 2(X ~ 0 β)X1   2(β0 X1 + β1 X12 + β2 X2 X1 + . . . βk Xk X1 ) 

= =
   
.. ..
∂β

 .   . 
0
~ β)Xk
2(X 2(β0 Xk + β1 X1 Xk + β2 X2 Xk + . . . βk Xk2 )

2(X~ 0 )β   ~0 
(X )
0
~ 1) β 
2(XX ~ 1 )0 
(XX
=  = 2 β
   
.. ..
 .   . 
0 0
~
2(XXk ) β ~
(XXk )
Foquemos agora no termo central da última igualdade. Ele é uma

matriz (k+1) x (k+1). De fato, vamos deixá-la explicatada:
 ~ 0 )   (1)
(X (X1 ) ... (Xk )

~ 1 )0  (X1 )
(XX (X12 ) . . . (Xk X1 )
=
   
 ..   .. .. .. .. 
 .   . . . . 
0 2
~ k)
(XX (Xk ) (X1 Xk ) . . . (Xk )
 
(1)
(X1 )
=  .  (1) (X1 ) . . . (Xk )
 
 .. 
(Xk )
=X~X~0
Enfim, com estes resultados em mãos, pode-se, enfim, fazer as derivar

(31) em β o que nos dá:
0 0 0
~ + 2(X
E[−2XY ~X~ )β)] = −2E[XY
~ ] + 2E[X
~X~ ]β = −E[XY
~ ] + E[X
~X~ ]β = 0
0
⇐⇒ E[X~X~ ]β = E[XY
~ ]
37
0
~X
β = E[X ~ ]−1 E[XY
~ ] (32)
E assim, finalmente, identificamos o parâmetro β. Novamente, como

~X
antes, há condição de identificação é que E[X ~ 0 ] seja inversı́vel. Vamos tratar
disso mais profundamente quando falarmos das hipóteses estatı́sticas.
Estimação e propriedades algébricas
Uma vez que se conseguiu a identificação, pode-se passar para estimar o parâmetro
β, por meio de uma amostra com n indivı́duos. Como antes, o estimador - que
agora chamaremos de ”b” - precisa estar em função de todos os valores da
amostra. Realizar isso algébrica é extremamente complicado. Assim, passamos
para uma notação matricial.
Primeiramente, como discutido na seção anterior, a relação (28) é

válida também para valores especı́ficos das variáveis aleatórias. Melhor ainda,
são válidos para todos os n indivı́duos que temos na amostra. Como se  pode
1 x21 . . . xk1
1 x22 . . . xk2 
expressar isso de forma matricial? Defina: Xnxk ≡  .
 
.. .. .. 
 .. . . . 
1 x2n ... xkn
 
Y1
 Y2 
~nx1 ≡ 
Y

 .. 
 . 
Y
 n
β1
 β2 
βkx1 ≡  . 
 
 .. 
β
 k
1
 2 
nx1 ≡.
 
 .. 
n
Disto, percebe-se o seguinte: nas linhas de X, tem-se o conjunto de

variáveis para o indivı́duo ”i”. Ademais, em cada coluna, há uma variável
explicativa. Assim, pode-se escrever a regressão multivariada como:
~ = Xβ +
Y (33)
A partir daqui, a questão é que não temos β, somente os dados, de
38
maneira que precisamos estimar. A ideia é fazer uma estimativa, b, em que se
minimize os resı́duos. Disto, vem:
0 0 0 0 0 0
e e = (Y − Xb) (Y − Xb) = Y Y − Y Xb − (Xb) Y + (Xb) (Xb) (34)
0 0 0 0
= Y Y − 2Y Xb + b X Xb (35)
0
Note que Y Xb é um escalar: (1xn)x(nxk)(kx1) = 1x1. Deste modo,
notando que as parcelas centrais são transpostas em relação uma a outra, e
que o transposto de um escalar é o próprio escalar, elas se referem ao mesmo
número, do que vem o termo central da segunda equação.
Assim, precisa-se derivar em b a equação da soma do erro. O único

problema é o último termo. Como se realiza a derivação? Brece yourself!
   
1 1 ... 1 1 x21 ... xk1 b1
0 0 x
 21
 x22 ... x2n  1 x22 ... xk2   b2 
b X Xb = b1 b2 ... bk  .
  
.. .. ..   .. .. .. ..   .. 
 .. . . .  . . . .  . 
xk1 xk2 ... xkn 1 x2n ... xkn bk
 Pn Pn  
Pn n Pi=1
n
x2i
2
... Pn i=1 xki b1
0 0  i=1 x2i i=1 x2i ... i=1 x 2i x ki
  b2 
b X Xb = b1 b2 ... bk 
  
.. .. .. ..   .. 
.
Pn . Pn . Pn . 2
  . 
i=1 xki i=1 x2i xki ... i=1 xki bk
 
b1
b2 

0 0

b X Xb = a1 a2 ... ak  . 
 .. 
bk
Pn Pn
a1 ≡ nb1 + ( i=1 x2i )b2 · · · + ( i=1 xki )bk
Pn Pn Pn
a2 ≡ ( i=1 x2i )b1 + ( i=1 x22i )b2 + · · · + ( i=1 x2i xki )bk
Pn Pn Pn
ak ≡ (( i=1 xki )b1 + ( i=1 x2i xki )b2 · · · + ( i=1 x2ki )bk
39
Ou, de maneira genérica:
Xn n
X n
X Xn
2
aj ≡ ( xji )b1 + ( x2i xji )b2 · · · + ( xji )bj + . . . ( xji xki )bk , j ∈ [1 : k]
i=1 i=1 i=1 i=1
Note ainda que, por comodidade, colocamos x1i = 1, para todo i.

Com essas definições, fica-se, por fim, com o seguinte escalar, após desenvolver
a equação:
k
X
a1 b1 + a2 b2 + · · · + ak bk = aj bj
j=1
k
X n
X n
X n
X Xn
2 2
= (( xji )b1 bj + ( x2i xji )b2 bj · · · + ( xji )bj + . . . ( xji xki )bk bj )
j=1 i=1 i=1 i=1 i=1
Para notar o que ocorre a partir de agora, defina dois j especı́ficos: g

e h, que estão entre 1 e k, diferentes entre si. Os termos correspondentes a eles
são:
Xn n
X n
X n
X
g:( x(g)i )b1 bg + ( x2i x(g)i )b2 bg · · · + ( x2(g)i )b2g + . . . ( xki x(g)i )bk bg )
i=1 i=1 i=1 i=1
Xn n
X n
X Xn
h:( x(h)i )b1 bh + ( x2i x(h)i )b2 bh · · · + ( x2(h)i )b2h + . . . ( xki x(h)i )bk bh )
i=1 i=1 i=1 i=1
Como g e h estão entre 1 e k ambos possuem o seguinte termo:

Pn
( i=1 x(h)i x(g)i )bh bg
Note que isso funciona para qualquer g e h diferentes entre si, dado
que fizemos genericamente. Ou seja, durante o somatória de 1 até k, para cada
par (g, h) ter se uma parcela de igual valor. Assim, pode-se reduzir a expressão
para algo muito mais digerı́vel:
40
k
X
a1 b1 + a2 b2 + · · · + ak bk = a j bj
j=1
k
X n
X n
X n
X Xn
2 2
= (( xji )b1 bj + ( x2i xji )b2 bj · · · + ( xji )bj + . . . ( xji xki )bk bj )
j=1 i=1 i=1 i=1 i=1
k X
X n k X
X Xn
= ( x2ji )b2j ) + 2(( x(h)i x(g)i )bh bg )
j=1 i=1 g=1 h6=g i=1
Então, enfim, pode-se realizar a derivada disto em relação ao vetor b.
 ∂ Pk aj bj

j=1  Pn Pn
2( i=1 x21i )b1 ) + 2 h6=1 (( i=1 x(h)i x(1)i )bh )
P 
k P ∂b1
Pk  ∂ j=1 aj bj   2( ni=1 x22i )b2 ) + 2 h6=2 (( ni=1 x(h)i x(2)i )bh ) 
  P P P
∂ j=1 aj bj ∂b2
= =
   
.. ..
∂b

 P .
   . 
n n

2
P P P
k
∂ j=1 aj bj 2( i=1 xki )bk ) + 2 h6=k (( i=1 x(h)i x(k)i )bh )
∂bk
 Pn Pn Pn
(x21i )b1 + ( i=1

Pi=1 x2i x1i )b2 + · · · + ( Pi=1 x1i xki )bk
 ( n x2i x1i )b1 + ( n (x21i )b2 + · · · + ( n x2i xki )bk 
P
 i=1 i=1 i=1
= 2

.. 

Pn Pn . Pn

2
( i=1 x1i xki )b1 + ( i=1 x2i xki )b2 ) + · · · + i=1 (xki )bk
 Pn 2
Pn Pn  
Pni=1 (x1i ) ( Pi=1 x2i x1i ) . . . ( Pi=1 x1i xki )
n 2 n
b1
( x 2i x 1i ) (x 1i ) . . . ( x 2i x ki
 b2 
i=1 i=1 i=1
= 2
  
.. .. .. ..   .. 
 . . . .  . 
Pn Pn Pn 2
( i=1 x1i xki ) ( i=1 x2i xki ) . . . (x
i=1 ki ) bk
0
= 2X Xb
E assim, enfim se chega no resultado que se usará a seguir. A saber,

se derivarmos a equação (35) em beta, ficamos com:
0 0 0 0
∂(Y Y − 2Y Xb + b X Xb) 0 0 0 0
= −2X Y + 2X Xb = X Y − X Xb = 0
∂b
Assim, consegue-se expressar o estimaro b em função da amostra:
0 −1 0
b = (X X) XY (36)
41
Note que precisamos de uma propriedade, que quase sempre é ver-
0
dadeira, de que X X é inversı́vel. Vamos tratar disso mais a frente.
Será que as propriedades algébricas são parecidas com as do caso sim-

ples?
Pn
1. i=1 ei =0
Ora, veja o seguinte, a partir da derivação para chegarmos no estimador:

0 0 0 0
X Y − X Xb = X (Y − Xb) = X e = 0
   
1 1 ... 1 e1
x21 x22 ... x2n   e2 
 ..  = 0
   
 .. .. .. .. 
 . . . .  .
xk1 xk2 ... xkn en
Se pegarmos a multiplicação
Pn da primeira linha de Xnxk pela coluna dos
erros, chega-se em: e
i=1 i = 0
Que era exatamente o que se queria demonstrar. Ademais, note que isso
só funciona se estamos em uma regressão com constante (β0 6= 0).
2. Cov(X
dk , e) = 0
Em que Xk é a coluna associada com a variável explicativa k. Ou seja,

estamos afirmando que CADA coluna é não correlacionada com o vetor
de resı́duos. Isto é fácil de ver, veja:
n
X n
X
(Xki − X̆k )(ei − ĕ) = (Xki − X̆k )(ei )
i=1 i=1
Novamente, se notarmos que:

  
1 1 ... 1 e1
x21 x22 . . . x2n   e2 
..   ..  = 0
  
 .. .. ..
 . . . . .
xk1 xk2 . . . xkn en
Veremos que a multiplicação de cada linha, que representam o valor das
variáveis explicativas para cada indivı́duo, pela coluna dos resı́udos, dar-
nos à exatamente o que procuramos.
O que prova a propriedade.
3. A média amostral dos resı́duos é zero
Isto é óbvio a partir da propriedade um: se a soma dos resı́duos é zero,
basta dividir por n.
42
4. 4 - Cov(ŷ,
d e) = 0
Com y) sendo os ”valores fittados”. Ora, veja:
˘ i ) = ŷ 0 ei
d e) = Pn (ŷi − ŷ)(e
Cov(ŷ, i=1
0 0 0
Ora, ˆ(y) = Xb. Logo, tem-se: (Xb) e = b X e = 0
0
Pois X e = 0, como se viu na propriedade 2.
Assim, com essas propriedades algébricas, viu-se que, no caso multi-

variado, tem-se uma situação muito parecida com o caso simples.
Ainda seguindo esses paralelos com o modelo simples, como se pode

avaliar o R2 , no caso multivariado? Para responder isso, precisa-se perguntar
como se pode expressar as variâncias no modelo multivariado.
 
1
1
Defina: l ≡  . 
 
 .. 
1
0
N ≡ I − n1 ll
Com isso, tome a seguinte expressão:

     
1 0 ... 0 1/n 1/n ... 1/n Y1
0  0 1 . . . 0  1/n
  1/n ... 1/n  Y2 
Y N Y = Y1 Y2 . . . Yn ( . . . − . .. )  .. 
   
. .. ..
 .. ..   ..
. . ..  . . .   . 
0 0 ... 1 1/n 1/n ... 1/n Yn
n−1
  
n −1/n ... −1/n Y1
n−1
−1/n −1/n
 ...  Y2 
n
= Y1 Y2 ... Yn  .
 
.. .. ..   .. 
 .. . . .  . 
n−1
−1/n −1/n ... n
Yn
 
Y1
Y 1+Y 2+···+Y n Y 1+Y 2+···+Y n
 Y2 
= Y1− Y2− ... Y n − Y 1+Y 2+···+Y n  
n n n  .. 
 . 
Yn
n
X n
X
= (Yi − Y̆ )Yi = (Yi − Y̆ )2
i=1 i=1
Ou seja, estamos trabalhando com, precisamente, a variância da amostral

de Y que se tem. Como se pode abrir essa expressão? Para termos uma vida
mais fácil, vamos derivar/retomar alguns resultados antes. Como lembramos,
43
0
de X e = 0 vem o fato que a soma dos resı́duos é zero. Ora, a soma dos resı́duos
0
ser zero pode ser exposto justamente como l e = 0. Assim, chega-se facilmente
que N e = e.
0 0 0
Ademais, notemos que N é uma matriz simétrica: (I − ll ) ) = (I − ll )
0
Com isso em mente, vamos abrir a expressão Y N Y
0 0 0 0 0
(Xb + e) N (Xb + e) = b X 0 N Xb + b X 0 N e + e N Xb + e e
0 0 0 0 0
= b X 0 N Xb + b X 0 e + (N e) Xb + e e
0 0 0
= b X 0 N Xb + e Xb + e e
0 0 0
= b X 0 N Xb + X eb + e e
0 0
= b X 0 N Xb + e e
Ora, o segundo termo, obviamente, é a soma do quadrado dos resı́udos

que, como a média é zero, é exatamente proporcional à variância não expli-
0
cadada. Assim, o termo restante, b X 0 N Xb é a variância explicada. Disto, o
2
R , nestecaso, podeserexpressocomo :
0
b X 0 N Xb
(37)
Y 0NY
2.0.1 Propriedades estatı́sticas - Multivariado
Novamente, faremos paralelos com o caso simples. Nosso conjunto de hipóteses

estatı́sticas, agora, será denominado RLM (Regressão Linear Multivariada).
RLM 1 - Modelo linear nos parâmetros

Y = Xβ~ + . Salvo pelo fato de X ser um vetor, é a mesma propriedade que
havia em RLS.
RLM 2 - Amostragem aleatória, independente e identica-

RLM 3 - Xnxk possui rank cheio

Esta é uma hipótese sobre a amostra selecionada. Ela está dizendo que não há
dois vetores de caracterı́sticas que são múltiplos um do outro.
Por que isso é relevante? De maneira mais direta, um resultado de

0
Álgebra linear nos diz que, se Xnxk possui rank cheio, então (X X) é inversı́vel,
0 −1 0
o que permite que b = (X X) (X) Y ~ seja bem definido.
Intuitivamente, a ideia é que, quando há um vetor de caracterı́sticas é
44
múltiplo de outro, não conseguimos saber qual é o efeito de ao menos um deles
na nossa variável dependente. Por exemplo, tome, no exemplo abaixo X2 = 2X1
Y = bo + b1 X1 + b2 X2 + e
= bo + b1 X1 + 2b2 X1 + e
= bo + (b1 + 2b2 )X1 + e
Assim, embora seja possı́vel saber qual é o efeito de X1 em Y, não

conseguimos saber qual é o efeito de X2 . Ou seja, b2 nunca é estimado, efetiva-
mente. No fundo, ocorre que eu não consigo alterar X1 sem, ao mesmo tempo,
alterar X2 , de modo que é impossı́vel saber o efeito, tudo mais igual, que X2
possui em Y .
RLM 4 - Esperança condicional é zero

Muito parecida com a do modelo simples, mas, dessa vez, condiciona-se em todo
o vetor com as variáveis independentes:
~ i ] = 0 ∀i ∈ [1 : n]
E[i |X
Novamente, vale lembrar: o que se está fazendo aqui é dizendo que,

depois que se fixa uma amostra para os valores de X ~ e temos um valor especı́fico
~ ~
para Xi , no entanto, sem os valores para (Y ), i permanece como uma variável
aleatória, a qual, quando condicionada a X~ i , dá-nos o resultado exposto.
Ademais, lembremos que provamos que , que E[i |xi ] = E[i |X̄] = 0,
ou seja, se condicionarmos a um conjunto de valores de x, ainda ficamos com o
resultado zero, em decorrência da propriedade RLS. 2.
Do mesmo método de prova, chega-se que:

E[i |X] = 0
Com X a matriz nxk já destrinchada anteriormente.
Por fim, sabe-se que, em uma amostra de n indivı́duos, existem n

variáveis aleatórias i . Pode-se expressar isso vetorialmente:
 
E[1 |X]
 E[2 |X] 
~ i ] = E[|X] = 
E[|X  .. =0

 . 
E[n |X]
RLM 5 - Variância constante

De forma praticamente idêntica a anteriormente, tem-se o seguinte:
~ i ) = σ 2 ∀i ∈ [1 : n]
V ar(i |X
45
Novamente, aqui, estamos condicionando somente a um valor especı́fico,
mas se poderia realizar para todos os valores da amostra, conjuntamente:
V ar(i |X) = σ 2
É interessante e útil futuramente, a partir desta hipótese e de RLM 2,

escrever a seguinte matriz de variância e covariância. Sobre RLM 2, devemos
lembrar que o fato da amostragem ser aleatória implica que não há correlação
entre variáveis de diferentes indivı́duos: E[i j |X] = 0, ∀i 6= j
21
   
1 12 ... 1 n
0
 2   1 2
 22 ... 2 n 
E[ |X] = E[ .  1 2 ... n |X] = E[ . ..  |X]
  
.. ..
 ..   .. . . . 
n 1 n 2 n ... 2n
E[21 |X]
 
E[12 |X] ... E[1 n |X]
 E[1 2 |X] E[22 |X] ... E[2 n |X]
=
 
.. .. .. .. 
 . . . . 
E[1 n |X] E[2 n |X] . . . E[2n |X]
 2 
σ 0 ... 0
 0 σ2 . . . 0 
= .
 
.. .. .. 
 .. . . .
0 0 ... σ2
= σ2 I
RLM 6 - Normalidade
Como já mencionado, é um conjunto de variáveis aleatórias, associ-

adas com cada indivı́duo de uma amostra com n deles, a qual advém do fato
de, apesar de termos fixado X, não o termos feito com Y . Assim, uma hipótese,
extremamente forte, é que esse vetor de variáveis aleatórias é distribuı́do como
uma normal multivariada. No caso:
|X ∼ N (0, σ 2 I)
Dito tudo isso, pode-se, enfim, passar para a prova que o estimador
multivariado é BLUE.
1. É um estimador linear
Novamente, isto quer dizer que pode ser exposto como uma combinação
linear dos valores da amostra. Neste sentido, tome novamente:
0 0
(X X)−1 X Y
46
0
Vamos
 focar por um momento,
  no termo (X X)
1 1 ... 1 1 x21 . . . xk1
x21 x22 . . . x2n  1 x22 . . . xk2 
:  .
  
.. .. ..   .. .. .. .. 
 .. . . .  . . . . 
xk1 xk2 . . . xkn 1 xk2 . . . xkn
 
1
x2i 
~i = 
Defina X  .. 

 . 
xki
Assim:
 
~0
0
~1 ~2 ~  X2  Pn ~ ~ 0

XX = X X ... Xn  ..  = i=1 Xi Xi
 . 
~0
X n
Dito isto, o estimador pode ser escrito como:
n n
X 0 X
b=( ~ ~ −1
Xi Xi ) ( ~ i yi )
X (38)
i=1 i=1
Do que vem que, para cada yi temos:

Pn ~ ~ 0 −1
( i=1 X i Xi ) Xi como coeficiente, provando que o estimador é, de fato,
uma combinação linear dos valores da amostra.
2. É não viesado
0 0
b = (X X)−1 X Y
0 0
= (X X)−1 X (Xβ + )
0 0
= β + (X X)−1 X
0 0
E[b|X] = E[β|X] + E[(X X)−1 X |X]
0 0
= β + (X X)−1 X E[|X]
=β
Por meio da lei das expectativas iteradas, chega-se na ausência de viés.
47
3. Possui menor variância entre os estimadores lineares
Defina um outro estimador linear, ou seja, uma outra combinação linear de
Y, comf D uma matriz (kxn) inversı́vel , cujo valor depende somente
da matriz X - daı́, ser um coeficiente:
0 0
b∗ = (X X)−1 X + D)Y
0 0
E[b∗ |X] = E[(X X)−1 X Y |X] + E[DY |X]
= β + E[DXβ + D|X]
= β + DXβ + DE[|X]
= β + DXβ
Disto, vê-se que, para este estimador linear novo ser não-viesado, DX deve
ser igual a zero - note a semelhança da argumentação com o que fizemos
no caso simples. Formalizando:
DX = 0
Daı́, para prosseguir no argumento, façamos a variância para o estimador
de MQO:
0 0
V ar(b|X) = V ar((X X)−1 X Y |X)
0 0
= V ar(β + (X X)−1 X |X)
0 0
= V ar(X X)−1 X |X)
0 0
= V ar(A|X), A ≡ (X X)−1 X
0
= E[(A − E[A|X])(A − E[A|X]) |X]
0 0 0 0
= E[(A − AE[|X])( A − E[|X] A )|X]
0 0
= AE[( − E[|X])( − E[|X]) )|X]A
0
= AE[ |X]
0
= AV ar(|X)A
0
= Aσ 2 IA
0 0 0
= (X X)−1 X σ 2 X(X X)−1
0 0 0
= σ 2 (X X)−1 (X X)(X X)−1
0
= σ 2 (X X)−1
48
Cabe notar que σ 2 é um escalar e, por isso, pode se ”mover livremente”
pelas matrizes. A matriz ”I” sumiu porque é a identidade, de modo que é
o elemento neutro da multiplicação de matrizes.
Dito isso, vamos avaliar a variância de b∗ :
0 0
V ar(b∗ |X) = V ar((X X)−1 X + D)Y |X)
0 0 0 0
= (X X)−1 X + D)V ar(Xβ + |X)(X(X X)−1 + D )
0 0 0 0
= (X X)−1 X + D)(V ar(|X))(X(X X)−1 + D )
0 0 0 0
= σ 2 I(X X)−1 X + D)(X(X X)−1 + D )
0 0 0 0 0 0 0 0
= σ 2 I((X X)−1 X X(X X)−1 ) + (X X)−1 X D ) + DX(X X)−1 + DD ))
0
= σ 2 (X X)−1 + Dσ 2 D0
Agora, note que Dσ 2 D0 é uma matriz positiva definida. Isto é, para qual-
0
quer z que seja um vetor determı́stico (kx1) não-nulo, há que: z Dσ 2 D0 z ≥
0. A prova disto é bem simples.
0 0 0
z Dσ 2 D0 z = σ 2 (D z) (D0 z) = ||D0 z||
Ora, ||D0 z|| ≥ 0, pois é módulo, o que nos dá a prova necessária. Esta
definição de matriz positiva é o que nos garante que a variância de b∗ é
maior ou igual ao do estimador b: é semelhante ao fato de termos um
termo positivo ou nulo somado, no caso simples.
Assim, provou-se, para o caso multivariado, que o estimador é BLUE.
Tutorial 12
Viés de variável omitida
Vamos por partes. Primeiramente, será que, como no caso simples, deixar de
lado variáveis que são correlacionadas com a variável dependente nos dá um
viés? A partir do conhecimento adquirido com o caso simples, esperamos que
o viés só apareça quando a variável omitida possua correlação com a variável
dependente e, ao mesmo tempo, a independente que está explı́cita no modelos.
Tentemos provar isto.
Primeiro, como fizemos anteriormente, vamos elencar que nosso modelo

real é o seguinte:
49
0 0
~ 1 β1 + X
Y =X ~ 2 β2 + (39)
Ou seja, separamos o vetor X, ~ que era 1xk, em dois outros vetores:

~
X1 , que é 1x Também é válido, como se sabe:
0 0
yi = X~1i β1 + X~2i β2 + i
Se juntarmos os ”n” valores da amostra, chegaramos em:

~ = X1 β1 + X2 β2 +
Y
Em que X1 é nxk1 e X2 é nxk2 .
No entanto, o que vamos estimar é a equação somente com com a

matrix X1 . Ou seja, as variáveis de X ~2 estão sendo omitidas. Ou seja, nossa
equação para a estimativa é, com br indicando o estimador do ”modelo restrito”
- sem as variáveis de X2 :
~ = X1 br + e
Y
~1 é um vetor 1xk1 , então X1 é uma matriz nx(k1 ),

Então veja, se X
que nós vamos chamar de ”matriz de variáveis incluı́das”. Conseguimos provar
que br é viesado?
0 0
~
br = (X1 X1 )−1 X1 Y
0 0
= (X1 X1 )−1 X1 (X1 β1 + X2 β2 + )
0 0 0 0
= β1 + (X1 X1 )−1 X1 X2 β2 + (X1 X1 )−1 X1
Agora, condiciona-se a matriz X, que é nxk e que inclui as variáveis

incluı́das e excluı́das:
0 0 0 0
E[br |X] = E[β1 |X] + E[(X1 X1 )−1 X1 X2 β2 |X] + E[(X1 X1 )−1 X1 |X]
0 0
= β1 + (X1 X1 )−1 X1 X2 β2
Então, notemos que, por fim: se β2 é zero, ou seja, as variáveis pre-

0
sentes em X2 não afetam Y , então não há viés; da mesma forma, se X1 X2 = 0,
também há viés. O quer dizer esta segunda condição? Vejamos:
50
  
x11 x12 ... x1n x(k1 +1)1 x(k1 +2)1 ... x(k2 )1
 x21 x22 ... x2n 
0
  x(k1 +1)2 x(k1 +2)2 ... x(k2 )2 
X1 X2 =  . ..  = 0
 
.. .. ..   .. .. ..
 .. . . .  . . . . 
xk1 1 xk 1 2 ... xk1 n x(k1 +1)n x(k1 +2)n ... x(k2 )n
Defina X ~ a como o vetor que possui o valor da variável explicava i para

os n indivı́duos.
 
xi1
 xi2 
Neste sentido: X ~i = 
 .. 

 . 
xin
~ 0X
Note, então, que: X ~ Pn
i j = a=1 xia xja
Isto é extremamente relevante porque, se considerarmos que as variáveis

estão padronizadas (média zero), este somatório ser igual a zero é exatamente
dizer que a covariância/correlação entre elas é zero - retome a definição de co-
variância pE cwe o morico.
Daı́, tome:
 ~0   ~0 ~ ~ 0X ~ ~ 0X ~ 
X1 X1 Xk1 +1 X 1 k1 +2 ... X 1 k2
 ~0 
X  X~ 0X
~ k +1 ~ 00
X2 X ~ k +2 ... ~ 0
X2 X ~k 
0  2 ~ ~ k +2 ~k =  2 . 1 1 2
X1 X2 =  .  Xk1 +1 X ... X
 
.. ..
 ..  1 2
..

 ... . . 
X~0 ~ 0
~
X Xk +1 ~0 X
X ~ ... ~0 X
X ~k
k1 n1 1 n1 k1 +2 n1 2
Se esta matriz for zero, quer dizer que a correlação entre quaisquer
uma das variáveis de X1 com X2 é zero, que é a interpretação que querı́amos
0
para X1 X2
Ou seja, se omitimos, de nossa estimação, qualquer variável que seja

correlacionada com a variável dependente E com as variáveis explicitadas no
modelo, tem-se o viés de variável omitida em b1 , exatamente como antes, no
caso mais simples.
Adição de variáveis redundantes
Agora, a situação é oposta. Nosso modelo real é:
51
~ = X1 β1 +
Y (40)
Mas vamos estimar a partir de:

~ = X1 b1 + X2 b2 + e
Y (41)
Ou seja, adicionamos variáveis que ”não estão” no modelo real. Isto

é muito comum de acontecer quando enchemos nosso modelo de variáveis, ”só
para garantir” que não vamos deixar nenhuma de fora e ter um problema de
estimador enviesado.
Então, precisamos perguntar: existe algum problema em fazer isso?

Primeiro, demonstrameos que nossas estimadores
não são viesados.
Para isso,
note que, se definirmos que X = X1 X2 e b = b1 b2 e notarmos que
podemos escrever (40) como: Y ~ = X1 β1 + X2 β2 + , com a restrição de que
β2 = 0.
Logo, podemos expressar nosso problema como:

~ = Xβ +
Modelo real: Y
~ = Xb + e
Estimado: Y
Este é o mesmo problema que resolvemos em seções anteriores. Clara-

mente, não é vies. Então, novamente, qual o problema? Por que não adicionar
infinitas variáveis em todos os modelos? A problemática repousa na variância
no estimador.
Ora, idealmente, gostarı́amos de ter um estimador com a menor variância

possı́vel. Por quê? Um motivo é que nossos intervalos de confiança, para qual-
quer nı́vel de significância, tornam-se menores. Lembre-se de que, para o caso
que queremos cometer o erro de tipo 1 - rejeitar a hipótese nula quando ela
é verdadeira - em cinco por cento das vezes, nosso intervalo de confiança era:
ˆ ∗ , sbb
[−sbb ˆ ∗]
1 1
Assim, logo se vê que quanto maior maior será este intervalo. Lembre-
mos que o intervalo de confiança, também nos diz qual é a região de aceitação,
ou seja, em que não negamos a hipótese nula. Neste caso, quanto maior , tem-se
a tendência de não-rejeitar a hipótese nula com cada vez mais frequência. Com
isso, comete-se menos o erro de tipo 1, no entanto, cada vez mais se comete o
erro de tipo 2: não rejeitar a hipótese nula quando, na verdade, ela é falsa. Isto
simboliza uma diminuição no poder do nosso teste. Assim, sempre queremos
ter a menor variância possı́vel.
52
O que ocorre com a variância quando temos variáveis redundantes?
Para isso, vamos retomar nossa equação para estimação, (41), em que inserimos
as variáveis redundantes:
~ = X1 b1 + X2 b2 + e
Y
A outra equação, restrita, em que não se insere as variáveis redun-

dantes, é:
~ = X1 br + e
Y
A notação br , como antes, indica que estamos em modelo restrito. Sua

estimação é:
0
0
br = (X1 X1 )−1 X1 Y~ br = β1 + (X 0 X1 )−1 X1 0
1
0 0
Assim, pré-multiple a equação (41) por (X1 X1 )−1 X1 :
0 0
br = b1 + (X1 X1 )−1 X1 X2 b2 (42)
Ou: 0 0
b1 = (X1 X1 )−1 X1 X2 b2 − br (43)
Assim, agora, tem-se uma relação entre os dois estimadores de β1 :

aquele do modelo sem as variáveis redundantes, br , e aquele com elas, b1 . Dito
isso, e sabendo as propriedades de variância, façamos o seguinte: definamos
0 0
P ≡ (X1 X1 )−1 X1 X2 e, então:
V ar(b1 |X) = V ar(P b2 − br |X)

0
= V ar(br |X) + P V ar(b2 |X)P − Cov(br , P b2 |X)
0
= V ar(b1 |X) + P V ar(b2 |X)P − P Cov(br , b2 |X)
Precisa-se tratar o terceiro termo, porque ele pode ser tanto positivo
quanto negativo, o que complica a análise. Então, vamos definir outra matriz,
0 0
M1 = I − X1 (X1 X1 )−1 X1 . A interpretação dela é que estamos regredindo em
X1 . Tente ver o motivo.
Seja, novamente, (41), mas dessa vez pré-multiplicado por M1:
53
~ = M1 X1 b1 + M1 X2 b2 + M1 e
M1 Y
0 0
= X1 b1 − X1 (X1 X1 )−1 X1 X1 b1 + M1 X2 b2 + M1 e
= X1 b1 − X1 b1 + M1 X2 b2 + M1 e
= M1 X2 b2 + M1 e
Com a última linha, temos um novo conjunto de dados. Para achar

b2 , precisamos regredir M1 Y ~ em M1 X2 , buscando minimizar M1 e - a soma dos
quadrados disto, mais precisamente. Para isso, basta provar um resultado aux-
0
iliar, que, ao menos agora, parecerá um pouco despropositado: (M1 X2 ) (M1 X2 )
é não-singular - inversı́vel.
Para isso, vamos focar na seguinte matriz:

0 0
X1 M1 X2 = X1 X2 − X1 (X1 X1 )−1 X1 X2 = X1 X2 − X1 P

I −P
= X1 X2
0 I

Daı́,basta notar
que: pela hipótese RLM 3, X ≡ X1 X2 possui
I −P
rank cheio e , claramente tem rank cheio também.
0 I

Assim, X1 M1 X2 possui rank cheio e, especificamente, também a
sua partição M1 X2 , o que era nosso objetivo provar.
Agora, fica fácil. Pode-se expressar b2 como:

0 0
b2 = [(M1 X2 ) (M1 X2 )]−1 (M1 X2 ) ~(Y )
0
Veja que M1 = M1 e que M1 M1 = M1 . Assim, de forma mais enxuta:
0 0
~
b2 = (X2 M1 X2 )−1 X2 M1 0 Y (44)
0 0
b2 = β2 + (X2 M1 X2 )−1 X2 M1 0 (45)
Porque, como mostrado, M1 X1 = 0. Com isso feito, basta, para nossos

propósitos, analisar a covariância entre br e b2 .
54
0
Cov(br , b2 ) = E[(br − E[br |X])(b2 − E[b2 |X]) |X]
0
= E[(br − β1 )(b2 − β2 ) |X]
0 0 0 0 0
= E[((X1 X1 )−1 X1 )((X2 M1 X2 )−1 X2 M1 0 ) |X]
0 0 0 0
= E[(X1 X1 )−1 X1 M1 X2 (X2 M1 X2 )−1 |X]
0 0 0
= E[σ 2 I(X1 X1 )−1 X1 M1 X2 (X2 M1 X2 )−1 |X]]
0 0 0
= E[σ 2 I(X1 X1 )−1 (M1 X1 ) M1 X2 (X2 M1 X2 )−1 |X]]
=0
Com isso, agora se pode expressar que:

0
V ar(b1 |X) = V ar(br ) + P V ar(b2 |X)P
0
Deve-se provar, por fim, que P V ar(b2 |X)P é uma matriz positiva
definida, ou seja, para qualqur vetor z, não-nulo, com dimensão k1 x 1:
0 0
z P V ar(b2 |X)P z > 0
Para isso, vamos abrir mostrar um resultado intermediário: se V ar(b2 |X)

0
for positiva definida, então P V ar(b2 |X)P também o é. Isto é fácil de ver pelo
seguinte: se z é um vetor k1 x 1 não nulo, então Pz também é um vetor não
nulo, k2 x 1; se V ar(b2 |X) é positiva definida, então, para qualquer vetor z2 com
0
dimensão k2 x 1, há z2 V ar(b2 |X)z2 > 0, isso inclui aqueles z2 que podem ser
0
escritos como P z1 , para os diferentes z1 . Logo, isso provaria que P V ar(b2 |X)P
é positivo definido.
Agora, será que V ar(b2 |X) é realmente positivo definido? Ora:
0 0 0
V ar(b2 |X) = V ar(β2 + (X2 M1 X2 )−1 X2 M1 |X)
0 0 0 0
= (X2 M1 X2 )−1 X2 M1 V ar(|X)M1 X2 (X2 M1 X2 )−1
0 0 0 0
= σ 2 I(X2 M1 X2 )−1 X2 M1 M1 X2 (X2 M1 X2 )−1
0 0 0
= σ 2 I(X2 M1 X2 )−1 X2 M1 X2 (X2 M1 X2 )−1
0
= σ 2 (X2 M1 X2 )−1
0
Agora, vamos notar que é fácil provar que X2 M1 X2 é positivo-definido.
De fato, basta notar:
0 0
X2 M1 X2 = (M1 X2 ) (M1 X2 )
55
Daı́, faremos uma demonstração muito parecida com a que fizemos
para o caso simples:
0 0 0
z2 (M1 X2 ) (M1 X2 )z2 = (M1 X2 z2 ) (M1 X2 z2 )
= ||M1 X2 z2 || > 0
Mas o seu inverso também é positivo-definido? A resposta é sim. Deixo

a demonstração detalhada no apêndice. De qualquer forma, com isso, prova-se,
enfim, que: V ar(b1 |X) > V ar(br |X), quando β2 = 0. Em outras palavras,
perdemos eficiência quando enchemos o modelo de variáveis inúteis.
Tutorial 13 - 14
Correlação entre variáveis explicativas
Além dos testes de hipótese, que tratamos mais a frente, este tutorial possui uma
discussão sobre quando há uma ”forte correlaçã” entre as variáveis explicativas.
Ora, sabe-se que, se há uma correlação perfeita entre as variáveis, ou seja, elas
são combinações lineares umas das outras, tem-se que a matriz X não possui
0
rank cheio e que X X não é invertı́vel. No entanto, quando a correlação é
”forte” - mas não perfeita, veja - haveria algum problema?
A princı́pio, parece que não: com X 0 X inversı́vel, todas as demon-

strações feitas para o estimar b continuam válidas: ele é BLUE. No entanto,
a argumentação que eu farei aqui será no seguinte sentido: mesmo que seja o
melhor estimador, quando há grande correlação, ele se torna pouco útil. Para
isso, dividimos a matrix X em colunas representando cada uma das variáveis
explicativas: X ~ j . Então, para algum ~λ não nulo, nx1.
~1 + λ2 X
λ1 X ~2 + · · · + λk X~k = ~v
ou
   
λ1 v1
 2   v2 
 λ  
~1
X ~2
X ... X~k  ..  =  .. 

. .
λk vn
X ~λ = ~v
56
Quando ~v é exatamente zero, tem-se a multicolineariedade perfeita,
gerando a falta de inversão. Como se pode expressar o fato de haveru ma
”multicolineariedade forte”, mas não perfeita? Ora, dizendo que ~v é ”próximo”
0
de zero. Isto, no fundo, é fazer uma afirmação sobre o módulo do vetor: ~v ~v .
Ele estar próximo de zero é o que nos dá a ideia de que as variáveis são ”quase”
combinações lineares uma das outras.
Com isto definido, pode-se prosseguir. Imagine que, na matriz X, eu

~
identifique este vetor lambda. Se eu realizar uma regressão de uma coluna
qualquer nas restantes, o que posso esperar do R2 ? Ou seja, a regressão é, para
algum j:
~ j = X~−j b−j + e
X
Ora, tome novamente a equação e a manipule, considerando, arbitrari-

mente, que j = 1 e assuma que λ1 6== 0 16
~1 + λ2 X
λ1 X ~2 + · · · + λk X~k = ~v ⇐⇒ ~v − λ1 X~1 = λ2 X
~2 + · · · + λk X~k
~v ~ ~
=− +X ~1 = − λ2 X2 + · · · + λk Xk
λ1 λ1 λ1
~ ~
⇐⇒ X ~1 = λ2 X2 + · · · + λk Xk + ~v
λ1 λ1 λ1
λ−1
= X−1 + ~g
λ1
 
λ1
 λ2

..
 
 



 .
Em que λ−j ≡ λ
 j−1 

λj+1 
 
 . 
 .. 
λk
~
v
E ~g ≡ λj
Você consegue perceber como isso parece uma regressão linear? No

caso em que se tem muita correlação entre as variáveis, ~v tende a se pequeno.
Agora, se pode definir com precisão o que é esse ”pequeno”. Vamos definir este
λ~
”pequeno” como ”pequeno o suficiente para que b−j = λ−j j
. Isto é, aquilo que
16 Como o vetor ~
λ é não nulo, certamente existe algum elemento que não seja nulo, do que
vem que falar de λ1 é sem perda de generalidade.
57
minimiza o erro ao quadrado é o vetor de combinação linear. Faz sentido, não?
0
Afinal, estamos com um v com módulo pequeno, isto é, v v, que é exatamente
2
a soma dos erros ao quadrado. Assim, o R da equação acima, como se sabe,
pode ser apresentado da seguinte forma:
2
b−j X−j N X−j b−j
(Rj ) =
V ar(Xj )
0
(X−j b−j ) N X−j b−j
=
V ar(Xj )
~ 0 ~
(X−j λλ1 ) N (X−j λλ1 )
=
V ar(Xj )
~ j − ~g )0 N (X
(X ~ j − ~g )
=
V ar(Xj )~
V ar(X~ j − ~g )
=
V ar(X ~j )
~ j ) + V ar(~g ) − 2Cov(X
V ar(X ~ j , ~g )
=
V ar(X ~j )
V ar(Xj ) + V ar(~g ) − 2Cov(X−j + ~g , ~g )
=
V ar(Xj )
~
V ar(Xj ) + V ar(~g ) − 2Cov(X−j , ~g ) − 2V ar(~g )
=
~j )
V ar(X
V ar(X~ j ) − V ar(~g )
=
V ar(X ~j )
0
~j ) −
V ar(X ~v ~
v
(λ2j )
=
~j )
V ar(X
Atente-se para as várias propriedades algébricas usadas aqui. Primeira-

mente, a que a covariância entre as variáveis explicativas e os resı́duos, em uma
regressão MQO, é zero. Depois, que a média dos resı́duos é zero, do que vem
que a variância é a somente a soma dos quadrados.
Com isso explicitado, chega-se em um resultado notável: quanto mais

0
colinear forem as variáveis, isto é, v v se aproximar de zero, maios o
2
R desta regressão auxiliar se aproxima de 1. Vamos guardar isto no
coração e seguir o argumento.
O que queremos agora é escrever as variâncias dos estimadores em

função do R2 gerado pelas derivações acima. Isto não é difı́cil. Façamos o
58
seguinte modelo, em que bj é um escalar. Ou seja, separou-se somente uma das
colunas da matriz X. Obviamente isto não é feito ingenuamente: queremos fazer
aquele R2 aparecer de alguma forma.
~ =X
Y ~ j bj + X−j b∗ + e
−j
0 0
~ j M−j X
bj = (X ~ j )−1 X
~j Y
~
0
~ j M−j X
V ar(bj |X) = (X ~ j )−1 σ 2
0
0 0
~ j (I − X−j (X−j
V ar(bj |X) = (X ~ j )σ 2
X−j )−1 X−j )X
0
0 0
~j X
V ar(bj |X) = (X ~j − X
~ j X−j (X−j ~ j )σ 2
X−j )−1 X−j X
~ j = X−j b−j + g em que

Retomemos, agora, a regressão auxiliar X
0
−1 0 ~
b−j = (X−j X−j ) X−j Xj . Assim:
0
0 0
~j X
V ar(bj |X) = (X ~j − X
~ j X−j (X−j ~ j )−1 σ 2
X−j )−1 X−j X
0 0
~j X
= (X ~j − X
~ j X−j (b−j ))−1 σ 2
0 0
~j X
= (X ~j − X
~ j (X
~ j − ~g ))−1 σ 2
0 0 0
~j X
= (X ~j − X
~j X
~j + X
~ j ~g )−1 σ 2
0
~ j ~g )−1 σ 2
= (X
0
~ j ~g é a co-
Se as variáveis estão padronizadas (média zero), então (X
~
variância entre Xj e ~g . Inclusive, é um escalar.
0
~ j ~g )−1 σ 2
V ar(bj |X) = (X
σ2
=
V ar(g)
σ2
=
~ j )(1 − (Rj )2 )
V ar(X
59
~j )−V ar(~
V ar(X g)
A última linha segue porque Rj2 = V ar(X~j ) . Então, fica óbvio
o seguinte: quanto maior perto o Rj2 estiver de 1, maior será a variância do
estimar bj ; no mais, quanto maior a colineariedade presente na matriz X, mais
próximo de 1 é o Rj . Logo, a conclusão é, após essas cansativas demonstrações:
quanto mais colineares as colunas da matriz X, maior é a variância
de cada um do estimadores individuais bj . Note que isso é extremamente
genérico, valendo para qualquer j.
O problema dessa variância aumentada é o mesmo de adicionar variáveis

redundantes: como o intervalo de confiança fica maior, tende-se a ter uma
zona de rejeição cada vez menor, de modo que frequentemente não-rejeitamos a
hipótese nula - cometemos mais erros tipo 2.
No extremo, pode-se sempre não-rejeitar a hipótese nula, quando temos

uma colineariedade quase perfeita. Neste sentido, o estimador não se torna
muito útil, mesmo que ele ainda seja identificado.
Teste t
Chega-se, agora, na ralização de teste de hipótese, mas no modelo multivari-

ado. Estamos familiarizados com o que o teste t é: quer-se evidências que uma
estimativa é significativamente diferente de um valor especı́fico - comumente,
zero.
Para ver como isto se processa, vamos processar alguns resultados.
1. w é um vetor de variáveis aleatórias j x 1 distribuı́do conjuntamente

como uma normal multivariada N(0,I). Se cada variável aleatória é in-
dependente
 entre si, então todas as j também são normais. Ou seja:
N (0, 1)1
 N (0, 1)2 
w≡
 
.. 
 . 
N (0, 1)j
Então, seja ”A” uma matriz qualquer, que seja possı́vel multiplicar w.
    
a11 a12 . . . a1j N (0, 1)1 a11 N (0, 1)1 + a12 N (0, 1)2 + · · · + a1j N (0, 1)j
 a21 a22 . . . a2j   N (0, 1)2   a21 N (0, 1)1 + a22 N (0, 1)2 + · · · + a2j N (0, 1)j 
Aw =  . =
    
.. .. ..   .. ..
 ..

. . .  .   . 
an1 an2 ... anj N (0, 1)j an1 N (0, 1)1 + an2 N (0, 1)2 + · · · + anj N (0, 1)j
60
Pj
N (0, a211 )1 + N (0, a212 )2 + · · · + N (0, a21j )j N (0, i=1 a21i )
   
 N (0, a221 )1 + N (0, a222 )2 + · · · + N (0, a22j )j   N (0, Pj a2 ) 
i=1 2i 
= =
  
.. .. 
 .   . 
2 2 2 j
N (0, an1 )1 + N (0, an2 )2 + · · · + N (0, anj )j 2
P
N (0, i=1 ani )
0
17
Pode-se, ainda, escrever que Aw ∼ N (0, AA ).
0 0
2. Pense em uma matriz Q, quadrada j x j,na qual Q = Q e Q Q = Q. Assuma
que essa matriz não é a identidade. No apêndice B, demonstra-se que, se ela não
é a identidade, então ela não possui inversa. Ou seja, ela é ranking deficiente.
Chamaremos seu ranking de ”r”.
Assuma, ainda, que essa matriz pode ser escrita decomposta em função de uma
matriz U que é j x r:
0 0
Q = U U , onde U U = I.
Sobre esta segunda propriedade,Pisto pode ser expresso de uma forma que será
0 r 2
mais útil para nós: U U = I ⇒ i=1 Uki = 1, ∀k ∈ [1 : r]
Se isto é verdade, analise a seguinte expressão:
0
z1 = w Qw
0 0
= w UU w
0 0
= (U w) (U w)
Vamos abri-la:
 Pr 2

N (0, Pi=1 U1i )
r 2 
0 0 Pr 2
Pr 2
Pr 2 N (0, i=1 U2i )

(U w) (U w) = N (0, i=1 U1i ) N (0, i=1 U2i ) . . . N (0, i=1 Uji )  .. 
P.r
 
2
N (0, i=1 Uji )
Pr Pj 2 2
Pr
= k=1 (N (0, i=1 Uki )) = k=1 (N (0, 1)2 )P araoleitoratento, f icaclaroquez1
é uma soma de normais independentes padronizadas ao quadrado, isto é, uma
qui-quadrada, com graus de liberdade igual ao rank da matriz Q: r. No apêndice
B, prova-se que o rank de uma matriz é igual ao seu traço - soma dos valores
da diagonal, dando-nos o resultado de que o grau de liberdade dw z1 é o traço
da matriz Q.
Com esses dois resultados muito genéricos, pode-se agora ”dar nome
aos bois”. Então:
17 Notavelmente, mesmo que os componentes do vetor w sejam independentes entre si, os
componentes do vetor Aw, que são combinações lineares dos valores de w NÃO são indepen-
dentes entre si. Com uma reflexão rápida, consegue-se ver a razão: em todos os termos ,
temos as mesmas distribuições de probabilidades apenas combinadas de formas diferentes! É
óbvio que haverá covariância.
61

• w é o vetor σ. De RLM.6, sabe-se que ele se adequa na definição de w.
0
• A é a matriz (X X)−1 X 0 . A única condição para A era ser possı́vel de
0
multiplicar w. De fato, (X X)−1 X 0 é bem definido/
0
• Q é a matriz M ≡ I − X(X X)−1 X 0 . Não é difı́cil ver que ela é simétrica
e idempotente (MM = M). Ademais, no geral, ela não é identidade.
Resta saber se ela pode ser decomposta da forma apresentada. Novamente,
esta discussão está no apêndice e a conclusão é ”sim”.
Agora, basta retomar algumas equações que já passamos:

0
b−β (X X)−1 X 0 0
= = A = Aw ∼ N (0, AA )
σ σ σ
0 0
Notando que, como não poderia deixar de ser: AA = σ 2 (X X)−1 .
Outro resultado:
~ = M (Xb + e)
MY
0 0
= Xb − X(X X)−1 X 0 Xb + e − X(X X)−1 X 0 e = e
~ = M (Xβ + ) = M
MY
M = e
Seja, também:
0 0 0
ee MMe e 0
= = M = w Qw ∼ (tr(Q))
σ2 σ2 σ σ
Estamos quase lá. Uma das últimas ponderações é como chegar na

expressão da estatı́stica de teste. Refletindo um pouco, o teste t nada mais é
do que uma padronização do estimador: retiramos a média e dividimos pelo
desvio padrão. Para qualquer bj ∈ b, sabemos que a média é exatamente βj .
No entanto, e o seu desvio padrão? Ora, a matriz de covariância de b, como
0
se sabe, é: σ 2 (X X)−1 . Nas diagonais, tem-se as variâncias de cada um dos
estimador bj , enquanto nas demais entradas há as covariâncias entre elas.
0
Então, a variância de um bj especı́fico é: σ 2 (X X)−1 2
jj ≡ σ ajj .
Portanto, o teste pode ser escrito como:
bj − β j
√
σ ajj
62
Exatamente igual no caso simples, não temos como saber σ, de modo
que usamos a soma dos resı́duos ao quadrado, divido pelos graus de liberdade,
para obter um estimador não viesado. Assim, a estatı́stica de teste se torna:
bj −βj
√
cjj
q
e0 e
n−k
Basta, agora, também como foi feito no caso simples, padronizar o

numerador:
bj −βj
√
σ (ajj )
q (46)
e0 e
σ 2 (n−k)
Com isto em mãos, pode-se, finalmente, ver o a utilidade de toda a

derivação realizada acima. Fixe uma hipótese para βj . Com isso, conseguimos
encontrar a distribuição. No numerador, temos exatamente um dospelementos
de Aw, os quais, como sabemos é uma normal. Com a divisão por σ (ajj ), ela
se torna uma normal padronizada.
0
No denominador, tem-se, exatamente, w Qw, ou seja, uma qui-quadrada.
Além disso, vamos derivar qual é o rank de M, que é nosso Q: para isso, dado
que a matriz é idempotente, pode-se olhar somente o traço. É fácil, contudo
0
que se note que X X é uma matriz kxk.
0 0 0
tr(In − X(X X)−1 X −1 ) = tr(In ) − tr(X(X X)−1 X )
0 0
= tr(In ) − tr(X X(X X)−1 )
= tr(In ) − tr(Ik )
=n−k
Então, no demoninador, há uma qui quadrada com n − k graus de

liberdade. Estamos, justamente, dividindo-a pelo seus graus de liberdade. As-
sim, no geral, há a razão entra uma normal padronizada e uma qui-quadrada
ponderada pelos seus graus de liberdade: uma t, como gostarı́amos inicialmente.
Daı́, claro, para notar um valor especı́fico, basta colocar este como
hipótese nula, isto é, colocar um valor para βj , como já discutido no caso simples.
63
Teste F
Uma pergunta capciosa: quero testar se β1 e β2 são conjuntamente - ou seja,

ambos - significativamente diferentes de zero, será que posso fazer dois testes t?
Vamos desenvolver.
Eu gostaria de, com pelo menos 1 − α de probabilidade, saber que,

conjuntamente, β1 e β2 são diferentes de zero. Para isso, criei uma região de
rejeição para cada um deles, na qual,
p juntando as duas caudas, a probabilidade
de erro tipo 1 em cada uma é de (1 − α). A saber, se b∗1 e b∗2 são os valores de
estimativa que delimitam os limites das regiões de rejeição, os intervalos seriam:
√
P r[β1 − sd(b1 )b∗1 < b1 < β1 + sd(b1 )b∗1 ] = 1 − α
√
P r[β2 − sd(b2 )b∗2 < b2 < β2 + sd(b2 )b∗2 ] = 1 − α
Então, se ambos b1 e b2 estiverem nos intervalos citados, então, com

1 − α de probabilidade, posso não-rejeitar a hipótese de que β1 e β2 são, con-
juntamente, diferentes de zero.
Apesar da boa aparência, existe um erro fundamental nesse raciocı́nio:

assume-se que as probabilidades são independentes entre si - de fato, por isso
só as multiplicamos -, mas isto não é√verdade. Para provar isso, vejamos que,
para chegar nesta probabilidade de 1 − α precisa-se: da hipótese nula e do
desvio padrão das estimadores. Foque neste segundo. O desvio padrão dos
estimadores depende, obviamente, de como o estimador é escrito. Ou seja, o
0 0
intervalo de confiança é função, também, do próprio estimador b: (X X)−1 X y.
Ou, no nosso caso especı́fico, de um componente do vetor de estimadores: b1 no
primeiro caso e b2 no segundo.
Para ter valores para b1 e b2 conjuntamente, usamos a mesma amostra.

Se isto é verdade, então os estimadores possuem uma covariância entre si. Real-
0
mente, todos os valores de σ 2 (X X)−1 fora de diagonal representam covariâncias
entre os diversos componentes de b. No nosso caso, basta observar que não nec-
essariamente o termo (12) da matriz de covariância é diferente de zero para
notar que, realmente, há covariância entre b1 e b2 .
Assim, também há covariância entre os intervalos de confiança, do

que vem ser errôneo simplesmente multiplicar as probabilidades e, de maneira
mais preocupante, realizar dois testes t para testar se, conjuntamente, eles são
diferentes de zero.
Pode-se, claro, realizar algum tipo de correção e ainda se manter no

caminho de realizar dois testes t. Mas isto é mais difı́cil que a alternativa: criar
um teste que consiga fazer conjuntamente com somente uma estatı́stica. Este é
o teste F.
64
Para chegar no mesmo, voltemos para nosso modelo particionado:
~ = X1 β1 + X2 β2 +
Y
Lembrando que β2 é um vetor, noss objetivo aqui é testar se, conjun-

tamente, os valores de β2 são zero. Ou seja, a hipótese nula é β2 =0.
Para isso, retomemos a equação (45), sobre a estimador de β2 :

0 0
b2 = β2 + (X2 M1 X2 )−1 X2 M1
Como antes, para achar a distribuição, aceitamos a hipótese nula:

0 0
β2 = 0. Do que vem b2 = (X2 M1 X2 )−1 X2 M1 . Também já foi discutido
que o estimador b2 possui a seguinte distribuição (demonstrações padrões):
0
N (0, σ 2 (X2 M1 X2 )−1 )
0
Defina V ≡ (X2 M1 X2 )−1 Busca-se a matriz V −1/2 , simétrica e in-
versı́vel, tal que V −1/2 V V −1/2 = I. Vou me dar o luxo de não provar que essa
matriz existe, porque é bem chato de se fazer. De qualquer forma, sei que:
V −1/2 b2 ∼ N (0, I)
Ou seja, não só temos uma normal padronizada mas também elimi-
namos a covariância que existia entre os termos - sacou aonde estamos indo?
Já foi demonstrado em outras situações que a seguinte expressão nos dá uma
qui-quadrada:
0 0
(V −1/2 b2 ) V −1/2 b2 = b2 V −1/2 V −1/2 b2
0
= b2 V −1 b2
0 0
= b2 (σ 2 (X2 M1 X2 )−1 )−1 b2
0 0
b2 (X2 M1 X2 )b2
= ∼ χ(g)
σ2
Lembrando que g é o número de parâmetros em β2 ou, como veremos

mais para frente, o número de restrições lineares. Uma vez, somos convocados
a usar um estimador para σ 2 - está ficando chato já!.
0 0
b2 (X2 M1 X2 )b2
e0 e
n−k
Como já demonstrado muitas vezes, o denominador também é uma

qui-quadrada, com n − k graus de liberdade. Por fim, para chegar no resultado
que desejamos, vamos dividir o numerador por uma constante, g. Embora os
momentos mudem, esta operação por uma constante não altera a distribuição,
qualquer que ela seja. Daı́, chegamos em:
65
0 0
b2 (X2 M1 X2 )b2
g
∼ F (g, n − k) (47)
e0 e
n−k
Na equação acima, temos uma razão entre duas qui-quadradas ponder-

adas pelos seus graus de liberdade. Isto é exatamente a definição da distribuição
F. Via de regra, ela possui a seguinte forma:
A fim de realizar o teste hipótese, elege-se um ponto crı́tico, digamos b∗2

no qual, F (b∗2 ) = 1 − α. Qualquer valor de da equação (47) que fique seja maior
do que b∗2 nos dá segurança para rejeitar a hipótese de que, conjuntamente, os
parâmetros em β2 sejam diferentes de zero. Fique atento no que isso quer dizer:
ao menos UM dos valores de β2 é diferente de zero. Não se pode afirmar que
todos são diferentes de zero. É uma diferença sutil.
Posto isso, vamos, agora, tentar generalizar um pouco a equação (47).

Chegamos nela ao colocar a hipótese nula de que β2 = 0. Mas não necessari-
amente só queremos testar esta hipótese. De forma mais geral, gostarı́amos
de que colocar como hipótese nula um vetor r qualquer, como, por exemplo,
1 4 . . . 7 ou qualquer coisa do gênero. De maneira ainda mais geral, não
queremos só igualar os parâmetros a números especı́ficos. Seria interessante re-
alizar combinações lineares entre eles. Por exemplo, eu poderia querer saber se
a diferença entre entre dois parâmetros qualquer é significativamente diferente
de zero. Para ver como isso seria expresso, imagine que só há três parâmetros e
quero testar se, ao somá-los, eu tenho um resultado nulo. Minha hipótese nula
seria a seguinte:
 
β1
1 1 1  β2  = 0
β3
Ou, da forma mais geral possı́vel:
Rβ = r
Em que R é uma matriz gxk2 , com k2 o número de parâmetro e g,

como preconizado, o número de restrições lineares. Veja, incluvive, que se pode
testar a hipótese de que, conjuntamente, eles são iguais a zero. Basta colocar;
    
1 0 0 β1 0
0 1 0 β2  = 0
0 0 1 β3 0
A distribuição ainda permanece uma F? Provaremos que sim:
66
0 0
Rb − r ∼ N (Rβ − r, σ 2 R(X X)−1 R )
Fique atento para como cada coisa está escrita. Rβ − r = 0 é nossa

hipótese nula ou, ainda, o nosso parâmetro: ela não possui distribuição. O que
possui distribuição, veja só, é Rb - r. Assim, sob a hipótese nula, há:
0 0
Rb − r ∼ N (0, σ 2 R(X X)−1 R ) =
0 0
Assim, como antes, defina G ≡ R(X X)−1 R e G−1/2 simétrico tal que
−1/2
G GG−1/2 = I. Assim, vamos trabalhar com: G−1/2 (Rb − r). Que é uma
normal padronizada. Daı́, como antes:
0 0
(G−1/2 (Rb − r)) G−1/2 (Rb − r) = (Rb − r) G−1 (Rb − r)
0 0
(Rb − r) (R(X X)−1 R)−1 (Rb − r)
= ∼ χ(g)
σ2
Com o mesmo processo de antes, findamos com:
0 0 0
(Rb−r) (R(X X)−1 R) (Rb−r)
g
(48)
e0 e
n−k
E o teste segue exatamente como anteriormente.
O último ponto a se fazer sobre o teste F é buscar uma forma mais

compreensı́vel e interpretável de escrevê-lo. Tentarei passar por todas as partes
com esmero. Primeiramente, lembre de:
~ = X1 b1 + X2 b2 + e
Y
E, também, de:
0 0
M1 = I − X1 (X1 X1 )−1 X1
E que o modelo restrito é o seguinte:
~ = X1 br + er ⇐⇒ er = Y
Y ~ − X1 br
=Y~ − X1 (X 0 X1 )−1 X 0 Y
1 1
= M1 Y
67
Então:
~ = er = M1 X1 b1 + M1 X2 b2 + M1 e
M1 Y
= M1 X2 b2 + M1 e
0 0 0 0
Assim, er = b2 X2 b2 + e M1 .
0 0 0 0
er er = b2 0 (X2 M1 X2 )b2 + b2 X2 0 e + e M1 X2 b2 + e0 M1 e
Agora, para deixar a equação mais enxuta,

 vejamos algumas pro-
x11 x21 . . . xk1
 x12 x22 . . . xk2 
priedades. Primeiramente, foquemos na matriz X:  .
 
.. .. .. 
 .. . . . 
x1n x2n ... xkn
No nosso contexto, a matriz X é particionada em:

 
x11 x21 . . . xk1 1
 x12 x22 . . . xk2 2 
X1 =  .
 
.. .. .. 
 .. . . . 
x1n x2n . . . xk1 n
 
x(k1 +1)1 x(k1 +2)1 ... xk1
 x(k1 +1)2 x(k1 +2)1 ... xk2 
X2 = 
 
.. .. .. .. 
 . . . . 
x(k1 +1)n x(k1 +2)n ... xkn

Assim, é possı́vel ver facilmente dois pontos: X = X1 X2 e, também,
0
0 X1 0
que: X = 0 Por fim, também sabemos que: X e = 0
X2
   
x11 x21 ... x1n e1
x21 x22 ... x2n   e2 
 ..  =0
   
 .. .. .. .. 
 . . . .  .
xk1 xk2 ... xkn en
0
X1 0 0
Ou, se usamos as partições: 0 e =0 ⇐⇒ X1 e = 0, X2 e = 0.
X2
68
Dito isso, uma propriedade que também nos será útil é a seguinte:
0 0 0 0 0
e M 1 = e − e X1 (X1 X1 )−1 X1
0 0 0 0
= e − (X1 e)(X1 X1 )−1 X1
0
=e
Com essas duas propripedades, pode-se retomar e enxutar a equação

gerada acima.
0 0 0 0
er er = b2 0 (X2 M1 X2 )b2 + b2 X2 0 e + e M1 X2 b2 + e0 M1 e
0 0
= b2 0 (X2 M1 X2 )b2 + e X2 b2 + e0 e
0 0 0
= b2 0 (X2 M1 X2 )b2 + (X2 e) b2 + e0 e
0
= b2 0 (X2 M1 X2 )b2 + e0 e
Ou seja, chega-se na conclusão de que:

0 0
er er − e0 e = b2 0 (X2 M1 X2 )b2
A beleza deste resultado é que isso é exatamente o numerador do teste

F da equação (47).
0 0 0 0
b2 (X2 M1 X2 )b2 er er −e0 e er er −e0 e 1−(Rr )2 −1+R2
g g yN y g g
= = =
e0 e e0 e yN y e0 e 1−R2
n−k n−k n−k n−k
(R)2 −Rr 2
g
1−R2
(49)
n−k
Explicitando interpretações: o ”modelo restrito” é aquele em que apli-

camos a hipótese nula, ou seja, β2 = 0 e, por isso, estimamos somente com as
variábeis em β1 ; enquanto o modelo não restrito é aquele que esta hipótese não
está aplicada, de modo que usamos X1 e X2 . Assim, o que estamos realizando
é fazendo uma comparação entre os R2 dos dois modelos. Se pensarmos que,
quanto maior a estatı́stica F, maior a chance de rejeição, então, se nosso modelo
irrestrito fitta muito melhor que o restrito, a probabilidade de β2 ser zero, tende
a diminuir - afinal, se fosse zero, o modelo irrestrito não deveria ser tão melhor
que o restrito. Faz sentido e é bem elegante, não?
69
Tutorial 15
O assunto tratado aqui é ”variáveis binárias” ou ”qualitativas” ou variáveis

que só podem tomar dois valores, comumente ”0”, indicando ausência de uma
caracterı́stica ou ”1”, demonstrando a presença.
Começamos, primeiramente, com a variável ”gênero”. Uma ideia ini-

cial é ter um modelo com três variáveis: Xmasc , um vetor n x 1, em que os
elementos assumem valor 1 se o indivı́duo for homem e valor 0 se o indivı́duo
não for. Xf em possui o mesmo princı́pio.
 Outras variáveis, quantitativas, estão
1
1
juntas na matriz Xk , que é nxk. ~1 =  . 
 
 .. 
1
Aquilo que usamos para estimar, então, é, com foco especial na con-
stante. Escreveremos o modelo, primeiramente, com variáveis aleatórias e, de-
pois, para a forma de estimação
Y = β0 + Xmasc βmasc + Xf em βf em + X~k βk + (50)
E a estimação seira feita por:
~ = β0 + Xmasc
Y ~ βmasc + Xf~em βf em + Xk βk +
Este modelo comete um erro fundamental, contudo: existe colineariedade

perfeita aqui. De fato, tome a matriz X, que é a união dos dois vetores e da ma-
triz Xk , com a primeira coluna sendo a constante: X= ~1 Xmasc ~ Xf~em Xk
 
−1
1
 
1
 
Escolha o seguinte λ:  0  Ora,
~  
0
 
 .. 
 . 
0
X ~λ = −~1 + Xmasc
~ + Xf~em = −~1 + ~1 = 0
Assim, fica claro que a colineariedade perfeita ocorre porque, ao somar

os dois vetores de variáveis qualitativas, sempre teremos o valor ”1”. Isto é óbvio
porque alguém é - ao menos nesse exemplo - homem ou mulher, não podendo
70
haver um par (0,0) ou (1,0), mas somente (1,0) ou (0,1). Assim, para evitar que
essa situação ocorra, há duas opções: ter somente uma das variáveis qualitativas
ou realizar a regressão sem a constante.
Raramente estamos justificados a retirar a constante, então focaremos

no primeiro caso. Embora possa parecer estranho no inı́cio, nós, rigorosamente,
não estamos perdendo informação. Ao saber que alguém é homem, sei, auto-
maticamente, que ele não é mulher. Assim, a informação que estava contida no
outro vetor qualitativo é totalmente redundante, podendo ser omitido. Então,
fica-se, com, escrito com variáveis aleatórias:
Y = β0 + Xmasc βmasc + X~k βk + (51)
A beleza desta formulação é que ficamo com dois modelos ”escondi-

dos”, aqui. Para visualizar isto, interpretemos o que exatamente quer dizer o
coeficiente bmasc . Façamos com equações, depois colocando a interpretação.
E[Y |Xmasc = 1, Xk ] = β0 + βmasc + Xk βk

E[Y |Xmasc = 0, Xk ] = β0 + Xk βk
⇐⇒ βmasc = E[Y |Xmasc = 1, Xk ] − E[Y |Xmasc = 0, Xk ]
Agora, a interpretação fica cristalina: o parâmetro βmasc , que esti-

mamos por meio de bmasc é a diferença das médias saalariais entre homens
e mulheres. Ou, ainda, o aumento de salarial que se ganha por ser homem.
De maneira muito relevante, então, quando se tem uma variável binária, sua
interpretação sempre é em relação a algum grupo ”base” - neste caso, mulheres.
Mais importante ainda: a diferença aqui é só nas médias ou, ainda,
sendo mais intuitivo, nas intersecções. Por exemplo, se o indivı́duo é uma mulher
com Xk nulo (ou seja, sem educação, pais com salário zero e qualquer outra
caracterı́stica relevante), ela teria um salário de 0 . Um homem, contudo, teria
um salário de β0 +β1 . No entando, quando eles ganham, por exemplo, um ano a
mais de educação, o aumento no salário é idêntico para ambos (dado por algum
βeduc dentro de βk ), pelo modelo dado. A inclinação é a mesma, no caso.
É possı́vel, no entanto, modelar para que, por exemplo, o efeito de

educação no salário seja diferente para homens e mulheres. Para isso, retiremos
de Xk a coluna Xeduc ~ e façamos o seguinte modelo:
Y = β0 + Xmasc βmasc + (Xmasc Xeduc )βint + Xeduc βeduc + Xk−1 βk−1 +
71
Como é o modelo masculino, ou seja, onde Xmasc = 1?
E[Y |Xmasc = 1, Xk ] = β0 + βmasc + Xeduc (βint + βeduc ) + Xk−1 βk−1
Aqui, se aumetarmos um ano de educação, a média se altera por βint +

βeduc .
E no caso feminino, com Xmasc = 0? É fácil de ver que:
E[Y |Xmasc = 0, Xk ] = β0 + Xeduc (βeduc ) + Xk−1 βk−1
E o efeito da educação passa a ser somente βeduc . Então, com este

modelo, que chamamos de interacional - a ”interação” ,ou int, é o produto entre
as variáveis de ser masculino e a educação - tem-se que o retorno, e não só a
média, também é diferente para homens e mulheres.
Uma última discussão é sobre múltiplas variáveis binárias. Por exem-

plo, pode-se estar interessado em saber se a média/retorno de outras variáveis
se altera não só pelo gênero, mas também pelo estado civil. Não há uma
diferença fundamental entre os modelos e as principais ideias são mantidas. Pre-
cisamos ficar atentos para não gerar colineariedade: nunca podem haver todas
as instâncias de variáveis mutuamente excludentes e que, unidas, geram todas
as possibilidades. Então, colocar, no mesmo modelo ”casado” e ”solteiro” como
variáveis binárias gerará problemas. De maneira menos óbvia, colocar os cinco
continentes também é errado - afinal, não se pode estar em dois continentes ao
mesmo tempo e só se pode estar em um dos cinco.
Ademais, quando há múltiplas variáveis binárias, deve-se ficar atento

para qual é o grupo base. Por exemplo, se há a variável ”casado” e ”homem”, o
grupo-base será aquele definido quando estas duas variáveis são 0: ”mulher” e
”solteira”. A partir destr grupo, vemos as diferenças de média e as interações.
Então, se temos um indivı́duo casado e mulher, os seus parâmetros nos darão
a diferença com o grupo base: o quanto se ganha a mais do que uma mulher
solteira, por exemplo.
Tutorial 16-17
Entra-se, agora, na matéria pós-prova parcial: a teoria assintótica. De maneira

simples, devemos perguntar: o que ocorre com nossos propriedades quando
possuı́mos infinitos indivı́duos na amostra? Ora, de princı́pio, pode-se imaginar
72
que teremos uma vida mais fácil. E, de fato, de um ponto de vista puramente
mecânico, é verdade. Contudo, a teoria se torna progressivamente complicada.
Vamos demonstrar alguns desses resultados, os quais serão utilı́ssimos muito em
breve.
Lei Fraca dos Grandes Números
Em Probabilidade, aprendemos a chamada ”desigualdade de Markov”.
Sua derivação é simples. Seja X uma variável aleatória que só toma
valores positivos qualquer.
Z ∞
E[X] = Xf (x)
−∞
Z a Z ∞ Z ∞ Z ∞ Z ∞
= Xf (x) + Xf (x) ≥ Xf (x) > af (x) =a f (x)
0 a a a a
= aP (X ≥ a)
Então, pode-se colocar que
E[X]
P (X ≥ a) ≤ (52)
a
Que é a desigualde de Markov. Para prosseguir, tomemos agora uma

variável aleatória especı́fica. X = |Y − E[Y ]|
E[(Y − E[Y ])2 ]

P [|Y − E[Y ]| ≥ a] = P [(Y − E[Y ])2 ≥ a2 ] ≤
a2
V ar(Y )
P [|Y − E[Y ]| ≥ a] ≤ (53)
a2
Esta última equação é a ”Desigualdade de Chebyshev”. Precisamos

somente de um mais um passo agora. Seja uma séria de variáveis aleatórias Zi
todas independentes e identicamente distribuı́das. O processo que eu farei agora
é retirar um valor de cada uma delas, somar e dividir pelo número de valores
que tenho. Ou seja, estou realizando uma média amostral. Claro, esta média
depende fundamentalmente de quais valores de Zi eu coleterei. E esses valores
73
são variáveis aleatórias. Então, esta média amostral também é uma variável
aleatória. Mais formalmente:
Z1 + Z2 + · · · + Zn
Z̄ =
n
Nossa variável Y, que colocaremos na desigualdade (53), será precisa-

mente Z̄. Então, lembrando que eles tem as mesmas distribuições e são inde-
pendentes entre si:
E[Z1 + Z2 + · · · + Zn ]
E[Z̄] =
n
E[Z1 ] + E[Z2 ] + · · · + E[Zn ]
=
n
nE[Z]
=
n
= E[Z]
Onde E[Z] = E[Zi ], ∀i.
V ar(Z1 + Z2 + · · · + Zn )
V ar[Z̄] =
n2
V ar(Z1 ) + V ar(Z2 ) + · · · + V ar(Zn )
=
n2
nV ar(Z)
=
n2
V ar(Z)
=
n
Assim, ao aplicar em Chebyshev:
V ar(Z)
P [|Z̄ − E[Z]| ≥ a] ≤ (54)
n2 a 2
O que ocorre se n tende ao infinito? Ou seja, se, para fazer a média

amostral, temos MUITOS valores? Isto depende se a variância de Z é finita ou
não. Se for infinita temos uma indeterminação, se for finita, o lado direito tende
a zero. De maneira mais informal, pode-se escrever:
P [|Z̄ − E[Z]| ≥ a] ≤ 0
74
Como uma probabilidade só pode ser positiva ou nula, chega-se na
conclusão que:
P [|Z̄ − E[Z]| ≥ a] = 0
Isto quer dizer que, quando temos muitos valores, a probabilidade da

média amostral se distanciar algum valor ”a” da média real E[Z] tende a zero.
Isto é chamada ”convergência” em probabilidade. Sendo rigoroso, o que ocorre
é que: limn−>∞ P [|Z̄ − E[Z]| ≥ a] = 0
Esta é a ”Lei Fraca dos Grandes Números”.
A parte de V ar(Z) ser finita é muito importante. Sem isso, o teorema

não funciona. Sendo muito rigoroso, precisamos garantir que isto é o caso sem-
pre. Não vou explicitar isso em todas as situações - até porque, geralmente, a
hipótese que precisamos para isso é muito evidente. Farei somente nos casos
iniciais e depois deixarei ao cargo do leitor.
Teorema do Limite Central
Só vou enunciá-lo. A demonstração é demasiadamente longa e envolve a apre-

sentação de muitos conceitos.
O Teorema do Limite central é uma proposição que afirma que: ”a

soma padronizada de ’n’ variáveis aleatórias independentes converge a uma dis-
tribuição normal, independne da distribuição das variáveis aleatórias somandas,
quando ’n’ tende ao infinito”.
Para entender melhor este enunciado, primeiro discutamos o que é

”convergir a uma distribuição”. Seja uma sequência de variáveis aleatórias,
que chamaremos de [Xn ]. Ou seja, (X1 , X2 , . . . Xn ) com cada uma delas sendo
uma variável aleatória. Cada uma dessas variáveis possui uma distribuição
de probabilidade, que chamaremos de f (Xn ). Assim, gera-se, também, uma
sequência de distribuições de probabilidade: [f (Xn )]. Agora, note o seguinte: se
fixarmos um valor ”x” para cada uma das variáveis aleatórias em [Xn ], [f (Xn )]
se torna uma sequência de números reais. A saber, são as probabilidades que
cada uma das variáveis possuem de assumir o valor ”x”. Imagine que, para x=0,
a sequência seja algo como:
[f (X1 = 0), f (X2 = 0), . . . , f (Xn = 0)] = [0.1, 0.01, . . . 0.1n ]
Dito isso, tome f(G) como outra distribuição de probabilidade. Afirmemos

também que f (G = 0) = 0. Você consegue perceber que a sequência [Xn ],
quando n tende ao infinito e x = 0, tende exatamente para f (G = 0)? Esta a
ideia. Dizer que a sequência [Xn ] converge para a distribuição f(G) é dizer que,
para todo x real, a sequência converge para f(G=x).
75
Com tudo isto disto, tome a seguinte sequência de variável aleatórias,
com todos os Xi independentes entre si e identicamente ditribuı́das. Elas pos-
suem média e variância. A saber, E[Xi ] = µeV ar(Xi )=σ 2
[X1 , X1 +X
2
2 X1 +X2 +X3
, 3 , . . . , X1 +X2n+···+Xn ]
Associada a ela, está a sequência das distribuições de probabilidade:
[f (X1 ), f (X1 )+f

2
(X2 ) f (X1 )+f (X2 )+f (X3 )
, 3 , . . . , (X1 )+(X2n)+···+Xn ]
Então, o Teorema d limita central nos afirma que, para qualquer x

fixado, a sequência irá convergir para a distribuição de probabilidade de uma
normal. Mais precisamente, essas somas devem ser padronizadas, ou seja, a
média delas deve ser zero. Deixando mais claro o enunciado, se Sn é a soma
(X1 )+(X2 )+···+Xn
n ]. Então:
√ d
n(Sn − µ) ⇒ N (0, σ 2 ) (55)
O sqrt(n) possui um motivo especial. Primeiramente, ele não altera a

distribuição. Então, qual a relevância? Imagine que ele não estivesse. Sabe-se
2
que: V ar(Sn ) = sigma n . Quando n tendesse ao infinito, ter-se-ia uma dis-
tribuição com variância zero, ou, o que é o mesmo, assumindo somente um
número. Não é isso que queremos: estamos interessados na distribuição em si.
Assim, multiplicamos por raiz de n.
Continous Mapping Theorem
Também um dos teoremas que mais vamos usar daqui para frente. Basicamente,
é um conjunto de resultados. Eu não os demonstrarei, mas tão somente os
deixarei explı́citos e os explicarei.
Primeiramente:
P P
Xn ⇒ X → g(Xn ) ⇒ g(X)
Isto é, se uma sequência de variáveis aleatórias converge em probabil-

idade para um valor, qualquer função desta sequência converge para a mesma
função deste valor.
Em especı́fico,
se pensarmos em um vetor de sequência de variáveis
aleatórias Xn Yn , nos quais ambos possuem convergência em probabilidade,
X e Y, isto também é vlaido para este valor. Ou seja:
76
P P
Xn Yn ⇒ X Y → g( Xn Yn ) ⇒ g( X Y

Isto vale, claro, para funções como g( Xn Yn ) = Xn +Yn ou g( Xn Yn ) =
Xn Yn .
Outra afirmação que nos será cara é a seguinte:
P D D
Xn ⇒ X, Zn ⇒ Z → Xn Zn ⇒ XY
Ou seja, se uma variável converge em probabilidade para uma con-

stante, enquanto outra converge para uma distribuição, o produto delas conver-
P
girá para a distribuição multiplicada pela constante. Por exemplo, se Xn ⇒ 4 e
D D
Zn ⇒ N (0, 1), Xn Zn ⇒ N (0, 4).
Embora o teorema seja mais extenso do que isto, estes resultados nos
bastam.
O MQO Assintótico
Vamos aplicar as ideias acima no caso do MQO. Queremos provar consistência,

que foi definida na seção em que falamos das propriedades desejáveis de um
estimador. Ademais, vamos, agora, usar um conjunto um pouco diferente de
hipóteses estatı́sticas.
RLM 1 - Modelo linear nos parâmetros
~ + .
Y = Xβ
RLM 2 - Amostragem aleatória, independente e identica-

RLM 3 - Xnxk possui rank cheio
RLM 4 - Ortogonalidade
~ i i ] = 0
E[X
RLM 5 - Variância constante

V ar[i |Xi ] = σ 2
77
Então, há duas mudanças. Primeiramente, substituı́mos a esperança
condicional zero pela ”ortogonalidade”. Depois, a premissa de normalidade não
está mais presente. Tudo isso será discutido mais profundamente ao longo desta
seção.
Agora, retomemos a matriz Xnxk :

 0

x11 x21 . . . xn1
 ~
X
 10 
  ~2 
 x12 x22 . . . xn2   X 
=

 .. .. .. .
..   .. 
 
 . . .  . 

0
x1n x2n . . . xnn
X~n
0
~1 ~2 X~n Assim, retome o estimador:

E, claro, X é: X X ...
0 0
b = (X X)−1 X Y ~
Xn 0 n
X
=( ~ iX
X ~ i )−1 ~ i Yi
X
i=1 i=1
0
Pn ~ iX
~i Pn ~
X
i=1 −1 i=1 Xi Yi
=( )
n n
Pn ~ ~ 0 Pn ~ ~ 0
Xi Xi −1 i=1 Xi (Xi β + i )
= ( i=1 )
n n
Pn ~ ~ 0 Pn ~
Xi Xi −1 i=1 Xi i
= β + ( i=1 )
n n
Note que as divisões por ”n” se cancelam. Agora, atentemo-nos para o

fato de que X ~ i é uma variável aleatória, pois, para cada amostra que retiramos,
0
o valor, para cada i, será diferente. O mesmo para i . Assim, X ~ iX

~i e X
~ i i são
variáveis aleatórias. Pela hipótese RLM 2, as diferentes variáveis associadas a
Pn ~ ~ 0 Pn ~
indivı́duos diferentes são independentes entre si. Logo, i=1 X i Xi e i=1 Xi i
são somas de variáveis aleatórias independentes entre si. Mais do que isso,
quando dividas por ”n” são a média amostral... Que é precisamente o assunto
da Lei Fraca dos Grandes Números.
Por meio dela, nós sabemos que a média amostral converge, em proba-
bilidade, para a esperança da distribuição das variáveis aleatórias que a compõem,
quanto n tende ao infinito. Formalmente, no nosso caso:
Pn ~ i i
i=1 X P ~ i i ] = 0
⇒ E[X (56)
n
78
A igualdade final advém de RLM 4. Interessantemente, imagine que
tı́vessemos a mesma RLM 4 que havia antes: E[i |Xi ] = 0. Veja:
~ i i ] = E[E[X
E[X ~ i i ]|X
~ i ] = E[X
~ i E[i |Xi ]] = E[0|Xi ] = 0
Que legal! A hipótese de antes implica a de agora. Embora eu não vá

provar isso, o contrário não é verdadeiro. Ou seja, não é verdade que
~ i i ] = 0 ⇒ E[i |Xi ] = 0
E[X
Então, a hipótese E[i |Xi ] = 0 é mais ”forte”, no sentido de abarcar

mais situações, do que E[X ~ i i ] = 0. E é exatamente por isso que estamos usando
a segunda: quanto mais fraca é nossa hipótese, mais fácil é de argumentar que
ela é realmente verdadeira.
0
Pn
X ~
~ X
Tratemos agora da outra parte do estimador. A saber: ( i=1n i i )−1 .
Para isso, vamos usar ”Continuos mapping theorem”, que apresentamos sem
demonstração. Disto, se pode afirmar que, novamente usando a lei dos grandes
números:
0
Pn ~ iX
~i 0
X P ~ iX
~ i ])−1
( i=1
)−1 ⇒ (E[X (57)
n
0
~ iX
Pode-se ter certeza que o valor (E[X ~ i ])−1 existe, em decorrência da
hipótese RLM 3.
Com esses dois resultados, pode-se demonstrar a consistência do esti-

mador ”b”:
0 0
P ~ iX
~ i ])−1 E[X
~ i i ] = β + (E[X
~ iX
~ i ])−1 0 = β
b ⇒ β + (E[X
Então, o MQO, além de ser BLUE, também é consistente, demon-

strando sua importância como estimador.
Testes de hipótese
Teste T (ou não)
Esta seção é relevante por um motivo simples: para chegar no teste T

e no teste F, usávamos a hipótese RLM 6, a qual, agora, não está mais presente.
Será que conseguimos ainda usar estes mesmos testes?
79
Para isso, derivemos qual é a distribuição do estimador. Como é de se
esperar, um resultado muito relevante será o Teorema Central do Limite.
√
Para isso, multipliquemos b por n, algo que, como já discutido, cer-
tamente não altera sua distribuição.
0
Pn ~ ~ Pn ~
√ i=1 Xi Xi −1 i=1 Xi i
√
n(b − β) = ( ) n
n n
Pn ~ √
X
Foque no termo i=1n i i n. Pode-se aplicar o Teorema Central do
Limite nele? Ora, este afirma que: se Sn é a média amostral entre variáveis
independentes, então:
√ d
n(Sn − µ) ⇒ N (0, σ 2 )
Pn ~
X
O primeiro ponto a notar que, pela RLM 2, i=1n i i é uma soma de
variáveis independentes, dado que estamos somando diversos indivı́duos. Disto,
P n ~ i i
X
vem que, neste caso, Sn ≡ i=1
n .
Qual é a esperança de Sn ? É fácil ver que,√pela RLM.4, ela é zero. Do

que vem que µ = 0. E, após a multiplicação por n chega-se no fato que se
pode aplicar o Teorema do Limite Central neste caso.
Um último ponto é saber qual a variância. Pelo enunciado do teorema

central do limite, precisamos nos preocupar, somente, com a variância de cada
termo individiual. Não é um trabalho difı́cil:
0
~ i i ) = E[(X
V ar(X ~ i i )(X
~ i i ) ]
0
~ i i 0 X
= E[(X ~
i i ]
0
~ i i 0i X
= E[E[(X ~ i |X]]
0
~ i E[i 0i |X]
~ iX
= E[(X
0
~ iX
= σ 2 E[X ~i ]
Veja: para que a variância seja finita, basta que E[X ~ iX

~ i ] seja uma
matriz com valores finitos. Esta é a hipótese que precisamos para poder aplicar
a lei dos grandes números. Esse tipo de hipótese de ”estabilidade” ocorrerá
sempre daqui para frente.
80
Com isso:
Pn ~ i i √ 0
X d ~ iX
~ i ])
i=1
n ⇒ N (0, σ 2 E[X (58)
n
0
~ iX
Dito isso, agora só multiplicar por: (E[X ~ i ])−1 que é o limite, em
0
Pn
X~i X
~i
probabilidade, de i=1
n )−1 . Assim, há que:
√ d
0 0 0 0 0
~ iX
n(b − β) ⇒ (E[X ~ i ])−1 N (0, σ 2 E[X
~ iX
~ i ]) = N (0, E[X
~ iX
~ i ])−1 σ 2 E[X
~ iX
~ i ]E[X
~ iX
~ i ]−1 )
0
~ iX
= N (0, E[X ~ i ])−1 σ 2 )
Também se pode fazer uma aproximação disso. A ideia aqui é que

nunca, efetivamente, tem-se ”infinitos” indivı́duos. O que há é soomente os
somatórios amostrais de antes que, quando n tende ao infinito, transformam-se
nas esperanças. No caso:
Pn 0 −1
~ ~
i=1 Xi Xi σ2 ) 0
(b − β) ∼ N (0, )
n = N (0, (X X)−1 σ 2 )
Esta conclusão pode parecer banal, porque já havı́amos chegado antes.
Mas ela é diferente: antes, concluı́mos isso ao aceitar que e possuı́a uma dis-
tribuição normal. Era uma distribuição exata. Agora, sem esta hipótese, esta-
mos somente usando uma aproximação.
Para chegar no teste t, precisamos padronizar esta distribuição. A

saber, precisaremos retirar a média - que, neste caso é zero - e tirar o dividir pelo
0
desvio-padrão. Sep afirmarmos que E[X ~ iX

~ i ])−1 ≡ A∗, então o desvio padrão,
como antes, será σ a∗jj . Para seguir um caminho parecido com o que fizemos no
caso não-assintótico, iniciemos a partir de (b − β), demonstrando a equivalência.
√
(b − β) n(b − β)
√ ∗ =
σ a∗jj
p
σ ajj
√
n
Então, colocamos os estimadores para sigma que estamos acostumados.

Além disso, precisa-se padronizar a normal do numerador, como havı́amos feitos
antes.
81
√ √
√ n(b−β) n(b−β)
√ √
n(b − β) a∗
jj σ a∗ jj
q 0 p = q 0 =q 0
e e e e e e
n−k a∗jj n−k σ 2 (n−k)
Nada de novo até aqui. O que é devemos chamar atenção, então, é para
o seguinte: como n é muito grande - ”infinito” - tanto faz dividirmos por (n-k)
ou por n, considerandoPque n é muito maior do que k. Com isto em em mente,
0 n
e2i
tome nota de: ene = i=1 n . Se considerarmos e2i = zi temos exatamente o
cenário ideal para o uso da lei dos grandes números. Para onde isto converge?
Para chegar a esta resposta, lembremos que e = M .
0 0
ee M
=
n n
0 0 0 0
− X(X X)−1 X
=
n
0 0
Pn 2 Pn ~ Pn X ~ ~ Pn ~
i=1 i i=1 i Xi i=1 i Xi −1 i=1 Xi i
= − ( )
n n n n
Agora, coloque n ao infinito:
0
0 0
ee P ~ i ]E[X
~ iX
~ i ]−1 E[X
~ i i ] = E[2i ]
⇒ E[2i ] − E[i X
n
Pela RLM. 5, E[2i |X] = σ 2 . Assim, pela Lei das Expectativas Iteradas,
E[2i ] = σ 2 . Portanto:
0
ee P 2
⇒σ
n
Isto é muito notável porque, levando n ao infinito, nossa expressão

para o teste T se torna:
√ √ √
n(b−β) n(b−β) n(b−β) √
√ √ √
σ a∗ jj σ a∗ jj σ a∗ jj n(b − β)
= q = =
σ a∗jj
q q p
e0 e e0 e σ2
σ 2 (n−k) σ 2 (n) σ2
82
Este último resultado é somente uma normal padronizada! De forma
relevante, o test T NÃO existe no mundo assintótico. Nós usamos, simples-
mente, um teste ”Z”, em que nossa estatı́stica de teste é uma normal. De
muitas maneiras, é um resultado muito interessante: o test t só surge porque
temos uma amostra pequena!
Teste F (ou não)
Lembremos que, no teste F estamos interessados, da maneira mais

genérica possı́vel, em testar restrições lineares. Assim, estamos interessados
√ na
distribuição de Rb−r. Ora, novamente, trabalhar com isto ou com n(Rb−r) é
equivalente. Desta vez, façamos com o primeiro: Rb−r, para o qual já sabemos a
0 0
distribuição aproximada: N (Rβ −r, R(X X)−1 R σ 2 ). Com isso, pode-se chegar
na mesma conclusão que fizemos para o teste F, no caso não assintótico, que já
foi demonstrado:
0 0 0
(Rb − r) (R(X X)−1 R )−1 (Rb − r)
∼ χ(g)
σ2
Neste momento, colocávamos o estimador de σ 2 . No entanto, aqui,

quando n for ao infinito, cairemos na mesma situação do teste t: como o esti-
0
mador ene é consistente, ele convergirá, em probabilidade, exatamente para σ 2 .
Ou seja, não vamos alterar em nada a distribuição.
O teste F, portanto, neste contexto assintótico, torna-se uma qui-

quadrada, somente.
Uma pequena reflexão
Sempre que estamos trabalhando em uma mostra não infinita , realizar

inferência só é possı́vel com hipóteses sobre as distribuições dos erros - no nosso
caso, sempre normalidade.
No entanto, obviamente, nunca há uma amostra realmente ”infinita”,

de modo que terı́amos que usar aproximações para os testes acima. Por exem-
plo, em todo local que há uma esperança seria necessário substituir pela média
amostral que converge para esta esperança. Todo local que há uma variância é
necessário colocar um estimador.
Então, dado que nunca estamos de fato nesse mundo assintótico, é

necessário uma hipótese que a amostra é grande o suficiente para que possamos
tratá-la como infinita. Não é algo tão absurdo: um número que, por exemplo,
é zero até a vigéssima sexta casa pode ser tratado como exatamente zero em
praticamente todos os contextos.
83
A reflexão final é que inferência é um bicho difı́cil de lidar: de qualquer
forma, com muitos ou poucos indivı́duos na amostra, precisa-se de uma série de
hipóteses :P
Tutorial 18
Aqui, começa-se a quebrar hipóteses. Especificamente, neste tutorial quebra-se

a hipótese RLM.5. Ou seja: V ar(i |X ~ i ) = E[i 0 |X
~ i ] = σ2
i i
Como já explicado à exaustão, também vale para toda a amostra:

0
V ar(i |X) = E[i i |X] = σi2 De forma mais agregada, tem-se que:
 0   2 
E[1 1 |X] 0 ... 0 σ1 0 ... 0
0
0
 0 E[2 2 |X] . . . 0  0 σ22 ... 0 
Ω = E[ |X] =   =  ..
   
.. .. .. .. .. .. .. 
 . . . .  . . . . 
0
0 0 ... E[n n ] 0 0 ... σn2
Ou seja, cada indivı́duo possui um erro com variância diferente, agora!

Quais são os efeitos disso? Se lembrarmos da distribuição do MQO assintótico,
nós, antes de a explicitarmos, concluı́mos qual era sua variância. Tentaremos
fazer isso novamente, mas agora com esta nova hipótese.
0
~ i ei ) = E[(X
V ar(X ~ i ei )(X
~ i ei ) ]
0
0
~ i ei e X
= E[(X ~
i i ]
0
~ i σi2 X
= E[X ~i ]
0
E é isso. Antes, como ei ei = σ 2 , conseguı́amos deixar isso mais enxuto,
o que era extremamente mais útil. Veja, agora, a distribuição do estimador fica
0
muito muito mais bagunçada. Se Q−1 ~ ~ −1

xx ≡ (E[Xi Xi ])
√ d
0 0 0 0 0
~ iX
n(b − β) ⇒ (E[X ~ i ])−1 N (0, E[X
~ i σi2 X
~ i ]]) = N (0, E[X
~ iX
~ i ])−1 E[X
~ i σi2 X
~ i ]E[X
~ iX
~ i ]−1 )
0
= N (0, Q−1 ~ 2~ −1
xx E[Xi σi Xi ]Qxx )
Certo, como tratar com isso? Isto é, como estimar essa variância?
84
Analisaremos duas situações. Novamente, vamos expressar as esperanças por
meio das médias amostrais, porque nunca, realmente, estamos no mundo assintótico.
0
Então, se pode expressar o estimador de Q−1 ~ 2~ −1

xx E[Xi σi Xi ]Qxx como:
0 0 0
Pn Pn ~ 0
~ iX
X ~i X i i ~ i Pn X
X ~ iX~i
( i=1
)−1 i=1 i
)( i=1 )−1 =
n n n
0 Pn ~ 2 ~ 0 0
XX −1 i=1 X i σi Xi XX −1
( ) ( )
n n n
Este termo do centro está muito destoante. Será que consigo escrevê-lo
também em forma de matriz? Demonstremos:
 0
~1
X
Pn 0  0
X ~i
~ i σ2 X 1 ~ 2 X
 ~2 
i=1
= X1 σ1 ~2 σ 2
X ... X~n σn  . 
2 
2
n n  . 
 . 
0
X~n
 0
 2
σ1 0 ...
 ~
X
0  10 
1 ~ 0
 σ22 ... 0 ~ 
 X 2 
= X1 ~2
X ... X~n  .. .. .. ..  . 
n

. . . .  . 
  .

0 0 ... σn2 0
X~n
0
X ΩX
=
n
Então, nosso estimador, até agora, tem essa cara:
0 0 0
X X −1 X ΩX X X −1
( ) ( )
n n n
O leitor atento notará que não temos como saber a matriz Ω. Então,
usamos um estimador para ela:
 2 
e1 0 . . . 0
2
 0 e2 . . . 0 
Ω̂ =  .
 
.. . . .. 
 .. . . .
0 0 ... e2n
85
Se pensarmos que só temos uma amostra - como geralmente é o caso,
estamos estimando somente com um dado: o resı́duo do indivı́duo elevado ao
quadrado. É o melhor que podemos fazer. O Estimador da variância, por fim,
se torna:
0 0 0
X X −1 X Ω̂X X X −1
( ) ( ) (59)
n n n
Testes de hipótese
Os testes de hipótese ficam ligeiramente diferentes.
Teste T O teste t sempre se aplica em somente a um dos estimadores.

Por isso, vamos criar, novamente, um modelo que realize esta sepração:
~ =X
Y ~ j bj + X−j b−j + e
Do que:
0 0
~ j M−j X
bj = (X ~ j )−1 X
~ j M−j Y
~
0 0
~ j M−j X
bj = β j + ( X ~ j )−1 X
~ j M−j )
Queremos padronizar este estimador. Para isso, qual será que é seu
desvio padrão? Antes de fazermos isso, nprestemos atenção na regressão auxiliar
que nos será muito útil:
~ j = b−j X−j + ~g
X
0 0
E que M−j = I − X−j (X−j X−j )−1 X−j
86
0 0
~ j M−j X
V ar(bj |X) = V ar(X ~ j )−1 X
~ j M−j |X)
0 0 0 0
0
~ j M−j X
= E[(X ~ j )−1 X
~ j M−j )(X
~ j M−j X
~ j )−1 X
~ j M−j ) |X]
0 0 0
0
~ j M−j X
= E[(X ~ j )−1 X
~ j M−j M−j X
~ j (X
~ j M−j X
~ j )−1 |X]
0 0 0
~ j M−j X
= E[(X ~ j M−j 0 M−j X
~ j )−1 X ~ j (X
~ j M−j X
~ j )−1 |X]
0 0 0 0 0
0 0
~j X
= E[(X ~j − X
~ j X−j (X−j Xj )−1 X−j X ~ j M−j 0 M−j X
~ j )−1 X ~ j (X
~j X
~j − X 0
~ j X−j (X−j 0
~
Xj )−1 X−j X
0 0 0 0 0
~j X
= E[(X ~j − X ~ j M−j 0 M−j
~ j X−j b−j )−1 X 0
~ j (X
X ~j X
~j − X
~ j X−j b−j )−1 |X]
0 0 0 0 0
= E[(X ~j − X
~j X ~ j M−j 0 M−j X
~ j − ~g )−1 X
~ j (X ~ j (X ~j − X
~j X ~ j − ~g )−1 |X]
~ j (X
0 0 0
0
~ j ~g )−1 X
= E[(X ~ j M−j M−j X
~ j ((X
~ j ~g )−1 )|X]
0 0
= E[(X ~ j 0 X
~ j ~g )−2 X ~ j |X]
0 0
0
~ j ~g )−2 X
= E[(X ~ j M−j M−j X
~ j |X]
0
= E[(X~ j ~g )−2 g 0 0 g|X]

Pn 2 2
i=1 gi i
= 2
n2 Vdar(g)
De importante, vale lembrar que que X ~ j ~g é a covariância, multiplica

por n, entre as duas variáveis que, como já demonstrado na discussão sobre
colineariedade, dá-nos somente a variância de g multiplica porn - um escalar.
Ademais, óbvio, para fazer a estimativa desta variância, precisaremos

dos resı́duos ”e”, que colocaremos no lugar de . g, por sua vez, já são os resı́duos
da regressão auxiliar.
Então, a padronização se transforma em: robusto a heterocedastici-

dade se torna:
bj − β j bj − βj
rP = r Pn 2
n g e2
i=1gi2 e2i i=1 i i
n
n2 V ar(g)2
d
nV ar(g)2
d
√
n(bj − βj )
= r Pn 2 2
g e
i=1 i i
n
V ar(g)2
d
87
Quando n tende ao infinito, pode-se usara a lei dos grandes números,
lembrando que o estimador da variância é consistente.
√
n(b − β )
q j 2 2j (60)
E[gi ei ]
V ar(g)2
Novamente, é um teste Z, com uma normal.
Teste F
O processo para o teste F é praticamente idêntico a anteriormente. No

caso, sabe-se√ que, sob a hipótese nula Rβ − r = 0. Ademais, veja, estamos
dividindo o n. Esta distribuição, como antes, é uma aproximação.
0 0 0 0
R( XnX )−1 X nΩ̂X ( XnX )−1 R
(Rb − r) ∼ N (0, )
n
Se trabalharmos com os ”n”, ficaremos com a seguinte distribuição

aproximada:
0 0 0 0
N (0, R(X X)−1 X Ω̂X(X X)−1 )R )
0 0 0 0
Se definirmos F ≡ R(X X)−1 X Ω̂X(X X)−1 )R . Pode-se usar, como
já fizemos ao menos três vezes, F −1/2 para padronizar a normal. Defina ainda:
0 0 0
V̂ ≡ (X X)−1 X Ω̂X(X X)−1
0
No final, ao se fazer (F −1/2 (Rb−r)) (F −1/2 (Rb−r)) ter-se-á o seguinte,
para realizar o teste:
0 0
(Rb − r) (RV R )−1 (Rb − r) ∼ χ(g) (61)
Novamente, uma qui-quadrada - e, desta vez, nem o sigma está em-

baixo. A matriz ”V”, que é a de variância-covariância, é chamada de ”desvio
padrão robusto de White”. Robusto, no caso, à heterocedasticidade, sendo
”White” o primeiro autor. Outro nome é ”estimador sanduı́che para o desvio
padrão”. O ”sanduı́che” vem do fato de que o Ω está entre duas matrizes.
Daı́, padronizamos a normal e realizamos a soma dessas normais ao

quadrado, chegando a:
88
Tutorial 19
Trataremos, agora, de erros de medida. Qual é o contexto em que isso ocorre?

Imagine que vamos coletar uma informação, a partir de uma entrevista com
indivı́duos. No entanto, sabe-se que, por um motivo ou outro, estas informações
podem estar incorretas. Por exemplo, se perguntarmos sobre drogas, talvez
tenhamos respostas subestimem o tamanho do uso - por vergonha, por exemplo.
Como tratar com essas situações? O que, efetivamente, ocorre com

nossos estimadores? Para isso, a primeira pergunta é onde ocorre o erro: na
variável endógena ou exógena?
Endógena
Imagine que:
yi∗ + ui = yi
Em que yi∗ é o valor ”real” da variável e yi é o valor que conseguimos

coletar.
O modelo para se estimar, portanto:
~ ∗ = Xβ + ⇐⇒ Y
Y ~ = Xβ + µ + (62)
0 0
b = (X X)−1 X Y~
0 0
= (X X)−1 X (Xβ + µ + )
0 0
= β + (X X)−1 X (µ + )
Pn ~ ~ 0 Pn ~ Pn ~ ~ 0 Pn ~
i=1 Xi Xi −1 i=1 Xi µi Xi Xi −1 Xi i
=β+( ) ( ) + ( i=1 ) ( i=1 )
n n n n
Com ”n” ao infinito:
0 0
P ~ iX
~ i ]−1 E[X
~ i µi ] + E[X
~ iX
~ i ]−1 E[X
~ i i ]
b ⇒ β + E[X
0
P ~ iX
~ i ]−1 E[X
~ i µi ]
b ⇒ β + E[X
O estimador de MQO, neste contexto, é consistente? Ora, é necessário

~ i µi ]) o que, novamente pensamento em variáveis padronizadas, é dizer
que (E[X
89
que as covariância entre as variáveis explicativas e os erros de medida são zero.
Ou seja, não há nenhuma relação linear entre as variáveis. Uma óbvia forma de
garantir isso é que as variáveis explicativas e os erros de medida sejam indepen-
dentes entre si.
Não é possı́vel, efetivamente, provar isso. É necessário uma argu-

mentação sobre esta independência. Por exemplo, imagine que eu sei que in-
divı́duos, geralmente, diminuem a quantidade de uso de droga. Minha variável
explicativa é somente ”anos de estudo”. Cabe a você argumentar que saber
”anos de estudo” não nos diz nada sobre o tamanho da ”mentira” que alguém
conta ou não.
Dito isso, o que ocorre com a variância do estimador? Aceitemos que

os erros e µ sejam independentes entre si. Daı́:
0 0 0 0
V ar(b|X) = V ar(β + (X X)−1 X µ + (X X)−1 X |X)
0 0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + Cov((X X)−1 X µ, (X X)−1 X |X)
0 0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + Cov((X X)−1 X µ, (X X)−1 X |X)
0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + (X X)−1 X Cov(µ, |X)X(X X)−1
0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X)
0 0 0 0 0 0
= (X X)−1 X V ar(|X)X(X X)−1 + (X X)−1 X V ar(µ|X)X(X X)−1
0 0 0 0 0 0
= (X X)−1 X (σ 2 )IX(X X)−1 + (X X)−1 X (σµ2 )IX(X X)−1
0 0
= σ2 (X X)−1 + σµ2 (X X)−1
Será que conseguimos provar que o segundo termo é positivo definido?

Ora, provamos que, se Z é positivo-definido, então Z −1 também o é. Ora,
0
claramente (X X) é positivo-definido. Então, seu inverso também é. Logo,
quando há erro de medida na variável endógena, perdemos eficiência.
Exógena
Tem-se uma estilo de pensamento muito parecido com antes. No caso:
~ i ∗ + µi = X
X ~i
Em que µi é não-nulo. É importante abrir isso para demonstrar um

ponto.
90
∗
     
X1i µ1i X1i
X2i∗
 µ2i  X2i 
   
 ..  +  ..  =  .. 

 .   .   . 
∗
Xki µki Xki
Ou seja, cada um dos erros de medida se referem a cada uma das

variáveis explicativas e, ademais, são diferentes para cada um dos indivı́duos.
Com isso, cabe perguntar: o estimador é consistente? Primeiramente, é impor-
tante dizer que o modelo ”real” é escrito com a variável real:
~ = X ∗β +
Y
0  
u1
 u0 
 2
Notando que: u =  . 
 .. 
0
un
O MQO, contudo, só pode ser feito a partir da variável observada: X.

Notando, ainda: Notando que:
0 
u1
 u0 
 2
u= . 
 .. 
0
un
0 0
b = (X X)−1 X (X ∗ β + )
0 0
= (X X)−1 X ((Xβ + µβ + )
0 0 0 0
= β + β(X X)−1 X (µ) + β(X X)−1 X ()
Pelos processos comuns e pelas hipóteses de sempre, pode-se fazer:
0
P ~ iX
b ⇒ β + βE[X ~ i µ0 ]
~ i ]−1 E[X
i
Assim, uma hipótese muito simples que poderı́amos fazer para que o
~ i µi ] = 0. Contudo, isso é muito difı́cil de
estimador fosse consistente é dizer E[X
91
ser verdade. Quer dizer... A variável observada é literalmente somar o erro de
medida ao valor real. Como eles não possuem covariância? Assim, façamos uma
0
hipótese mais refinada, semelhante ao caso da variável endógena: E[X~i∗ µi ] = 0.
Ou seja, é a variável real, não a observada, que não possuo correlação.
Aonde isto nos levará? Para saber, vamos subtituir X = X ∗ + u em

0 0
−1
(X X) X (X ∗ β + )
0 0
b = [(X ∗ + u) (X ∗ + u)]−1 (X ∗ + u) (X ∗ β + )
0 0 0 0 0
= [(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u]−1 (X ∗ + u) (X ∗ β + )
0 0 0 0 0
(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u −1 (X ∗ + u) (X ∗ β + )
=[ ]
n n
0 0 0 0 0 0 0 0
(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u −1 (X ∗ X ∗ β + X ∗ + µ X ∗ β + µ )
=[ ]
n n
0 0 0
P ~ i ∗ X~ ∗ ]+E[X~ ∗ u0i ]+E[ui X~ ∗ ]+E[ui u0i ])−1 (E[X~ ∗ X~ ∗ ]β+E[X~ ∗ i ]+E[ui X~∗ 0 ]β+E[ui ei ])
b ⇒ (E[X i i i i i i i
0
Com a hipótese de que E[X~i∗ ui ] = 0, feita acima, conseguimos eliminar
dois termos. Pode-se fazer mais algumas hipóteses simplificadoras. A saber,
E[µi i ] = 0, que é plausı́vel dep ensar e já usada em outro momento, e também
dizer E[X ~ i ∗ i ] = 0 que uma simples consequência de RLM.4 e da penúltima
hipótese. Nisto, chega-se, enfim, em:
0 0
P ~ i ∗ X~ ∗ ] + E[ui u0i ])−1 (E[X~ ∗ X~ ∗ ]β)
b ⇒ (E[X i i i
Ou seja, interessantemente, com as hipóteses mais realistas, chega-se

na conclusão que ainda assim existe um viés de inconsistência.
Um caso especı́fico importante é quando temos uma regressão com

somente uma variável. Ou seja, o nossos vetores possuem somente uma variável.
Neste sentido, nosso estimador fica da seguinte forma:
P V ar(Xi∗ )
b⇒ β
V ar(Xi∗ ) + V ar(u∗i )
Aqui, fica claro algo: o multiplicador de β é menor do que 1. Por isso,

no caso de erros de medida, chamamos de ”viés de atenuação”.
92
Tutorial 19 - 20 - 21
Proxy
Nós sabemos que se deixarmos de fora uma variável que possua correlação tanto
com a variável endógena quanto com as demais explicativas, teremos um viés
de variável omitida. Assim, o econometrista zeloso sempre garantirá que todas
as variáveis relevantes - e somente elas - estejam expostas no modelo.
Contudo, pode-se ter o contexto em que, embora se saiba que uma

variável deveria estar inclusa no modelo, não é possı́vel achar dados para ela.
Isto pode acontecer por falta de fontes ou, mais gravemente, pela variável ser
definida de forma muito vaga (”inteligência”, ”beleza”, etc.)
Seria interessante que, nesses casos, tivéssemos algo para ”substituir”

ou ”aproximar” a variável que não podemos coletar. Este é exatamete a função
da proxy. Para estudá-la de maneira mais sistematizada, teremos um modelo
multivariado em que há a variável que necessita de proxy é denominada ”X00j .
~ = Xj βj + X−j β−j +
Y
Ora, imagine que seja ”inteligência”. Mesmo que não saibamos com
precisão o que é uma proxy, nosso intuito é, em algum nı́vel, ”substituir” a
variável, parece evidente que uma variável ”fios de cabelo” parece péssima para
este propósito. Assim, desta intuição, sabe-se que podem existir proxys boas e
ruins. O que diferencia um grupo do outro? Tome a seguinte regressão, com
Xp a variável candidata a proxy.
Xj = Xp γp + X−j γ−j + µ
Listemos as condições.
1. γp 6= 0
Ou seja, tudo mais constante, uma correlação entre a variável e aquilo
que está servindo como proxy. Ou, ainda, a proxy não é irrelevante para
explicar Xj . É por isso, inclusive, que ”fios de cabelo” é uma proxy ruim.
2. γ−j = 0
Uma vez que estamos mantendo constante a proxy - ”controlando pela
proxy”, todas as outras variáveis não colaboram em nada para a explicação
de Xj . De maneira mais lúdica, tudo o que X−j explicaria está inteira-
mente contido na proxy.
93
~ i i ] = 0
3. E[X
Esta é a hipótese de ortogonalidade comum. Fiquemos atento, somente,
para o fato que ela implica que todas as variáveis explicativas, quando
multiplicadas pelo erro, dão zero.

E[X~1i i ]
  
0
E[X~ ] 0
 2i i 
..   .. 
 
 
.  .
 
=
 
 E[X~ji i ]   0

 .

..

 .
.

 . 
E[X~ki i ] 0
4. E[Xpi i ] = 0 A proxy também é ortogonal ao erro de regressão inicial.

p
~ i µi ] = 0
5. E[X

E[X~1i µi ]
  
0
E[X~ µ ] 0
 2i i 
..   .. 
 
 
. .

  

Ou seja:  =
 
~
E[Xpi µi ]  0
 .

..

 .
.

 . 
E[X~ki µi ] 0
Escrevamos o modelo, já usando estas hipóteses, da seguinte forma:
~ = Xj βj + X−j β−j +
Y
= (Xp γp + µ)βj + X−j β−j +
= Xp (γp βj ) + X−j β−j + µβj +
= Xp (βj∗ ) + X−j β−j + ∗
Perguntamo-nos, agora, se o estimador para β−j é consistente. Esta

pergunta é relevante porque toda a motivação da proxy era impedir a situação
que houvesse viés de variável omitida. Estamos tentando provar que, com o uso
da proxy, não precisamos nos preocupar com isto.
Notavelmente, independente da resposta, nota-se que nunca chegare-

mos a estimar βj , mas somente um múltiplo dele. Isto é totalmente esperado: se
não tı́nhamos os dados em primeiro lugar, não era possı́vel que conseguı́ssemos
realmente achar uma estimativa para o efeito na variável explicativa. Mas tudo
bem: não era nosso objetivo em primeiro lugar.
Então, façamos o de sempre:
94
~ = Mp X−j β−j + ∗
Mp Y
Do que vem:
0 0
~
b−j = (X−j Mp X−j )−1 X−j Mp Y
0 0
= β−j + (X−j Mp X−j )−1 X−j Mp ∗
0 0 0 0 0
= β−j + ((X−j X−j − X−j Xp (Xp Xp )−1 (Xp ) X−j )−1 X−j Mp ∗
0 0 0 0 0 0 0 0
= β−j + ((X−j X−j − X−j Xp (Xp Xp )−1 (Xp ) X−j )−1 (X−j ∗ − X−j Xp (Xp Xp )−1 Xp ∗ )
Colocando condições de estabilidade e realizando o mesmo processo

para a lei dos grandes números:
0
0 0 0 0 0
~ −ji X
β−j + (E[X ~ −ji ] − E[X
~ −ji Xpi ]E[Xpi Xpi ]−1 E[Xpi X~−ji ])−1 (E[X~−ji ∗i ] − E[X~−ji Xpi ]E[(Xpi Xpi )−1 E[Xpi ∗i
O único que precisamos notar é, agora:
E[Xpi ∗i ] = E[Xpi (i + µi βj )]

= E[Xpi (i )] + βj E[Xpi (µi )]
=0+0=0
Da mesma forma:
E[X−ji ∗i ] = E[X−ji (i + µi βj )]

= E[X−ji (i )] + βj E[X−ji (µi )]
=0+0=0
Então, ao aplicar isto, chega-se na conclusão de consistência para b−j ,

como se queria demonstrar.
95
Tutorial 23-24-25
Instrumento - caso simples
Novamente, imaginemos que há uma situação em que temos certeza que há uma
variável que possui correlação com as outras variáveis explicativas e também com
a endógena. Para evitar viés, não podemos deixá-la de fora do modelo.
No entanto, imagine que não consigamos encontrar uma variável proxy

- ou, se consigamos, ela não tem as propriedades necessária. Tudo está perdido?
Não. Pode-se usar um ”instrumento”.
A ideia do intuitiva do instrumento advém de percebermos que a matriz

X possui uma parte que é correlacionada com o erro (endógena) e uma parte que
não o é (exógena). Por meio do instrumento, tenta-se usar esta parte ”exógena”
na regressão.
A fim de simplicidade, primeiro começamos com o caso simples: es-

tamos regredindo Y em somente uma variável X1 , que é correlacionada com o
erro. Como instrumento, usar-se-á a variável Z.
Y = X1 β1 +
As hipóteses adicionais que usaremos são as seguintes:
1. (Zi )ni=1 é distribuı́da de forma independente e idêntica.

2. E[Zi X1i ] 6= 0
Ou seja, há uma relação entre a variável instrumental e X1 : eles não
são ortogonais a um outro, confirmando a intuição. Isto que dizer que o
instrumento é ”relevante”.
3. E[Zi i ] = 0
Esta aqui está de acordo com o que foi dito na intuição. O instrumento
tem sim relação com a variável X, contudo estamos interessados na parte
não correlacionada de X, que é exatamente o que se tem aqui.
Aqui, tem-se garantido que o instrumento é ”forte”.
A pergunta é como que, por meio do instrumento, conseguimos estimar

β1 . É importante que entendamos a filosofia da coisa. Anteriormente, para
0 0 0
~ , que era o
estimar β1 = E[X1i X1i ]−1 E[X1i Yi ], usávamos b1 = (X1 X1 )−1 X1 Y
estimador que minimiza a soma dos resı́duos ao quadrado. Agora, vamos usar
96
OUTRO estimador para realizar isso, embora estejamos estimando exatamente
o mesmo parâmetro. Chamaremos-lo de bIV .
Como podemos expressá-lo? Mais a frente, há um método mais rig-

oroso. Contudo, inicialmente, tentaremos fazer por analogia. Assim, tentemos
identificar β1 usando a variável instrumental.
E[Zi i ] = E[Zi (Yi − X1i β1 )] = 0

= E[Zi Yi − Zi X1i β1 ] = 0
= E[Zi Yi ] − E[Zi X1i ]β1 = 0
β1 = E[Zi X1i ]−1 E[Zi Yi ] (63)
Neste caso em especı́fico, pode-se escrever, pensando em variáveis

padronizadas:
Cov(Zi , Yi )
(64)
Cov(Zi , X1i )
Muito importante notar que só é possı́vel realizar esta identificação

distinta se o instrumento for forte, isto é, exógeno ao erro do modelo. Caso
contrário, não temos nem de onde partir. Isto não é verificável, sendo necessário
argumentar que esta exogeneidade é real.
Isto nos sugere que, para estimar, pode-se fazer:
Cov(Z
di , Yi )
biv = (65)
Cov(Z
d i , X1i )
Será que este estimador é consistente? Novamente, consideremos as

variáveis padronizadas, isto é, a média igual a zero. Somente para facilitar
trabalho :P
97
Pn
(Zi )(Yi )
biv = ni=1
P
(Z i )(X1i )
Pni=1
(Z )(X1i β1 + )
= i=1Pn i
(Zi )(X1i )
Pni=1 Pn
i=1 (Z i )(X1i ) (Zi )(i )
= β1 Pn + Pni=1
i=1 (Zi )(X1i ) i=1 (Zi )(X1i )
Pn
(Zi )(i )
= β1 + Pni=1
i=1 (Z i )(X1i )
Pn
i=1 (Zi )(i )
n P E[Zi i ]
= β1 + Pn ⇒ β1 +
i=1 (Zi )(X1i ) E[Zi X1i ]
n
= β1
De fato, é consistente! Contudo, precisamos, ainda, saber qual é a

distribuição. Para isso, precisa-se avaliar
Pn √ Pn
√ i=1 (Zi )(X1i ) −1 n i=1 (Zi )(i )
n(biv − β1 ) = ( ) ( )
n n
Como se deve esperar, usar-se-á, aqui, o teorema central do limite.

Para poupar trabalho depois, foquemos em saber como escrever V ar(Zi i |X, Z).
0 0
V ar(Zi i |) = E[(Zi Zi |X, Z]
0 0
= E[Zi Zi E[ |Z]]
0
= σ 2 E[Zi Zi ]
= σ 2 V ar(Zi )
= σ 2 V ar(Z)
Ademais, sabe-se que:
√ D σ 2 V ar(Zi )
( n(biv − β1 ) ⇒ N (0,
Cov(Zi , X1i )2
Cov(A,B)
Dadas quaisquer variáveis A,B, Corr(A, B) = ρA,B = σA σB
98
Assim:
√ P σ 2 V ar(Zi ) σ2
( n(biv − β1 ) ⇒ N (0, 2 2 σ2 ) = N (0, 2 )
ρZ,X σZ X ρ2Z,X σX
De forma interessante, se a correlação (ρZ,X ) for baixa, ou seja, o

instrumento não for relevante, a sua variância será imensa. Nós já sabemos os
problemas relacionados com isto: perda de poder de teste - inclusive, os testes
t e F são feitos da mesmı́ssima forma.
Então, faz-se necessário, sempre, possuir um instrumento relevante,

para que a inferência seja plausı́vel.
Instrumento - multivariado quadrado
Vamos agora para um mundo multivariado. Isto quer dizer duas coisas: primeira-
mente, nossas variáveis explicativas são mais do que uma; depois, nossos instru-
mentos são mais do que um, também.
Em X, que é a matriz com as variáveis explicativas para cada indivı́duo,

tem-se variáveis/colunas que são exógenas ao erro - isto é, ortogonais - e outras
que não o são - chamadas de ”endógenas”.
Dito isso, vamos definir a matriz ”Z”, com os intrumentos para X.

Inicialmente, coloquemos que ela é uma matriz nxk, exatamente igual a X. Como
esta matriz pode ser construı́da, a fim de que seja possı́vel estimar? Veremos.
Deixando mais formal:

 
z11 z12 . . . z1k
 z21 z22 . . . z2k 
..  = Z~1 Z~2 Z~k

Z= . ...
 
. .. . .
 . . . . 
zn1 zn2 ... znk
Note que, geralmente, escrevemos de forma vetorial usando o indivı́duo

como indexador do vetor. Aqui, por uma questão que ficará clara posterior-
mente, estamos idexando na variável explicativa. Faremos o mesmo para X.
Então, nossas hipóteses se tornam:
1. Z é i.i.d
~i i ] = 0, ∀i ∈ [1 : n]
2. E[Z
99
Novamente, esta é a condição de exogeneidade. Ao formular esta hipótese,
estamos, novamente, indexando no indivı́duo, ou seja: Z
Agora, contudo, todos os intrumentos devem ser exógenos.
0
3. (Z X) possui rank cheio.
 0 0 0 
Z~1 X~1 Z~1 X ~2 . . . Z~1 X~k
 0 0 0 
Z~ X
0  2 ~1 Z~2 X ~2 . . . Z~2 X~k 
ZX = .

 . .
.. .. .. 
 . . . 

0 0 0
Z~k X~1 Z~k X ~2 . . . Z~k X~k

Neste contexto, note, Z 0 X é uma matriz quadrada.
Deixando mais uma vez explı́cito, agora, nossos vetores Z~j , ∀jin[1 : k]
estão indexados nas variáveis explicativas.
Para que essa matriz tenha rank cheio, podemos derivar algumas con-
clusões interessantes. Primeiramente, dado qualquer instrumento, é necessário
que ela tenha correlação com ao menos uma das variáveis explicativas
X~ j , j ∈ [1 : k]. Isso é verdade porque, se não houvesse com nenhum,
uma coluna seria composta inteiramente de zeros - e, daı́, o rank não seria
cheio. Assim, uma interpretação é que não pode haver nenhum instru-
mento completamente irrelevante.
Ademais, no mesmo espı́rito, cada variável explicativa precisa ter cor-
relação com ao menos um instrumento, caso contrário terı́amos uma linha
de zeros.
Isto sugere uma forma de construirmos a matriz Z. No caso, seja uma
variável explicativa em X que seja exógena: Xjex . Fixe o seu eu instru-
mento como ela mesma, isto é, Zjex = Xjex . Ao fazer isso para cada
variável explicava exógena, garantimos que:
a) Para cada variável explicativa exógena, haja um instrumento que esteja
correlacionado.
b) Para cada instrumento de uma variável explicativa exógena, há uma
variável que ele se correlaciona.
Ademais, sendo a variável exógena, isto é, E[Xiex i ] = 0, e o instrumento
idêntico a ela, garantimo, também, que o instrumento é exógeno.
Agora, seja uma variável X endógena Xiex . Basta encontrarmos, para
ela, um instrumento qeu seja correlacionado e, ao mesmo tempo, exógeno
ao erro. Ao fazer isso, também garantimos a) e b) acima, bem como a
exogeneidade.
0
Desta maneira, construı́mos uma matriz X Z que esteja de acordo com as
necessidades, como se verá.
Façamos a identificação, novamente para buscar o estimador de forma

heurı́stica.
100
0
~i i ] = E[Z
E[Z ~i (Yi − X
~ i β)] = 0
0
~i X
⇐⇒ β = E[Z ~ i ]−1 E[Z
~i Yi ]
Do que vem, como estimador:
0 0
(Z X)−1 Z Y (66)
Não é difı́cil provar a consistência. O processo é o mesmo de antes, do

que eu vou me abster. Deixarei claro, somente, a distribuição, porque há algo
para se prestar atenção.
No caso:
Pn ~i X
~i
0
√ Pn ~
√ i=1 Z −1 n i=1 Zi i
n(biv − β) = ( ) ( ) (67)
n n
0
Pn
Z ~i
~i X P
Sabe-se que: ( i=1
)−1 ⇒ E[Z ~ i ]−1 = Q−1
~i X
n ZX
0 0
~ i i 0 Z
~i i ) = E[Z ~ ~ ~ 0
Também sabemos que: V ar(Z i i ] = E[Zi Zi E[i i |Z] =
0
~i Z
σ 2 E[Z ~i ] = σ 2 QZZ
Assim, pode-se concluir:

√ D
n(biv −β) ⇒ N (0, (Q−1 −1 2 −1
ZX QZZ QXZ )σ ) = N (0, (QZX QZZ QXZ )
−1 2
σ )
Instrumento - multivariado não quadrado
Antes, a forma que criávamos a matriz Z forçava ela ser quadrada: para cada
variável, avaliámos se era endógena ou exógena e atribuı́mos para ela um, e
somente um instrumento especı́fico. A questão é que não necessariamente isto
precisa ser feito.
Imagine que eu sou um rapaz muito sortudo e, para uma mesma

variável, eu encontrei mais do que um instrumento válido! Ou seja, correla-
cionado com ela e, ao mesmo tempo, exógeno com o erro. Eu preciso jogar
um deles fora? Óbvio que não. Ao longo do desenvolvimento, buscarei dar a
intuição de porque a situação com mais instrumentos, ao invés de somente, é
mais positiva.
101
Antes disso, contudo, temos uma problemática. Não podemos simples-
0 0
mente escrever o estimador como (Z X)−1 Z Y porque, agora que temos mais
potencialmente mais de um instrumento para cada variável explicativa de X,
0
nosso Z é uma matriz nxm. De modo que Z X é mxk, ou seja, potencialmente
0
não quadrada. Não faz sentido nenhum, então, escrever (Z X). Precisaremos
de outro estimador.
Este é o chamado ”Estimador de mı́nimos quadrados em dois estágios”

que, apesar do nome grande, é bem descritivo no que devemos fazer.
Primeiro, voltemos para o básico do instrumento: queremos realizar

a regressão somente na parte exógena de uma variável que possui tanto partes
endógenas quanto exógenas.
Assim, se regredirmos as variáveis explicativas ”X” nos instrumentos

e pegarmos as partes fittadas, estaremos somente com as partes exógenas. Esta
é o ”primeiro estágio”. Intuitivamente, quanto mais instrumentos válidos pos-
suirmos, mais ”explicaremos” a parte exógena.
Podemos, então, com esses valores fittados, usá-los como variáveis ex-
plicativas para a regressão com a variável Y. Daı́, conseguiremos o estimador.
De maneira mais formal, o primeiro estágio é colocado como:
X = Zλ + v (68)
X é n x k, Z é n x m, λ é m x k, v é n x k.
Estamos regredindo uma matriz, X, em outra, Z. No fundo, estamos

realizando várias regressões simultaneamente: cada coluna de X em toda a
matriz Z. Cada variável explicativa sendo explicada por todos os instrumentos.
No caso:

~1 ~2 X~k = Z λ~1 λ~2 λ~k + v~1

X X ... ... v~2 . . . v~k

~1 = Z λ~1 + v~1
X ~2 = Z λ~2 + v~2
X ... X~k = Z λ~k + v~k
Ou seja, novamente, estamos fazendo k regressões de forma simultânea,

explicando cada variável explicativa com todos os instrumentos. Quanto mais
instrumentos temos, maior será nosso R2 .
Quais são os valores fitados disto? Ora, o estimador λ é dado por:
102
0 0
(Z Z)−1 Z X
De modo que o valor fittado é
b = Zλ = Z(Z 0 Z)−1 Z 0 X = PZ X
X (69)
Com este valor fittado, façamos o segundo estágio: regredir Y na parte

exógena de X, X,
b que é n x k.
~ = Xb
Y b TS + µ (70)
Daı́, por meio de MQO:
b 0 X)
bT S = (X b0Y
b −1 X ~
b 0 X)
= (X b 0 (Xβ + )
b −1 X
0 0 0 0 0 0 0 0
= (X Z(Z Z)−1 Z Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z (Xβ + )
0 0 0 0 0 0 0 0 0 0 0 0
= (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z Xβ + (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z
0 0 0 0 0 0
= β + (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z
n 0 n 0 n n 0 n 0 n
X X X 0 X X X
= β + (( ~ iZ
X ~i )( ~i Z
Z ~i )−1 ( ~i x~i ))−1 (
Z ~ iZ
X ~i )( ~i Z
Z ~i )−1 ( ~ i i )
Z
i=1 i=1 i=1 i=1 i=1 i=1
0 0 0 0 0
Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~
i=1 Xi Zi i=1 Zi Zi −1 i=1 Zi Xi i=1 Xi Zi i=1 Zi Zi −1 Z i i
= β + (( )( ) ( ))−1 ( )( ) ( i=1 )
n n n n n n
0
~i Z
Se aceitarmos que E[Z ~i ] possui rank cheio, conseguimos o seguinte
resultado:
0 0 0 0 0
P ~ iZ
~i ]E[Z
~i Z
~i ]−1 ]E[Z
~i X
~ i ])−1 E[X
~ iZ
~i ]E[Z
~i Z
~i ]−1 E[Z
~i i ] (71)
bT S ⇒ β + (E[X
P
bT S ⇒ β + (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 ~
ZZ E[Zi i ]
Pela hipótese de exogeneidade do instrumento, consegue-se provar a

consistência.
103
Resta a distribuição. Não há muito segredo, sendo muito parecido com
o que foi feito anteriormente.
√ D
n(bT S − β) ⇒ (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 2
ZZ N (0, σ QZZ )
= N (0, (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 2 −1 −1
ZZ σ QZZ QZZ QZX (QZX QZZ QXZ )
−1
)
= N (0, σ 2 (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 −1
ZZ QZX (QZX QZZ QXZ )
−1
)
= N (0, σ 2 (QZX Q−1
ZZ QXZ )
−1
)
Tutorial 26
Simultaneidade - caso especı́fico simples
Nossa problemática é a seguinte: imagine que nosso objetivo é saber se pessoas

mais felizes tendem a ganhar mais dinheiro. Ora, uma reflexão rápida levantaria
a pergunta: ”o contrário não poderia ocorrer, também?”. Sim, de fato: pessoas
com mais dinheiro parecem ser felizes.
Esta situação, de simultaneidade, é problemática? Façamos um modelo

simples, com duas equação para cada um das variáveis: dinheiro (W, wealth),
felicidade (H, happiness), G (gênero)
Hi = β0 + β1 Wi + β2 Gi + i (72)
W i = λ 0 + λ 1 Hi + v i (73)
Junto, este é o ”sistema estrutural de equações”. Vamos aceitar, e isto

é importante, que este sistema de equações está bem especificado, no sentido
de que qualquer variável que adicionemos - salvo Hi , Wi e Gi - em qualquer
uma das regressões seria redundante ou, ainda, teria o parâmetro zero. Se esta
variável ”forasteira” é Xi , Uma condição necessária para sua redundância é que
E[Xi Wi ] = E[Xi Hi ] = 0, isto é, não há covariância entre a variância adicionada
e as dependentes.
Afirmar isto é relevante porque, se há um problema de viés, ele não

advém de alguma variável omitida oculta, mas tão somente da simultaneidade
Também será importante na hora de discutir a solução para a simultaneidade
em si.
Mas afinal, há um viés? Por exemplo, será que Wi é correlacionado

com i ? Ora, veja:
104
E[Wi i ] = E[(λ0 + λ1 Hi + β2 Gi + vi )]
= E[(λ0 + λ1 (β0 + β1 Wi + β2 Gi + i ) + vi )i ]
= E[(λ0 i )] + E[β2 Gi ] + E[λ1 (β0 i )] + E[β1 Wi i ] + E[2i ] + E[vi i ]
= λ0 E[i ] + β1 E[Wi i ] + β2 E[Gi i ] + λ1 β0 E[i ] + E[2i ] + E[vi i ]
Duas hipóteses simplificadoras: E[i ] = E[vi i ] = E[Gi , i ] = 0. E

notar que E[E[2i |Wi ]] = E[2 ] = σ 2 , nos dará o resultado que:
σ2
E[Wi i ] = 6= 0 (74)
1 − β1
E sabe-se que, nesta situação, que análoga para E[Hi vi ], os estimadores

não são consistentes. Vejamos como o viés pode ser expresso.
Antes disso, notemos a seguinte forma de escrever Wi
W i = λ 0 + λ 1 Hi + v i
= λ0 + λ1 β0 + λ1 β1 Wi + λ1 β2 Gi + λ1 i + vi
λ0 + λ1 β0 + λ1 β2 Gi + λi i + vi
⇐⇒ Wi =
1 − λ 1 β1
Pode-se escrever Hi de maneira analóga.
β0 + β1 λ0 + β2 Gi + β1 i + vi
Hi =
1 − λ 1 β1
Este conjunto de equação é determinada ”sistema reduzido” de equações.
105
Cov(W
di , Hi )
b1 =
V ar(W
d i)
Cov(W
di , i )
= β1 +
V ar(W
d i)
Cov(λ0 +λ1 β0 +λ
di i +λ1 β2 Gi +vi ,i )
1−λ1 β1
= β1 +
Vd
ar(λ0 +λ1 β0 +λi i +λ1 β2 Gi +vi )
(1−λ1 β1 )2
λ1 Cov(
d i , i )
= β1 + (1 − λ1 β1 )
λ21 Vd
ar(i ) + (λ1 β2 )2 Vd
ar(Gi ) + Vd
ar(vi )
2
P λ1 σ
⇒ β1 + (1 − λ1 β1 ) 2 2 2
λ1 σ + (λ1 β2 ) V ar(Gi ) + V ar(vi )
Assim, certamente, há um viés de inconsistência. O mesmo ocorre, de

forma exatamente análoga, com λ
c1 . No caso:
c1 = Cov(W i, Hi)
d
λ
Vdar(Hi )
Cov(v
d i , Hi )
= λ1 +
Vdar(Hi )
P β1 σ 2
⇒ λ1 + (1 − λ1 β1 )
β12 σ 2 + β22 V ar(Gi ) + V ar(vi )
Assumindo, E[Gi vi ] = 0.
Como se pode escapar destas problemáticas? Foquemos, primeira-

mente, em tentar estimar λ1 . Ora, não se pode tirar a variável que está causando
o viés de variável omitida do erro. Isto ocorre pois esta variável é exatamente
a variável dependente. Se ignorarmos isto, terı́amos uma regressão espúria: Wi
em Wi , no caso.
Uma proxy, neste caso, também não no seria muito útil. Lembremos
que, se escolhermos uma proxy, jamais teremos uma medida para para o efeito
da variável em si, somente uma composição dela com o efeito da variável proxy
- voltar ao tutorial sobre o assunto.
Resta-nos usar um instrumento. A saber, uma variável Zi na qual:
E[Zi Hi ] 6= 0
106
E[Zi vi ] = 0
A primeira hipótese, no contexto colocado, é capciosa. Como dito,

toda variável que adicionemos, salvo as que já estão presentes no modelo, dado
que o modelo está bem especificado, será redundante. Se Zi é esta variável
nova, então, por definição da forma que o modelo foi construı́do, haverá que
E[Zi Hi ] = 0.
Assim, Zi deve, necessariamente, ser uma das variáveis já presentes no

modelo. Claramente, não pode ser nenhuma variável que seja dependente em
algumas das equações (Hi e Wi ) restando somente a opção de Gi .
Embora já tivéssemos assumido a segunda hipótese para chegar no

estimador inconsistente de λ1 , vale sempre reafirmar que deve haver E[Gi vi ] = 0
e, claro, e isto é garantido pela equação (72), a primeira do sistema estrutural,
também precisa-se de E[Gi Hi ] 6= 0.
Com isto garantido, nosso estimador seria:
Cov(G
d i , Wi )
λIV =
Cov(G
d i , Hi )
Isto é rigorosamente o estimador de instrumento que destrinchamos

algumas seções atrás. Ele é consistente, como se sabe.
Se você for particularmente atento, pode perguntar: como estimarı́amos

β1 ? Não o farı́amos: todas as variáveis passeı́veis de serem usadas estão explic-
itadas na equação (72), de modo que não há nenhum instrumento disponı́vel.
Para ver isto melhor, imagine que usemos, para Wi o instrumetos Gi .

Como discutido na seção de instrumentos, precisamos de uma matriz de instru-
mentos. Se uma variável é exógena, a instrumentalizamos com ela mesma. Este
é exatamente o caso de Gi . Ou seja, a nossa matriz instrumento, Z, teria duas
colunas exatamente iguais, impedindo sua inversão e, assim, a estimação.
Vamos explorar melhor esta situação na parte a seguir.
Simultaneidade - no geral
Vamos tentar imaginar o que seria um sistema ideal, em que todas as variáveis
poderiam ser instrumentalizadas. Imagine que neste sistema simultâneo, haja G
variáveis endógenas. Elas seriam aquelas que aparecem, em uma equação, como
variável dependente e, nas outras, como variável explicativa. São os nossos Hi
e Wi de antes.
107
Seja uma equação especı́fica destas G. Uma primeira condição para que
esse sistema seja identificável - e assim, que todos possam ser estimados - é que
só haja, no lado direito desta equação G - 1 variáveis endógenas. Isto é óbvio
porque a que sobrou é exatamente a variável dependente. Esta é a ”condição
de rank.”
Se quisermos que todas as G-1 sejam possı́veis de identificar, pre-

cisamos de G-1 variáveis exógenas - aquelas que só aparecem nas equações como
variáveis explicativas, o nosso Gi , de antes - que NÃO ESTEJAM nesta equação
e que se adequem nas necessidades de um instrumento. Se esse for o caso,
poderemos identificar, por meio da instrumentalização, todas as G-1 variáveis
endógenas. Se só há G-1-j variáveis endógenas, precisarı́amos de G-1-j variáveis
exógenas excluı́das da equação. Esta é a ”condição de ordem”.
Olha que interessante: das variáveis endogenas, não aparecem, no lado

direito, j delas. E, das exógenas, não aparecem G-1-j, de modo que, no final,
excluı́mos, entre exógenas e endógenas, G-1, exatamente como no caso ante-
rior. Então, em qualquer sistema possı́vel de ser identificado, cada equação terá
excluı́do G-1 das variáveis que compõem o sistema, entre exógenas e endógenas.
Se essas duas condições não estiverem satisfeitas - ou não haja tan-

tas equações quanto variáveis endógenas - estaremos em uma situação de sub-
identificação do sistema, sendo impossı́vel - ao menos por essa técnica de
instrumentos e com o material de graduação.
O que acontece, contudo, se eu tenho mais variáveis exógenas excluı́dos

do que o necessário? Estamos no caso de ”super-identificação”. O estimador
aqui usado será o Two-Stage Least Squares, já demonstrado na seção sobre o
instrumento. A consequência, em relação ao caso de identificação comum, é que
teremos um estimador com uma variância menor, conforme já indicado pela
discussão da seção do instrumento.
Tutorial 27 - 28 - 29 - 30
Identificação do modelo não linear
No primeiro tutorial, estabeleceu-se que a função que minimiza o erro quadrático

médio era a esperança condicional. Então, postulamos, para esta esperança,
uma função linear e, desde então, estamos buscando, nas mais diversas condições,
qual é o melhor previsor LINEAR.
Vamos fugir um pouco disto, agora, e ir para formas não-lineares de

previsão. De maneira formal:
108
~ i , β)
E[Yi |Xi ] = f (X (75)
Onde β, também, é um vetor e f é uma função não necessariamente

linear nos parâmetros. O que se precisa para isso seja bem identificado? A
resposta é que, para diferentes parâmetros, precisa-se ter diferentes resultados.
Ou, ainda, a função f deve ser injetora em relação a valores de β.
Formalmente, se β1 6= β2
~ i , β2 ) 6= f (X
f (X ~ i , β1 ) (76)
0 0
0
~ i , β) = (X
O que é um exemplo que quebra isso? Seja f (X ~ i β) (X
~ i β).
0
0
~ iX
Para β1 e −β1 , há que o resultado é o mesmo: (β1 X ~ i β1 ).
Por que isso é tão ruim? Ora, lembremos que, para realizar a identi-
ficação do parâmetro β, no modelo linear, fizemos a minimização dos mı́nimos
quadrados. No caso, tomando as variáveis aleatórias:
~ β))2 ] = E[Y 2 − 2Y f (X,

E[(Y − f (X, ~ β) + f (X,
~ β)2 ] (77)
Ao realizarmos a minimização disto em β, chega-se em:
∂f (X, β) ∂f (X, β)
E[−2Y + 2f (X, β) ]=0 (78)
∂β ∂β
A ideia, então, é que se a condição (76) não for cumprida, ter-se-á,

possivelmente, dois parâmetros minimizando a equação. Assim, não havendo
como diferenciar um do outro, não se poder partir para estimação: qual deles,
exatamente, estarı́amos estimando?
Estimação do modelo não linear
Como antes, o nosso estimador não-linear, bnls , virá de analogia com a identi-
ficação. Então, bnls é aquele que minimiza a seguinte expressão:
Pn ~ i , bnls ))2
i=1 (Yi − f (X
(79)
n
109
Ou, ainda, que está de acordo com a condição de primeira ordem:
n ~ i , bnls )
X ∂f (X ~ i , bnls )) = 0
2 (Yi − f (X (80)
i=1
∂bnls
Isto pode parecer meio bobo, imagino. Antes, tı́nhamos uma fórmula
fechada e analı́tica para o estimador. Agora, só temos uma propriedade meque-
trefe. Mas é a vida. O estimador linear é uma estrela justamente por ser mais
simples de expressar, estimar e derivar propriedades.
Aqui, para ter um valor numérico para o estimador bnls , precisa-se usar
métodos numéricos. Basicamente, chutar valores e ver qual deles dá a menor
soma de resı́duos.
Apesar desta limitação, é possı́vel derivar a consistência e, também,

qual a distribuição, mesmo que os métodos não seja direto igual o anterior.
Pn ~ i , bnls ))2 Pn ~ ~ i , bnls ))2

i=1 (Yi − f (X i=1 (f (Xi , β) + i − f (X
=
n n
Pn ~ i , β) − f (X ~ i , bnls ))2 + 2(f (X ~ i , β) − f (X~ i , bnls ))i + 2
((f ( X i
= i=1
n
Pn ~ ~ 2
Pn ~ ~ Pn 2
i=1 ((f (Xi , β) − f (Xi , bnls )) i=1 2(f (Xi , β) − f (Xi , bnls ))i
= + + i=1 i
n n n
P ~ i , β) − f (X ~ i , bnls )2 ] + 2E[f (X ~ i , β) − f (X~ i , bnls )i ] + E[2i ]
⇒ E[(f (X
~ i , β) − f (X
= E[(f (X ~ i , bnls )2 ] + E[2i ]
Como hipótese, foi colocado, em analogia direta com antes, uma ”condição
de ortogonalidade” que garanta que o segundo termo seja zero. Não é fácil, sem
a forma funcional direta, saber qual condição é esta. Mas, genericamente, o
termo do meio sumirá.
Agora, note que, para minimizar a soma dos resı́duos ao quadrado, no

assintótico, precisamos que:
~ i , β) − f (X
E[(f (X ~ i , bnls )2 ] = 0
Isto só ocorre para bnls = β, Ou seja, no assintótico, aquilo que min-
imiza a média dos resı́duos é exatamente o parâmetro real, do que vem a con-
sistência.
Resta a distribuição, que esperamos ser uma normal. O método deste
110
é realmente bem indireto. Para chegar nele, foquemos na única coisa que real-
mente define o estimador bnls :
n ~ i , bnls ) n
X ∂f (X ~ i , bnls )) = 2
X 0
~ i , bN LS )(Yi − f (X
~ i , bnls )) = 0
2 (Yi − f (X f (X
i=1
∂bnls i=1
Definamos esta condição de primeira ordem como G(Yi , X ~ i , b). Note

que é uma função de b, que um valor arbitrário para o estimador. Faremos uma
”expansão de valor médio” em torno dela. Isto quer dizer que vamos usar o
Teorema do Valor Médio que afirma que, para qualquer função f contı́nua, é
verdade que em qualquer intervalo [a, b], existe um ponto c onde:
0 f (b) − f (a)
f (c) = (81)
b−a
Faremos exatamente isso com a função G. O intervalo que usaremos

será [β, bN LS ]. Neste intervalo, elegeremos o valor b∗ como o valor intermediário
”c”. Assim, pode-se escrever:
0 G(bN LS ) − G(β)
G (b∗ ) = (82)
bN LS − β
Por definição, como bN LS é o estimador e, como tal, satisfaz a condição

de segunda ordem, G(bN LS ) = 0. Assim:
0
(bN LS − β) = −G (b∗ )−1 (G(β))
0
G (b∗ ) −1 G(β)
= −( ) ( )
n n
√
Se, para evitarmos que a variância colapse, multiplacamos por n,
podemos chegar na distribuição. Os resultados relevantes são:
0 n 00
~ i , b∗ )) − f 0 (X
~ i , b∗ )(Yi − f (X ~ i , b∗ )f 0 (X
~ i , b∗ )T )
G (b∗ ) X f (X
= ( )
n i=1
n
P 00 0 0
⇒ E[f (X~ i , β)i ] − E[f (X ~ i , β)f (X
~ i , β)T ]
0
= −E[f (X~ i , β)f 0 (X
~ i , β)T ]
111
Vários pontos para notar aqui. Primeiramente, na primeira linha, note
a regra do produto. Depois, note que, quando passamos para a convergência de
probabilidade, tem-se que b∗ se tornou β. Isso é verdade porque bN LS é consis-
tente e o intervalo [bN LS , β] colapsa para, somente, β, de modo que todos os pon-
tos entre eles, como b∗ , também se tornam β. Ainda, (Yi −f (X ~ i , b∗ ). Em adição,
um detalhe menor é que, para não se confundir com o sı́mbolo da derivada, o
transposto se transformou em T . Por fim, sabe-se que E[f (X ~ i , β)i ] = 0. Assim,
pensando que pode-se passar a derivada ”para dentro” - teorema de Leibniz -
todas as derivadas também são zero.
O outro ponto é saber qual é a variância:
0
~ i , β)i ) = E[f 0 (X
V ar(f (X ~ i , β)i Ti f 0 (X
~ i , β)T ]
0
= E[[f (X ~ i , β)X
~ i , β)T E[i Ti |Xi ]
0 0
~ i , β)f (X
= σ 2 E[f (X ~ i , β)T ]
E a esperança:
0
~ i , β)i ] = 0
E[f (X
Assim, em última análise:
√ 0
P
n(bN LS − β) ⇒ −E[f (X ~ i , β)f 0 (X~ i , β)T ]−1 N (0, σ 2 E[f 0 (X
~ i , β)f 0 (X
~ i , β)T ])
0 0
= N (0, σ 2 E[f (X ~ i , β)f (X ~ i , β)T ]−1 )
E é isso. Veremos, agora, alguns casos especı́ficos de modelos não

lineares.
Probit e Logit
Imagine que nossa variável dependente, Y, possua somente dois valores possı́veis:
1 e 0. Ou seja, é categórica. Mais do que isso, vamos assumir que ela dado valores
de X, possui uma distribuição de probabilidade de Bernoulli: com probabilidade
p, assume valor 1 e, com 1-p, valor 0.
Vamos modelar, como antes, a esperança de Y, dado X. Se Y |X é uma

bernoulli, então E[Y |X] = p, ou seja, exatamente a probabilidade de Y |X = 1.
É fácil ver isso:
112
E[Y |X] = 1p + 0(1 − p) = p
Se é o caso, e vamos modelar, como antes, E[Y |X], faz sentido realizar
isso de uma maneira linear? Claramente não. Se fizermos combinações lineares
dos valores de X, não garantiremos que estaremos dentro do limite entre 0 e 1,
que deve ser atendido, dado que p é uma probabilidade e, como tal, está entre
0 e 1.
Então, que tipo de modelagem seria interessante usar? Uma função

que sempre está entre 0 e 1 é, por uma exemplo, uma CDF. Então, tome Φ(X)
como a distribuição acumulada de probabilidade da normal.
Uma primeira proposta é modelar a probabilidade de Y ser 1 como o

seguinte:
~ i ] = Φ(X
E[Yi |X ~ i β) (83)
Este é abordagem do Probit. No caso, a CDF está sendo avaliada a

patir de uma combinação linear entre os valores do vetor X ~ i . A depender do
valor desta combinação, que tem os valores do vetor β como coeficientes, tem-se
um valor para a probabilidade de Y ser 1. Se definirmos a variável ”i ” como
os possı́veis valores de uma normal, esta probabilidade pode ser expressa como:
P [i < X~ i β].
Pode-se, ainda, dar uma interpretação melhor para esta probabilidade.

Vamos trabalhar com uma variável chamada ”latente”, denominada Y ∗. Ela é
”latente” porque o resultado de Y, 0 ou 1, está fundamentalmente ligada com
o valor de Y ∗.
No caso, se Y ∗ ≥ 0, então Y = 1. Se Y ∗ < 0, então Y=0. Ademais,

Y ∗ é uma função linear das variáveis explicativas:
~ i β + i
Yi∗ = X
Uma intuição disto é o seguinte: imagine que queremos saber se algém

vai ou não para o colégio (Y=1 e Y=0, respectivamente); para isso, temos uma
série de variáveis explicativas, as quais, combinadas linearmente, dão-nos uma
informação compilada sobre o perfil do indivı́duo. Se estas informações tiverem
uma soma maior do que zero, então ele vai para a universidade. Se não, então
não.
Onde entra a probabilidade aqui? Ora, como se sabe i é uma variável

aleatória que, aqui, assumiremos ser normal.
113
Daı́:
~ i = 1] ⇐⇒ P [Yi∗ ≥ 0] ⇐⇒ P [i ≥ −X
P [Yi |X ~ i β] = P [i ≤ X
~ i β] = Φ(X
~ i β)
O último sinal de igual advém da propriedade de simetria da normal.
Este modelo, chamado de ”interpretação da variável latente”, é uma

forma de argumentar a partir de uma função linear. Imagine que gostarı́amos
de determinar a probabilidade de um indivı́dual dar ou não calote em uma
dı́vida do banco. Existe uma série de caracterı́sticas que temos da pessoa:
idade, gênero, tamanho da dı́vida, salário, etc. Também temos vários fatores
aleatórias, presentes em i . A ideia é que estamos ”destrinchando” o processo
de decisão do indivı́duo: a decisão advém das suas caraterı́sticas, mas também
de fatores aleatórias. A partir disso, assumimos que os fatores aleatórias são
normais e, conseguimos, a partir das caracterı́sticas dele, uma probabilidade de
calote. Algo como ”Dado que a pessoa é assim e assado, e dado que existem
fatores aleatórias, a probabilidade é de calote é tal”.
Dito isto, pode-se modelar a probabilidade variável dependente binária

ser 1 de ao menos mais uma forma: com a função logı́stica, a qual, também,
sempre está entre 0 e 1. No caso, a função é:
~ i] = 1
E[Yi |X 0 (84)
~ i β)
1 + exp(−X
A interpretação de variável latente não está aqui mais, embora os re-

sultados práticos da regressão sejam os mesmos.
Por fim, note que, em uma regressão linear, os valores de β podem ser
vistos como derivadas parciais de da esperança de Y em relação a uma variável
explicativa ou, em um sentido mais relevante, é o efeito marginal da variável
explicativa. Em uma regressão não linear, este não é o caso. De maneira mais
0
~ i ] = f (X
formal, se E[Yi |X ~ i β), então:
~ i]
∂E[Yi |X ~ i β)βj
= f 0 (X (85)
∂Xj
Nos dois casos que exploramos, Probit e Logit, a primeira derivada

sempre é positiva - tente demonstrar. Assim, embora observar os parâmetros
não me dê exatamente o efeito marginal (este é dado pelo produto do parâmetro
pela primeira derivada), dá-me o sinal, o que é já é bem relevante.
114
Tutorial 31-32-33
Máxima verossimilhança
Antes de passar propriamente para a parte econométrica, é interessante revisitar

um pouco o que exatamente é máxima verossimilhança. Imagine que tenhamos n
pares de (Xi , Yi )ni=1 , tirados de alguma distribuição conhecida, por um exemplo,
uma normal multivariada. A pergunta é: dado que temos estas dados especı́ficos,
e não outros, quais são os parâmetros mais prováveis? Por exemplo, se todos
os nossos pares ordenados estão no cı́rculo unitário, não faria sentido algum
0
acharmos que o valor esperado poderia ser o vetor [4, 5] . Talvez um mais
0
provável seja [0, 0] . Este é o princı́pio da verossimilhança.
Relevantemente, é um método DIFERENTE DE ESTIMAÇÃO DE

PARÂMETROS. É a primeira vez que isso acontece no curso. Antes, mesmo
que usássemos outros estimadores, sempre havia no cerne a ideia dos mı́nimos
quadrados. Não mais. Estamos em outro mundo.
Dito isso, antes, na estimação por mı́nimos quadrados, fazı́amos uma

hipótese sobre a esperança de E[Y |X] ~ - linear ou não-linear, por exemplo.
Agora, faremos uma hipótese sobre TODA a distribuição de Y |X, ~ ou, de outra
maneira, sobre todos os momentos.
Ou, ainda:
~ ∼ fθ (Yi , X
Y |X ~ i) (86)
0
Onde θ0 é o vetor de parâmetros reais que a distribuição possui. Para cada valor
~ i , possui-se um valor de probabilidade. Estamos assumindo
especı́fico de Yi e X
que conhecemos isto.
E agora? Ora, temos uma amostra com n pares ordenados. Qual é a

probabilidade de termos tido esses n pares ordenados especı́ficos? Ora, quando
só temos os valores amostrais, não temos os parâmetros reais. Então, para cada
estimativa de parâmetro que ”chutamos”, teremos uma probabilidade diferente;
Qual é essa probabilidade? Ora, para cada estimativa especı́fica θ, a

~ i . Pensando que os
probabilidade de um par [Xi , Yi ] é, como já dito, fθ (Yi , X
dados são independentes entre si, precisamos somente de um produtório para
ter a probabilidade da amostra.
n
Y
L(θ) = ~ i)
fθ (Yi , X (87)
i=1
115
Infelizmente, este produtório é muito difı́cil de maximizar. Mas se
pode realizar uma transformação monotônica nele sem interferir em qual esti-
mativa maximiza a probabilidade. Assim, ”passemos” o log! Outra ponto é
que vamos dividir por n - imagino que você saiba o motivo. No caso, defina:
~ i )n ≡ log(fθ (Yi ,X~i )) . Também, e isto será mais relevante lá na frente,
gθ (Yi , X n
definiremos também gθ (Yi , X ~ i ) ≡ log(fθ (Yi , X
~ i )), isto é, sem o n.
n
X
l(θ) = ~ i )n
gθ (Yi , X (88)
i=1
Com esta equação mais digerı́vel, pode-se fazer a condição de primeira

ordem. Embora θ seja um vetor, e derivar em relação a um vetor, como visto,
também resulta em um vetor, não vou explicitar isso, por pura falta de necessi-
dade.
n ~ i)
∂l(θM LE ) X ∂gθM LE (Yi , X
=
∂θ i=1
∂θ
Pn ~i ))
∂log(fθM LE (Yi ,X
i=1 ∂θ
=
n
Pn ~i ))
∂fθM LE (Yi ,X
1
i=1 (fθ (Y i ,X~i ) ∂θ
M LE
= =0
n
Esta é a condição de primeira ordem e, como no caso do estimador

não-linear, o único definidor do nosso estiamador para θ0 . Resta a difı́cil tarefa
de provar a consistência e, também, demonstrar qual é a distribuição. Daı́:
Pn ~i ))
∂fθM LE (Yi ,X
1
i=1 (fθ ~i )
(Yi ,X ∂θ P 1 ~ i ))
∂fθM LE (Yi , X
M LE
⇒ E[ ]=0
n ~ i)
(fθM LE (Yi , X ∂θ
Precisaremos, agora, abrir esta esperança. Vale uma interpretação

aqui. A esperança nada mais é do que os valores possı́veis da variável aleatória
multiplicada pela probabilidade desses valores e somadas. Aqui, uma vez mais,
a variável aleatória o é porque (Yi , Xi ) dependem da amostra que estamos re-
~ i ).
tirando. A probabilidade deste par especı́fico ocorrer, novamente, é fθ0 (Yi , X
Assim:
116
~ i )) Z ∞ Z ∞ ~ i ))
1 ∂fθ (Yi , X 1 ∂fθ (Yi , X ~ i) = 0
E[ ]= fθ0 (Yi , X
~ i)
(fθ (Yi , X ∂θ −∞ −∞ ~ i)
(fθ (Yi , X ∂θ
Se conseguirmos provar que θ0 satisfaz esta equação, provaremos que

ele satisfaz, no assintótico, a condição de primeira ordem. Note que ele deve
ser o único que faz isso. Colocou-se a condição de identificação justamente para
impedir que, na maximização, obtivéssemos mais do que um.
O argumento, intuitivamente, segue-se assim: em amostras pequenas,

θM LE é, por definição, o que está de acordo com a condição de primeira ordem;
se, no assintótico, a condição de primeira ordem é satisfeita por θ0 , então θ deve
convergir para ele.
Provemos isso ao substituir θ por θ0 , no assintótico.

Z ∞ Z ∞ ~ i )) Z ∞Z ∞ ~ i ))
1 ∂fθ (Yi , X ~ i) = 1 ∂fθ0 (Yi , X ~ i)
fθ0 (Yi , X fθ0 (Yi , X
−∞ ~
−∞ (fθ (Yi , Xi ) ∂θ ~
−∞ −∞ (fθ (Yi , Xi ) ∂θ
Z ∞Z ∞ ~ i ))
∂fθ0 (Yi , X
=
−∞ −∞ ∂θ
R∞ R∞ R∞ R∞
~ i ))
∂ −∞ −∞ fθ0 (Yi , X ∂ −∞ −∞ fθ0 (Yi , X ~ i )) ∂1
= = = =0
∂θ ∂θ ∂θ
Novamente, veja Leibniz sendo usado para integrar uma derivada. Isto
prova a consistência, como gostarı́amos.
Resta a distribuição. Antes de derivá-la, precisa-se revisitar um con-

ceito de estatı́stica que, provavelmente, é o mais obscuro de todos: a matriz de
informação de Fisher. Embora não farei as demonstrações formais aqui, tentarei
dar uma intuição. A ”informação” em ”Matriz de Informação de Fisher” é o
quanto de informação possuı́mos sobre uma variável aleatória, a partir de uma
matriz especı́fica -a de Fisher.
Podemos interpretá-la da seguinte forma: imagine que possuı́mos uma

função de verossimilhança, como l(θ) que definimos acima. Para cada θ e
amostra especı́fica teremos uma verossimilhança diferente. Estamos interes-
sados em maximizar esta função, dado uma amostra especı́fica.
Foquemos neste ponto de maximização, para uma amostra especı́fica.

Se realizarmos a primeira derivada, em relação a θ naturalmente ela será zero.
No entanto, qual a interpretação da segunda? É o quão rápido a inclinação se
altera ou, ainda, o quão achatado é a função de verossimilhança, perto de seu
pico. Se a inclinação e altera muito rápido, a segunda derivada é grande e ela
é pouco achatada. Do contrário, a segunda derivada é pequena e ela é bem
achatada - ”leptocúrtica” e ”platocúrtica”.
117
A matriz de informação de Fisher é exatamente está relacionada com
esta segunda derivada/achatamento. Relacionada como, exatamente? Ora,
a todo tempo estamos dizendo que todo este raciocı́nio é ”dado a amostra”.
De fato: dado n pares ordenados [Yi , X ~ i ], pode-se avaliar a probabilidade de
cada um deles e achar o parâmetro que maximiza. Então, para cada amostra,
terı́amos um parâmetro maximizador e, também, um achatamento/velocidade
de inclinação/segunda derivada em torno dele.
A matriz de informação de Fisher é nada mais do que o valor esperado

desses achatamentos, considerando uma amostra de tamanho infinito - onde,
na teoria, não havaria diferença entre as diversas amostras, dado que, bom, é
toda a população. Daı́, teremos um valor ”médio” ou representativo de todas
elas. Colocando formalmente este raciocı́nio, pode-se expressar a equação de
verossimilhança, como se viu:
n n ~ i ))
X
~ i )n =
X log(fθ (Yi , X
l(θ) = gθ (Yi , X
i=1 i=1
n
Então, precisa-se avaliar a segunda derivada disto em torno do ponto

máximo. Obviamente, este ponto máximo varia com a amostra, sendo dado por
θM LE contudo, no assintótico, isto converge para o θ0 . Este valor esperado -
advindo de uma amostra infinita - do ”achatamento” é, por fim, definida como
a matriz de Fisher.
n ~i ))
log(fθM LE (Yi ,X Pn ~i ))
∂log(fθM LE (Yi ,X
∂l(θM LE ) X ∂ n i=1 ∂θ∂θ 0
= =
∂θ∂θ0 i=1
∂θ∂θ0 n
P
~ i ))
∂log(fθ0 (Yi , X
⇒ E[ 0 ]
∂θ∂θ
Mais explicitamente:
~ i ))
∂log(fθ0 (Yi , X ∂gθ (Yi , X~ i)
I(θ0 ) = E[ 0 ] = E[ 0 ] (89)
∂θ∂θ ∂θ∂θ
Você consegue ver a ”informação”? Se estamos em um pico muito

achatado, com segunda derivada alta, qualquer pequena mudança em θ causará
uma mudança imensa no tamanho da verossimilhança. Assim, fica mais fácil
determinar qual é o ponto máximo exato, porque, afinal, existem pouquı́ssimos
candidatos. A matriz de Fisher com valor alto nos indica que temos muita
informação para encontrar o ponto máximo.
E daı́? Qual é a relevância disso? Ela reside no chamado ”Limite

de Cramer-Rao”. Por comodidade, não demonstrarei, bastando dizer que ele
118
afirma que qualquer estimador que funcione por máxima-verossimilhança tem,
como variância mı́nima, o inverso da sua matriz de Fisher:
V ar(θ) ≥ I(θ)−1 (90)
Ou seja, para mostrar que o estimador é eficiente, precisamos demon-

strar que ele atinge este limite. Para isso, buesquemos outra forma de expressar o
∗
estimador. Foquemos na função ∂l(θ )
∂θ , qe a derivada de em relação a theta l(θ).
No intervalo [θ0 , θM LE ], apliquemos o teorema do valor médio, como fizemos na
seção anterior, quando buscamos achar a distribuição do estimador não-linear.
O valor intermediário sera θ∗ .
∂l(θM LE )
∂l(θ∗ ) ∂θ − ∂l(θ
∂θ
0)
=
∂θ∂θ0 θM LE − θ0
− ∂l(θ
∂θ
0)
=
θM LE − θ0
−1
∂l(θ∗ ) ∂l(θ0 )
⇐⇒ θM LE − θ0 =
∂θ∂θ0 ∂θ
Primeiramente, notemos:
Pn ~ i)
∂l(θ∗ ) ∂ i=1 gθ∗ (Yi , X
0 = 0
∂θ∂θ ∂θ∂θ
n ~ i)
X ∂gθ∗ (Yi , X
= 0
i=1
∂θ∂θ
n ~
X ∂ log(fθ∗ (Yi ,Xi ))
n
=
i=1
∂θ∂θ0
Pn ~i ))
∂log(fθ∗ (Yi ,X
i=1 ∂θ∂θ 0
=
n
P
~ i ))
∂log(fθ0 (Yi , X
⇒ E[ 0 ] = I(θ0 )
∂θ∂θ
Isto pode parecer um repeteco de como chegamos na matriz de Fisher.

No entanto, note que, antes, estávamos avaliando em θM LE , que sabemos que
converge para θ0 . Agora, estamos avaliando em um ponto intermediário, θ∗ ,
que é um ponto médio. O argumento para dizer que ele também converge para
θ0 é o mesmo de antes: o intervalo [θ0 , θM LE ] colapsa para somenta θ9
119
Então, isto converge, no assintótico, exatamente para a matriz de in-
formação de Fisher. Isto já é um resultado notável por si só. No entanto, quer-se,
ainda, encontrar uma outra forma de escrever este resultado. Prepara-se, pois
a conta é imensa.
Pn ~ ))
∂fθ ∗ (Yi ,X
1 i
∗ ∂l(θ ∗ ) i=1 (f ∗ (Y ,X
i
~ )
i
∂θ
∂l(θ ) ∂θ ∂( θ
n )
= =
∂θ∂θ0 ∂θ0 ∂θ0
f ∗ ~ ) ~ )) ∂f ∗ (Y ,X~ ))
θ (Yi ,X ∂fθ ∗ (Yi ,X
Pn 0
i ~i ))−
(fθ∗ (Yi ,X i θ i
0
i
∂θ∂θ ∂θ ∂θ
i=1 f 2∗ ~ )
θ (Yi ,Xi
=
n
fθ ~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
~
0 (Yi ,Xi )
0
~
(fθ0 (Yi , Xi )) − 0
P ∂θ∂θ ∂θ ∂θ 0
⇒ E[ ]
fθ0 (Yi , X~ i )2
~i )
fθ0 (Yi ,X ∂fθ (Yi ,X~i )) ∂fθ (Yi ,X~i ))
0 0
∂θ∂θ 0 ∂θ ∂θ 0
= E[ ] − E[ ]
~ i)
fθ0 (Yi , X ~ i )2
fθ0 (Yi , X
Z ∞ Z ∞ fθ0 (Yi ,X~i ) ∂fθ0 (Yi ,X~i )) ∂fθ (Yi ,X
0
~i ))
∂θ∂θ 0 ~ i ) − E[ ∂θ ∂θ 0
= fθ0 (Yi , X ]
−∞ −∞ ~ i)
fθ0 (Yi , X fθ0 (Yi , X ~ i )2
~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
Z ∞ Z ∞ ~ i) 0
fθ0 (Yi , X ∂θ ∂θ 0
= 0 − E[ ]
−∞ −∞ ∂θ∂θ fθ0 (Yi , X~ i )2
R∞ R∞ ∂fθ (Yi ,X~i )) ∂fθ (Yi ,X ~i ))
~ i)
fθ0 (Yi , X 0 0
−∞ −∞ ∂θ ∂θ 0
= 0 − E[ ]
∂θ∂θ ~ i )2
fθ0 (Yi , X
~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
0
∂1 ∂θ ∂θ 0
= − E[ ]
∂θ∂θ0 fθ0 (Yi , X~ i )2
∂fθ0 ~i )) ∂fθ (Yi ,X
(Yi ,X ~i ))
0
0
∂θ ∂θ
= −E[ ]
fθ0 (Yi , X~ i )2
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= −E[ 0 ]
∂θ ∂θ
0
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= −E[ ]
∂θ ∂θ
Ora, então,ao menos heuristicamente:
∂l(θ ∗ ) P ~i ))
∂log(fθ0 (Yi ,X ~
1- ∂θ∂θ 0
⇒ E[ ∂θ∂θ 0
] = E[ ∂gθ∂θ∂θ
(Yi ,Xi )
0 ] = I(θ0 )
0
∂l(θ ∗ ) P ~ ~
2- ∂θ∂θ 0
⇒ −E[ ∂gθ (Y
∂θ
i ,Xi ) ∂gθ (Yi ,Xi )
∂θ ]
120
De 1 e 2, vem que:
∂gθ (Yi , X~ i) ~ i ) ∂gθ (Yi , X

∂gθ (Yi , X ~ i)
I(θ0 ) = E[ 0 ] = −E[ ] (91)
∂θ∂θ ∂θ ∂θ
Dito isso, passemos para o último resultado. Sabe-se que:
Pn Pn ~i ))
log(fθ (Yi ,X
√ ∂l(θ0 ) √ ∂ ~ √ ∂
i=1 gθ (Yi , Xi )n i=1 n
n = n = n
∂θ ∂θ ∂θ
Pn ~i ))
log(fθ (Yi ,X
√ i=1 ∂ ∂θ
= n
n
P
~ i ))
log(fθ (Yi , X ~ i ))
log(fθ (Yi , X
⇒ N (E[∂ ], V ar(∂ ))
∂θ ∂θ
Resta desenvolver os resultados dentro da normal. A maioria deles nós

já sabemos, mas vou retomar.
~ i )) Z ∞Z ∞ ~ i ))
log(fθ (Yi , X log(fθ (Yi , X ~ i)
E[∂ ]= ∂ fθ0 (Yi , X
∂θ −∞ −∞ ∂θ
Z ∞Z ∞ ~ i)
1 ∂fθ0 (Yi , X ~ i)
= fθ0 (Yi , X
~
−∞ −∞ fθ0 (Yi , Xi ) ∂θ
Z ∞Z ∞ ~ i)
∂fθ0 (Yi , X
=
−∞ −∞ ∂θ
R∞ R∞
∂ ~ i)
fθ0 (Yi , X ∂1
= −∞ −∞ = =0
∂θ ∂θ
E, no caso da variância:
~ i ))
log(fθ (Yi , X gθ (Yi , X~ i)
V ar(∂ ) = V ar(∂ )
∂θ ∂θ
0
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= E[ ]
∂θ ∂θ
= −I(θ0 )
A última igualdade, claro, advém diretamente do resultado 91, que

suamos para demonstrar. Agora, pode-se, enfim, afirmar que:
121
√ D
n(θM LE − θ0 ) ⇒ I(θ0 )−1 N (0, I(θ0 )) = N (0, I(θ0 )−1 )
E cá estamos! Provou-se, enfim, que o estimador de máximo-verossimilhança

atinge o limite de Cramer-Rao, sendo, portanto, eficiente.
Apêndice A - Funções caracterı́sticas e propriedades

de distribuições
Funções caracterı́sticas
A fim de definir completamente uma distribuição de probabilidades de uma

variável aleatória, é suficiente que tenhamos sua função densidade de probabil-
idade. Contudo, em muitos situações, se torna extremamente tedioso e compli-
cado provar propriedades por meio dessas, de modo que ascende a necessidade
de algo mais simples, mas que mantenha a caracterı́stica de identificação das
distribuições de probabilidade.
Uma maneira de realizar isso é fazer uma ”transformação de Fourier”

na variável aleatória X: 18 :
R +∞
φX (t) = E[eitX ] = −∞ eitx f (x)dx
Em que ”x” é um valor especı́fico da variável aleatória, ”f(x)” é a

distribuição de probabilidade davariável X e ”t” é o parâmetro da transformada
de Fourier e ”i” é a unidade imaginária.
Como se pode avaliar uma combinação de variáveis aleatórais? Ve-

jamos:
Z ≡ c1 X1 + c2 X2 · · · + cn Xn
18 FORTEMENTE recomendo o vı́deo do 3b1b sobre o assunto:
https://www.youtube.com/watch?v=spUNpyF58BY
122
Ao aplicar a transformada de Fourier:
Z +∞ Z +∞ Z +∞
φZ (t) = E[eit(c1 X1 +c2 X2 ···+cn Xn )] = ··· eit(c1 x1 +c2 x2 ···+cn xn ) f (x1 , x2 . . . xn )dx1 dx2 . . . dxn
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
= ··· eitc1 x1 eitc2 x2 . . . eitcn xn f (x1 )f (x2 ) . . . f (xn )dx1 dx2 . . . dxn
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
= eitc1 x1 dx1 eitc2 x2 dx2 · · · eitcn xn dxn
−∞ −∞ −∞
= φc1 X1 (t)φc2 X2 (t) . . . φcn Xn (t)
Soma de normais independentes é uma normal
Se colocarmos a distribuição de probabilidade de uma normal em f(x) na trans-

formado de Fourier e fizermos os limites da integral imprópria, chegar-se-á em:
σ2 t
eitµ− 2 Ou, no caso de uma combinação linear delas:
c2
1σ t
2
ec1 itµ− 2
Note que isto é uma equação única: somente a normal possui esta
função caracterı́stica. Nesta, há que µ e σ 2 são os parâmetros da normal. O que
seria, então, a soma de variáveis aleatórias independentes? Ora, vamos definir
que:
Assim, se aplicarmos a propriedade de soma de variáveis aleatórias

para uma normal, chegaremos em:
t(c2 2 2 2 2 2
1 σ1 +c2 σ2 ...cn σn ) ∗ t(σ ∗ )
e(it(c1 µ1 +c2 µ2 ...cn µn )− 2 ) = e(it(µ )− 2 )
Que também é uma função caracterı́stica de uma normal. Ou seja,

prova-se que a soma de normais independentes é uma normal.
A soma de k normais padronizadas independentes ao quadrado

é uma qui-quadrada com ”k” graus de liberdade
19
19 Eu não sei exatamente qual é a história disso, mas me parece que o caminho ”cronológico”
deve ter sido algo como: percebeu-se que a soma de normais independentes possuı́a uma
fórmula fechada, a qual chamaram de ”Qui-quadrada”. Aqui, por didatismo, realizamos o
caminho ”contrário”: primeiro deixamos a PDF explcı́ta para depois provar as propriedades
123
Primeiramente, define-se o que é uma distribuição qui-quadrada, por
meio de sua pdf:
n x
fX (x) = cx 2 −1 e 2
1
c≡
2n/2 Γ(n/2)
Z +∞
Γ(z) = xz−1 e( −x)dx
0
Com isso definido, prova-se dois lemas a partir dos quais se torna óbvio
nossa proprosição principal.
1 - A soma de k qui-quadradasPindependentes com ki graus

k
de liberdade é uma qui quadrada com i=1 ki graus de liberdade
Para notar isso, basta invocar a função caracterı́stica de uma qui-

quadrada. Isto é, quando realizamos a transformada de Fourier na PDF, com k
os graus de liberdade, chega-se em:
φZ (t) = (1 − 2it)−k/2
Então, ao multiplicar as funções caracterı́sticas, chega-se em:
Pk
− i=1 ki
φZ1 (t)φZ2 (t) . . . φZk (t) = (1 − 2it) 2
E isto prova nosso ponto, pois a função caracterı́sticas encontradada a

partir do produtotório é exatamente o que intentávamos.
2 - Uma normal ao quadrado é uma qui-quadrada com um

grau de liberdade Se Z é uma normal, defina X como o quadrado de Z.
Começamos tomando a definição da distribuição acumulada de X e a abrindo.
FX (x) = P (X ≤ x)
= P (Z 2 ≤ x)
√ √
= P (− x ≤ Z ≤ x)
Z +√x
1 1 2
= √ p e2z
− x (2π)
124
A partir daqui, queremos chegar na função densidade de probabili-
dade e, esperamos, provar que é a mesma da Qui-Quadrada. Então, usando o
teorema fundamental do cálculo, realizamos a derivada de Fx (X). Vou deixar
claro o processo, mas omitir os cálculos. Tome fz como a função densidade de
probabilidade de uma normal.
R +√x 1 2
d( √
− x
√1 e2z )
dFX (x) (2π)
=
dx dx
d(x1/2 ) d(x−1/2 )
= fz (x 1/2
) − fz (x−1/2 )
dx dx
1 1
= x−1/2 e− 2 x
21/2 π 1/2
Daı́, notemos o seguinte: Γ(1/2) = sqrtπ. Para ver isso, que omitirei
aqui, basta fazer por mudança de variável, colocando x = u2 . Desta forma,
conseguimos concluir que:
1 1 1 1
x( − 1/2)e− 2 x = x( − 1/2)e− 2 x
21/2 π 1/2 21/2 Γ(1/2)
E isto é exatamente a PDF de uma qui-quadrada, conforme definida. Então, de
fato, a PDF de uma normal ao quadrado é a PDF de uma qui-quadrada com
um grau de liberdade.
Então, ora, se isso é verdade, e também que a soma de k qui-quadradas

é uma qui quadrada cujos graus de liberdade é a soma dos graus de liberdade
das suas constituintes, então, trivialmente, a soma de k normais independentes,
padronizadas, ao quadrados é uma qui-quadrada com k graus de liberdade - que
é o que gostarı́amos de demonstrar.
Apêndice B - Propriedades de álgebra linear
A identidade é a única matriz idempotente que possui in-

versa
Isto é fácil de ver. Se ela é idempotente:
AA = A
Pré-multiplique pela inversa:
125
A = A−1 A = I
O que prova nosso ponto.
O traço de uma matriz idempotente é igual ao seu rank
Para isso, provemos um lemma: o traço de uma matriz é igual à soma dos
seus autovalores.
A fim de chegar nessa prova, lembremos de um dos assuntos mais sub-

limes de álgebra linear: diagonalização. Quando diagonalizávamos uma matriz,
conseguı́amos muitas de suas propriedades facilmente. Por exemplo: seja ”A”
diagonalizável. De Álgebrea linear, devemos lembrar que, para a diagonalizar,
só precisávamos gerar a matriz ”P” que possuı́a, nas colunas, os autovalores de
A. Daı́:
A = P −1 DP , com D diagonal.
Ocorre que, embora eu não vá provar isto aqui, a matriz D possui o
mesmo traço e os mesmos autovalores de A. Assim, obviamente, a soma dos
autovalores é o traço de A, pois este é o traço de D.
No entanto, nem toda matriz é diagonalizável. Precisamos, então, de

um resultado mais geral. Aqui que entra a ”forma canônica de Jordan”, uma
”poor man’s diagonalization”, mas que é muito mais geral. Ela é pode escrita
como:
 
a11 a12 0 0 ... 0
 0 a22 a23 0 . . . 0 
 
 0 0 a33 a34 . . . 0 
 
 .. .. .. .. .. 
 . . . . . 
0 0 0 0 ... ann
Onde: ai(i+1) = 0 ou ai(i+1) = 1, ∀i ∈ [1 : n − 1]

 
  1 0 0 0
2 1 0 0 2 1 0 

Por exemplo: 0 1 2 ou   ou 1 0
.
0 0 10 0  0 1
0 0 4
0 0 0 14
O ponto é que, embora a prova fuja do escopo desta apresentação, toda

matriz A possui uma forma de Jordan, J: LAL−1 = J.
Daı́, vem o seguinte: se ”tr” simboliza o traço, então: tr(J) = tr(LAL−1 ) =

tr(AL−1 L) = tr(A).
126
Ou seja, a matriz de Jordan e a matriz ”jornalizada” possuem o mesmo
traço. A propriedade ”comutativa” usada acima é fácil de derivar.
Ademais, outra propriedade é a seguinte:
Jv = λv ⇐⇒ LAL−1 v = λv ⇐⇒ A(L−1 v) = λ(L−1 v) ⇐⇒ Ax =

λx
Ou seja, eles também possuem os mesmos autovalores. Por fim, se

notarmos que a matriz de Jordan é triangular superior e, como tal, seus auto-
valores estão em suas diagonais, chega-se na conclusão do nosso lemma: o traço
de uma matriz é igual à soma dos seus autovalores.
Com isso provado, precisamos de outro resultado: uma matriz idem-

potente só pode ter autovalores 0 ou 1. Isto é bem fácil de notar:
Av = λv ⇐⇒ AAv = Aλv Av = λAv ⇐⇒ λv = λ2 v
Se v é não nulo, então resta dizer que λ = 0 ou λ = 1, que era nosso

propósito.
Daqui, torna-se trivial: o rank da matriz idempotente A é exatamente

o número de seus autovalores que são ”1”. Então, a soma dos autovalores é
exatamente o seu rank. Mas, como vimos acima, a soma de autovalores também
é o traço. Logo, o traço de uma matriz idempotente é igual ao seu rank, como
gostarı́amos de demonstrar.
Se uma matriz é positiva-definida simétrica, sua inversa

também é
Ora, no enunciado, afirma-se que A, uma matriz positiva definida, possui in-
versa.
Neste sentido, defina um vetor da seguinte forma: y = Ax. Note

que isto é uma bijeção. Para qualquer x no Rn , consegue-se ter o y, bastando
multiplicar por A. E, ademais, para y no Rn conseguimosretornarax : A−1 y =
x.IstoérelevanteporquetodososvetoresdoRn podemserescritoscomo00 x0 ou00 y 00 .Assim :
y T A−1 y = xT AT A−1 Ax = xT AT x = xT Ax
Ou seja, para qualquer vetor y, esta equação é igual a xT Ax e isso é

positivo, porque A é positivo definido.
127

Econometria I - EESP

Загружено:

Сведения о документе

Исходное описание:

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Econometria I - EESP

Загружено:

Авторское право:

Доступные форматы

Econometria na Escola de Economia de São Paulo

Bruno Eduardo da Costa Sales

Econometria, em suas três subdivisões, recebe o tı́tulo de ”portão do inferno” na

Exige-se, a fim de se obter aprendizado completo, um domı́nio mais

Nesta apostila, eu busco auxiliar os alunos dos anos vindouros a con-

A fim de atingir este propósito, ela está organizada de acordo com

Busquei discutir intuições e colocar formalidades. Dividi por tutoriais,

Espero que a apostila seja de alguma utilidade!

Espero que seja útil!

Esta questão, contudo, esconde ao menos duas outras perguntas essen-

1. O que é ”prever a partir do Estado Civil?”

A primeira pergunta talvez pareça trivial, mas ainda assim demanda

Obviamente, pode-se enunciar vários tipos de função. Também intu-

Novamente, deve-se, para seguir na discussão, usar uma linguagem

1. Deve-se penalizar simétricamente.

Ainda, defina a variável aleatória Ye como a nossa previsão para o

Com isso, pode-se definir o seguinte:

Se definirmos o estado civil como a variável aleatória X, clamo para

Ou seja, sabendo que o estado civil é x, eu atribuo para o indivı́duo

Vamos destrinchar o termo central da expressão (5). Antes disso, con-

Ademais, também lembremos que, para qualquer função densidade

Seja o foco na parte destacada acima.

Do que a passagem para a segunda usa precisamente a definição que

Se substituirmos este resultado, fica-se que:

Daı́, ao substituir este resultado em 5:

Ora, E[(Φ− Ye )2 ] ≥ 0. Assim, o mı́nimo vem quando Ye = Φ = E[Y |X],

O tutorial faz a seguinte pergunta: se há correlação entre as variáveis anos de

Por exemplo, se há um tratamento que aumenta marginalmente os anos

Posto isto, cabe agora definir o que seria correlação. Formalmente:

E[X − E[X]]E[Y − E[Y ]]

De fato, entender que correlação não é causalidade talvez seja um dos

ence” (1986), de Paul Holland

Via de regra, isso não é possuı́do, de maneira que realizamos uma

Ou seja, uma reta. Quando se faz isso, deixa-se de buscar o ”melhor

No mais, cabe a seguinte pergunta: qual reta eu devo especificar para

Para identificar esses parâmetros, far-se-á o seguinte.

Vamos derivar 9. Com algumas condições fracas, pode-se aplicar a

βo = E[Y ] − β1 E[X] (11)

Dito isso, coloquemos o resultado de (11) em (9):

Se aplicarmos a CPO para β1 , fica-se com:

E[(Ȳ − β1 X̄)X̄)] = 0 (13)

Ao se substiuir (15) em (11), também se identifica β0 , findando o que

Na seção acima, sublinhei a palavra ”identificação”. O que seria isso? Basi-

Vimos que a resposta, no caso acima, é ”sim”, bastando ver a equação

No entanto, existem situações em que não necessariamente a identi-

Por isso, por prudência e rigor intelectual, sempre se deve, depois de

Vamos expor isso com cuidado. Então, da população original, retira-se

No entanto, vou me dar a permissão - seguindo o que todos os livros

Ao colocar (xi , yi ) em um gráfico, tento simular o que eu realizei para a

Que é o chamamos de ”soma dos resı́duos ao quadrado”. RESÍDUO

Em que Y̆ e X̆ são as médias amostrais de Y e X. De forma relevante, os

Deve-se refletir um pouco sobre as expressões (17) e (18). A rigor,

Com isso colocado, quais são as propriedades algébricas deste esti-

Ressalta-se que essas propriedades são simplesmente derivações matemáticas

Outro ponto relevante é se questionar uma métrica para o quão bem a

Existem muitas formulações para elas. Vou expor duas.

Que é exatamente o R2 acima.

Da propriedade algébrica 2., o termo do centro é zero. Assim:

Se dividirmos a equação acima por n, chegaremos nas variâncias expostas

Como se viu na subseção anterior, saber propriedades algébricas nos auxilia a

Ademais, como dito anteriormente, as expressões (18) e (19) são funções

A saber, usaremos três critérios:

Questiona-se, agora, quais são as propriedades estatı́sticas do esti-

E[i |X̄] = E[i |xi ] = 0 (21)

Feito isso, vamos refletir um pouco sobre o que exatamente é o termo .

E[|X = x] = E[i |X̄] 6= 0