Вы находитесь на странице: 1из 127

Econometria na Escola de Economia de São Paulo

Bruno Eduardo da Costa Sales

2019

1 Introduction

Econometria, em suas três subdivisões, recebe o tı́tulo de ”portão do inferno” na


EESP, isto é, um conjunto de matérias famosas por sua dificuldade e potencial
de DP. Justificadamente, deve-se dizer.

Exige-se, a fim de se obter aprendizado completo, um domı́nio mais


do que trivial das matérias anteriores de Estatı́stica, Probabilidade e Cálculo.
Mesmo com isso, ainda se faz necessário entender os próprios conceitos e técnicas
Econométricas, que são um desafio por si só. O uso do R, principalmente durante
Econometria II, também se mostra um obstáculo a parte, demandando várias
horas de empenho.

Nesta apostila, eu busco auxiliar os alunos dos anos vindouros a con-


quistar esta matéria e, de forma mais aprofundada, ter mais ferramentas e in-
tuições para enfrentar as diversas problemáticas comuns encontradas por Economis-
tas.

A fim de atingir este propósito, ela está organizada de acordo com


os programas que eu tive no ano de 2018. Isto é, o workbook de 2018, em
Econometria I.

Busquei discutir intuições e colocar formalidades. Dividi por tutoriais,


tentando, ao máximo, ficar atento ao que exatamente o tutorial pedia. Realizei
revisões, mas obviamente ainda se encontrarão erros - principalmente gramati-
cais.

Espero que a apostila seja de alguma utilidade!

Espero que seja útil!

1
2 Econometria I

Tutorial 03

Inicia-se com uma pergunta simples: se eu sei qual o Estado Civil de um in-
divı́duo, qual é a melhor forma de usar esta informação para prever seu salário?

Esta questão, contudo, esconde ao menos duas outras perguntas essen-


ciais para uma análise rigorosa da questão.

1. O que é ”prever a partir do Estado Civil?”


2. O que é a ”melhor previsão”?

A primeira pergunta talvez pareça trivial, mas ainda assim demanda


uma explicação rigorosa. Especificamente, estamos nos referindo a usar uma
função cujo domı́nio é o Estado Civı́l e a imagem um valor para o
salário do indivı́duo. Por exemplo, dizer que ”se um indivı́duo é solteiro,
então seu salário é dez mil reais; se for casado, então é cinco mil” é simplesmente
enunciar uma função especı́fica: C

(
10000 se x=1
f (x) =
5000 se x=0

Obviamente, pode-se enunciar vários tipos de função. Também intu-


itivamente, nem todas parecem ”igualmente boas”. A função exemplo acima,
por exemplo, é extremamente arbitrária: por que diabos alguém casado gan-
haria o dobro? Da mesma forma, fixar que, independente do Estado Civil, os
indivı́duos ganham zero de salário parece péssimo. Por outro lado, a afirmação
”a melhor previsão para o salário de um indivı́duo, baseado no seu estado civil,
é a média aritmética do salário de todos os outros indivı́duos na população com
este mesmo estado” parece, de alguma maneira, mais robusta.

Novamente, deve-se, para seguir na discussão, usar uma linguagem


matemática rigorosa. Neste caso, precisa-se perguntar qual métrica estamos
usando para dizer que uma previsão é ”pior” ou ”melhor”. A resposta disso
pode ser colhida a partir de algumas observações simples sobre nossas intenções
com a previsão:

1. Deve-se penalizar simétricamente.


Ou seja, se o salário real é x, qualquer desvio de x deve ser tratado igual-
mente como um erro. De fato, não faz sentido dizer que, se eu errei mil

2
para cima, estou de alguma maneira mais correto do que alguém que errou
mil para baixo.
2. Deve ser uma função derivável em todos os pontos.
Embora este seja uma condição mais formal, ela se justifica porque, na
nossa busca pelo ’melhor previsor’, em muitos momentos argumentos de
maximização/minimização serão necessários, de maneira que seria muito
desagradável encontrar uma situação em que não pudéssemos derivar a
função, sendo obrigados a utilizar de técnicas mais complexas. Assim,
talvez por comodidade, busquemos uma função especificada acima.

Qual candidato se eleva? Que tal o quadrado dos erros, como foi visto
em Estatı́stica? Vamos usar algo semelhante, mas não exatamente o mesmo
trabalhado em Estatı́stica, conforme discutiremos em alguns tutoriais mais à
frente.

Por enquanto, vale definir alguns pontos antes. Seja Y uma variável
aleatória. No caso, o seu sampling space é o conjunto de eventos ”Receber o
salário y” e sua imagem são os reais positivos. Neste sentido, y é um valor
especı́fico desta variável aleatória. É fácil notar que o evento ”Receber o salário
y” é imprevisı́vel - o que gera a caracterização de variável aleatória - porque
uma série de forças governam a determinação do salário de alguém, não sendo
possı́vel uma previsão determinı́stica disto.

Ainda, defina a variável aleatória Ye como a nossa previsão para o


salário, baseado na caracterı́stica de estado civil, isto é, relaciona cada indivı́duo
com o salário que previmos para ele a partir do estado civil.Da mesma forma,
ye é um valor especı́fico desta variável aleatória Ye .

Com isso, pode-se definir o seguinte:

ε = Y − Ye (1)
Este é o nosso ”erro de previsão”. Obviamente, também é uma variável aleatória,
dado que a substração de outras duas. Seu valor especı́fico é definido como
 = y − ye. A partir disso, pode-se definir a nossa métrica como o velho Mean-
Squared-Error que encontramos em estatı́stica. Formalmente:

Z +∞
2
E[ε ] = E[(Y − Ye )2 ] =
2
(y − ye) f ()d
−∞

(2)

3
Com isso definido, deve-se agora passar para a segunda das ”perguntas
essenciais”: qual é o melhor previsor? Para o leitor atento, a resposta, ao menos
em seus termos mais genéricos, deve ser clara: a função cujos elementos do
conjunto imagem, associados com cada indivı́duo i a partir de seu estado civil,
minimizam (2).

Se definirmos o estado civil como a variável aleatória X, clamo para


vocês que a função que estamos perseguindo é a seguinte:

Z +∞
E[Y |X = x] = yf (Y = y|X = x)dy (3)
−∞

Ou seja, sabendo que o estado civil é x, eu atribuo para o indivı́duo


a esperança do salário, dado x . Para isso, eu preciso saber a distribuição de
probabilidade condicional de Y dado X. De inı́cio, um comentário possı́vel
é: ”Mas eu nunca vou saber essa probabilidade. Qual a relevância disso??”,
o que é um comentário sensato. No entanto, ao menos nesta etapa do curso,
estamos sempre assumindo que temos a base dados ideal e todas as informações
necessárias. Nessas condições ideais, pergunta-se qual é o melhor que podemos
fazer para realizar nossa previsão.

Dito isso, deve-se provar que, de fato, (3) minimiza (2). Por comodi-
dade, chama-se (3) de Φ.

2 2
E[(Y − Ye ) ] = E[(Y − Φ) + (Φ − Ye )) ] (4)
2 2
= E[(Y − Φ) ] + 2E[(Y − Φ)(Φ − Ye )] + E[(Φ − Ye ) ] (5)

Vamos destrinchar o termo central da expressão (5). Antes disso, con-


tudo, vale lembrar que tanto Ye ) quanto Φ são funções da variável x, que é o
estado civil. Especialmente no caso, de Φ, isto talvez não seja claro: a esperança
condicional de Y dado X = x é SEMPRE uma função de X, pois, para cada
valor x eu tenho um valor para a expectativa condicional.

Ademais, também lembremos que, para qualquer função densidade


de probabilidade conjunta de variáveis aleatórias Z e W quaisquer, há que:
f (Z, W ) = f (Z|W )f (W ). Isto é, o produto entra a condicional e a marginal.

Assim, de (5):

4
ZZ
E[(Y − Φ)(Φ − Ye )] = (y − φ)(φ − ye)f (X = x, Y = y) dx dy
R2
ZZ
= (y − φ)(φ − ye)f (Y = y|X = x)f (X = x) dx dy
R2
Z +∞ Z +∞
= ( (y − φ)f (Y = y|X = x)dy)(φ − ye)f (X = x)dx)
−∞ −∞

Seja o foco na parte destacada acima.


Z +∞ Z +∞ Z +∞
(y − φ)f (Y = y|X = x)dy = yf (Y = y|X = x)dy − φ( f (Y = y|X = x)dy)
−∞ −∞ −∞
= E[Y |X] − Φ
=0

Do que a passagem para a segunda usa precisamente a definição que


demos para Φ.

Se substituirmos este resultado, fica-se que:

E[(Y − Φ)(Φ − Ye )] = 0

Daı́, ao substituir este resultado em 5:

2
E[(Y − Ye ) ] = E[(Y − Φ)2 ] + E[(Φ − Ye )2 ] (6)

Ora, E[(Φ− Ye )2 ] ≥ 0. Assim, o mı́nimo vem quando Ye = Φ = E[Y |X],


que era exatamente o ponto que gostarı́amos de demonstrar, completando, por-
tanto, este tutorial.

Tutorial 03-04-05

Correlação x Causalidade

O tutorial faz a seguinte pergunta: se há correlação entre as variáveis anos de


educação e salário, pode-se inferir uma causalidade entre elas? Para responder
isso, precisa-se definir o que seria causalidade. Embora se possa fazer isso de
forma rigorosa, opto por uma apresentação mais intuitiva.

5
Especificamente, em Econometria se está preocupado com o ”efeito
de uma causa”. Mais precisamente, vamos definir o conceito de ”tratamento”:
dado um ente i - indivı́duo, paı́s, instituição, etc. - com certo conjunto de
caracterı́sticas - ou variáveis aleatórias - S, um tratamento em i é um ação que
mude numericamente algum elemento do conjunto S. Por exemplo, se os entes
forem indivı́duos, uma caracterı́stica interessante é ”anos de educação”. Um
tratamento seria, por exemplo, ”fornecer um ano a mais de educação para um
indivı́duo”, por meio de, em ilustração, um programa novo de ensino.

Visto isto, pode-se dar uma possı́vel definição para ”causalidade”. Seja
uma caracterı́stica s1 e outra s2 . Ao mesmo tempo em que se aplica um trata-
mento em s2 , mantém todos os outros elementos de S que não s1 , bem como
qualquer elemento fora de S que possa influenciar em s1 , constante - ceteris
paribus, para o leitor atento. Com isto feito, avalia-se, dado este tratamento
e esta condição de constância, o que ocorreu com s1 , numericamente. Esta
mudança numérica é o efeito causal de s2 em s1 . 1 .

Por exemplo, se há um tratamento que aumenta marginalmente os anos


de educação de um indivı́duo e, tudo mais no universo constante, isto aumenta
em 5 reais o saslário dele, então o efeito causal dos anos de educação sobre o
salário é de 5 reais.

Posto isto, cabe agora definir o que seria correlação. Formalmente:

E[X − E[X]]E[Y − E[Y ]]


Cor(X, Y ) = (7)
σx σy
Em português, correlação é simplesmente uma medida de relação linear entre
duas variáveis aleatórias. Visto isso, fica evidente que não necessariamente
correlação implica causalidade: não necessariamente o efeito causal de X e Y
seguira uma relação linear e, mais importante do que isso, em nenhum momento
a condição ceteris paribus está sendo usada na definição de correlação.

De fato, entender que correlação não é causalidade talvez seja um dos


maiores super-poderes argumentativos e analı́ticos que um graduado em Econo-
mia adquire. Isto permite a identificação de uma série de erros no raciocı́nio
alheio e no seu próprio, contribuindo para uma visão mais fundamentada de
mundo. 2
1 Uma discussão aprofundada deste assunto é feita no artigo ’Statistics and Causal Infer-

ence” (1986), de Paul Holland


2 Se quiser usar um pouco deste super poder, reocmendo este site:
http://www.tylervigen.com/spurious-correlations

6
MQO simples - Identificação

Como já foi discutido, a nossa melhor previsão, se queremos minimizar o MSE,
é feita a partir de E[Y |X = x]. Também como mencionado, para se ter exata-
mente, para cada x, este valor, seria necessário um nı́vel de informação grande
sobre nossa população.

Via de regra, isso não é possuı́do, de maneira que realizamos uma


hipótese - uma ”acochambrada” - para como esta esperança condicional, sendo
uma função de x, deve ser:

E[Y |X = x] = β0 + β1 x (8)

Ou seja, uma reta. Quando se faz isso, deixa-se de buscar o ”melhor


previsor” para ir para uma classe mais singela, mas ao mesmo tempo mais fácil
de trabalhar: o melhor previsor linear.

No mais, cabe a seguinte pergunta: qual reta eu devo especificar para


(8)? Obviamente, a depender de β0 e β1 , terei infinitas retas diferentes. Precisa-
se de um critério para esta escolha. Ora, todo o objetivo para se usar E[Y |X =
x] era minimizar o erro quadrado médio. Portanto, a nossa aproximação linear
para E[Y |X = x] deve focar no mesmo objetivo. A reta que procuramos - i.e,
β0 e β1 - é, portanto, é aquela que minimiza o erro quadrado médio.

Para identificar esses parâmetros, far-se-á o seguinte.


Z +∞
2 2
E[(Y − βo − β1 X) ] = (y − βo − β1 x) f (e)de (9)
−∞

Vamos derivar 9. Com algumas condições fracas, pode-se aplicar a


”regra de integral de Leibniz” e colocar a derivada ”para dentro” da integral,
de modo que se fica, como CPO para βo , com o seguinte:

E[(Y − βo − β1 X)] = 0
(10)

βo = E[Y ] − β1 E[X] (11)

Dito isso, coloquemos o resultado de (11) em (9):

7
E[(Y − E[Y ] − β1 (X − E[X]))2 ] = E[(Ȳ − β1 X̄)2 ] (12)

Se aplicarmos a CPO para β1 , fica-se com:

E[(Ȳ − β1 X̄)X̄)] = 0 (13)


E[Ȳ X̄]
⇐⇒ β1 = (14)
E[X̄ 2 ]
Cov(X, Y )
= (15)
V ar(X)

Ao se substiuir (15) em (11), também se identifica β0 , findando o que


havı́amos nos proposto: encontramos qual é o melhor previsor linear para a
variável Y ou, o que é o mesmo, a melhor aproximação linear para E[Y—X=x].

Estimação x Identificação

Na seção acima, sublinhei a palavra ”identificação”. O que seria isso? Basi-


camente, é a resposta para a pergunta: ”se tivéssemos infinitos dados e a dis-
tribuição de probabilidade dos mesmos, conseguerı́amos expressar os parâmetros
como função dos momentos populacionais”?

Vimos que a resposta, no caso acima, é ”sim”, bastando ver a equação


(16) e a (12). Uma vez que isto foi estabelecido, pode-se passar para outro
gênero de problema: a ”estimação”. Isto é, a partir de um conjunto finito
de dados - a amostra - conseguir um valor para o parâmetro. Este valor é a
”estimativa”, enquanto a expressão pela qual a conseguimos é o ”estimador”.
A próxima subseção tratatá disto em detalhe.

No entanto, existem situações em que não necessariamente a identi-


ficação é possı́vel. No nosso caso simples, por exemplo, se V ar(X) = 0 - todo
mundo com o mesmo número de anos de educação, não existiria um único β1
para identificarmos a partir dos dados, uma infinidade deles. De maneira mais
geral - mas ainda intuitiva - se o mesmo parâmetro possui duas expressões
diferentes, então há um problema de identificação. Se este é o caso, então não
é possı́vel realizar a estimação e se tem um obstáculo grave em mãos.

Por isso, por prudência e rigor intelectual, sempre se deve, depois de


se formular um modelo - no nosso caso, uma expressao para E[Y |X = x] -,
garantir-se que os parâmetros do mesmo são identificáveis. Se sim, parte-se
para a estimação. Se não, chora-se.

8
Estimação por MQO Simples - Propriedades Algébricas

Talvez a maneira mais intuitiva de, a partir de uma amostra com dados finitos,
chegar-se em uma estimativa para β0 e β1 seja simplesmente replicando o que
foi feito na identificação com os paralelos amostrais.

Vamos expor isso com cuidado. Então, da população original, retira-se


um número n finito de indivı́duos ou, de maneira mais distanciada, pares or-
denados (x, y). Cada um desses para ordenados se relaciona com um indivı́duo
que retiramos da amostra, de modo que, para os dados amostrais, pode-se usar
a notação (xi , yi ). Notavelmente, isto também se relaciona com uma variável
aleatória. Veja só: seja um ”i” especı́fico, como ”1”. Naturalmente, estamos
nos referindo ao ”indivı́duo 1”, mas quem é o ”indivı́duo 1” depende funda-
mentalmente de qual amostra estou. Assim, tem-se um evento imprevisı́vel -
qual amostra de n indivı́duos teremos - relacionado com um valor especı́fico xi .
Então, sendo muito rigoroso, pode-se dizer que (xi , yi ) são valores especı́ficos
das variáveis aleatórias X i , Y i , cujo o sample space é o conjunto de todas as
amostras possı́veis e o contra-domı́nio são os valores (xi , yi .

No entanto, vou me dar a permissão - seguindo o que todos os livros


fazem- de cometer um pequeno abuso de notação aqui: mesmo que, rigorosa-
mente, (xi , yi ) sejam VALORES especı́ficos das variáveis aleatórias, eu vou usar
de maneira ”intercambiável” (xi , yi ) para representar tanto valores especı́ficos
quanto variáveis aleatórias da amostra. Obviamente, vou deixar claro quando
elas querem dizer uma coisa e quando querem dizer outra. Não se preocupe se
isso não ficou claro agora: com o uso, acaba se tornando mais simples.

Ao colocar (xi , yi ) em um gráfico, tento simular o que eu realizei para a


identificação: aproximo E[Y |X = x] a partir de uma reta, sendo esta aquela que
minimiza o erro quadrado médio. Contudo, logo percebo, eu não tenho como
encontrar o MSE, porque tenho somente finitos dados e nenhuma distribuição
de probabilidade. O análogo disto, em uma amostra finita, seria o seguinte:

n
X
(ei )2 (16)
i=0

Que é o chamamos de ”soma dos resı́duos ao quadrado”. RESÍDUO


NÃO É ERRO. O erro, como já foi discutido, advém entre a diferença entre o
valor do salário e a previsão que realizamos, mas a partir dos PARÂMETROS.
Na estimação, não se tem os parâmetros, somente estimativas paras os mesmos,
de modo que a diferença entre o salário e a previsão estimada NÃO pode ser o
erro. RESÍDUO É O ANÁLOGO AMOSTRAL DO ERRO.3
3A Cristine vai corrigir vocês TODAS as vezes que você confundirem. Não é agradável!

9
Colocado isto, como se pode encontrar a estimativa? Ora, simples-
mente minimizando (17) de maneira muito semelhante àquela feita na identi-
ficação. Ao se fazer isso, conseguir-se-á as seguintes expressões:

Cov(X,
d Y)
b1 = (17)
V ar(X)
d

b0 = Y̆ − b1 X̆ (18)

Em que Y̆ e X̆ são as médias amostrais de Y e X. De forma relevante, os


”chapéus” em cima da covariância e variância indicam que estamos lidando com,
novamente, os análogos amostrais das mesmas. As letras minúsculas e perten-
centes ao alfabeto latino também indicam a diferenciação entre os valores aqui
colocados, que, dado a amostra, são estimativas, e os verdadeiros parâmetros.

Deve-se refletir um pouco sobre as expressões (17) e (18). A rigor,


elas são funções, as quais chamaremos de ”estimadores”. ”Funções de quê?”.
Da amostra! Para cada amostra que tivermos da população, ter-se-á diferentes
valores para b0 e b1 . Isto ocorre pois, claramente, as médias amostrais, co-
variância e variância amostrais dependem fundamentalmente das amostras que
tivemos. Quando fixamos uma amostra, daı́ temos um número, que se chama
”estimativa”.

Com isso colocado, quais são as propriedades algébricas deste esti-


mador? Defina ”propriedades algébricas” como aquelas que advém simples-
mente de operações matemáticas que podem ser provadas a partir da simples
definição do estimador. No nosso caso, o estimador é aquele que minimiza a
soma dos resı́duos ao quadrado. O que se pode chegar? Elencarei e provarei.

Pn
1. i=1 ei = 0
Ou seja, sob o estimador de MQO, a soma dos resı́duos é zero. A prova
disto é simples, bastando olhar para a condição de primeira ordem para
b0 . Isto é, deveriva-se (16) em relação a bo eseigualaazero.T eremos :
Pn
i=1 (yi − β0 − β1 x i ) = 0
Que é exatamente o que gostarı́amos de provar.

2. Cov(X,
d e) = 0
Ou seja, a covariância amostral entre os valores de X - os ”regressores”- e os
resı́duos são zero. Para ver isso, retome a definição de covariância amostral:
Pn
i=1 (xi − x̆)(ei − ĕ) Pn
E a condição de primeira ordem para β1 : i=1 ei xi = 0
Daı́,
Pn como ĕ, do item 1 acima. , é zero, a expressão para a covariância fica:
Pi=1 (xi − x̆)(ei ) P
n n
i=1 (xi )(ei ) − x̆ i=1 ei

10
Que é zero, pela condição de primeira ordem e pelo item 1.
3. Cov(Ŷ , e) = 0
Com Ŷ sendo os valores ”fittados”, isto é, que compõem a reta b0 + b1 xi
Pn ˘ i − ĕ)
(yˆi − ŷ)(e
Pi=1
n ˘ i)
(yˆi − ŷ)(e
Pi=1
n ˘ i)
i=1 (b0P + b1 xi − ŷ)(e
˘ n Pn
(b0 − ŷ) i=1 (ei ) + b1
i=1 ei xi
Que é zero, pelo Item 1 e 2.
4. y̆ = b0 + b1 x̆
Ou seja, a reta com as estimativas inclui o ponto (x̆, y̆) ou, ainda, ela contém o
par ordenado das médias amostrais.
Para ver isso, basta realizar um somatório em ambos os lados:
Pn Pn
i=1 yi = nb0 + b1 i=1 xi
Se dividimos por ”n”, chegamos na demonstração que almejávamos.
5. ŷ˘ = y̆ Ou seja, a média dos valores fitados é igual a média amostral de todos os
valores.
Como se sabe, o valor fittado é dado por:
b0 + b1 xi = yˆi
Se fazemos o mesmo processo que em 4., chega-se em:
ŷ˘ = b0 + b1 x̆
Ao igular a 4., demonstra-se o requerido.

Ressalta-se que essas propriedades são simplesmente derivações matemáticas


da forma que definimos o estimador.

Outro ponto relevante é se questionar uma métrica para o quão bem a


nossa reta fitta os dados. Ora, uma possı́vel é ver simplesmente o tamanho das
somas dos resı́duos ao quadrado. No entanto, isto é pouco sofisticado, uma vez
que depende das unidades dos dados. Relembro-me de um trabalho de Projetos
II cujo tema era receito de filmes e os resı́duos ao quadrado deram na ordem de
101 5. Em outro, que tratava de milimetros de chuva, 10− 4. É difı́cil comparar
essas situações. É interessante que tenhamos uma fração, que varie de 0 a 1.
Esta é a ideia do R2 .

Existem muitas formulações para elas. Vou expor duas.

1. R2 enxuto
yi = b0 + b1 xi + ei
yi = ŷ + ei
V ar(Y ) = V ar(Ŷ ) + V ar(e) + Cov(Ŷ , e)

11
Da propriedade algébrica 3., sabemos que a terceira parte é zero. Logo:
V ar(Y ) = V ar(Ŷ ) + V ar(e)
SST = SSE + SSR
A partir disso, o R2 é definido como:

SSE
R2 = SST
De maneira mais clara, o R2 é, simplesmente, a correlação amostral, ao
quadrado, entre os valores de Y fittado e os valores de Y da amostra:

2 Cov(Ŷ , Ŷ + e) 2
d
Cor(Ŷ , Y ) = ( q )
d
V ar(Ŷ )V ar(Y )
d d

Cov(Ŷ , Ŷ ) + Cov(Ŷ , e) 2
d d
=( q )
V ar(Ŷ )V ar(Y )
d d
2
V ar(Ŷ )
d
= (q )
V ar(Ŷ )V ar(Y
d )
d

V ar(Ŷ )2
d
=
V ar(Ŷ )V ar(Y
d )
d

V ar(Ŷ )
d
=
V ar(Y
d )

Que é exatamente o R2 acima.

2. R2 aberto
yi = b0 + b1 xi + ei
Ao colocar aqui a equação (19):
yi − Y̆ = b1 (x − X̆) + ei
P n 2 2 Pn 2
Pn Pn 2
i=1 (yi − y̆) = b 1 i=1 (xi − x̆) + 2b1 i=1 (xi − x̆)ei + i=1 ei

Da propriedade algébrica 2., o termo do centro é zero. Assim:

Pn Pn Pn
i=1 (yi − y̆)2 = b1 2 i=1 (xi − x̆)2 + 2
i=1 ei

Se dividirmos a equação acima por n, chegaremos nas variâncias expostas


no item 1. Desta forma, o R2 pode ser expresso como:
b21 n (x −x̆)2 b
P
R2 = Pni=1 i 2
i=1 (yi −y̆)

12
MQO simples - Propriedades estatı́sticas

Como se viu na subseção anterior, saber propriedades algébricas nos auxilia a


encontrar formas mais simples e métricas para o estimador. No entanto, isto
não é diz muito se o estimador é ”bom” ou ”não”. Quer dizer, ele parece
legal, né? Nós fizemos, basicamente, todos os análogos amostrais dos momentos
populacionais: a esperança virou a média amostral, as covariâncias e variâncias
viraram amostrais. No entanto, apesar de intuitivamente termos uma ideia de
que tudo está bem, precisamos ser mais rigorosos do que isto.

Ademais, como dito anteriormente, as expressões (18) e (19) são funções


da amostra: para cada conjunto de indivı́duos retirados da população, ter-se-á
estimativas diferentes. Abstraia um pouco isso: imagine que, de forma aleatória,
você retire uma infinidade de amostras e, para cada uma delas, faça uma es-
timativa de acordo com (18) e (19). Focando somente em b1 , se você colocar
todas estas infinitas estimativas em uma linha real, ter-se-à uma distribuição
para b1 . É a partir desta distribuição que avaliaremos se o estimador é ”bom”
ou ”ruim”. Chamemos esta distribuição de ζ.

A saber, usaremos três critérios:

1. Viés
O viés é uma proposição sobre a esperança da ζ que definimos acima.
Basicamente, estamos perguntando: ”o valor esperado da distribuição do
estimador se aproxima do valor real do parâmetro?”. Se ele É o valor,
então o estimador é não-viesado. Se não, é viesado. Formalmente:
Biasβ1 = E[b1 ] − β1
Naturalmente se, E[b1 ] = β1 , há ausência de viés.
2. Eficiência
O critério de eficiência se refere à variância de ζ. Mais tarde, quando
tratarmos de argumentos assintóticos, vamos refinar o que exatamente
quer dizer um estimador ”eficiente” - dica: Fisher Information. Aqui, con-
tudo, vamos focar em dizer que um estimador θ que possua uma variância
menor que outro estimador Φ é mais eficiente do que este.
3. Consistência
A consistência de um estimador não é, como os dois critérios anteriores,
uma proposição sobre os momentos da distribuição, mas sim sobre a dis-
tribuição ζ - ou, de forma mais rigorosa, sobre TODOS os momentos de
ζ.
No caso, note que, conforme já exaustivamente falado, o estimador b1 é
uma função da amostra e, mais do que isso, uma variável aleatória: liga
a amostra a um valor numérico. Da mesma forma, o parâmetro β1 pode
ser visto também como uma variável aleatória: todo valor de amostra é
associado com o mesmo número, a saber, β1 .

13
A ideia da consistência é dizer que, quando o número da amostra é muito
grande, a probabilidade de que a variável aleatória b1 difira da variável
aleatória β1 tende a zero. Formalmente:
limn−>∞ P [|b1 − β1 | > ] = 0
De maneira mais intuitiva, isto quer dizer que, se o número da amostra
é suficientemente grande (”infinito”), não importa qual amostra da pop-
ulação eu pegue, as estimativas ”sempre” - com uma probabilidade tão
próxima de 1 quanto se queira - serão iguais a β1 . 4
Dito isso, fica claro porque isto é uma proposição sobre a distribuição ζ
como um todo: nesta situação, ela é somente uma ”barra”. Ou, ainda,
uma distribuição com um valor cuja probabilidade de ocorrênia é 1.

Questiona-se, agora, quais são as propriedades estatı́sticas do esti-


mador de MQO simples? Esta talvez seja uma das mais complexas até agora.
Para respondê-la, diferente dos outros casos, vamos precisar de uma série de
”hipóteses” sobre a população, que, à rigor, serão a base de todo o curso de
Econometria daqui em diante.

1. Hipótese RLS - Linear nos parâmetros


Basicamente, é o que estávamos fazendo até aqui. Postularemos uma
forma para nosso modelo populacional.
Y = β0 + β1 X + 
Note que é ”linear nos parâmetros”. Isto quer dizer que, possivelmente,
pode-se ter elementos não lineares nos dados. Por exemplo: Y = β0 +
β1 X 2 +  ainda está no escopo desta hipótese.
2. Hipótese RLS - Amostragem aleatória, independente e identica-
mente distribuı́da
Basicamente, esta hipótese nos diz sobre como fomos na população e peg-
amos os dados. No caso, postule que haja certa distribuição para os pares
ordenados (xi , yi ). A ideia é que estou indo nesta distribuição e pegando
n dados de forma aleatória, de modo que não há nenhuma estrutura de
dependência entre eles. A importância disto ficará evidente mais tarde,
mas a ideia é que não haverá, dado esta independência, nenhuma estrutura
de correlação entre os dados.
3. Hipótese RLS - Variação amostral na variável explicativa
Assim, os valores da amostra são ”espalhados”, não sendo somente uma
constante. Isto é muito fácil de ser satisfeito e, se nos atentarmos para a
equação (18), fica evidente a razão de sua importância.
4 Isto é a definição de ”convergência em probabilidade”. Se você tem muitas dúvidas em

convergências, recomendo muito o site ”StatLect.”.

14
4. Hipótese RLS - Média condicional zero
Seja a variável aleatória i . De onda ela advém? Ora, seja o modelo
populacional:
Y = β0 + β1 X + ε
Isto também é válido, claro, quando usamos as seguintes variáveis aleatórias,
cujo sample space é o conjunto de todas as amostras possı́veis: 5
yi = β0 + β1 xi + i
Do que vem que:
i = y i − β0 − β1 x i
Agora, vamos imaginar a seguinte situação: vou fixar uma amostra par xi ,
de modo que ele deixa de ser uma variável aleatória e passa a ser somente
um valor. A ideia é como se eu tivesse valores fixos da variável aleatória
X na minha amostra, com somente Y podendo variar. 6 Cabe a atentar,
disto, que por não termos ”fixado” o valor para yi , se eleva o fato de que
i persiste como variável aleatória.
Assim, chega-se, enfim na hipótese: E[i |xi ] = 0, ∀i ∈ [1 : n]
Ou seja, uma vez que eu tenho qualquer valor para a variável aleatória
xi , aesperançadavariávelaleatória é zero. 7
5. Hipótese RLS - Variância constante
Novamente, atentemo-nos para a variável aleatória ε. Ela possui uma
distribuição que, como sabemos, possui valor esperado, condicional a X=x,
zero. Esta hipótese trata sobre a variância desta distribuição.
V ar(i |xi ) = σ 2 , ∀i ∈ [1 : n]
Ou seja, independente do valor de X que condicionamos, o valor da
variância sempre é o mesmo.
6. Hipótese RLS. i , condicional a X=xi )édistribuı́donormalmente
Ouseja, agora, temosumaproposiçãosobreoutrosmomentosdadistribuiçãodeε:
sabe-se que a assimetria é zero e que a curtose é 3, por exemplo.

Uma ilustração das hipóteses 1., 4., 5. e 6. é a seguinte:

Nesta, é possı́vel ver as distribuições de ε dado valores de x. Pode-se


reparar que elas, condicionadas as valores de x sempre possuem uma distribuição
normal CENTRADA na reta, o que é o mesmo que dizer que estão centradas
no valor zero. Ademais, elas tem o mesmo ”espalhamento”, ou seja, a mesma
variância.
5 Atenção,
como dito acima, para o abuso de notação!
6 Atente-se para o COMO SE. Eu não estou, efetivamente, fixando as amostras da variável
X. Apenas afirmei que a ideia se aplica e é uma simplificação conveniente. Em praticamente
qualquer aplicação, DE FATO fixar a amostra de X é bem pouco realista.
7 Note que, pela lei das Expectativas iteradas, a esperança incondicional, ou seja, sem

condicionar a X, também é zero.

15
Sendo perspicaz, é óbvio que algumas dessas hipóteses - sobretudo
normalidade - são incrivelmente fortes. Seria muito surpreendente que os erros,
formados a partir de uma hipótese de simplificação linear que fizéssemos, real-
mente fossem normais. No entanto, e isto é importante entender, colocar essas
hipóteses nos permite realizar uma análise mais sistemática das propriedades dos
estimadores e dos próprios argumentos econométricos, por meio da identificação
de falhas e locais que necessitam de mais sustentação.

Dito isso, passemos para algumas propriedades importantes do esti-


mador de MQO, definido em 18 e 19:

1. É um estimador linear 8
Ser um estimador linear quer dizer que ele pode ser expresso como uma
combinação linear dos valores da amostra. Neste sentido, retomemos (19):

Cov(X,
d Y)
b1 =
V ar(X)
d
Pn
(x − x̆)(yi − y̆)
= i=1 Pn i
(xi − x̆)2
Pn i=1
i=1 (xi − x̆)(yi )
= P n 2
i=1 (xi − x̆)
n
X
ci yi
i=1

Defina: ci ≡ Pn xi −x̆ 2.
9
Daı́:
i=1 (xi −x̆)

O que nos mostra que o estimador pode ser escrito como combinação linear
entre os valores que temos na amostra. Logo, é um estimador linear. 10
2. É não viesado.
Novamente, retome (18):

Cov(X,
d Y)
b1 =
V ar(X)
d
Pn
(x − x̆)(yi − y̆)
Pn i
= i=1
(xi − x̆)2
Pn i=1 Pn
(xi − x̆)(yi ) − y̆ i=1 (xi − x̆)
= i=1 Pn 2
i=1 (xi − x̆)
8 Esta foi uma pergunta de prova! Fique atento
9 Essa transformação pode parecer despropositada e, até, difı́cil de entender, mas é muito
útil. No denominador, tem-se um número - a variância amostral de X - de modo que estamos
somente realizando o somatório de frações.
10 O estimador para β é análogo. Isto ocorre porque sua diferença para o de β são somente,
0 1
dado a amostra, constantes.

16
Pn
i=1 (xi − x̆)(yi )
= P n 2
(19)
i=1 (xi − x̆)

Do que a última passagem vem de simplesmente desenvolver o segundo


somatório da penúltima equação. Ademais, lembremos do nosso modelo
populacional:
Y = β0 + β1 X + ε
Obviamente, isto também gera relações entre valores especı́ficos das variáveis
aleatórias Y, X e, por conseguinte, ε.
y = β0 + β1 X + 
Um desses valores especı́ficos é, justamente, (yi , xi ), isto é, aqueles asso-
ciados com o indivı́duo i, em alguma amostra. Assim, pode-se fazer:
yi = β0 + β1 X + i
Ao colocar isto na equação 21, fica-se com:

Pn
i − x̆)(β0 + β1 xi + i )
i=1 (xP
b1 = n 2
i=1 (xi − x̆)
Pn Pn Pn
i=1 β0 (xi − x̆) + P i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)
= n 2
i=1 (xi − x̆)

Vamos, agora, fazer o seguinte: passar, de ambos os lados, o operador


esperança condicional. Vamos condicionar em ”X̄”, que, nesta contexto,
simbolizará uma amostra especı́fica (x1 , x2 ...xn ) - e não a variável aleatória
X, tome cuidado para não confundir!
Pn Pn Pn
i=1 β0 (xi − x̆) + P i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)
E[b1 |X̄] = E[ n 2
|X̄]
(x i − x̆)
Pn Pn i=1 Pn
E[ i=1 β0 (xi − x̆) + i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)|X̄]
= Pn 2
i=1 (xi − x̆)

Note que a variância amostral de X̄ ficou fora do operador esperança


porque, condicionado a amostra, ele é um valor fixo - a saber, a variância
amostral.
O primeiro somatório é zero. A razão disto é a mesma da passagem que
nos fez chegar na equação (20): estamos realizando o somatório de valores
menos a sua média amostral e multiplicando por uma constante, o que
sempre é zero.
Por uma razão semelhante, pode-se escrever o seguinte:
Pn Pn Pn Pn
i=1 (xi −x̆)(xi −x̆) = i=1 (xi )(xi −x̆)−x̆ i=1 xi −x̆ = i=1 (xi )(xi −x̆)

17
Desta forma, pode-se rescrever a equação que estamos focando como:
Pn 2 Pn
E[ i=1 β1 (xi − x̆) + i=1 ei (xi − x̆)|X̄]
E[b1 |X̄] = P n 2
i=1 (xi − x̆)
Pn 2
Pn
β1 (xi − x̆) E[ i=1 ei (xi − x̆)|X̄]
= Pn i=1 2
+ Pn 2
(x
i=1 i − x̆) i=1 (xi − x̆)

Novamente, para entender essas passagens e as posteriores, devemos nos


Pnatentar
que nós condicionamos a uma amostra especı́fica. Desta maneira β1 i=1 (xi −
x̆)2 é uma constante. De fato, se temos números especı́ficos para todos os xi ,
somá-los sempre dará uma constante.
Pn
E[ (x − x̆)|X̄]
Pn i i
β1 + i=1 2
i=1 (xi − x̆)
Pn
(x − x̆)E[ei |X̄]
Pn i
β1 + i=1 2
(20)
i=1 (xi − x̆)

Queremos provar, agora, que E[ei |X̄] é igual a zero. Embora os livros omitam
os passos para ser realizar isso, julgo muito danoso para o aprendizado e fran-
camente confuso quando atingimos o assunto de séries temporais. Assim, serei
bem rigoroso nisso.
Precisamos agora da Hipótese RLS 4. No caso, ela afirmava que o erro do
indivı́duo i é independente, em média, da variável explicativa do indivı́duo i.
Formalmente:
E[i |xi ] = 0, ∀i ∈ [1 : n]
Note que isso é diferente do que estamos querendo provar em um aspecto pe-
queno, mas crucial. Afirma-se, aı́, que independência em média somente para
a variável explicativa do indivı́duo que possui o erro . Não se diz nada so-
bre o conjunto de variáveis explicativas de todos os indivı́duos, isto é, X̄ =
(x1 , x2 , . . . , xn ). Isto cabe prova ainda.
Para darmos este passo, nos lembremos da Hipotese RLS.2, que afirmava que
amostragem era aleatória e independente. Isto quer dizer que, dado dois in-
divı́duos, as variáveis de cada um deles são indpendentes entre si. Especifica-
mente para nosso propósito, os erros e as variáveis explicativas são independentes
e as próprias variáveis explicativas são independentes entre si.
f (ei , xj ) = f (i )f (xj ), ∀i 6= j
f (xi , xj ) = f (xi )f (xj ) ∀i 6= j

A partir disso, vamos realizar um argumento indutivo para provar nosso ponto.
Assim, considere como caso base n = 2. Vamos provar um pequeno lema para

18
seguir com a demonstração:

f (x2 , i , x2 )
f (xj |i , xi ) =
f (i , xi )
f (i , xi |xj )f (xj )
=
f (xi , i )
f (i , xi )f (xj )
=
f (i , xi )
= f (xj )

Do que a penúltima passagem vem das independências entre ei , xj e xi ,xj .


Com isto posto, agora seguimos para:

f (i , xi , xj )
f (i |xi , xj ) =
f (xi , xj )
f (xj |i , xi )f (xi , i )
=
f (xi )f (xj )
f (xj )f (xi , i )
=
f (xi )f (xj )
f (xi , i )
=
f (xi )
= f (i |xi )

Isso permite que concluamos, por fim, que:


R +∞ R +∞
E[ei |xi , xj ] = −∞ (i |xi , xj ) = −∞ f (ei |xi ) = E[ei |xi ] = 0, ∀i∀j 6= i
Ou seja, quando n = 2, a hipótese RLS.4, em conjunto com a RLS.2, generaliza-
se para toda a amostra. Será que é possı́vel realizar essa generalização para
qualquer n?
Para buscar isto, aceite que para n = n∗ o resultado é válido. Ou seja:
f (1 |x1 , x2 , . . . xn∗ ) = f (1 |x1 )
Analisemos para n = n ∗ +1. Vamos deixar de demonstrar alguns resultados
intermediários, porque são muito parecidos com o que fizemos no caso base.

19
f (1 , x1 , x2 . . . xn∗+1 )
f (1 |x1 , x2 . . . xn∗+1 ) =
f (x1 , x2 . . . xn∗+1 )
f (xn∗+1 |e1 , x1 . . . xn∗ )f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ) . . . f (xn∗+1 )
f (xn∗+1 )f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ), . . . f (xn∗+1 )
f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ), . . . f (xn∗ )
= f (1 |x1 , x2 , . . . xn∗ )
= f (1 |x1 )

O que é o que gostarı́amos de demonstrar. Então, com o caso base n = 2


demonstrado e também o passo indutivo, prova-se que, para qualquer tamanho
de amostra, é verdade que, nas condições de RLS.4 e RLS.2:

E[i |X̄] = E[i |xi ] = 0 (21)

Agora, pode-se retornar para a equação (20), aplicando a equação (21):

Pn
(x − x̆)E[ei |X̄]
E[b1 |X̄] = β1 + Pn i
i=1
2
i=1 (xi − x̆)
= β1

Note a nossa conclusão: a esperança de b1 , condicional a uma amostra, é


o parâmetro real. Isso não prova a ausência de viés, porque precisamos da
esperança INCONDICIONAL. Felizmente, para encontrá-la, basta usar nova-
mente o operador esperança e lembrar da lei das expectativas iteradas:
E[E[b1 |X̄] = E[b1 ] = β1
Logo, conclui-se que o estimador de MQO, dado as hipóteses RLS 2 e 4, é
não-viesado.
3. Possui a menor variância entre os estimadores lineares não viesados.
Lembremos, novamente, que b1 é uma variável aleatória com uma distribuição.
Afirma-se aqui que, dado qualquer outro estimador linea não viesado, b1 tem
uma variância menor.
Esta prova é MUITO mais fácil por meio de matrizes, como demnstraremos
mais tarde. No entanto, fá-lo-ei também para o caso simples por questão de
coerência com o resto da apostila e porque é uma possı́vel questão de prova.
Então, lembremos daa propriedade estatı́stica 1 - a equação (20), que chegamos
anteriormente:

20
Pn
i=1 ci yi
ci ≡ Pn xi(x−x̆
i −x̆)
2
i=1

Como se pode expressar outro esitmador linear? Ora, se ele é diferente deste
acima, então seus coeficientes são diferentes. Assim, se eu realizar a diferença
entre os coeficientes do MQO e o deste outro estimador linear, terei ao menos
um dos resultados diferentes de zero. Mais formalmente:
Ji = ci + Di , ∃i|Di 6= 0
Especificado isto, vamos trabalhar com o seguinte estimador linear, chamado de
b∗1 :
Pn
i=1 Ji yi
Ji ≡ Pn xi(x−x̆
i −x̆)
2 + Di
i=1

Ora, a afirmação diz que a variância é a menor entre os estimadores NÃO


viesados. Assim, o que deve haver para garantirmos que é o caso de b∗1 ?

n
X n
X
Ji yi = Ji (β0 + β1 xi + i )
i=1 i=1
n
X n
X n
X
= β0 Ji + β1 J i xi + Ji i
i=1 i=1 i=1

Vamos, agora, ter o tedioso trabalho de abrir os dois primeiros termos.

n n
X X xi − x̆
Ji = ( Pn 2
+ Di )
i=1 i=1 i=1 (xi − x̆)
n n
X xi − x̆ X
= ( Pn 2
) + Di
i=1 i=1 (xi − x̆) i=1
n
X
= Di
i=1

Passemos agora para o segundo termo. Usaremos algumas transformações que


foram explicitadas acima sem muito detalhamento, agora.

n n n
(x (x − x̆))
Pni i
X X X
Ji xi = 2
+ xi Di ))
i=1 i=1 i=1 (xi − x̆ ) i=1
n
X
=1+ xi Di
i=1

21
Assim, nossa equação torna:
n
X n
X
Ji yi = Ji (β0 + β1 xi + i )
i=1 i=1
n
X n
X n
X
= β0 Ji + β1 J i xi + Ji i
i=1 i=1 i=1
Xn n
X n
X
= β0 Di + β1 (1 + xi Di ) + Ji i
i=1 i=1 i=1

Agora, vamos passar o operador esperança condicional à amostra. Ademais,


vamos aceitar, ainda que Di é uma função da amostra, para todo i. Isto é
plausı́vel porque um operador linear possui seus coeficientes todos expressos a
partir da amostra. Desta forma, fica-se com:

n
X n
X Xn
E[b∗1 |X̄] = β1 + β0 Di + β1 xi Di + E[ Ji i |X̄]
i=1 i=1 i=1

Se usarmos o mesmo argumento usado para provar não viés, o terceiro termo
se torna zero (tente!). No entanto, os dois termos centrais ainda permanecem,
impedindo que o estimador b∗1 seja não viesado. Então, para garantir o não viés,
colocamos algumas restrições nos Di :
Pn Pn
i=1 Di = i=1 xi Di = 0
Com isso, temos especificações suficientes para analisar agora a variância do
estimador b1 e o de b∗1 .

22
Xn
V ar(b1 |X̄) = V ar( ci yi |X̄)
i=1
n
X n X
X n
= V ar(ci yi |X̄) + Cov(ci yi , cj yj |X̄)
i=1 i=1 j6=i
n
X
= V ar(ci yi |X̄) (RLS.2)
i=1
Xn
= c2i V ar(yi |X̄)
i=1
n
X
= c2i V ar(β0 + β1 Xi + i |X̄)
i=1
n
X
= c2i V ar(i |X̄)
i=1
n
X n
X
= c2i σ 2 = σ 2 c2i
i=1 i=1
(RLS.5)

σ2
= Pn 2
(22)
i=1 (xi − x̆)

Vale lembrar que a hipótese RLS.5 enfrentaria o mesmo tipo de probelam de


RLS.4: ela está explicitada somente para valores especı́ficos, não para o con-
junto deles. No entanto, conseguimos demonstrar a equivalência entre os dois
conceitos da mesmı́ssima forma que fizemos com RLS.4, de modo que não ex-
porei aqui.
No mais, novamente, só temos a variância condicional, uma vez mais. Diferente-
mente antes, em que tı́nhamos a média independente dos valores da amostra,
agora não é o caso. De qualquer forma, pode-se escrever, usando a lei da
variância total:

V ar(b1 ) = E[V ar(b1 |X̄)] + V ar(E[b1 |X̄])


σ2
= E[ Pn 2
] + V ar(β1 )
i=1 (xi − x̆)
1
= σ 2 E[ Pn 2
]
i=1 (xi − x̆)

O resultado dessa esperança é bem pouco trivial de se encontrar, então, por


comodidade, escrevemos somente assim.

23
Agora, resta encontrar a variância b∗1 . Novamente, pularemos algumas etapas.

n
X
V ar(b∗1 |X̄) = V ar( Ji yi |X̄)
i=1
n
X n X
X n
= V ar(Ji yi |X̄) + Cov(Ji yi , Jj yj |X̄)
i=1 i=1 j6=i
n
X
= V ar(Ji yi |X̄) (RLS.2)
i=1
Xn
= Ji2 V ar(yi |X̄)
i=1
n
X
= σ 2 Ji2 (RLS.5)
i=1
n
X
= σ 2 (c2i + 2ci Di + Di2 )
i=1
n
X n
X n
X
= σ2 c2i + 2σ 2 ci Di + σ 2 Di2
i=1 i=1 i=1
n n
2 xi − x̆
X X
= V ar(b1 |X̄) + 2σ Pn D +
2 i
Di2
i=1
(x
i=1 i − x̆) i=1
Pn Pn n
Di xi − x̆ i=1 Di X 2
= V ar(b1 |X̄) + 2σ 2 i=1Pn 2
+ Di
i=1 (xi − x̆) i=1

Assim, da condição de não-viés que derivamos acima, o termo central é zero.


Nossa expressão, então, se torna:
Pn
V ar(b∗1 |X̄) = V ar(b1 |X̄) + i=1 Di2
Ou, focando no não condicional e lembrando uma vez mais do não viés, pode-se
escrever que:
Pn
V ar(b∗1 ) = V ar(b1 )+ i=1 E[Di2 ]
R +∞
Agora, basta focar que: E[Di2 ] = −∞ d2 f (Di = d). Ora, a probabilidade
sempre é maior ou igual a zero. Ademais, d2 também sempre é igual ou maior
que zero. Desta forma, E[Di2 ] ≥ 0.
Então, finalmente:
V ar(b∗1 ) ≥ V ar(b1 )
Ou seja: da classe dos estiamdores lineares não-viesados, o estimaro b1 , MQO,
é o que possui a menor diferença, como gostarı́amos de demonstrar (ufa!).

24
Juntando os três pontos- linear, não-viesado e com menor variância
- chega-se na conclusão que o estimador de MQO é BLUE: Best Linear Un-
biased Estimator. Ou seja, o que intuitivamente vı́amos, agora está provado
rigorosamente!

Tutorial 06

Teste de hipótese no modelo simples

A pergunta que o tutorial faz é a seguinte: dado uma estimativa, a partir do


estimador de MQO aplicada em uma amostra, como se pode ter certeza que o
parâmetro é diferente de zero?

A motivação para isto é que, por mais que nossa estimativa seja difer-
ente de zero, não se pode falar com certeza que o parâmetro o seja: pode ser, por
exemplo, que simplesmente pegamos uma amostra ”especial”, em que o valor
se distanciou de zero por mero acaso. Como se pode garantir que não é este o
caso?

Ora, uma maneria de responder esta pergunta é avaliando a distribuição


de probabilidade do estimador. Mais precisamente, perguntando: ”Dado que a
distribuição é assim, qual é a probabilidade de eu ter conseguido um valor maior
do que zero por puro acaso?”.

Afinal, o que eu sei sobre a distribuição de b1 |X̄?11 Sabemos a sua


variância e o seu valor esperado. No entanto, ainda não derivamos seus outros
momentos. A fim de alcançar isso, foquemos na seguinte proposição:

Uma combinação linear finita de normais independentes também


uma normal.

A maneira mais fácil de provar isso é por meio do uso de funções


caracterı́sticas. Nunca nos foi pedido para realizar isso em sala, mas, para
alguém tiver curiosidade, deixei a demonstração no Apêndice A, no final do
documento.

Com isto em mente, tome novamente a equação (20), mas sem a ex-
pectativa condicional - de fato, todos os resultados até ali não dependiam de
haver ou não a expectativa).
11 Aqui, como veremos, não há problema em tratarmos da distribuição condicional, ao invés

da incondicional. As conclusões serão as mesmas e tratar com o condicional e comumente


mais fácil.

25
Pn
(xi − x̆)i
b1 |X̄ = β1 + Pi=1
n 2
|X̄
i=1 (x1 − x̆)
n
X
= β1 + ci (i |X̄)
i=1

Ora, (i |X̄) é uma normal, conforme visto nas hipóteses. Lá, colocávamos
esta hipótese para xi , mas, por um processo parecido com antes, consegue-se
provar que isto funciona para toda amostra.

Ou seja, dado X̄,b1 pode ser expresso como uma combinação linear de
normais que, como demonstrado no apêndice, também uma normal. A

σ2
b1 |X̄ ∼ N (β1 , Pn 2
) (23)
i=1 (x1 − x̆)

σ2
Pode-se, por comodidade, chamar Pn 2 de ”sb2 ”. Ademais, é
i=1 (x1 −x̆)
costume padronizar a normal. Assim:

b1 − β1
|X̄ ∼ N (0, 1) (24)
sb

A questão é que para se analisar o que queremos a partir desta equação


nós precisarı́amos saber a variância real do erro. Obviamente, via de regra não
há acesso a essas informações. Então, faz-se necessário um estimador para a
variância. Embora eu não vá provar isto aqui, um estimador não-viesado para
a variância do erro é:
Pn 2
i=1 ei
n−1

Ou seja, a variância amostral do resı́duo, basicamente. Vamos colocar


este resultado no lado esquerdo do resultado (25):

b1 − β1 b1 − β 1
|X̄ = q |X̄ (25)
ˆ
Pn
sb e2
Pni=1 i 2
n−1 i=1 (x1 −x̆)

Antes, quando realizamos a transformação de (23) para (24), estávamos


apenas subtraindo uma constante e dividindo por outra, de modo que a dis-
tribuição não se alterava. Agora, contudo, estamos dividindo por OUTRA
variável aleatória - afinal, ei , mesmo dado a amostra de X, ainda depende de Y ,
que não está fixo. Assim, a distribuição não é a mesma do que antes. O que ela

26
é, então? Ora, no numerador, ainda temos uma normal, conforme destrinchado
em (23).

O denominador, contudo, é mais enigmático. Ora, como sabemos,


pela nossa hipótese RLS.6, i |xi é distribuı́do normalmente. Contudo, ei , seu
estimador, também o é? Siga o argumento:

yi = β0 + β1 xi + i
yi − b0 − b1 xi = β0 − b0 + (β1 − b1 )xi + i
ei = β0 − b0 + (β1 − b1 )xi + i

Assim, veja: dado uma amostra, os resı́duos possuem um mapa direto


com os erros e, assim, possuem a mesma distribuição, que é normal - emb-
ora com média distintas. Dito isso, há, no denominador, a soma de normais
independentes ao quadrado. No apêndice A, prova-se o seguinte resultado:

A soma de k normais independentes ao quadrado é uma qui-


quadrada com k graus de liberdade

Com isso posto, a pergunta agora fica é: qual é a distribuição resultante
da razão entre uma normal e uma qui-quadrada? A distribuição mais próxima
disso é a t-student, que é definida ocmo: ”A razão entre uma normal padronizada
e uma qui-quadrada, independentes entre si”.

Para se adequar nesta definição, precisamos fazer uma pequena trans-


formação em (26): o numerador que é uma normal, está com média zero, no
entanto sua variância não está padronizada. Assim, para de fato chegar no
estimador almejado, devemos dividir pelo desvio padrão sb:

b1 −β1
sb
ˆ
|X̄
sb
sb

Note que:
s Pn 2 pPn
ˆ 2
sb i=1 ei i=1 (x1 − x̆)
= Pn 2
sb n − 1 i=1 (x1 − x̆) σ
pPn
2
i=1 ei
=
σ

27
Disto, por fim:
b1 −β1
√Psb
n
|X̄ (26)
i=1 e2i
σ

Agora, de fato, temos precisamente a definição de uma ”t”, na equação


(26). Note ainda que, como Não vamos, como antes, demonstrar formalmente
que isto resulta em uma distribuição com uma pdf especı́fica. É trabalhoso e
pouco proveitoso no momento. Foquemos somente nas partes masi práticas.

A saber, agora, temos uma distribuição de probabilidade para os possı́veis


valores do nosso estimador, dado a amostra. Essa distribuição, como se pode
intuir, está centrada no zero. Ou seja, temos informações suficientes para re-
sponder a pergunta do tutorial: qual é a probabilidade de que estejamos signi-
ficativamente distante do zero em nossas estimativas?

Para definir isto, vamos introduzir um dos tópicos mais importantes


da Econometria: o teste de hipótese. Vou elencar os elementos que um teste de
hipótese precisa ter:

1. Estatı́stica de teste
A Estatı́stica de teste é a distribuição do nosso estimador. Ao longo da
discussão acima, buscou-se motivar a razão pela qual ela é importante:
para podermos saber a probabilidade com que cada estimativa se realiza.
Também conseguimos ver que essa distribuição é uma t-student com n
graus de liberdade, isto é, o mesmo número de indivı́duos na amostra.
2. Hipótese nula e alternativa
A hipótese nula, colocada de maneira simples e intuitiva, é o valor que
você hipotetiza para o parâmetro e que buscará testar. No nosto caso,
nosso interesse é saber se nosso parâmetro é diferente de zero. Assim,
nossa hipótese nula é que ele é zero, de modo que, por meio do teste de
hipótese, iremos rejeitar ou não-rejeitar este valor para o parâmetro.
A hipótese alternativa é a complementação da nula. Ou seja, ela é existe
para que, por meio do nosso teste, possa-se abarcar outros casos possı́veis
ou de interesse sobre o valor do parâmetro. Seguindo o exemplo do tu-
torial, se a nula é que o parâmetro é zero 12 , a complementação disto e,
pois, a hipótese alternativa, é que o parâmetro é diferente de zero. Outra
possı́vel hipótese alternativa é que o parâmetro é somente maior do que
zero.
Além disso, a especificação da hipótese nula e alternativa é extremamente
relevante porque, à rigor, ela define também a estatı́stica de teste. Se
12 Embora essa, de longe, seja a hipótese mais usada, não é necessário que seja a ûnica.

Podemos colocar como Ho, β0 = 3 por exemplo. Neste caso, devemos usar uma distribuição
t-studente não centralizada, ou seja, cuja média é 3. Isto nos mostra que a padronização da
média não é tão relevante assim.

28
você reparar bem na equação (26), verá que temos todos os valores que a
constituem na amostra, salvo o valor de β1 , que é o parâmetro do nosso
interesse. Sem uma hipótese - a hipótese nula - para o valor dele, não
conseguimos determinar o valor da estatı́stica de teste para nossa amostra
em especı́fico.
Ou seja: a distribuição e o valor da estatistica de teste sempre
existem DADO A AMOSTRA E DADO A HIPÓTESE NULA.
Isto é importantı́ssimo, porque é um conhecimento teórico básico e que a
Cristine cobrará muito.
3. Valor crı́tico e regiões de aceitação e rejeição
Agora que estamos de posse da distribuição e da hipótese nula, podemos
realizar a seguinte pergunta: ”Dado a hipótese nula que o parâmetro real
é zero, qual é a probabilidade de eu ter conseguido a estimativa b1 ?”.
A intuição por trás desta pergunta é que, se o parâmetro de fato for
zero, esperamos que os valores das estimativas fiquem, em algum sentido,
”próximos” disto. Se nossa estimativa for algo como ”100”, posso ter
certeza de que posso rejeitar a hipótese nula e afirmar ”O parâmetro não
é zero”. Se, contudo, for algo como 0.001, talvez eu não possa rejeitar.
Como se pode formalizar isso? A primeira coisa a notar é o seguinte:
mesmo que o parâmetro de fato seja zero, estamos tratando de um evento
probabilı́sitco, então pode ocorrer, como mencionado nas primeiras linhas
da nossa discussão, de conseguirmos, por puro acaso de pegar uma amostra
muito especı́fica, uma estimativa alta e que nos leve a uma inferência erra
sobre o parâmetro.
É possı́vel, por meio da distribuição, saber, para cada estimativa, qual é a
probabilidade desta inglória situação ocorrer. No caso, o pensamento é o
seguinte: sob a hipótese nula β1 = 0, a probabilidade do estimador nos dar
uma estimativa b1 ou maior do que isso é dada por 1−F (b1 ), em que F (b1 )
é a função densidade acumulada avaliada em b1 . Ou seja, para encontrar
esta probabilidade, estamos simplesmente integrando a estatı́stica de teste.
Intuitivamente, o que esta probabilidade está dizendo é: se, com esta
estimativa b1 , você afirmar que o parâmetro é de fato zero, estará errando
em 1 − F (b1 ) das vezes - esta é a porcentagem de amostras que me dariam
valores como b1 ou maiores, se o parâmetro de fato fosse zero. Este é o
chamado ”erro tipo 1”. 13
Cabe a decisão do quanto de tolerância possuı́mos com o erro do tipo
1. Claro, você pode ser sagaz e dizer: ”nunca quero cometer, minha
tolerância é 0 por cento”. Isto é equivalente a, independente da nossa
estimativa, sempre não-rejeitar a hipótese nula - NÃO dizer que ela NÃO
é zero ou, de forma mais clara, mas menos rigorosa, dizer sempre que ela
é diferente de zero. Neste caso, contudo, como visto em estatı́stica, você
13 A probabilidade que uma estimativa b possui de ter um erro Tipo 1 é denominada ”P-
1
value”.

29
estaria cometendo outro tipo de erro: dizer que o parâmetro não é zero
quando, na verdade ele é, o chamado ”erro tipo 2”.
Uma ”regra de ouro” é a tolerância de cinco por cento. Estou disposto a
cometer este erro do tipo 1 em no máximo cinco por cento das vezes. A
partir desta definição, nós podemos criar uma ”região” para rejeitarmos
ou não rejeitarmos a hipótese nula. Como fazer isso? Ora, uma ideia
inicial é a seguinte. De posse da distribuição sob a hipótese nula, posso
buscar qual é o valor da estimativa com a seguinte caracterı́stica: 1 −
F (b∗1 ) = 0, 05. Nesta situação, como a função distribuição acumulada é
estritamente crescente, sei que qualquer b1 ≥ b∗1 terá 1 − F (b1 ) ≤ 0, 05,
de modo que estará na região em que se pode, com tranquilidade interior,
rejeitar a hipótese nula que o parâmetro é zero. De fato, este conjunto de
valores das estimativas para os quais se pode rejeitar a hipótese nula é a
”região de rejeição”. Os demais valores são a ”região de não rejeição”. O
valor crı́tico, que separa as duas, é exatamente b∗1 .
O leitor atento terá percebido um problema na formulação acima: implici-
tamente, estamos aceitando que todas as estimativas são maiores do que
a hipótese nula ou, no nosso caso, maior do que zero. No entanto, não
necessariamente é o caso em muitos momentos. De fato, se a hipótese nula
é zero e eu consigo uma estimativa MUITO abaixo de zero, eu teria que,
pela nossa formulação acima, não rejeitar a hipótese nula, porque ela seria
menor do que b∗1 . Obviamente, isto não faz sentido: estamos preocupados,
em muitos momentos, com alguma espécie de distância que não discrimina
entre valores ”maiores” ou ”menores” do que a nula.
Por isso, é necessário agora dois valores crı́ticos: um para a ”cauda di-
reita” e outro para a ”cauda esquerda”, no chamado ”teste bi-caudal” -
o anterior era ”mono-caudal”. Felizmente, se há simetria, como há na t,
a relação entre esses dois valores crı́ticos é simplesmente de inversão de
sinal. Ademais, se a intenção é manter os cinco por cento de tolerância,
ele é ”distribuı́do entre as caudas”.
Então, estou procurando os valores b1 ∗ e −b1 ∗ nos quais:
F (−b∗1 ) = 0, 025 e 1 − F (b∗1 ) = 0, 025. Obviamente, no fundo, essas
condições são as mesmas, de modo que a restrição só é uma delas. O
importante de ter em mente é que, agora, tem-se três regiões: duas para
rejeição da hipótese nula, localizadas nas caudas, e uma, no centro entre
elas, para não-rejeição.
Após tudo isso ter sido dito, o único trabalho restante é notar em qual
das regiões nossa estimativa, para nossa amostra especı́fica, cai. A partir
disso, pode-se rejeitar ou não rejeitar a hipótese.

Outro ponto que, embora não se relacione com as caracterı́sticas do


teste de hipótese, é um conceito próximo e já cobrado em prova é o de ”intervalo
de confiança” do estimador, sob a hipótese nula. No caso, vamos focar, como

30
antes, em um intervalo de confiança de noventa e cinco por cento e na hipótese
nula de zero. Ora, nós sabemos que, dado uma amostra de X, pode-se dizer que
a probabilidade do valor da distribuição (t), sob a hipótese nula, ser maior que
b∗1 ou menor que −b∗1 é de somente 0,05, como estabelecido anteriormente.
b1
P r(| | ≥ b∗1 ) = 0, 05
ˆ
sb
b1
⇐⇒ P r(| | ≤ b∗1 ) = 0, 95
ˆ
sb
ˆ ∗ ≤ b1 ≤ sbb
= P r(−sbb ˆ ∗ ) = 0, 95
1 1

ˆ ∗ , sbb
Ou seja, o intervalo [−sbb ˆ ∗ ] nos dá o intervalo de valores em que,
1 1
se a hipótese nula é verdadeira, a nossa esimativa estará, com noventa e cinco
por cento de probabilidade.

Tutorial 07

Este tutorial representa um passo importante no estudo de Econometria: começa-


se a questionar as hipóteses RLS, que fizemos nos tutoriais anteriores. A ideia é
avaliar o que ocorre com as propriedades estatı́sticas do estimador conforme re-
tiramos as hipóteses. Embora a figura do tutorial trate de heterocedasticidade,
este tema possui, mais à frente, dois tutoriais focados somente nisso, de modo
que deixo a discussão mais aprofundada para lá.

Viés de variável omitida

As pergunta aqui são as seguintes:

1 - Imagine que haja uma variável, que não está no meu modelo, que
tenha relação com a variável dependente e com a variável explicativa. Isto tem
algum efeito para nós?

2 - E se só há relação somente a variável dependente? É problemático


para nós?

Para deixar tudo mais concreto, pensemos em salário como variável


dependente e educação como a explicativa, como está no tutorial.

Primeiramente, vamos especificar claramente o que queremos dizer com


”relação”. Formalmente, o que queremos dizer é que não há independência em
média. Ora, independência em média, para duas variáveis A e B, é o seguinte:

E[A] = E[A|B]

31
Embora não seja fácil provar isso com as ferramentas da graduação,
também é verdade que:

E[A] = E[A|B] ⇐⇒ E[h(A)g(B)] = 0, ∀g(.)h(.), com g(.) e h(.)


funções contı́nuas e limitadas. O que isso nos diz, de forma bem relevante é
que, há correlação entre A e B, então elas não podem ser independentes em
média. Isto é óbvio porque, seja: g(B)=B - E[B] e h(A) = A - E[A]. Elas são
funções contı́nuas e limitadas e, se há correlação, E[(A − E[A])(B − E[B]) 6= 0.

Feito isso, vamos refletir um pouco sobre o que exatamente é o termo .


Nele, está a parte do salário que não foi ”explicada” pela educação. Porque, ob-
viamente, seria incrı́vel se, somente com a educação de alguém, conseguı́ssemos
todas as variações do salário. Existem muitos outros pontos relevante que omiti-
mos: gênero, idade, região, área de atuação e mais uma pluralidade de termos.
Tudo isto, que é relevante para explicar o salário mas que não está no modelo,
está dentro do erro. Então, por essa definição, é óbvio que o erro, ou melhor, as
incontáveis variáveis que o compõem, sempre são correlacionadas com o salário,
que é variável explicativa. Neste sentido, não há independência em média entre
o salário e o erro em nenhuma situação.

Dito isso, em nenhum momento, para se provar a ausência de viés,


usou-se a hipótese de que E[Y ] = E[Y |]. Assim, se usamos as hipótese RLS
1-6, conseguimos provar a ausência viés, mesmo que nosso modela omita algu-
mas variável que influenciem a média de Y. O que isso quer dizer, intuitiva-
mente? Que não estamos interessados em E[Y] ou mesmo E[Y |], mas sim em
E[Y—X=x], então realmente pouco nos importa se ela é independente ou não -
e, de fato argumentado, ela nunca é indepente.

Uma problemática maior, contudo, é quando estas variáveis omitidas,


além de possuı́rem correlações com a variável dependentes, também possuem
com a explicativa. No nosso caso, imagine algo que impacte tanto o salário
quanto a educação. Por exemplo, a região: espera-se que alguém da zona rural
tenha tanto um salário quanto uma educação menores. Neste sentido, se há
correlação, não há independência em média. Se não há independência em média,
a esperança do erro, dado X=x, não pode ser igual à uma constante. Assim,
não pode ser igual a zero. Ou seja:

E[|X = x] = E[i |X̄] 6= 0

E se quebra a hipótese RLS. 4, que tratamos anteriormente com tanto


esmero. E, agora, tem-se um problema grande: para provar que o estimador de
MQO era não-viesado, usávamos a hipótese RLS.4. O que acontecerá agora?
Precisamos realizar a análise de forma distinta. Ora, vamos primeiro, levar em
consideração o ”modelo real”, ou seja, aquilo que está manifestado no mundo:

yi = β0 + β1 xi1 + β2 x2i + µi

32
x2i aqui é a variável que vamos omitir no nosso modelo, mas que possui
correlação tanto com yi quanto com xi1 . Ademais, µi é o erro que advém de de
yi ter sido explicado conjuntamente por xi1 e xi2 . 14 .

Apesar deste ser o modelo verdadeiro, o que vamos estimar é somente:


yi = b0 + b1 xi1 + ei

Dito isso, vamos fazer o mesmo processo que fizemos para provar o
não-viés:

Cov(Xd1 , Y )
b1 =
V ar(X
d 1)
Pn
(xi1 − x˘1 )(yi − y̆)
= i=1Pn
(xi − x̆)2
Pn i=1 Pn
i=1 (xi1 − Px˘1 )(yi ) − y̆ i=1 (xi1 − x˘1 )
= n 2
i=1 (xi1 − x̆)
Pn
i=1 (xi1 − x˘1 )(yi )
= P n
(xi1 − x̆)2
Pn i=1
(xi1 − x˘1 )(β0 + β1 xi1 + β2 x2i + µi )
= i=1 Pn 2
i=1 (xi − x̆)
Pn
i=1 (xi1 − x˘1 )x2i (xi1 − x˘1 )µi
= β1 + β2 P n 2
+ Pn 2
i=1 (xi − x̆) i=1 (xi − x̆)

Note o termo central: ele nada mais é do que o estimador de MQO


de uma regressão linear feita com x2 sendo a variável dependente e x1 sendo a
variável explicativa. Vamos aceitar que, nesta regressão, valha as hipóteses RLS
1-6.

Com isto feito, precisa-se esclarecer um ponto. De fato, como dito,


não é mais verdade que, se definirmos  como yi − β0 − β1 xi1 : E[|X = x] =
E[i |X̄] = 0

No entanto, vamos substituir por outra hipótese: a de que, uma vez


que retirmos x2i de  ou seja, o explicitamos no modelo, o restante é não cor-
relacionado com as variáveis explicativas. Ou seja, se definirmos X como o vetor
de variáveis explicativas (x1 , x2 ), o que quero expressar é o seguinte:

E[µ|X = x] = E[µi |X̄] = 0


14 No próximo tutorial, daremos um trato mais formal nesse tipo de situação.

33
Então, basta fazer o seguinte:
Pn
i=1 (xi1 − x˘1 )x2i (xi1 − x˘1 )E[µi |X̄]
E[b1 |X̄] = β1 + β2 E[ P n 2
|X̄] + Pn 2
(xi − x̆) i=1 (xi − x̆)
Pn i=1
i=1 (xi1 − x˘1 )x2i
= β1 + β2 E[ P n 2
|X̄]
i=1 (xi − x̆)

Pn
i=1 (xi1 −x˘1 )x2i ˆ e levando em consideração que
Se definirmos P n 2 ≡ rho,
i=1 (xi −x̆)
ele advém da regressão de x2i em xi1 e, com as hipóteses satisfeitas, ele é não
viesado, sei que: E[ρ̂] = E[ρ̂|X̄] = ρ, que é o parâmetro da regressão. Então:

E[b1 ] = β1 + β2 ρ (27)

Disto, note: por nossa hipótese, há correlação entre X1 e X2 . Sabe-


se, ainda que, sendo ρ o parâmetro da regressão, sua identificação é dada por:
Cov(X1 ,X2 )
V ar(X1 ) . Então, se há correlação, o numerador é diferente de zero. O de-
nominador é maior do que zero, pela RLS.3. Logo, chega-se na conclusão que
ρ 6= 0.

β2 como mencionado, é o parâmetro de X2 regressão de Y em X1 e


X2 . Embora eu não vá provar isto agora - veja na próximo tutorial! - o fato de
termos colocado que a correlação entre X2 e Y é diferente de zero também nos
garante que β2 não é zero.

Assim, a conclusão é que β2 ρ é diferente de zero, o que demonstra a


existência de viés, quando omitimos uma variável que é correlacionada tanto
com Y quanto com X1 , que é a outra variável explicativa. 15

Qual é a intuição disso? No caso, se realizamos uma mudança marginal


em X1 , deve-se lembrar que, como há um efeito de X1 em X2 (que é dado por
ρ e existe porque as variáveis são correlacionadas). Assim, mexer em X1 auto-
maticamente mexe em X2 . Daı́, quando esta mudança em X2 ocorre, também
se altera Y , porque X2 influencia, por meio de β2 , em Y . Assim, estamos cap-
tando, em b1 , que deveria representar somente a mudança ”pura” de Y após
uma mudança de X1 , também a mudança ”indireta” gerada por X2 . Esse valor
”indireto” é dado, como é claro, por meio do produto β1 ρ - afinal, a mudança
em X2 , após a mudança em X1 , não há uma unidade, mas a fração ρ desta
unidade.

O sinal do viés é fácil de determinar, bastando conjecturar o sinal


de β2 e de ρ. Por exemplo, se a variável omitida é ”habilidade inata”, como
o tutorial coloca, espera-se que quanto mais habilidade inata maior o salário,
15 O leitor atento verá que a resposta para a primeira pergunta também está contida aqui.

Se somente β2 é diferente de zero, mas ρ é zero, não há viés.

34
logo β2 ≥ 0. Ademais, espera-se, também, que, se há mais habilidade inata,
o indivı́duo possua mais educação. Neste sentido, o coeficiente de regredir X1
em X2 é diferente de zero. Note que, para desenvolver o raciocı́no anterior,
estávamos sempre regredindo X2 em X1 . Mas não há grande problema: o
coeficiente de regressão de X1 em X2 é dado por Cov(X 1 ,X2 )
V ar(X2 ) , se determinarmos
que o coeficiente de regressão é maior do que zero, então Cov(X1 , X2 ) > 0, o
que faz com que Cov(X 1 ,X2 )
V ar(X1 ) ≡ ρ > 0. Assim, o viés é positivo.

Um conceito semelhante, mas não totalmente idêntico, é se o valor


está ”superestimado” ou ”subestimado”. Nestes, sempre estamos analisando o
módulo de —β1 + viés—. Ademais, aceitamos que β2 ge0. No caso contrário, a
tabela se inverte em suas conclusões. Neste sentido, faz-se a tabela:

// Cov(X1 , X2 ) > 0 Cov(X1 , X2 ) < 0


β1 > 0 Superestimado Subestimado
β1 < 0 Subestimado Superestimado

E isto finda análise do tutorial.

Tutorial 08 - 09 - 10 - 11

Identificação no modelo multivariado

Como introduzimos anteriormente, vamos imaginar, agora, que queremo realizar


uma regressão linear com mais de uma variável explicativa. Ou seja, o modelo
é:

Y = β0 + β1 X1 + β2 X2 + . . . βk Xk + ε (28)

Como antes, aqui temos uma relação entre variáveis aleatórias. Pode-
se fazer, também, uma relação entre valores especı́ficos delas. Valores que es-
tarão na amostra também são valores especı́ficos das variáveis aleatórias, assim,
também se pode escrever:
yi = βo + β1 xi1 + β2 x2i + . . . βk xki + i (29)

As equações (28) e (29) são a ”forma analı́tica” de se escrever uma


regressão multivariada. Uma forma mais cômoda é a vetorial. No caso de (28),
ter-se-á:

~ 0β + ε
Y =X (30)

35

1
X1 
~ (k+1)x1
Em que: X ≡ . 
 
 .. 
Xk


β0
 β1 
β(k+1)x1 ≡ . 
 
 .. 
βk

A partir disso, pode-se realizar a identificação de β, que é um conjunto


de parâmetros. Para isso, precisamos, como foi feito no caso simples, encontrar
a linha que minimiza o MSE:

~ 0 β)2 ]
E[ε2 ] = E[(Y − X

~ 0 Y β + (X
E[Y 2 − 2X ~ 0 β)2 ] (31)

Precisa-se, agora, realizar a derivada em relação a β e notar as condições


de primeira ordem. Como fizemos antes, com algumas condições fracas, pode-
se afirmar que a derivada de uma integral - o valor esperado - é a integral da
derivada - fórmula de Leibliz. No entanto, há outro ponto relevante aqui: esta-
mos derivando em relação a um vetor, não um número! Assim, o que exatamente
é derivar um escalar por um vetor? Siga a definição:

Se a é um escalar e c é definido como:


 
c1
c2 
ckx1 ≡  . 
 
 .. 
ck

Então, a definição da derivada é:


 ∂a 
∂c1
 ∂a 
∂a  ∂c2 
∂c ≡ . 
 .. 
∂a
∂ck

No nosso caso especı́fico do MSE, precisaremos somente de uma derivada.


De acordo com essa definição, ela será:

36
 ∂(β0 +β1 X1 +β2 X2 +...βk Xk )   
∂β0 1
0
 ∂(β0 +β1 X1 +β2 X2 +...βk Xk )  X1 
~ β)
∂(X ∂β1 ~
 
≡ = . =X
 
..
 
  .. 
∂β  
 .
∂(β0 +β1 X1 +β2 X2 +...βk Xk ) Xk
∂βk

Ou seja, a rigor, além de fazer a derivada como estamos acostumados,


nós realizamos a transposição do vetor X. Com base nisto, o que precisa ser
feito agora é a derivação de E[Y 2 − 2X~ 0 Y β + (X
~ 0 β)2 ]

Vamos explicitar o resultado de derivar o terceiro termo em relação a


β, para justificar nossas passagens.

2(X~ 0 β)   2(β0 + β1 X1 + β2 X2 + . . . βk Xk )

∂(X~ 0 β)2 2(X ~ 0 β)X1   2(β0 X1 + β1 X12 + β2 X2 X1 + . . . βk Xk X1 ) 


= =
   
.. ..
∂β

 .   . 
0
~ β)Xk
2(X 2(β0 Xk + β1 X1 Xk + β2 X2 Xk + . . . βk Xk2 )

2(X~ 0 )β   ~0 
(X )
0
~ 1) β 
2(XX ~ 1 )0 
(XX
=  = 2 β
   
.. ..
 .   . 
0 0
~
2(XXk ) β ~
(XXk )

Foquemos agora no termo central da última igualdade. Ele é uma


matriz (k+1) x (k+1). De fato, vamos deixá-la explicatada:

 ~ 0 )   (1)
(X (X1 ) ... (Xk )

~ 1 )0  (X1 )
(XX (X12 ) . . . (Xk X1 )
=
   
 ..   .. .. .. .. 
 .   . . . . 
0 2
~ k)
(XX (Xk ) (X1 Xk ) . . . (Xk )
 
(1)
(X1 ) 
=  .  (1) (X1 ) . . . (Xk )
 
 .. 
(Xk )
=X~X~0

Enfim, com estes resultados em mãos, pode-se, enfim, fazer as derivar


(31) em β o que nos dá:
0 0 0
~ + 2(X
E[−2XY ~X~ )β)] = −2E[XY
~ ] + 2E[X
~X~ ]β = −E[XY
~ ] + E[X
~X~ ]β = 0
0
⇐⇒ E[X~X~ ]β = E[XY
~ ]

37
0
~X
β = E[X ~ ]−1 E[XY
~ ] (32)

E assim, finalmente, identificamos o parâmetro β. Novamente, como


~X
antes, há condição de identificação é que E[X ~ 0 ] seja inversı́vel. Vamos tratar
disso mais profundamente quando falarmos das hipóteses estatı́sticas.

Estimação e propriedades algébricas

Uma vez que se conseguiu a identificação, pode-se passar para estimar o parâmetro
β, por meio de uma amostra com n indivı́duos. Como antes, o estimador - que
agora chamaremos de ”b” - precisa estar em função de todos os valores da
amostra. Realizar isso algébrica é extremamente complicado. Assim, passamos
para uma notação matricial.

Primeiramente, como discutido na seção anterior, a relação (28) é


válida também para valores especı́ficos das variáveis aleatórias. Melhor ainda,
são válidos para todos os n indivı́duos que temos na amostra. Como se  pode
1 x21 . . . xk1
1 x22 . . . xk2 
expressar isso de forma matricial? Defina: Xnxk ≡  .
 
.. .. .. 
 .. . . . 
1 x2n ... xkn
 
Y1
 Y2 
~nx1 ≡ 
Y

 .. 
 . 
Y
 n
β1
 β2 
βkx1 ≡  . 
 
 .. 
β
 k
1
 2 
nx1 ≡.
 
 .. 
n

Disto, percebe-se o seguinte: nas linhas de X, tem-se o conjunto de


variáveis para o indivı́duo ”i”. Ademais, em cada coluna, há uma variável
explicativa. Assim, pode-se escrever a regressão multivariada como:
~ = Xβ + 
Y (33)

A partir daqui, a questão é que não temos β, somente os dados, de

38
maneira que precisamos estimar. A ideia é fazer uma estimativa, b, em que se
minimize os resı́duos. Disto, vem:

0 0 0 0 0 0
e e = (Y − Xb) (Y − Xb) = Y Y − Y Xb − (Xb) Y + (Xb) (Xb) (34)
0 0 0 0
= Y Y − 2Y Xb + b X Xb (35)

0
Note que Y Xb é um escalar: (1xn)x(nxk)(kx1) = 1x1. Deste modo,
notando que as parcelas centrais são transpostas em relação uma a outra, e
que o transposto de um escalar é o próprio escalar, elas se referem ao mesmo
número, do que vem o termo central da segunda equação.

Assim, precisa-se derivar em b a equação da soma do erro. O único


problema é o último termo. Como se realiza a derivação? Brece yourself!

   
1 1 ... 1 1 x21 ... xk1 b1
0 0 x
  21
 x22 ... x2n  1 x22 ... xk2   b2 
b X Xb = b1 b2 ... bk  .
  
.. .. ..   .. .. .. ..   .. 
 .. . . .  . . . .  . 
xk1 xk2 ... xkn 1 x2n ... xkn bk

 Pn Pn  
Pn n Pi=1
n
x2i
2
... Pn i=1 xki b1
0 0  i=1 x2i i=1 x2i ... i=1 x 2i x ki
  b2 
b X Xb = b1 b2 ... bk 
  
.. .. .. ..   .. 
.
Pn . Pn . Pn . 2
  . 
i=1 xki i=1 x2i xki ... i=1 xki bk

 
b1
b2 

0 0

b X Xb = a1 a2 ... ak  . 
 .. 
bk

Pn Pn
a1 ≡ nb1 + ( i=1 x2i )b2 · · · + ( i=1 xki )bk
Pn Pn Pn
a2 ≡ ( i=1 x2i )b1 + ( i=1 x22i )b2 + · · · + ( i=1 x2i xki )bk
Pn Pn Pn
ak ≡ (( i=1 xki )b1 + ( i=1 x2i xki )b2 · · · + ( i=1 x2ki )bk

39
Ou, de maneira genérica:
Xn n
X n
X Xn
2
aj ≡ ( xji )b1 + ( x2i xji )b2 · · · + ( xji )bj + . . . ( xji xki )bk , j ∈ [1 : k]
i=1 i=1 i=1 i=1

Note ainda que, por comodidade, colocamos x1i = 1, para todo i.


Com essas definições, fica-se, por fim, com o seguinte escalar, após desenvolver
a equação:

k
X
a1 b1 + a2 b2 + · · · + ak bk = aj bj
j=1
k
X n
X n
X n
X Xn
2 2
= (( xji )b1 bj + ( x2i xji )b2 bj · · · + ( xji )bj + . . . ( xji xki )bk bj )
j=1 i=1 i=1 i=1 i=1

Para notar o que ocorre a partir de agora, defina dois j especı́ficos: g


e h, que estão entre 1 e k, diferentes entre si. Os termos correspondentes a eles
são:
Xn n
X n
X n
X
g:( x(g)i )b1 bg + ( x2i x(g)i )b2 bg · · · + ( x2(g)i )b2g + . . . ( xki x(g)i )bk bg )
i=1 i=1 i=1 i=1

Xn n
X n
X Xn
h:( x(h)i )b1 bh + ( x2i x(h)i )b2 bh · · · + ( x2(h)i )b2h + . . . ( xki x(h)i )bk bh )
i=1 i=1 i=1 i=1

Como g e h estão entre 1 e k ambos possuem o seguinte termo:


Pn
( i=1 x(h)i x(g)i )bh bg

Note que isso funciona para qualquer g e h diferentes entre si, dado
que fizemos genericamente. Ou seja, durante o somatória de 1 até k, para cada
par (g, h) ter se uma parcela de igual valor. Assim, pode-se reduzir a expressão
para algo muito mais digerı́vel:

40
k
X
a1 b1 + a2 b2 + · · · + ak bk = a j bj
j=1
k
X n
X n
X n
X Xn
2 2
= (( xji )b1 bj + ( x2i xji )b2 bj · · · + ( xji )bj + . . . ( xji xki )bk bj )
j=1 i=1 i=1 i=1 i=1
k X
X n k X
X Xn
= ( x2ji )b2j ) + 2(( x(h)i x(g)i )bh bg )
j=1 i=1 g=1 h6=g i=1

Então, enfim, pode-se realizar a derivada disto em relação ao vetor b.

 ∂ Pk aj bj

j=1  Pn Pn
2( i=1 x21i )b1 ) + 2 h6=1 (( i=1 x(h)i x(1)i )bh )
P 
k P ∂b1
Pk  ∂ j=1 aj bj   2( ni=1 x22i )b2 ) + 2 h6=2 (( ni=1 x(h)i x(2)i )bh ) 
  P P P
∂ j=1 aj bj ∂b2
= =
   
.. ..
∂b

 P .
   . 
n n

2
P P P
k
∂ j=1 aj bj 2( i=1 xki )bk ) + 2 h6=k (( i=1 x(h)i x(k)i )bh )
∂bk
 Pn Pn Pn
(x21i )b1 + ( i=1

Pi=1 x2i x1i )b2 + · · · + ( Pi=1 x1i xki )bk
 ( n x2i x1i )b1 + ( n (x21i )b2 + · · · + ( n x2i xki )bk 
P
 i=1 i=1 i=1
= 2

.. 

Pn Pn . Pn

2
( i=1 x1i xki )b1 + ( i=1 x2i xki )b2 ) + · · · + i=1 (xki )bk
 Pn 2
Pn Pn  
Pni=1 (x1i ) ( Pi=1 x2i x1i ) . . . ( Pi=1 x1i xki )
n 2 n
b1
( x 2i x 1i ) (x 1i ) . . . ( x 2i x ki
 b2 
i=1 i=1 i=1
= 2
  
.. .. .. ..   .. 
 . . . .  . 
Pn Pn Pn 2
( i=1 x1i xki ) ( i=1 x2i xki ) . . . (x
i=1 ki ) bk
0
= 2X Xb

E assim, enfim se chega no resultado que se usará a seguir. A saber,


se derivarmos a equação (35) em beta, ficamos com:

0 0 0 0
∂(Y Y − 2Y Xb + b X Xb) 0 0 0 0
= −2X Y + 2X Xb = X Y − X Xb = 0
∂b

Assim, consegue-se expressar o estimaro b em função da amostra:

0 −1 0
b = (X X) XY (36)

41
Note que precisamos de uma propriedade, que quase sempre é ver-
0
dadeira, de que X X é inversı́vel. Vamos tratar disso mais a frente.

Será que as propriedades algébricas são parecidas com as do caso sim-


ples?

Pn
1. i=1 ei =0

Ora, veja o seguinte, a partir da derivação para chegarmos no estimador:


0 0 0 0
X Y − X Xb = X (Y − Xb) = X e = 0
   
1 1 ... 1 e1
x21 x22 ... x2n   e2 
 ..  = 0
   
 .. .. .. .. 
 . . . .  .
xk1 xk2 ... xkn en
Se pegarmos a multiplicação
Pn da primeira linha de Xnxk pela coluna dos
erros, chega-se em: e
i=1 i = 0
Que era exatamente o que se queria demonstrar. Ademais, note que isso
só funciona se estamos em uma regressão com constante (β0 6= 0).

2. Cov(X
dk , e) = 0

Em que Xk é a coluna associada com a variável explicativa k. Ou seja,


estamos afirmando que CADA coluna é não correlacionada com o vetor
de resı́duos. Isto é fácil de ver, veja:
n
X n
X
(Xki − X̆k )(ei − ĕ) = (Xki − X̆k )(ei )
i=1 i=1

Novamente, se notarmos que:


  
1 1 ... 1 e1
x21 x22 . . . x2n   e2 
..   ..  = 0
  
 .. .. ..
 . . . . .
xk1 xk2 . . . xkn en
Veremos que a multiplicação de cada linha, que representam o valor das
variáveis explicativas para cada indivı́duo, pela coluna dos resı́udos, dar-
nos à exatamente o que procuramos.
O que prova a propriedade.
3. A média amostral dos resı́duos é zero
Isto é óbvio a partir da propriedade um: se a soma dos resı́duos é zero,
basta dividir por n.

42
4. 4 - Cov(ŷ,
d e) = 0
Com y) sendo os ”valores fittados”. Ora, veja:
˘ i ) = ŷ 0 ei
d e) = Pn (ŷi − ŷ)(e
Cov(ŷ, i=1
0 0 0
Ora, ˆ(y) = Xb. Logo, tem-se: (Xb) e = b X e = 0
0
Pois X e = 0, como se viu na propriedade 2.

Assim, com essas propriedades algébricas, viu-se que, no caso multi-


variado, tem-se uma situação muito parecida com o caso simples.

Ainda seguindo esses paralelos com o modelo simples, como se pode


avaliar o R2 , no caso multivariado? Para responder isso, precisa-se perguntar
como se pode expressar as variâncias no modelo multivariado.
 
1
1
Defina: l ≡  . 
 
 .. 
1
0
N ≡ I − n1 ll

Com isso, tome a seguinte expressão:


     
1 0 ... 0 1/n 1/n ... 1/n Y1
0   0 1 . . . 0  1/n
  1/n ... 1/n  Y2 
Y N Y = Y1 Y2 . . . Yn ( . . . − . .. )  .. 
   
. .. ..
 .. ..   ..
. . ..  . . .   . 
0 0 ... 1 1/n 1/n ... 1/n Yn
n−1
  
n −1/n ... −1/n Y1
n−1
−1/n −1/n
 ...  Y2 
n
= Y1 Y2 ... Yn  .
 
.. .. ..   .. 
 .. . . .  . 
n−1
−1/n −1/n ... n
Yn
 
Y1
Y 1+Y 2+···+Y n Y 1+Y 2+···+Y n
  Y2 
= Y1− Y2− ... Y n − Y 1+Y 2+···+Y n  
n n n  .. 
 . 
Yn
n
X n
X
= (Yi − Y̆ )Yi = (Yi − Y̆ )2
i=1 i=1

Ou seja, estamos trabalhando com, precisamente, a variância da amostral


de Y que se tem. Como se pode abrir essa expressão? Para termos uma vida
mais fácil, vamos derivar/retomar alguns resultados antes. Como lembramos,

43
0
de X e = 0 vem o fato que a soma dos resı́duos é zero. Ora, a soma dos resı́duos
0
ser zero pode ser exposto justamente como l e = 0. Assim, chega-se facilmente
que N e = e.
0 0 0
Ademais, notemos que N é uma matriz simétrica: (I − ll ) ) = (I − ll )
0
Com isso em mente, vamos abrir a expressão Y N Y
0 0 0 0 0
(Xb + e) N (Xb + e) = b X 0 N Xb + b X 0 N e + e N Xb + e e
0 0 0 0 0
= b X 0 N Xb + b X 0 e + (N e) Xb + e e
0 0 0
= b X 0 N Xb + e Xb + e e
0 0 0
= b X 0 N Xb + X eb + e e
0 0
= b X 0 N Xb + e e

Ora, o segundo termo, obviamente, é a soma do quadrado dos resı́udos


que, como a média é zero, é exatamente proporcional à variância não expli-
0
cadada. Assim, o termo restante, b X 0 N Xb é a variância explicada. Disto, o
2
R , nestecaso, podeserexpressocomo :

0
b X 0 N Xb
(37)
Y 0NY

2.0.1 Propriedades estatı́sticas - Multivariado

Novamente, faremos paralelos com o caso simples. Nosso conjunto de hipóteses


estatı́sticas, agora, será denominado RLM (Regressão Linear Multivariada).

RLM 1 - Modelo linear nos parâmetros


Y = Xβ~ + . Salvo pelo fato de X ser um vetor, é a mesma propriedade que
havia em RLS.

RLM 2 - Amostragem aleatória, independente e identica-


mente distribuı́da

RLM 3 - Xnxk possui rank cheio


Esta é uma hipótese sobre a amostra selecionada. Ela está dizendo que não há
dois vetores de caracterı́sticas que são múltiplos um do outro.

Por que isso é relevante? De maneira mais direta, um resultado de


0
Álgebra linear nos diz que, se Xnxk possui rank cheio, então (X X) é inversı́vel,
0 −1 0
o que permite que b = (X X) (X) Y ~ seja bem definido.

Intuitivamente, a ideia é que, quando há um vetor de caracterı́sticas é

44
múltiplo de outro, não conseguimos saber qual é o efeito de ao menos um deles
na nossa variável dependente. Por exemplo, tome, no exemplo abaixo X2 = 2X1

Y = bo + b1 X1 + b2 X2 + e
= bo + b1 X1 + 2b2 X1 + e
= bo + (b1 + 2b2 )X1 + e

Assim, embora seja possı́vel saber qual é o efeito de X1 em Y, não


conseguimos saber qual é o efeito de X2 . Ou seja, b2 nunca é estimado, efetiva-
mente. No fundo, ocorre que eu não consigo alterar X1 sem, ao mesmo tempo,
alterar X2 , de modo que é impossı́vel saber o efeito, tudo mais igual, que X2
possui em Y .

RLM 4 - Esperança condicional é zero


Muito parecida com a do modelo simples, mas, dessa vez, condiciona-se em todo
o vetor com as variáveis independentes:
~ i ] = 0 ∀i ∈ [1 : n]
E[i |X

Novamente, vale lembrar: o que se está fazendo aqui é dizendo que,


depois que se fixa uma amostra para os valores de X ~ e temos um valor especı́fico
~ ~
para Xi , no entanto, sem os valores para (Y ), i permanece como uma variável
aleatória, a qual, quando condicionada a X~ i , dá-nos o resultado exposto.

Ademais, lembremos que provamos que , que E[i |xi ] = E[i |X̄] = 0,
ou seja, se condicionarmos a um conjunto de valores de x, ainda ficamos com o
resultado zero, em decorrência da propriedade RLS. 2.

Do mesmo método de prova, chega-se que:


E[i |X] = 0

Com X a matriz nxk já destrinchada anteriormente.

Por fim, sabe-se que, em uma amostra de n indivı́duos, existem n


variáveis aleatórias i . Pode-se expressar isso vetorialmente:
 
E[1 |X]
 E[2 |X] 
~ i ] = E[|X] = 
E[|X  .. =0

 . 
E[n |X]

RLM 5 - Variância constante


De forma praticamente idêntica a anteriormente, tem-se o seguinte:
~ i ) = σ 2 ∀i ∈ [1 : n]
V ar(i |X

45
Novamente, aqui, estamos condicionando somente a um valor especı́fico,
mas se poderia realizar para todos os valores da amostra, conjuntamente:

V ar(i |X) = σ 2

É interessante e útil futuramente, a partir desta hipótese e de RLM 2,


escrever a seguinte matriz de variância e covariância. Sobre RLM 2, devemos
lembrar que o fato da amostragem ser aleatória implica que não há correlação
entre variáveis de diferentes indivı́duos: E[i j |X] = 0, ∀i 6= j

21
   
1 12 ... 1 n
0
 2    1 2
 22 ... 2 n 
E[ |X] = E[ .  1 2 ... n |X] = E[ . ..  |X]
  
.. ..
 ..   .. . . . 
n 1 n 2 n ... 2n
E[21 |X]
 
E[12 |X] ... E[1 n |X]
 E[1 2 |X] E[22 |X] ... E[2 n |X]
=
 
.. .. .. .. 
 . . . . 
E[1 n |X] E[2 n |X] . . . E[2n |X]
 2 
σ 0 ... 0
 0 σ2 . . . 0 
= .
 
.. .. .. 
 .. . . .
0 0 ... σ2
= σ2 I

RLM 6 - Normalidade

Como já mencionado,  é um conjunto de variáveis aleatórias, associ-


adas com cada indivı́duo de uma amostra com n deles, a qual advém do fato
de, apesar de termos fixado X, não o termos feito com Y . Assim, uma hipótese,
extremamente forte, é que esse vetor de variáveis aleatórias é distribuı́do como
uma normal multivariada. No caso:

|X ∼ N (0, σ 2 I)

Dito tudo isso, pode-se, enfim, passar para a prova que o estimador
multivariado é BLUE.

1. É um estimador linear
Novamente, isto quer dizer que pode ser exposto como uma combinação
linear dos valores da amostra. Neste sentido, tome novamente:
0 0
(X X)−1 X Y

46
0
Vamos
 focar por um momento,
  no termo (X X)
1 1 ... 1 1 x21 . . . xk1
x21 x22 . . . x2n  1 x22 . . . xk2 
:  .
  
.. .. ..   .. .. .. .. 
 .. . . .  . . . . 
xk1 xk2 . . . xkn 1 xk2 . . . xkn
 
1
x2i 
~i = 
Defina X  .. 

 . 
xki

Assim:
 
~0
0
~1 ~2 ~  X2  Pn ~ ~ 0

XX = X X ... Xn  ..  = i=1 Xi Xi
 . 
~0
X n

Dito isto, o estimador pode ser escrito como:

n n
X 0 X
b=( ~ ~ −1
Xi Xi ) ( ~ i yi )
X (38)
i=1 i=1

Do que vem que, para cada yi temos:


Pn ~ ~ 0 −1
( i=1 X i Xi ) Xi como coeficiente, provando que o estimador é, de fato,
uma combinação linear dos valores da amostra.

2. É não viesado
0 0
b = (X X)−1 X Y
0 0
= (X X)−1 X (Xβ + )
0 0
= β + (X X)−1 X 

0 0
E[b|X] = E[β|X] + E[(X X)−1 X |X]
0 0
= β + (X X)−1 X E[|X]

Por meio da lei das expectativas iteradas, chega-se na ausência de viés.

47
3. Possui menor variância entre os estimadores lineares
Defina um outro estimador linear, ou seja, uma outra combinação linear de
Y, comf D uma matriz (kxn) inversı́vel , cujo valor depende somente
da matriz X - daı́, ser um coeficiente:

0 0
b∗ = (X X)−1 X + D)Y

0 0
E[b∗ |X] = E[(X X)−1 X Y |X] + E[DY |X]
= β + E[DXβ + D|X]
= β + DXβ + DE[|X]
= β + DXβ

Disto, vê-se que, para este estimador linear novo ser não-viesado, DX deve
ser igual a zero - note a semelhança da argumentação com o que fizemos
no caso simples. Formalizando:
DX = 0
Daı́, para prosseguir no argumento, façamos a variância para o estimador
de MQO:

0 0
V ar(b|X) = V ar((X X)−1 X Y |X)
0 0
= V ar(β + (X X)−1 X |X)
0 0
= V ar(X X)−1 X |X)
0 0
= V ar(A|X), A ≡ (X X)−1 X
0
= E[(A − E[A|X])(A − E[A|X]) |X]
0 0 0 0
= E[(A − AE[|X])( A − E[|X] A )|X]
0 0
= AE[( − E[|X])( − E[|X]) )|X]A
0
= AE[ |X]
0
= AV ar(|X)A
0
= Aσ 2 IA
0 0 0
= (X X)−1 X σ 2 X(X X)−1
0 0 0
= σ 2 (X X)−1 (X X)(X X)−1
0
= σ 2 (X X)−1

48
Cabe notar que σ 2 é um escalar e, por isso, pode se ”mover livremente”
pelas matrizes. A matriz ”I” sumiu porque é a identidade, de modo que é
o elemento neutro da multiplicação de matrizes.
Dito isso, vamos avaliar a variância de b∗ :

0 0
V ar(b∗ |X) = V ar((X X)−1 X + D)Y |X)
0 0 0 0
= (X X)−1 X + D)V ar(Xβ + |X)(X(X X)−1 + D )
0 0 0 0
= (X X)−1 X + D)(V ar(|X))(X(X X)−1 + D )
0 0 0 0
= σ 2 I(X X)−1 X + D)(X(X X)−1 + D )
0 0 0 0 0 0 0 0
= σ 2 I((X X)−1 X X(X X)−1 ) + (X X)−1 X D ) + DX(X X)−1 + DD ))
0
= σ 2 (X X)−1 + Dσ 2 D0

Agora, note que Dσ 2 D0 é uma matriz positiva definida. Isto é, para qual-
0
quer z que seja um vetor determı́stico (kx1) não-nulo, há que: z Dσ 2 D0 z ≥
0. A prova disto é bem simples.

0 0 0
z Dσ 2 D0 z = σ 2 (D z) (D0 z) = ||D0 z||

Ora, ||D0 z|| ≥ 0, pois é módulo, o que nos dá a prova necessária. Esta
definição de matriz positiva é o que nos garante que a variância de b∗ é
maior ou igual ao do estimador b: é semelhante ao fato de termos um
termo positivo ou nulo somado, no caso simples.

Assim, provou-se, para o caso multivariado, que o estimador é BLUE.

Tutorial 12

Viés de variável omitida

Vamos por partes. Primeiramente, será que, como no caso simples, deixar de
lado variáveis que são correlacionadas com a variável dependente nos dá um
viés? A partir do conhecimento adquirido com o caso simples, esperamos que
o viés só apareça quando a variável omitida possua correlação com a variável
dependente e, ao mesmo tempo, a independente que está explı́cita no modelos.
Tentemos provar isto.

Primeiro, como fizemos anteriormente, vamos elencar que nosso modelo


real é o seguinte:

49
0 0
~ 1 β1 + X
Y =X ~ 2 β2 +  (39)

Ou seja, separamos o vetor X, ~ que era 1xk, em dois outros vetores:


~
X1 , que é 1x Também é válido, como se sabe:
0 0

yi = X~1i β1 + X~2i β2 + i

Se juntarmos os ”n” valores da amostra, chegaramos em:


~ = X1 β1 + X2 β2 + 
Y

Em que X1 é nxk1 e X2 é nxk2 .

No entanto, o que vamos estimar é a equação somente com com a


matrix X1 . Ou seja, as variáveis de X ~2 estão sendo omitidas. Ou seja, nossa
equação para a estimativa é, com br indicando o estimador do ”modelo restrito”
- sem as variáveis de X2 :

~ = X1 br + e
Y

~1 é um vetor 1xk1 , então X1 é uma matriz nx(k1 ),


Então veja, se X
que nós vamos chamar de ”matriz de variáveis incluı́das”. Conseguimos provar
que br é viesado?

0 0
~
br = (X1 X1 )−1 X1 Y
0 0
= (X1 X1 )−1 X1 (X1 β1 + X2 β2 + )
0 0 0 0
= β1 + (X1 X1 )−1 X1 X2 β2 + (X1 X1 )−1 X1 

Agora, condiciona-se a matriz X, que é nxk e que inclui as variáveis


incluı́das e excluı́das:
0 0 0 0
E[br |X] = E[β1 |X] + E[(X1 X1 )−1 X1 X2 β2 |X] + E[(X1 X1 )−1 X1 |X]
0 0
= β1 + (X1 X1 )−1 X1 X2 β2

Então, notemos que, por fim: se β2 é zero, ou seja, as variáveis pre-


0
sentes em X2 não afetam Y , então não há viés; da mesma forma, se X1 X2 = 0,
também há viés. O quer dizer esta segunda condição? Vejamos:

50
  
x11 x12 ... x1n x(k1 +1)1 x(k1 +2)1 ... x(k2 )1
 x21 x22 ... x2n 
0
  x(k1 +1)2 x(k1 +2)2 ... x(k2 )2 
X1 X2 =  . ..  = 0
 
.. .. ..   .. .. ..
 .. . . .  . . . . 
xk1 1 xk 1 2 ... xk1 n x(k1 +1)n x(k1 +2)n ... x(k2 )n

Defina X ~ a como o vetor que possui o valor da variável explicava i para


os n indivı́duos.
 
xi1
 xi2 
Neste sentido: X ~i = 
 .. 

 . 
xin

~ 0X
Note, então, que: X ~ Pn
i j = a=1 xia xja

Isto é extremamente relevante porque, se considerarmos que as variáveis


estão padronizadas (média zero), este somatório ser igual a zero é exatamente
dizer que a covariância/correlação entre elas é zero - retome a definição de co-
variância pE cwe o morico.

Daı́, tome:

 ~0   ~0 ~ ~ 0X ~ ~ 0X ~ 
X1 X1 Xk1 +1 X 1 k1 +2 ... X 1 k2
 ~0 
X   X~ 0X
~ k +1 ~ 00
X2 X ~ k +2 ... ~ 0
X2 X ~k 
0  2 ~ ~ k +2 ~k =  2 . 1 1 2
X1 X2 =  .  Xk1 +1 X ... X
 
.. ..
 ..  1 2
..

 ... . . 
X~0 ~ 0
~
X Xk +1 ~0 X
X ~ ... ~0 X
X ~k
k1 n1 1 n1 k1 +2 n1 2

Se esta matriz for zero, quer dizer que a correlação entre quaisquer
uma das variáveis de X1 com X2 é zero, que é a interpretação que querı́amos
0
para X1 X2

Ou seja, se omitimos, de nossa estimação, qualquer variável que seja


correlacionada com a variável dependente E com as variáveis explicitadas no
modelo, tem-se o viés de variável omitida em b1 , exatamente como antes, no
caso mais simples.

Adição de variáveis redundantes

Agora, a situação é oposta. Nosso modelo real é:

51
~ = X1 β1 + 
Y (40)

Mas vamos estimar a partir de:


~ = X1 b1 + X2 b2 + e
Y (41)

Ou seja, adicionamos variáveis que ”não estão” no modelo real. Isto


é muito comum de acontecer quando enchemos nosso modelo de variáveis, ”só
para garantir” que não vamos deixar nenhuma de fora e ter um problema de
estimador enviesado.

Então, precisamos perguntar: existe algum problema em fazer isso?


Primeiro, demonstrameos que nossas estimadores
 não são viesados.
 Para isso,
note que, se definirmos que X = X1 X2 e b = b1 b2 e notarmos que
podemos escrever (40) como: Y ~ = X1 β1 + X2 β2 + , com a restrição de que
β2 = 0.

Logo, podemos expressar nosso problema como:


~ = Xβ + 
Modelo real: Y

~ = Xb + e
Estimado: Y

Este é o mesmo problema que resolvemos em seções anteriores. Clara-


mente, não é vies. Então, novamente, qual o problema? Por que não adicionar
infinitas variáveis em todos os modelos? A problemática repousa na variância
no estimador.

Ora, idealmente, gostarı́amos de ter um estimador com a menor variância


possı́vel. Por quê? Um motivo é que nossos intervalos de confiança, para qual-
quer nı́vel de significância, tornam-se menores. Lembre-se de que, para o caso
que queremos cometer o erro de tipo 1 - rejeitar a hipótese nula quando ela
é verdadeira - em cinco por cento das vezes, nosso intervalo de confiança era:
ˆ ∗ , sbb
[−sbb ˆ ∗]
1 1

Assim, logo se vê que quanto maior maior será este intervalo. Lembre-
mos que o intervalo de confiança, também nos diz qual é a região de aceitação,
ou seja, em que não negamos a hipótese nula. Neste caso, quanto maior , tem-se
a tendência de não-rejeitar a hipótese nula com cada vez mais frequência. Com
isso, comete-se menos o erro de tipo 1, no entanto, cada vez mais se comete o
erro de tipo 2: não rejeitar a hipótese nula quando, na verdade, ela é falsa. Isto
simboliza uma diminuição no poder do nosso teste. Assim, sempre queremos
ter a menor variância possı́vel.

52
O que ocorre com a variância quando temos variáveis redundantes?
Para isso, vamos retomar nossa equação para estimação, (41), em que inserimos
as variáveis redundantes:
~ = X1 b1 + X2 b2 + e
Y

A outra equação, restrita, em que não se insere as variáveis redun-


dantes, é:
~ = X1 br + e
Y

A notação br , como antes, indica que estamos em modelo restrito. Sua


estimação é:
0
0
br = (X1 X1 )−1 X1 Y~ br = β1 + (X 0 X1 )−1 X1 0 
1

0 0
Assim, pré-multiple a equação (41) por (X1 X1 )−1 X1 :

0 0
br = b1 + (X1 X1 )−1 X1 X2 b2 (42)

Ou: 0 0
b1 = (X1 X1 )−1 X1 X2 b2 − br (43)

Assim, agora, tem-se uma relação entre os dois estimadores de β1 :


aquele do modelo sem as variáveis redundantes, br , e aquele com elas, b1 . Dito
isso, e sabendo as propriedades de variância, façamos o seguinte: definamos
0 0
P ≡ (X1 X1 )−1 X1 X2 e, então:

V ar(b1 |X) = V ar(P b2 − br |X)


0
= V ar(br |X) + P V ar(b2 |X)P − Cov(br , P b2 |X)
0
= V ar(b1 |X) + P V ar(b2 |X)P − P Cov(br , b2 |X)

Precisa-se tratar o terceiro termo, porque ele pode ser tanto positivo
quanto negativo, o que complica a análise. Então, vamos definir outra matriz,
0 0
M1 = I − X1 (X1 X1 )−1 X1 . A interpretação dela é que estamos regredindo em
X1 . Tente ver o motivo.

Seja, novamente, (41), mas dessa vez pré-multiplicado por M1:

53
~ = M1 X1 b1 + M1 X2 b2 + M1 e
M1 Y
0 0
= X1 b1 − X1 (X1 X1 )−1 X1 X1 b1 + M1 X2 b2 + M1 e
= X1 b1 − X1 b1 + M1 X2 b2 + M1 e
= M1 X2 b2 + M1 e

Com a última linha, temos um novo conjunto de dados. Para achar


b2 , precisamos regredir M1 Y ~ em M1 X2 , buscando minimizar M1 e - a soma dos
quadrados disto, mais precisamente. Para isso, basta provar um resultado aux-
0
iliar, que, ao menos agora, parecerá um pouco despropositado: (M1 X2 ) (M1 X2 )
é não-singular - inversı́vel.

Para isso, vamos focar na seguinte matriz:


 0 0  
X1 M1 X2 = X1 X2 − X1 (X1 X1 )−1 X1 X2 = X1 X2 − X1 P
 
 I −P
= X1 X2
0 I

Daı́,basta notar
 que: pela hipótese RLM 3, X ≡ X1 X2 possui
I −P
rank cheio e , claramente tem rank cheio também.
0 I

Assim, X1 M1 X2 possui rank cheio e, especificamente, também a
sua partição M1 X2 , o que era nosso objetivo provar.

Agora, fica fácil. Pode-se expressar b2 como:


0 0
b2 = [(M1 X2 ) (M1 X2 )]−1 (M1 X2 ) ~(Y )
0
Veja que M1 = M1 e que M1 M1 = M1 . Assim, de forma mais enxuta:

0 0
~
b2 = (X2 M1 X2 )−1 X2 M1 0 Y (44)

0 0
b2 = β2 + (X2 M1 X2 )−1 X2 M1 0  (45)

Porque, como mostrado, M1 X1 = 0. Com isso feito, basta, para nossos


propósitos, analisar a covariância entre br e b2 .

54
0
Cov(br , b2 ) = E[(br − E[br |X])(b2 − E[b2 |X]) |X]
0
= E[(br − β1 )(b2 − β2 ) |X]
0 0 0 0 0
= E[((X1 X1 )−1 X1 )((X2 M1 X2 )−1 X2 M1 0 ) |X]
0 0 0 0
= E[(X1 X1 )−1 X1  M1 X2 (X2 M1 X2 )−1 |X]
0 0 0
= E[σ 2 I(X1 X1 )−1 X1 M1 X2 (X2 M1 X2 )−1 |X]]
0 0 0
= E[σ 2 I(X1 X1 )−1 (M1 X1 ) M1 X2 (X2 M1 X2 )−1 |X]]
=0

Com isso, agora se pode expressar que:


0
V ar(b1 |X) = V ar(br ) + P V ar(b2 |X)P
0
Deve-se provar, por fim, que P V ar(b2 |X)P é uma matriz positiva
definida, ou seja, para qualqur vetor z, não-nulo, com dimensão k1 x 1:
0 0
z P V ar(b2 |X)P z > 0

Para isso, vamos abrir mostrar um resultado intermediário: se V ar(b2 |X)


0
for positiva definida, então P V ar(b2 |X)P também o é. Isto é fácil de ver pelo
seguinte: se z é um vetor k1 x 1 não nulo, então Pz também é um vetor não
nulo, k2 x 1; se V ar(b2 |X) é positiva definida, então, para qualquer vetor z2 com
0
dimensão k2 x 1, há z2 V ar(b2 |X)z2 > 0, isso inclui aqueles z2 que podem ser
0
escritos como P z1 , para os diferentes z1 . Logo, isso provaria que P V ar(b2 |X)P
é positivo definido.

Agora, será que V ar(b2 |X) é realmente positivo definido? Ora:

0 0 0
V ar(b2 |X) = V ar(β2 + (X2 M1 X2 )−1 X2 M1 |X)
0 0 0 0
= (X2 M1 X2 )−1 X2 M1 V ar(|X)M1 X2 (X2 M1 X2 )−1
0 0 0 0
= σ 2 I(X2 M1 X2 )−1 X2 M1 M1 X2 (X2 M1 X2 )−1
0 0 0
= σ 2 I(X2 M1 X2 )−1 X2 M1 X2 (X2 M1 X2 )−1
0
= σ 2 (X2 M1 X2 )−1

0
Agora, vamos notar que é fácil provar que X2 M1 X2 é positivo-definido.
De fato, basta notar:
0 0
X2 M1 X2 = (M1 X2 ) (M1 X2 )

55
Daı́, faremos uma demonstração muito parecida com a que fizemos
para o caso simples:
0 0 0
z2 (M1 X2 ) (M1 X2 )z2 = (M1 X2 z2 ) (M1 X2 z2 )
= ||M1 X2 z2 || > 0

Mas o seu inverso também é positivo-definido? A resposta é sim. Deixo


a demonstração detalhada no apêndice. De qualquer forma, com isso, prova-se,
enfim, que: V ar(b1 |X) > V ar(br |X), quando β2 = 0. Em outras palavras,
perdemos eficiência quando enchemos o modelo de variáveis inúteis.

Tutorial 13 - 14

Correlação entre variáveis explicativas

Além dos testes de hipótese, que tratamos mais a frente, este tutorial possui uma
discussão sobre quando há uma ”forte correlaçã” entre as variáveis explicativas.
Ora, sabe-se que, se há uma correlação perfeita entre as variáveis, ou seja, elas
são combinações lineares umas das outras, tem-se que a matriz X não possui
0
rank cheio e que X X não é invertı́vel. No entanto, quando a correlação é
”forte” - mas não perfeita, veja - haveria algum problema?

A princı́pio, parece que não: com X 0 X inversı́vel, todas as demon-


strações feitas para o estimar b continuam válidas: ele é BLUE. No entanto,
a argumentação que eu farei aqui será no seguinte sentido: mesmo que seja o
melhor estimador, quando há grande correlação, ele se torna pouco útil. Para
isso, dividimos a matrix X em colunas representando cada uma das variáveis
explicativas: X ~ j . Então, para algum ~λ não nulo, nx1.

~1 + λ2 X
λ1 X ~2 + · · · + λk X~k = ~v

ou

   
λ1 v1
  2   v2 
 λ  
~1
X ~2
X ... X~k  ..  =  .. 

. .
λk vn

X ~λ = ~v

56
Quando ~v é exatamente zero, tem-se a multicolineariedade perfeita,
gerando a falta de inversão. Como se pode expressar o fato de haveru ma
”multicolineariedade forte”, mas não perfeita? Ora, dizendo que ~v é ”próximo”
0
de zero. Isto, no fundo, é fazer uma afirmação sobre o módulo do vetor: ~v ~v .
Ele estar próximo de zero é o que nos dá a ideia de que as variáveis são ”quase”
combinações lineares uma das outras.

Com isto definido, pode-se prosseguir. Imagine que, na matriz X, eu


~
identifique este vetor lambda. Se eu realizar uma regressão de uma coluna
qualquer nas restantes, o que posso esperar do R2 ? Ou seja, a regressão é, para
algum j:
~ j = X~−j b−j + e
X

Ora, tome novamente a equação e a manipule, considerando, arbitrari-


mente, que j = 1 e assuma que λ1 6== 0 16

~1 + λ2 X
λ1 X ~2 + · · · + λk X~k = ~v ⇐⇒ ~v − λ1 X~1 = λ2 X
~2 + · · · + λk X~k
~v ~ ~
=− +X ~1 = − λ2 X2 + · · · + λk Xk
λ1 λ1 λ1
~ ~
⇐⇒ X ~1 = λ2 X2 + · · · + λk Xk + ~v
λ1 λ1 λ1
λ−1
= X−1 + ~g
λ1

 
λ1
 λ2

..
 
 



 .
Em que λ−j ≡ λ
 j−1 

λj+1 
 
 . 
 .. 
λk
~
v
E ~g ≡ λj

Você consegue perceber como isso parece uma regressão linear? No


caso em que se tem muita correlação entre as variáveis, ~v tende a se pequeno.
Agora, se pode definir com precisão o que é esse ”pequeno”. Vamos definir este
λ~
”pequeno” como ”pequeno o suficiente para que b−j = λ−j j
. Isto é, aquilo que
16 Como o vetor ~
λ é não nulo, certamente existe algum elemento que não seja nulo, do que
vem que falar de λ1 é sem perda de generalidade.

57
minimiza o erro ao quadrado é o vetor de combinação linear. Faz sentido, não?
0
Afinal, estamos com um v com módulo pequeno, isto é, v v, que é exatamente
2
a soma dos erros ao quadrado. Assim, o R da equação acima, como se sabe,
pode ser apresentado da seguinte forma:

2
b−j X−j N X−j b−j
(Rj ) =
V ar(Xj )
0
(X−j b−j ) N X−j b−j
=
V ar(Xj )
~ 0 ~
(X−j λλ1 ) N (X−j λλ1 )
=
V ar(Xj )
~ j − ~g )0 N (X
(X ~ j − ~g )
=
V ar(Xj )~
V ar(X~ j − ~g )
=
V ar(X ~j )
~ j ) + V ar(~g ) − 2Cov(X
V ar(X ~ j , ~g )
=
V ar(X ~j )
V ar(Xj ) + V ar(~g ) − 2Cov(X−j + ~g , ~g )
=
V ar(Xj )
~
V ar(Xj ) + V ar(~g ) − 2Cov(X−j , ~g ) − 2V ar(~g )
=
~j )
V ar(X
V ar(X~ j ) − V ar(~g )
=
V ar(X ~j )
0
~j ) −
V ar(X ~v ~
v
(λ2j )
=
~j )
V ar(X

Atente-se para as várias propriedades algébricas usadas aqui. Primeira-


mente, a que a covariância entre as variáveis explicativas e os resı́duos, em uma
regressão MQO, é zero. Depois, que a média dos resı́duos é zero, do que vem
que a variância é a somente a soma dos quadrados.

Com isso explicitado, chega-se em um resultado notável: quanto mais


0
colinear forem as variáveis, isto é, v v se aproximar de zero, maios o
2
R desta regressão auxiliar se aproxima de 1. Vamos guardar isto no
coração e seguir o argumento.

O que queremos agora é escrever as variâncias dos estimadores em


função do R2 gerado pelas derivações acima. Isto não é difı́cil. Façamos o

58
seguinte modelo, em que bj é um escalar. Ou seja, separou-se somente uma das
colunas da matriz X. Obviamente isto não é feito ingenuamente: queremos fazer
aquele R2 aparecer de alguma forma.
~ =X
Y ~ j bj + X−j b∗ + e
−j

0 0
~ j M−j X
bj = (X ~ j )−1 X
~j Y
~

0
~ j M−j X
V ar(bj |X) = (X ~ j )−1 σ 2
0
0 0
~ j (I − X−j (X−j
V ar(bj |X) = (X ~ j )σ 2
X−j )−1 X−j )X
0
0 0
~j X
V ar(bj |X) = (X ~j − X
~ j X−j (X−j ~ j )σ 2
X−j )−1 X−j X

~ j = X−j b−j + g em que


Retomemos, agora, a regressão auxiliar X
0
−1 0 ~
b−j = (X−j X−j ) X−j Xj . Assim:

0
0 0
~j X
V ar(bj |X) = (X ~j − X
~ j X−j (X−j ~ j )−1 σ 2
X−j )−1 X−j X
0 0
~j X
= (X ~j − X
~ j X−j (b−j ))−1 σ 2
0 0
~j X
= (X ~j − X
~ j (X
~ j − ~g ))−1 σ 2
0 0 0
~j X
= (X ~j − X
~j X
~j + X
~ j ~g )−1 σ 2
0
~ j ~g )−1 σ 2
= (X

0
~ j ~g é a co-
Se as variáveis estão padronizadas (média zero), então (X
~
variância entre Xj e ~g . Inclusive, é um escalar.

0
~ j ~g )−1 σ 2
V ar(bj |X) = (X
σ2
=
V ar(g)
σ2
=
~ j )(1 − (Rj )2 )
V ar(X

59
~j )−V ar(~
V ar(X g)
A última linha segue porque Rj2 = V ar(X~j ) . Então, fica óbvio
o seguinte: quanto maior perto o Rj2 estiver de 1, maior será a variância do
estimar bj ; no mais, quanto maior a colineariedade presente na matriz X, mais
próximo de 1 é o Rj . Logo, a conclusão é, após essas cansativas demonstrações:
quanto mais colineares as colunas da matriz X, maior é a variância
de cada um do estimadores individuais bj . Note que isso é extremamente
genérico, valendo para qualquer j.

O problema dessa variância aumentada é o mesmo de adicionar variáveis


redundantes: como o intervalo de confiança fica maior, tende-se a ter uma
zona de rejeição cada vez menor, de modo que frequentemente não-rejeitamos a
hipótese nula - cometemos mais erros tipo 2.

No extremo, pode-se sempre não-rejeitar a hipótese nula, quando temos


uma colineariedade quase perfeita. Neste sentido, o estimador não se torna
muito útil, mesmo que ele ainda seja identificado.

Teste t

Chega-se, agora, na ralização de teste de hipótese, mas no modelo multivari-


ado. Estamos familiarizados com o que o teste t é: quer-se evidências que uma
estimativa é significativamente diferente de um valor especı́fico - comumente,
zero.

Para ver como isto se processa, vamos processar alguns resultados.

1. w é um vetor de variáveis aleatórias j x 1 distribuı́do conjuntamente


como uma normal multivariada N(0,I). Se cada variável aleatória é in-
dependente
 entre si, então todas as j também são normais. Ou seja:
N (0, 1)1
 N (0, 1)2 
w≡
 
.. 
 . 
N (0, 1)j
Então, seja ”A” uma matriz qualquer, que seja possı́vel multiplicar w.
    
a11 a12 . . . a1j N (0, 1)1 a11 N (0, 1)1 + a12 N (0, 1)2 + · · · + a1j N (0, 1)j
 a21 a22 . . . a2j   N (0, 1)2   a21 N (0, 1)1 + a22 N (0, 1)2 + · · · + a2j N (0, 1)j 
Aw =  . =
    
.. .. ..   .. ..
 ..

. . .  .   . 
an1 an2 ... anj N (0, 1)j an1 N (0, 1)1 + an2 N (0, 1)2 + · · · + anj N (0, 1)j

60
Pj
N (0, a211 )1 + N (0, a212 )2 + · · · + N (0, a21j )j N (0, i=1 a21i )
   
 N (0, a221 )1 + N (0, a222 )2 + · · · + N (0, a22j )j   N (0, Pj a2 ) 
i=1 2i 
= =
  
.. .. 
 .   . 
2 2 2 j
N (0, an1 )1 + N (0, an2 )2 + · · · + N (0, anj )j 2
P
N (0, i=1 ani )
0
17
Pode-se, ainda, escrever que Aw ∼ N (0, AA ).
0 0
2. Pense em uma matriz Q, quadrada j x j,na qual Q = Q e Q Q = Q. Assuma
que essa matriz não é a identidade. No apêndice B, demonstra-se que, se ela não
é a identidade, então ela não possui inversa. Ou seja, ela é ranking deficiente.
Chamaremos seu ranking de ”r”.
Assuma, ainda, que essa matriz pode ser escrita decomposta em função de uma
matriz U que é j x r:
0 0
Q = U U , onde U U = I.
Sobre esta segunda propriedade,Pisto pode ser expresso de uma forma que será
0 r 2
mais útil para nós: U U = I ⇒ i=1 Uki = 1, ∀k ∈ [1 : r]
Se isto é verdade, analise a seguinte expressão:

0
z1 = w Qw
0 0
= w UU w
0 0
= (U w) (U w)

Vamos abri-la:
 Pr 2

N (0, Pi=1 U1i )
r 2 
0 0 Pr 2
Pr 2
Pr 2 N (0, i=1 U2i )

(U w) (U w) = N (0, i=1 U1i ) N (0, i=1 U2i ) . . . N (0, i=1 Uji )  .. 
P.r
 
2
N (0, i=1 Uji )
Pr Pj 2 2
Pr
= k=1 (N (0, i=1 Uki )) = k=1 (N (0, 1)2 )P araoleitoratento, f icaclaroquez1
é uma soma de normais independentes padronizadas ao quadrado, isto é, uma
qui-quadrada, com graus de liberdade igual ao rank da matriz Q: r. No apêndice
B, prova-se que o rank de uma matriz é igual ao seu traço - soma dos valores
da diagonal, dando-nos o resultado de que o grau de liberdade dw z1 é o traço
da matriz Q.

Com esses dois resultados muito genéricos, pode-se agora ”dar nome
aos bois”. Então:
17 Notavelmente, mesmo que os componentes do vetor w sejam independentes entre si, os

componentes do vetor Aw, que são combinações lineares dos valores de w NÃO são indepen-
dentes entre si. Com uma reflexão rápida, consegue-se ver a razão: em todos os termos ,
temos as mesmas distribuições de probabilidades apenas combinadas de formas diferentes! É
óbvio que haverá covariância.

61

• w é o vetor σ. De RLM.6, sabe-se que ele se adequa na definição de w.
0
• A é a matriz (X X)−1 X 0 . A única condição para A era ser possı́vel de
0
multiplicar w. De fato, (X X)−1 X 0  é bem definido/
0
• Q é a matriz M ≡ I − X(X X)−1 X 0 . Não é difı́cil ver que ela é simétrica
e idempotente (MM = M). Ademais, no geral, ela não é identidade.
Resta saber se ela pode ser decomposta da forma apresentada. Novamente,
esta discussão está no apêndice e a conclusão é ”sim”.

Agora, basta retomar algumas equações que já passamos:


0
b−β (X X)−1 X 0   0
= = A = Aw ∼ N (0, AA )
σ σ σ

0 0
Notando que, como não poderia deixar de ser: AA = σ 2 (X X)−1 .

Outro resultado:
~ = M (Xb + e)
MY
0 0
= Xb − X(X X)−1 X 0 Xb + e − X(X X)−1 X 0 e = e
~ = M (Xβ + ) = M 
MY
M = e

Seja, também:
0 0 0
ee  MMe  e 0
= = M = w Qw ∼ (tr(Q))
σ2 σ2 σ σ

Estamos quase lá. Uma das últimas ponderações é como chegar na


expressão da estatı́stica de teste. Refletindo um pouco, o teste t nada mais é
do que uma padronização do estimador: retiramos a média e dividimos pelo
desvio padrão. Para qualquer bj ∈ b, sabemos que a média é exatamente βj .
No entanto, e o seu desvio padrão? Ora, a matriz de covariância de b, como
0
se sabe, é: σ 2 (X X)−1 . Nas diagonais, tem-se as variâncias de cada um dos
estimador bj , enquanto nas demais entradas há as covariâncias entre elas.
0
Então, a variância de um bj especı́fico é: σ 2 (X X)−1 2
jj ≡ σ ajj .

Portanto, o teste pode ser escrito como:

bj − β j

σ ajj

62
Exatamente igual no caso simples, não temos como saber σ, de modo
que usamos a soma dos resı́duos ao quadrado, divido pelos graus de liberdade,
para obter um estimador não viesado. Assim, a estatı́stica de teste se torna:

bj −βj

cjj
q
e0 e
n−k

Basta, agora, também como foi feito no caso simples, padronizar o


numerador:

bj −βj

σ (ajj )
q (46)
e0 e
σ 2 (n−k)

Com isto em mãos, pode-se, finalmente, ver o a utilidade de toda a


derivação realizada acima. Fixe uma hipótese para βj . Com isso, conseguimos
encontrar a distribuição. No numerador, temos exatamente um dospelementos
de Aw, os quais, como sabemos é uma normal. Com a divisão por σ (ajj ), ela
se torna uma normal padronizada.
0
No denominador, tem-se, exatamente, w Qw, ou seja, uma qui-quadrada.
Além disso, vamos derivar qual é o rank de M, que é nosso Q: para isso, dado
que a matriz é idempotente, pode-se olhar somente o traço. É fácil, contudo
0
que se note que X X é uma matriz kxk.
0 0 0
tr(In − X(X X)−1 X −1 ) = tr(In ) − tr(X(X X)−1 X )
0 0
= tr(In ) − tr(X X(X X)−1 )
= tr(In ) − tr(Ik )
=n−k

Então, no demoninador, há uma qui quadrada com n − k graus de


liberdade. Estamos, justamente, dividindo-a pelo seus graus de liberdade. As-
sim, no geral, há a razão entra uma normal padronizada e uma qui-quadrada
ponderada pelos seus graus de liberdade: uma t, como gostarı́amos inicialmente.

Daı́, claro, para notar um valor especı́fico, basta colocar este como
hipótese nula, isto é, colocar um valor para βj , como já discutido no caso simples.

63
Teste F

Uma pergunta capciosa: quero testar se β1 e β2 são conjuntamente - ou seja,


ambos - significativamente diferentes de zero, será que posso fazer dois testes t?
Vamos desenvolver.

Eu gostaria de, com pelo menos 1 − α de probabilidade, saber que,


conjuntamente, β1 e β2 são diferentes de zero. Para isso, criei uma região de
rejeição para cada um deles, na qual,
p juntando as duas caudas, a probabilidade
de erro tipo 1 em cada uma é de (1 − α). A saber, se b∗1 e b∗2 são os valores de
estimativa que delimitam os limites das regiões de rejeição, os intervalos seriam:

P r[β1 − sd(b1 )b∗1 < b1 < β1 + sd(b1 )b∗1 ] = 1 − α

P r[β2 − sd(b2 )b∗2 < b2 < β2 + sd(b2 )b∗2 ] = 1 − α

Então, se ambos b1 e b2 estiverem nos intervalos citados, então, com


1 − α de probabilidade, posso não-rejeitar a hipótese de que β1 e β2 são, con-
juntamente, diferentes de zero.

Apesar da boa aparência, existe um erro fundamental nesse raciocı́nio:


assume-se que as probabilidades são independentes entre si - de fato, por isso
só as multiplicamos -, mas isto não é√verdade. Para provar isso, vejamos que,
para chegar nesta probabilidade de 1 − α precisa-se: da hipótese nula e do
desvio padrão das estimadores. Foque neste segundo. O desvio padrão dos
estimadores depende, obviamente, de como o estimador é escrito. Ou seja, o
0 0
intervalo de confiança é função, também, do próprio estimador b: (X X)−1 X y.
Ou, no nosso caso especı́fico, de um componente do vetor de estimadores: b1 no
primeiro caso e b2 no segundo.

Para ter valores para b1 e b2 conjuntamente, usamos a mesma amostra.


Se isto é verdade, então os estimadores possuem uma covariância entre si. Real-
0
mente, todos os valores de σ 2 (X X)−1 fora de diagonal representam covariâncias
entre os diversos componentes de b. No nosso caso, basta observar que não nec-
essariamente o termo (12) da matriz de covariância é diferente de zero para
notar que, realmente, há covariância entre b1 e b2 .

Assim, também há covariância entre os intervalos de confiança, do


que vem ser errôneo simplesmente multiplicar as probabilidades e, de maneira
mais preocupante, realizar dois testes t para testar se, conjuntamente, eles são
diferentes de zero.

Pode-se, claro, realizar algum tipo de correção e ainda se manter no


caminho de realizar dois testes t. Mas isto é mais difı́cil que a alternativa: criar
um teste que consiga fazer conjuntamente com somente uma estatı́stica. Este é
o teste F.

64
Para chegar no mesmo, voltemos para nosso modelo particionado:
~ = X1 β1 + X2 β2 + 
Y

Lembrando que β2 é um vetor, noss objetivo aqui é testar se, conjun-


tamente, os valores de β2 são zero. Ou seja, a hipótese nula é β2 =0.

Para isso, retomemos a equação (45), sobre a estimador de β2 :


0 0 
b2 = β2 + (X2 M1 X2 )−1 X2 M1 

Como antes, para achar a distribuição, aceitamos a hipótese nula:


0 0
β2 = 0. Do que vem b2 = (X2 M1 X2 )−1 X2 M1 . Também já foi discutido
que o estimador b2 possui a seguinte distribuição (demonstrações padrões):
0
N (0, σ 2 (X2 M1 X2 )−1 )
0
Defina V ≡ (X2 M1 X2 )−1 Busca-se a matriz V −1/2 , simétrica e in-
versı́vel, tal que V −1/2 V V −1/2 = I. Vou me dar o luxo de não provar que essa
matriz existe, porque é bem chato de se fazer. De qualquer forma, sei que:

V −1/2 b2 ∼ N (0, I)

Ou seja, não só temos uma normal padronizada mas também elimi-
namos a covariância que existia entre os termos - sacou aonde estamos indo?
Já foi demonstrado em outras situações que a seguinte expressão nos dá uma
qui-quadrada:
0 0
(V −1/2 b2 ) V −1/2 b2 = b2 V −1/2 V −1/2 b2
0
= b2 V −1 b2
0 0
= b2 (σ 2 (X2 M1 X2 )−1 )−1 b2
0 0
b2 (X2 M1 X2 )b2
= ∼ χ(g)
σ2

Lembrando que g é o número de parâmetros em β2 ou, como veremos


mais para frente, o número de restrições lineares. Uma vez, somos convocados
a usar um estimador para σ 2 - está ficando chato já!.

0 0
b2 (X2 M1 X2 )b2
e0 e
n−k

Como já demonstrado muitas vezes, o denominador também é uma


qui-quadrada, com n − k graus de liberdade. Por fim, para chegar no resultado
que desejamos, vamos dividir o numerador por uma constante, g. Embora os
momentos mudem, esta operação por uma constante não altera a distribuição,
qualquer que ela seja. Daı́, chegamos em:

65
0 0
b2 (X2 M1 X2 )b2
g
∼ F (g, n − k) (47)
e0 e
n−k

Na equação acima, temos uma razão entre duas qui-quadradas ponder-


adas pelos seus graus de liberdade. Isto é exatamente a definição da distribuição
F. Via de regra, ela possui a seguinte forma:

A fim de realizar o teste hipótese, elege-se um ponto crı́tico, digamos b∗2


no qual, F (b∗2 ) = 1 − α. Qualquer valor de da equação (47) que fique seja maior
do que b∗2 nos dá segurança para rejeitar a hipótese de que, conjuntamente, os
parâmetros em β2 sejam diferentes de zero. Fique atento no que isso quer dizer:
ao menos UM dos valores de β2 é diferente de zero. Não se pode afirmar que
todos são diferentes de zero. É uma diferença sutil.

Posto isso, vamos, agora, tentar generalizar um pouco a equação (47).


Chegamos nela ao colocar a hipótese nula de que β2 = 0. Mas não necessari-
amente só queremos testar esta hipótese. De forma mais geral, gostarı́amos
de que colocar como hipótese nula um vetor r qualquer, como, por exemplo,
1 4 . . . 7 ou qualquer coisa do gênero. De maneira ainda mais geral, não
queremos só igualar os parâmetros a números especı́ficos. Seria interessante re-
alizar combinações lineares entre eles. Por exemplo, eu poderia querer saber se
a diferença entre entre dois parâmetros qualquer é significativamente diferente
de zero. Para ver como isso seria expresso, imagine que só há três parâmetros e
quero testar se, ao somá-los, eu tenho um resultado nulo. Minha hipótese nula
seria a seguinte:
 
 β1 
1 1 1  β2  = 0
β3

Ou, da forma mais geral possı́vel:

Rβ = r

Em que R é uma matriz gxk2 , com k2 o número de parâmetro e g,


como preconizado, o número de restrições lineares. Veja, incluvive, que se pode
testar a hipótese de que, conjuntamente, eles são iguais a zero. Basta colocar;
    
1 0 0 β1 0
0 1 0 β2  = 0
0 0 1 β3 0

A distribuição ainda permanece uma F? Provaremos que sim:

66
0 0
Rb − r ∼ N (Rβ − r, σ 2 R(X X)−1 R )

Fique atento para como cada coisa está escrita. Rβ − r = 0 é nossa


hipótese nula ou, ainda, o nosso parâmetro: ela não possui distribuição. O que
possui distribuição, veja só, é Rb - r. Assim, sob a hipótese nula, há:
0 0
Rb − r ∼ N (0, σ 2 R(X X)−1 R ) =
0 0
Assim, como antes, defina G ≡ R(X X)−1 R e G−1/2 simétrico tal que
−1/2
G GG−1/2 = I. Assim, vamos trabalhar com: G−1/2 (Rb − r). Que é uma
normal padronizada. Daı́, como antes:

0 0
(G−1/2 (Rb − r)) G−1/2 (Rb − r) = (Rb − r) G−1 (Rb − r)
0 0
(Rb − r) (R(X X)−1 R)−1 (Rb − r)
= ∼ χ(g)
σ2

Com o mesmo processo de antes, findamos com:

0 0 0
(Rb−r) (R(X X)−1 R) (Rb−r)
g
(48)
e0 e
n−k

E o teste segue exatamente como anteriormente.

O último ponto a se fazer sobre o teste F é buscar uma forma mais


compreensı́vel e interpretável de escrevê-lo. Tentarei passar por todas as partes
com esmero. Primeiramente, lembre de:
~ = X1 b1 + X2 b2 + e
Y

E, também, de:

0 0
M1 = I − X1 (X1 X1 )−1 X1

E que o modelo restrito é o seguinte:

~ = X1 br + er ⇐⇒ er = Y
Y ~ − X1 br

=Y~ − X1 (X 0 X1 )−1 X 0 Y
1 1
= M1 Y

67
Então:

~ = er = M1 X1 b1 + M1 X2 b2 + M1 e
M1 Y
= M1 X2 b2 + M1 e

0 0 0 0
Assim, er = b2 X2 b2 + e M1 .

0 0 0 0
er er = b2 0 (X2 M1 X2 )b2 + b2 X2 0 e + e M1 X2 b2 + e0 M1 e

Agora, para deixar a equação mais enxuta,


 vejamos algumas pro-
x11 x21 . . . xk1
 x12 x22 . . . xk2 
priedades. Primeiramente, foquemos na matriz X:  .
 
.. .. .. 
 .. . . . 
x1n x2n ... xkn

No nosso contexto, a matriz X é particionada em:


 
x11 x21 . . . xk1 1
 x12 x22 . . . xk2 2 
X1 =  .
 
.. .. .. 
 .. . . . 
x1n x2n . . . xk1 n
 
x(k1 +1)1 x(k1 +2)1 ... xk1
 x(k1 +1)2 x(k1 +2)1 ... xk2 
X2 = 
 
.. .. .. .. 
 . . . . 
x(k1 +1)n x(k1 +2)n ... xkn

Assim, é possı́vel ver facilmente dois pontos: X = X1 X2 e, também,
 0
0 X1 0
que: X = 0 Por fim, também sabemos que: X e = 0
X2
   
x11 x21 ... x1n e1
x21 x22 ... x2n   e2 
 ..  =0
   
 .. .. .. .. 
 . . . .  .
xk1 xk2 ... xkn en
 0 
X1 0 0
Ou, se usamos as partições: 0 e =0 ⇐⇒ X1 e = 0, X2 e = 0.
X2

68
Dito isso, uma propriedade que também nos será útil é a seguinte:
0 0 0 0 0
e M 1 = e − e X1 (X1 X1 )−1 X1
0 0 0 0
= e − (X1 e)(X1 X1 )−1 X1
0
=e

Com essas duas propripedades, pode-se retomar e enxutar a equação


gerada acima.

0 0 0 0
er er = b2 0 (X2 M1 X2 )b2 + b2 X2 0 e + e M1 X2 b2 + e0 M1 e
0 0
= b2 0 (X2 M1 X2 )b2 + e X2 b2 + e0 e
0 0 0
= b2 0 (X2 M1 X2 )b2 + (X2 e) b2 + e0 e
0
= b2 0 (X2 M1 X2 )b2 + e0 e

Ou seja, chega-se na conclusão de que:


0 0
er er − e0 e = b2 0 (X2 M1 X2 )b2

A beleza deste resultado é que isso é exatamente o numerador do teste


F da equação (47).

0 0 0 0
b2 (X2 M1 X2 )b2 er er −e0 e er er −e0 e 1−(Rr )2 −1+R2
g g yN y g g
= = =
e0 e e0 e yN y e0 e 1−R2
n−k n−k n−k n−k

(R)2 −Rr 2
g
1−R2
(49)
n−k

Explicitando interpretações: o ”modelo restrito” é aquele em que apli-


camos a hipótese nula, ou seja, β2 = 0 e, por isso, estimamos somente com as
variábeis em β1 ; enquanto o modelo não restrito é aquele que esta hipótese não
está aplicada, de modo que usamos X1 e X2 . Assim, o que estamos realizando
é fazendo uma comparação entre os R2 dos dois modelos. Se pensarmos que,
quanto maior a estatı́stica F, maior a chance de rejeição, então, se nosso modelo
irrestrito fitta muito melhor que o restrito, a probabilidade de β2 ser zero, tende
a diminuir - afinal, se fosse zero, o modelo irrestrito não deveria ser tão melhor
que o restrito. Faz sentido e é bem elegante, não?

69
Tutorial 15

O assunto tratado aqui é ”variáveis binárias” ou ”qualitativas” ou variáveis


que só podem tomar dois valores, comumente ”0”, indicando ausência de uma
caracterı́stica ou ”1”, demonstrando a presença.

Começamos, primeiramente, com a variável ”gênero”. Uma ideia ini-


cial é ter um modelo com três variáveis: Xmasc , um vetor n x 1, em que os
elementos assumem valor 1 se o indivı́duo for homem e valor 0 se o indivı́duo
não for. Xf em possui o mesmo princı́pio.
 Outras variáveis, quantitativas, estão
1
1
juntas na matriz Xk , que é nxk. ~1 =  . 
 
 .. 
1

Aquilo que usamos para estimar, então, é, com foco especial na con-
stante. Escreveremos o modelo, primeiramente, com variáveis aleatórias e, de-
pois, para a forma de estimação

Y = β0 + Xmasc βmasc + Xf em βf em + X~k βk +  (50)

E a estimação seira feita por:

~ = β0 + Xmasc
Y ~ βmasc + Xf~em βf em + Xk βk + 

Este modelo comete um erro fundamental, contudo: existe colineariedade


perfeita aqui. De fato, tome a matriz X, que é a união dos dois vetores e da ma-
triz Xk , com a primeira coluna sendo a constante: X= ~1 Xmasc ~ Xf~em Xk
 
−1
1
 
1
 
Escolha o seguinte λ:  0  Ora,
~  
0
 
 .. 
 . 
0

X ~λ = −~1 + Xmasc
~ + Xf~em = −~1 + ~1 = 0

Assim, fica claro que a colineariedade perfeita ocorre porque, ao somar


os dois vetores de variáveis qualitativas, sempre teremos o valor ”1”. Isto é óbvio
porque alguém é - ao menos nesse exemplo - homem ou mulher, não podendo

70
haver um par (0,0) ou (1,0), mas somente (1,0) ou (0,1). Assim, para evitar que
essa situação ocorra, há duas opções: ter somente uma das variáveis qualitativas
ou realizar a regressão sem a constante.

Raramente estamos justificados a retirar a constante, então focaremos


no primeiro caso. Embora possa parecer estranho no inı́cio, nós, rigorosamente,
não estamos perdendo informação. Ao saber que alguém é homem, sei, auto-
maticamente, que ele não é mulher. Assim, a informação que estava contida no
outro vetor qualitativo é totalmente redundante, podendo ser omitido. Então,
fica-se, com, escrito com variáveis aleatórias:

Y = β0 + Xmasc βmasc + X~k βk +  (51)

A beleza desta formulação é que ficamo com dois modelos ”escondi-


dos”, aqui. Para visualizar isto, interpretemos o que exatamente quer dizer o
coeficiente bmasc . Façamos com equações, depois colocando a interpretação.

E[Y |Xmasc = 1, Xk ] = β0 + βmasc + Xk βk


E[Y |Xmasc = 0, Xk ] = β0 + Xk βk
⇐⇒ βmasc = E[Y |Xmasc = 1, Xk ] − E[Y |Xmasc = 0, Xk ]

Agora, a interpretação fica cristalina: o parâmetro βmasc , que esti-


mamos por meio de bmasc é a diferença das médias saalariais entre homens
e mulheres. Ou, ainda, o aumento de salarial que se ganha por ser homem.
De maneira muito relevante, então, quando se tem uma variável binária, sua
interpretação sempre é em relação a algum grupo ”base” - neste caso, mulheres.

Mais importante ainda: a diferença aqui é só nas médias ou, ainda,
sendo mais intuitivo, nas intersecções. Por exemplo, se o indivı́duo é uma mulher
com Xk nulo (ou seja, sem educação, pais com salário zero e qualquer outra
caracterı́stica relevante), ela teria um salário de 0 . Um homem, contudo, teria
um salário de β0 +β1 . No entando, quando eles ganham, por exemplo, um ano a
mais de educação, o aumento no salário é idêntico para ambos (dado por algum
βeduc dentro de βk ), pelo modelo dado. A inclinação é a mesma, no caso.

É possı́vel, no entanto, modelar para que, por exemplo, o efeito de


educação no salário seja diferente para homens e mulheres. Para isso, retiremos
de Xk a coluna Xeduc ~ e façamos o seguinte modelo:

Y = β0 + Xmasc βmasc + (Xmasc Xeduc )βint + Xeduc βeduc + Xk−1 βk−1 + 

71
Como é o modelo masculino, ou seja, onde Xmasc = 1?

E[Y |Xmasc = 1, Xk ] = β0 + βmasc + Xeduc (βint + βeduc ) + Xk−1 βk−1

Aqui, se aumetarmos um ano de educação, a média se altera por βint +


βeduc .

E no caso feminino, com Xmasc = 0? É fácil de ver que:

E[Y |Xmasc = 0, Xk ] = β0 + Xeduc (βeduc ) + Xk−1 βk−1

E o efeito da educação passa a ser somente βeduc . Então, com este


modelo, que chamamos de interacional - a ”interação” ,ou int, é o produto entre
as variáveis de ser masculino e a educação - tem-se que o retorno, e não só a
média, também é diferente para homens e mulheres.

Uma última discussão é sobre múltiplas variáveis binárias. Por exem-


plo, pode-se estar interessado em saber se a média/retorno de outras variáveis
se altera não só pelo gênero, mas também pelo estado civil. Não há uma
diferença fundamental entre os modelos e as principais ideias são mantidas. Pre-
cisamos ficar atentos para não gerar colineariedade: nunca podem haver todas
as instâncias de variáveis mutuamente excludentes e que, unidas, geram todas
as possibilidades. Então, colocar, no mesmo modelo ”casado” e ”solteiro” como
variáveis binárias gerará problemas. De maneira menos óbvia, colocar os cinco
continentes também é errado - afinal, não se pode estar em dois continentes ao
mesmo tempo e só se pode estar em um dos cinco.

Ademais, quando há múltiplas variáveis binárias, deve-se ficar atento


para qual é o grupo base. Por exemplo, se há a variável ”casado” e ”homem”, o
grupo-base será aquele definido quando estas duas variáveis são 0: ”mulher” e
”solteira”. A partir destr grupo, vemos as diferenças de média e as interações.
Então, se temos um indivı́duo casado e mulher, os seus parâmetros nos darão
a diferença com o grupo base: o quanto se ganha a mais do que uma mulher
solteira, por exemplo.

Tutorial 16-17

Entra-se, agora, na matéria pós-prova parcial: a teoria assintótica. De maneira


simples, devemos perguntar: o que ocorre com nossos propriedades quando
possuı́mos infinitos indivı́duos na amostra? Ora, de princı́pio, pode-se imaginar

72
que teremos uma vida mais fácil. E, de fato, de um ponto de vista puramente
mecânico, é verdade. Contudo, a teoria se torna progressivamente complicada.
Vamos demonstrar alguns desses resultados, os quais serão utilı́ssimos muito em
breve.

Lei Fraca dos Grandes Números

Em Probabilidade, aprendemos a chamada ”desigualdade de Markov”.

Sua derivação é simples. Seja X uma variável aleatória que só toma
valores positivos qualquer.

Z ∞
E[X] = Xf (x)
−∞
Z a Z ∞ Z ∞ Z ∞ Z ∞
= Xf (x) + Xf (x) ≥ Xf (x) > af (x) =a f (x)
0 a a a a
= aP (X ≥ a)

Então, pode-se colocar que

E[X]
P (X ≥ a) ≤ (52)
a

Que é a desigualde de Markov. Para prosseguir, tomemos agora uma


variável aleatória especı́fica. X = |Y − E[Y ]|

E[(Y − E[Y ])2 ]


P [|Y − E[Y ]| ≥ a] = P [(Y − E[Y ])2 ≥ a2 ] ≤
a2

V ar(Y )
P [|Y − E[Y ]| ≥ a] ≤ (53)
a2

Esta última equação é a ”Desigualdade de Chebyshev”. Precisamos


somente de um mais um passo agora. Seja uma séria de variáveis aleatórias Zi
todas independentes e identicamente distribuı́das. O processo que eu farei agora
é retirar um valor de cada uma delas, somar e dividir pelo número de valores
que tenho. Ou seja, estou realizando uma média amostral. Claro, esta média
depende fundamentalmente de quais valores de Zi eu coleterei. E esses valores

73
são variáveis aleatórias. Então, esta média amostral também é uma variável
aleatória. Mais formalmente:

Z1 + Z2 + · · · + Zn
Z̄ =
n

Nossa variável Y, que colocaremos na desigualdade (53), será precisa-


mente Z̄. Então, lembrando que eles tem as mesmas distribuições e são inde-
pendentes entre si:

E[Z1 + Z2 + · · · + Zn ]
E[Z̄] =
n
E[Z1 ] + E[Z2 ] + · · · + E[Zn ]
=
n
nE[Z]
=
n
= E[Z]

Onde E[Z] = E[Zi ], ∀i.

V ar(Z1 + Z2 + · · · + Zn )
V ar[Z̄] =
n2
V ar(Z1 ) + V ar(Z2 ) + · · · + V ar(Zn )
=
n2
nV ar(Z)
=
n2
V ar(Z)
=
n

Assim, ao aplicar em Chebyshev:

V ar(Z)
P [|Z̄ − E[Z]| ≥ a] ≤ (54)
n2 a 2

O que ocorre se n tende ao infinito? Ou seja, se, para fazer a média


amostral, temos MUITOS valores? Isto depende se a variância de Z é finita ou
não. Se for infinita temos uma indeterminação, se for finita, o lado direito tende
a zero. De maneira mais informal, pode-se escrever:

P [|Z̄ − E[Z]| ≥ a] ≤ 0

74
Como uma probabilidade só pode ser positiva ou nula, chega-se na
conclusão que:

P [|Z̄ − E[Z]| ≥ a] = 0

Isto quer dizer que, quando temos muitos valores, a probabilidade da


média amostral se distanciar algum valor ”a” da média real E[Z] tende a zero.
Isto é chamada ”convergência” em probabilidade. Sendo rigoroso, o que ocorre
é que: limn−>∞ P [|Z̄ − E[Z]| ≥ a] = 0

Esta é a ”Lei Fraca dos Grandes Números”.

A parte de V ar(Z) ser finita é muito importante. Sem isso, o teorema


não funciona. Sendo muito rigoroso, precisamos garantir que isto é o caso sem-
pre. Não vou explicitar isso em todas as situações - até porque, geralmente, a
hipótese que precisamos para isso é muito evidente. Farei somente nos casos
iniciais e depois deixarei ao cargo do leitor.

Teorema do Limite Central

Só vou enunciá-lo. A demonstração é demasiadamente longa e envolve a apre-


sentação de muitos conceitos.

O Teorema do Limite central é uma proposição que afirma que: ”a


soma padronizada de ’n’ variáveis aleatórias independentes converge a uma dis-
tribuição normal, independne da distribuição das variáveis aleatórias somandas,
quando ’n’ tende ao infinito”.

Para entender melhor este enunciado, primeiro discutamos o que é


”convergir a uma distribuição”. Seja uma sequência de variáveis aleatórias,
que chamaremos de [Xn ]. Ou seja, (X1 , X2 , . . . Xn ) com cada uma delas sendo
uma variável aleatória. Cada uma dessas variáveis possui uma distribuição
de probabilidade, que chamaremos de f (Xn ). Assim, gera-se, também, uma
sequência de distribuições de probabilidade: [f (Xn )]. Agora, note o seguinte: se
fixarmos um valor ”x” para cada uma das variáveis aleatórias em [Xn ], [f (Xn )]
se torna uma sequência de números reais. A saber, são as probabilidades que
cada uma das variáveis possuem de assumir o valor ”x”. Imagine que, para x=0,
a sequência seja algo como:

[f (X1 = 0), f (X2 = 0), . . . , f (Xn = 0)] = [0.1, 0.01, . . . 0.1n ]

Dito isso, tome f(G) como outra distribuição de probabilidade. Afirmemos


também que f (G = 0) = 0. Você consegue perceber que a sequência [Xn ],
quando n tende ao infinito e x = 0, tende exatamente para f (G = 0)? Esta a
ideia. Dizer que a sequência [Xn ] converge para a distribuição f(G) é dizer que,
para todo x real, a sequência converge para f(G=x).

75
Com tudo isto disto, tome a seguinte sequência de variável aleatórias,
com todos os Xi independentes entre si e identicamente ditribuı́das. Elas pos-
suem média e variância. A saber, E[Xi ] = µeV ar(Xi )=σ 2

[X1 , X1 +X
2
2 X1 +X2 +X3
, 3 , . . . , X1 +X2n+···+Xn ]

Associada a ela, está a sequência das distribuições de probabilidade:

[f (X1 ), f (X1 )+f


2
(X2 ) f (X1 )+f (X2 )+f (X3 )
, 3 , . . . , (X1 )+(X2n)+···+Xn ]

Então, o Teorema d limita central nos afirma que, para qualquer x


fixado, a sequência irá convergir para a distribuição de probabilidade de uma
normal. Mais precisamente, essas somas devem ser padronizadas, ou seja, a
média delas deve ser zero. Deixando mais claro o enunciado, se Sn é a soma
(X1 )+(X2 )+···+Xn
n ]. Então:

√ d
n(Sn − µ) ⇒ N (0, σ 2 ) (55)

O sqrt(n) possui um motivo especial. Primeiramente, ele não altera a


distribuição. Então, qual a relevância? Imagine que ele não estivesse. Sabe-se
2
que: V ar(Sn ) = sigma n . Quando n tendesse ao infinito, ter-se-ia uma dis-
tribuição com variância zero, ou, o que é o mesmo, assumindo somente um
número. Não é isso que queremos: estamos interessados na distribuição em si.
Assim, multiplicamos por raiz de n.

Continous Mapping Theorem

Também um dos teoremas que mais vamos usar daqui para frente. Basicamente,
é um conjunto de resultados. Eu não os demonstrarei, mas tão somente os
deixarei explı́citos e os explicarei.

Primeiramente:

P P
Xn ⇒ X → g(Xn ) ⇒ g(X)

Isto é, se uma sequência de variáveis aleatórias converge em probabil-


idade para um valor, qualquer função desta sequência converge para a mesma
função deste valor.

Em especı́fico,
 se pensarmos em um vetor de sequência de variáveis
aleatórias Xn Yn , nos quais ambos possuem convergência em probabilidade,
X e Y, isto também é vlaido para este valor. Ou seja:

76
  P     P  
Xn Yn ⇒ X Y → g( Xn Yn ) ⇒ g( X Y

   
Isto vale, claro, para funções como g( Xn Yn ) = Xn +Yn ou g( Xn Yn ) =
Xn Yn .

Outra afirmação que nos será cara é a seguinte:

P D D
Xn ⇒ X, Zn ⇒ Z → Xn Zn ⇒ XY

Ou seja, se uma variável converge em probabilidade para uma con-


stante, enquanto outra converge para uma distribuição, o produto delas conver-
P
girá para a distribuição multiplicada pela constante. Por exemplo, se Xn ⇒ 4 e
D D
Zn ⇒ N (0, 1), Xn Zn ⇒ N (0, 4).

Embora o teorema seja mais extenso do que isto, estes resultados nos
bastam.

O MQO Assintótico

Vamos aplicar as ideias acima no caso do MQO. Queremos provar consistência,


que foi definida na seção em que falamos das propriedades desejáveis de um
estimador. Ademais, vamos, agora, usar um conjunto um pouco diferente de
hipóteses estatı́sticas.

RLM 1 - Modelo linear nos parâmetros

~ + .
Y = Xβ

RLM 2 - Amostragem aleatória, independente e identica-


mente distribuı́da

RLM 3 - Xnxk possui rank cheio

RLM 4 - Ortogonalidade
~ i i ] = 0
E[X

RLM 5 - Variância constante


V ar[i |Xi ] = σ 2

77
Então, há duas mudanças. Primeiramente, substituı́mos a esperança
condicional zero pela ”ortogonalidade”. Depois, a premissa de normalidade não
está mais presente. Tudo isso será discutido mais profundamente ao longo desta
seção.

Agora, retomemos a matriz Xnxk :


 0

x11 x21 . . . xn1
 ~
X
 10 
  ~2 
 x12 x22 . . . xn2   X 
=

 .. .. .. .
..   .. 
 
 . . .  . 

0
x1n x2n . . . xnn
X~n
0
~1 ~2 X~n Assim, retome o estimador:

E, claro, X é: X X ...

0 0
b = (X X)−1 X Y ~
Xn 0 n
X
=( ~ iX
X ~ i )−1 ~ i Yi
X
i=1 i=1
0
Pn ~ iX
~i Pn ~
X
i=1 −1 i=1 Xi Yi
=( )
n n
Pn ~ ~ 0 Pn ~ ~ 0
Xi Xi −1 i=1 Xi (Xi β + i )
= ( i=1 )
n n
Pn ~ ~ 0 Pn ~
Xi Xi −1 i=1 Xi i
= β + ( i=1 )
n n

Note que as divisões por ”n” se cancelam. Agora, atentemo-nos para o


fato de que X ~ i é uma variável aleatória, pois, para cada amostra que retiramos,
0

o valor, para cada i, será diferente. O mesmo para i . Assim, X ~ iX


~i e X
~ i i são
variáveis aleatórias. Pela hipótese RLM 2, as diferentes variáveis associadas a
Pn ~ ~ 0 Pn ~
indivı́duos diferentes são independentes entre si. Logo, i=1 X i Xi e i=1 Xi i
são somas de variáveis aleatórias independentes entre si. Mais do que isso,
quando dividas por ”n” são a média amostral... Que é precisamente o assunto
da Lei Fraca dos Grandes Números.

Por meio dela, nós sabemos que a média amostral converge, em proba-
bilidade, para a esperança da distribuição das variáveis aleatórias que a compõem,
quanto n tende ao infinito. Formalmente, no nosso caso:

Pn ~ i i
i=1 X P ~ i i ] = 0
⇒ E[X (56)
n

78
A igualdade final advém de RLM 4. Interessantemente, imagine que
tı́vessemos a mesma RLM 4 que havia antes: E[i |Xi ] = 0. Veja:
~ i i ] = E[E[X
E[X ~ i i ]|X
~ i ] = E[X
~ i E[i |Xi ]] = E[0|Xi ] = 0

Que legal! A hipótese de antes implica a de agora. Embora eu não vá


provar isso, o contrário não é verdadeiro. Ou seja, não é verdade que
~ i i ] = 0 ⇒ E[i |Xi ] = 0
E[X

Então, a hipótese E[i |Xi ] = 0 é mais ”forte”, no sentido de abarcar


mais situações, do que E[X ~ i i ] = 0. E é exatamente por isso que estamos usando
a segunda: quanto mais fraca é nossa hipótese, mais fácil é de argumentar que
ela é realmente verdadeira.
0
Pn
X ~
~ X
Tratemos agora da outra parte do estimador. A saber: ( i=1n i i )−1 .
Para isso, vamos usar ”Continuos mapping theorem”, que apresentamos sem
demonstração. Disto, se pode afirmar que, novamente usando a lei dos grandes
números:

0
Pn ~ iX
~i 0
X P ~ iX
~ i ])−1
( i=1
)−1 ⇒ (E[X (57)
n
0
~ iX
Pode-se ter certeza que o valor (E[X ~ i ])−1 existe, em decorrência da
hipótese RLM 3.

Com esses dois resultados, pode-se demonstrar a consistência do esti-


mador ”b”:

0 0
P ~ iX
~ i ])−1 E[X
~ i i ] = β + (E[X
~ iX
~ i ])−1 0 = β
b ⇒ β + (E[X

Então, o MQO, além de ser BLUE, também é consistente, demon-


strando sua importância como estimador.

Testes de hipótese

Teste T (ou não)

Esta seção é relevante por um motivo simples: para chegar no teste T


e no teste F, usávamos a hipótese RLM 6, a qual, agora, não está mais presente.
Será que conseguimos ainda usar estes mesmos testes?

79
Para isso, derivemos qual é a distribuição do estimador. Como é de se
esperar, um resultado muito relevante será o Teorema Central do Limite.

Para isso, multipliquemos b por n, algo que, como já discutido, cer-
tamente não altera sua distribuição.

0
Pn ~ ~ Pn ~
√ i=1 Xi Xi −1 i=1 Xi i

n(b − β) = ( ) n
n n

Pn ~  √
X
Foque no termo i=1n i i n. Pode-se aplicar o Teorema Central do
Limite nele? Ora, este afirma que: se Sn é a média amostral entre variáveis
independentes, então:
√ d
n(Sn − µ) ⇒ N (0, σ 2 )

Pn ~ 
X
O primeiro ponto a notar que, pela RLM 2, i=1n i i é uma soma de
variáveis independentes, dado que estamos somando diversos indivı́duos. Disto,
P n ~ i i
X
vem que, neste caso, Sn ≡ i=1
n .

Qual é a esperança de Sn ? É fácil ver que,√pela RLM.4, ela é zero. Do


que vem que µ = 0. E, após a multiplicação por n chega-se no fato que se
pode aplicar o Teorema do Limite Central neste caso.

Um último ponto é saber qual a variância. Pelo enunciado do teorema


central do limite, precisamos nos preocupar, somente, com a variância de cada
termo individiual. Não é um trabalho difı́cil:

0
~ i i ) = E[(X
V ar(X ~ i i )(X
~ i i ) ]
0
~ i i 0 X
= E[(X ~
i i ]
0
~ i i 0i X
= E[E[(X ~ i |X]]
0
~ i E[i 0i |X]
~ iX
= E[(X
0
~ iX
= σ 2 E[X ~i ]

Veja: para que a variância seja finita, basta que E[X ~ iX


~ i ] seja uma
matriz com valores finitos. Esta é a hipótese que precisamos para poder aplicar
a lei dos grandes números. Esse tipo de hipótese de ”estabilidade” ocorrerá
sempre daqui para frente.

80
Com isso:

Pn ~ i i √ 0
X d ~ iX
~ i ])
i=1
n ⇒ N (0, σ 2 E[X (58)
n

0
~ iX
Dito isso, agora só multiplicar por: (E[X ~ i ])−1 que é o limite, em
0
Pn
X~i X
~i
probabilidade, de i=1
n )−1 . Assim, há que:

√ d
0 0 0 0 0
~ iX
n(b − β) ⇒ (E[X ~ i ])−1 N (0, σ 2 E[X
~ iX
~ i ]) = N (0, E[X
~ iX
~ i ])−1 σ 2 E[X
~ iX
~ i ]E[X
~ iX
~ i ]−1 )
0
~ iX
= N (0, E[X ~ i ])−1 σ 2 )

Também se pode fazer uma aproximação disso. A ideia aqui é que


nunca, efetivamente, tem-se ”infinitos” indivı́duos. O que há é soomente os
somatórios amostrais de antes que, quando n tende ao infinito, transformam-se
nas esperanças. No caso:
Pn 0 −1
~ ~
i=1 Xi Xi σ2 ) 0
(b − β) ∼ N (0, )
n = N (0, (X X)−1 σ 2 )

Esta conclusão pode parecer banal, porque já havı́amos chegado antes.
Mas ela é diferente: antes, concluı́mos isso ao aceitar que e possuı́a uma dis-
tribuição normal. Era uma distribuição exata. Agora, sem esta hipótese, esta-
mos somente usando uma aproximação.

Para chegar no teste t, precisamos padronizar esta distribuição. A


saber, precisaremos retirar a média - que, neste caso é zero - e tirar o dividir pelo
0

desvio-padrão. Sep afirmarmos que E[X ~ iX


~ i ])−1 ≡ A∗, então o desvio padrão,
como antes, será σ a∗jj . Para seguir um caminho parecido com o que fizemos no
caso não-assintótico, iniciemos a partir de (b − β), demonstrando a equivalência.


(b − β) n(b − β)
√ ∗ =
σ a∗jj
p
σ ajj

n

Então, colocamos os estimadores para sigma que estamos acostumados.


Além disso, precisa-se padronizar a normal do numerador, como havı́amos feitos
antes.

81
√ √
√ n(b−β) n(b−β)
√ √
n(b − β) a∗
jj σ a∗ jj
q 0 p = q 0 =q 0
e e e e e e
n−k a∗jj n−k σ 2 (n−k)

Nada de novo até aqui. O que é devemos chamar atenção, então, é para
o seguinte: como n é muito grande - ”infinito” - tanto faz dividirmos por (n-k)
ou por n, considerandoPque n é muito maior do que k. Com isto em em mente,
0 n
e2i
tome nota de: ene = i=1 n . Se considerarmos e2i = zi temos exatamente o
cenário ideal para o uso da lei dos grandes números. Para onde isto converge?
Para chegar a esta resposta, lembremos que e = M .

0 0
ee  M
=
n n
0 0 0 0
  −  X(X X)−1 X 
=
n
0 0
Pn 2 Pn ~ Pn X ~ ~ Pn ~
i=1 i i=1 i Xi i=1 i Xi −1 i=1 Xi i
= − ( )
n n n n

Agora, coloque n ao infinito:

0
0 0
ee P ~ i ]E[X
~ iX
~ i ]−1 E[X
~ i i ] = E[2i ]
⇒ E[2i ] − E[i X
n

Pela RLM. 5, E[2i |X] = σ 2 . Assim, pela Lei das Expectativas Iteradas,
E[2i ] = σ 2 . Portanto:

0
ee P 2
⇒σ
n

Isto é muito notável porque, levando n ao infinito, nossa expressão


para o teste T se torna:

√ √ √
n(b−β) n(b−β) n(b−β) √
√ √ √
σ a∗ jj σ a∗ jj σ a∗ jj n(b − β)
= q = =
σ a∗jj
q q p
e0 e e0 e σ2
σ 2 (n−k) σ 2 (n) σ2

82
Este último resultado é somente uma normal padronizada! De forma
relevante, o test T NÃO existe no mundo assintótico. Nós usamos, simples-
mente, um teste ”Z”, em que nossa estatı́stica de teste é uma normal. De
muitas maneiras, é um resultado muito interessante: o test t só surge porque
temos uma amostra pequena!

Teste F (ou não)

Lembremos que, no teste F estamos interessados, da maneira mais


genérica possı́vel, em testar restrições lineares. Assim, estamos interessados
√ na
distribuição de Rb−r. Ora, novamente, trabalhar com isto ou com n(Rb−r) é
equivalente. Desta vez, façamos com o primeiro: Rb−r, para o qual já sabemos a
0 0
distribuição aproximada: N (Rβ −r, R(X X)−1 R σ 2 ). Com isso, pode-se chegar
na mesma conclusão que fizemos para o teste F, no caso não assintótico, que já
foi demonstrado:

0 0 0
(Rb − r) (R(X X)−1 R )−1 (Rb − r)
∼ χ(g)
σ2

Neste momento, colocávamos o estimador de σ 2 . No entanto, aqui,


quando n for ao infinito, cairemos na mesma situação do teste t: como o esti-
0
mador ene é consistente, ele convergirá, em probabilidade, exatamente para σ 2 .
Ou seja, não vamos alterar em nada a distribuição.

O teste F, portanto, neste contexto assintótico, torna-se uma qui-


quadrada, somente.

Uma pequena reflexão

Sempre que estamos trabalhando em uma mostra não infinita , realizar


inferência só é possı́vel com hipóteses sobre as distribuições dos erros - no nosso
caso, sempre normalidade.

No entanto, obviamente, nunca há uma amostra realmente ”infinita”,


de modo que terı́amos que usar aproximações para os testes acima. Por exem-
plo, em todo local que há uma esperança seria necessário substituir pela média
amostral que converge para esta esperança. Todo local que há uma variância é
necessário colocar um estimador.

Então, dado que nunca estamos de fato nesse mundo assintótico, é


necessário uma hipótese que a amostra é grande o suficiente para que possamos
tratá-la como infinita. Não é algo tão absurdo: um número que, por exemplo,
é zero até a vigéssima sexta casa pode ser tratado como exatamente zero em
praticamente todos os contextos.

83
A reflexão final é que inferência é um bicho difı́cil de lidar: de qualquer
forma, com muitos ou poucos indivı́duos na amostra, precisa-se de uma série de
hipóteses :P

Tutorial 18

Aqui, começa-se a quebrar hipóteses. Especificamente, neste tutorial quebra-se


a hipótese RLM.5. Ou seja: V ar(i |X ~ i ) = E[i 0 |X
~ i ] = σ2
i i

Como já explicado à exaustão, também vale para toda a amostra:


0
V ar(i |X) = E[i i |X] = σi2 De forma mais agregada, tem-se que:
 0   2 
E[1 1 |X] 0 ... 0 σ1 0 ... 0
0
0
 0 E[2 2 |X] . . . 0  0 σ22 ... 0 
Ω = E[ |X] =   =  ..
   
.. .. .. .. .. .. .. 
 . . . .  . . . . 
0
0 0 ... E[n n ] 0 0 ... σn2

Ou seja, cada indivı́duo possui um erro com variância diferente, agora!


Quais são os efeitos disso? Se lembrarmos da distribuição do MQO assintótico,
nós, antes de a explicitarmos, concluı́mos qual era sua variância. Tentaremos
fazer isso novamente, mas agora com esta nova hipótese.

0
~ i ei ) = E[(X
V ar(X ~ i ei )(X
~ i ei ) ]
0
0
~ i ei e X
= E[(X ~
i i ]
0
~ i σi2 X
= E[X ~i ]

0
E é isso. Antes, como ei ei = σ 2 , conseguı́amos deixar isso mais enxuto,
o que era extremamente mais útil. Veja, agora, a distribuição do estimador fica
0

muito muito mais bagunçada. Se Q−1 ~ ~ −1


xx ≡ (E[Xi Xi ])

√ d
0 0 0 0 0
~ iX
n(b − β) ⇒ (E[X ~ i ])−1 N (0, E[X
~ i σi2 X
~ i ]]) = N (0, E[X
~ iX
~ i ])−1 E[X
~ i σi2 X
~ i ]E[X
~ iX
~ i ]−1 )
0

= N (0, Q−1 ~ 2~ −1
xx E[Xi σi Xi ]Qxx )

Certo, como tratar com isso? Isto é, como estimar essa variância?

84
Analisaremos duas situações. Novamente, vamos expressar as esperanças por
meio das médias amostrais, porque nunca, realmente, estamos no mundo assintótico.
0

Então, se pode expressar o estimador de Q−1 ~ 2~ −1


xx E[Xi σi Xi ]Qxx como:

0 0 0
Pn Pn ~ 0
~ iX
X ~i X i  i  ~ i Pn X
X ~ iX~i
( i=1
)−1 i=1 i
)( i=1 )−1 =
n n n
0 Pn ~ 2 ~ 0 0
XX −1 i=1 X i σi Xi XX −1
( ) ( )
n n n

Este termo do centro está muito destoante. Será que consigo escrevê-lo
também em forma de matriz? Demonstremos:

 0
~1
X
Pn 0  0
X ~i
~ i σ2 X 1 ~ 2 X
 ~2 
i=1
= X1 σ1 ~2 σ 2
X ... X~n σn  . 
2 
2
n n  . 
 . 
0

X~n
 0
 2
σ1 0 ...
 ~
X
0  10 
1 ~ 0
 σ22 ... 0 ~ 
 X 2 
= X1 ~2
X ... X~n  .. .. .. ..  . 
n

. . . .  . 
  .

0 0 ... σn2 0

X~n
0
X ΩX
=
n

Então, nosso estimador, até agora, tem essa cara:

0 0 0
X X −1 X ΩX X X −1
( ) ( )
n n n

O leitor atento notará que não temos como saber a matriz Ω. Então,
usamos um estimador para ela:
 2 
e1 0 . . . 0
2
 0 e2 . . . 0 
Ω̂ =  .
 
.. . . .. 
 .. . . .
0 0 ... e2n

85
Se pensarmos que só temos uma amostra - como geralmente é o caso,
estamos estimando somente com um dado: o resı́duo do indivı́duo elevado ao
quadrado. É o melhor que podemos fazer. O Estimador da variância, por fim,
se torna:

0 0 0
X X −1 X Ω̂X X X −1
( ) ( ) (59)
n n n

Testes de hipótese

Os testes de hipótese ficam ligeiramente diferentes.

Teste T O teste t sempre se aplica em somente a um dos estimadores.


Por isso, vamos criar, novamente, um modelo que realize esta sepração:

~ =X
Y ~ j bj + X−j b−j + e

Do que:

0 0
~ j M−j X
bj = (X ~ j )−1 X
~ j M−j Y
~
0 0
~ j M−j X
bj = β j + ( X ~ j )−1 X
~ j M−j )

Queremos padronizar este estimador. Para isso, qual será que é seu
desvio padrão? Antes de fazermos isso, nprestemos atenção na regressão auxiliar
que nos será muito útil:

~ j = b−j X−j + ~g
X

0 0
E que M−j = I − X−j (X−j X−j )−1 X−j

86
0 0
~ j M−j X
V ar(bj |X) = V ar(X ~ j )−1 X
~ j M−j |X)
0 0 0 0
0
~ j M−j X
= E[(X ~ j )−1 X
~ j M−j )(X
~ j M−j X
~ j )−1 X
~ j M−j ) |X]
0 0 0
0
~ j M−j X
= E[(X ~ j )−1 X
~ j M−j  M−j X
~ j (X
~ j M−j X
~ j )−1 |X]
0 0 0
~ j M−j X
= E[(X ~ j M−j 0 M−j X
~ j )−1 X ~ j (X
~ j M−j X
~ j )−1 |X]
0 0 0 0 0
0 0
~j X
= E[(X ~j − X
~ j X−j (X−j Xj )−1 X−j X ~ j M−j 0 M−j X
~ j )−1 X ~ j (X
~j X
~j − X 0
~ j X−j (X−j 0
~
Xj )−1 X−j X
0 0 0 0 0
~j X
= E[(X ~j − X ~ j M−j 0 M−j
~ j X−j b−j )−1 X 0
~ j (X
X ~j X
~j − X
~ j X−j b−j )−1 |X]
0 0 0 0 0

= E[(X ~j − X
~j X ~ j M−j 0 M−j X
~ j − ~g )−1 X
~ j (X ~ j (X ~j − X
~j X ~ j − ~g )−1 |X]
~ j (X
0 0 0
0
~ j ~g )−1 X
= E[(X ~ j M−j  M−j X
~ j ((X
~ j ~g )−1 )|X]
0 0

= E[(X ~ j 0 X
~ j ~g )−2 X ~ j |X]
0 0
0
~ j ~g )−2 X
= E[(X ~ j M−j  M−j X
~ j |X]
0

= E[(X~ j ~g )−2 g 0 0 g|X]


Pn 2 2
i=1 gi i
= 2
n2 Vdar(g)

De importante, vale lembrar que que X ~ j ~g é a covariância, multiplica


por n, entre as duas variáveis que, como já demonstrado na discussão sobre
colineariedade, dá-nos somente a variância de g multiplica porn - um escalar.

Ademais, óbvio, para fazer a estimativa desta variância, precisaremos


dos resı́duos ”e”, que colocaremos no lugar de . g, por sua vez, já são os resı́duos
da regressão auxiliar.

Então, a padronização se transforma em: robusto a heterocedastici-


dade se torna:

bj − β j bj − βj
rP = r Pn 2
n g e2
i=1gi2 e2i i=1 i i
n
n2 V ar(g)2
d
nV ar(g)2
d

n(bj − βj )
= r Pn 2 2
g e
i=1 i i
n
V ar(g)2
d

87
Quando n tende ao infinito, pode-se usara a lei dos grandes números,
lembrando que o estimador da variância é consistente.


n(b − β )
q j 2 2j (60)
E[gi ei ]
V ar(g)2

Novamente, é um teste Z, com uma normal.

Teste F

O processo para o teste F é praticamente idêntico a anteriormente. No


caso, sabe-se√ que, sob a hipótese nula Rβ − r = 0. Ademais, veja, estamos
dividindo o n. Esta distribuição, como antes, é uma aproximação.

0 0 0 0
R( XnX )−1 X nΩ̂X ( XnX )−1 R
(Rb − r) ∼ N (0, )
n

Se trabalharmos com os ”n”, ficaremos com a seguinte distribuição


aproximada:

0 0 0 0
N (0, R(X X)−1 X Ω̂X(X X)−1 )R )

0 0 0 0
Se definirmos F ≡ R(X X)−1 X Ω̂X(X X)−1 )R . Pode-se usar, como
já fizemos ao menos três vezes, F −1/2 para padronizar a normal. Defina ainda:
0 0 0
V̂ ≡ (X X)−1 X Ω̂X(X X)−1
0
No final, ao se fazer (F −1/2 (Rb−r)) (F −1/2 (Rb−r)) ter-se-á o seguinte,
para realizar o teste:

0 0
(Rb − r) (RV R )−1 (Rb − r) ∼ χ(g) (61)

Novamente, uma qui-quadrada - e, desta vez, nem o sigma está em-


baixo. A matriz ”V”, que é a de variância-covariância, é chamada de ”desvio
padrão robusto de White”. Robusto, no caso, à heterocedasticidade, sendo
”White” o primeiro autor. Outro nome é ”estimador sanduı́che para o desvio
padrão”. O ”sanduı́che” vem do fato de que o Ω está entre duas matrizes.

Daı́, padronizamos a normal e realizamos a soma dessas normais ao


quadrado, chegando a:

88
Tutorial 19

Trataremos, agora, de erros de medida. Qual é o contexto em que isso ocorre?


Imagine que vamos coletar uma informação, a partir de uma entrevista com
indivı́duos. No entanto, sabe-se que, por um motivo ou outro, estas informações
podem estar incorretas. Por exemplo, se perguntarmos sobre drogas, talvez
tenhamos respostas subestimem o tamanho do uso - por vergonha, por exemplo.

Como tratar com essas situações? O que, efetivamente, ocorre com


nossos estimadores? Para isso, a primeira pergunta é onde ocorre o erro: na
variável endógena ou exógena?

Endógena

Imagine que:
yi∗ + ui = yi

Em que yi∗ é o valor ”real” da variável e yi é o valor que conseguimos


coletar.

O modelo para se estimar, portanto:

~ ∗ = Xβ +  ⇐⇒ Y
Y ~ = Xβ + µ +  (62)

0 0
b = (X X)−1 X Y~
0 0
= (X X)−1 X (Xβ + µ + )
0 0
= β + (X X)−1 X (µ + )
Pn ~ ~ 0 Pn ~ Pn ~ ~ 0 Pn ~
i=1 Xi Xi −1 i=1 Xi µi Xi Xi −1 Xi i
=β+( ) ( ) + ( i=1 ) ( i=1 )
n n n n

Com ”n” ao infinito:

0 0
P ~ iX
~ i ]−1 E[X
~ i µi ] + E[X
~ iX
~ i ]−1 E[X
~ i i ]
b ⇒ β + E[X

0
P ~ iX
~ i ]−1 E[X
~ i µi ]
b ⇒ β + E[X

O estimador de MQO, neste contexto, é consistente? Ora, é necessário


~ i µi ]) o que, novamente pensamento em variáveis padronizadas, é dizer
que (E[X

89
que as covariância entre as variáveis explicativas e os erros de medida são zero.
Ou seja, não há nenhuma relação linear entre as variáveis. Uma óbvia forma de
garantir isso é que as variáveis explicativas e os erros de medida sejam indepen-
dentes entre si.

Não é possı́vel, efetivamente, provar isso. É necessário uma argu-


mentação sobre esta independência. Por exemplo, imagine que eu sei que in-
divı́duos, geralmente, diminuem a quantidade de uso de droga. Minha variável
explicativa é somente ”anos de estudo”. Cabe a você argumentar que saber
”anos de estudo” não nos diz nada sobre o tamanho da ”mentira” que alguém
conta ou não.

Dito isso, o que ocorre com a variância do estimador? Aceitemos que


os erros  e µ sejam independentes entre si. Daı́:

0 0 0 0
V ar(b|X) = V ar(β + (X X)−1 X µ + (X X)−1 X |X)
0 0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + Cov((X X)−1 X µ, (X X)−1 X |X)
0 0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + Cov((X X)−1 X µ, (X X)−1 X |X)
0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + (X X)−1 X Cov(µ, |X)X(X X)−1
0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X)
0 0 0 0 0 0
= (X X)−1 X V ar(|X)X(X X)−1 + (X X)−1 X V ar(µ|X)X(X X)−1
0 0 0 0 0 0
= (X X)−1 X (σ 2 )IX(X X)−1 + (X X)−1 X (σµ2 )IX(X X)−1
0 0
= σ2 (X X)−1 + σµ2 (X X)−1

Será que conseguimos provar que o segundo termo é positivo definido?


Ora, provamos que, se Z é positivo-definido, então Z −1 também o é. Ora,
0
claramente (X X) é positivo-definido. Então, seu inverso também é. Logo,
quando há erro de medida na variável endógena, perdemos eficiência.

Exógena

Tem-se uma estilo de pensamento muito parecido com antes. No caso:

~ i ∗ + µi = X
X ~i

Em que µi é não-nulo. É importante abrir isso para demonstrar um


ponto.

90

     
X1i µ1i X1i
X2i∗
 µ2i  X2i 
   
 ..  +  ..  =  .. 

 .   .   . 

Xki µki Xki

Ou seja, cada um dos erros de medida se referem a cada uma das


variáveis explicativas e, ademais, são diferentes para cada um dos indivı́duos.
Com isso, cabe perguntar: o estimador é consistente? Primeiramente, é impor-
tante dizer que o modelo ”real” é escrito com a variável real:

~ = X ∗β + 
Y

0  
u1
 u0 
 2
Notando que: u =  . 
 .. 
0
un

O MQO, contudo, só pode ser feito a partir da variável observada: X.


Notando, ainda: Notando que:
0 
u1
 u0 
 2
u= . 
 .. 
0
un

0 0
b = (X X)−1 X (X ∗ β + )
0 0
= (X X)−1 X ((Xβ + µβ + )
0 0 0 0
= β + β(X X)−1 X (µ) + β(X X)−1 X ()

Pelos processos comuns e pelas hipóteses de sempre, pode-se fazer:

0
P ~ iX
b ⇒ β + βE[X ~ i µ0 ]
~ i ]−1 E[X
i

Assim, uma hipótese muito simples que poderı́amos fazer para que o
~ i µi ] = 0. Contudo, isso é muito difı́cil de
estimador fosse consistente é dizer E[X

91
ser verdade. Quer dizer... A variável observada é literalmente somar o erro de
medida ao valor real. Como eles não possuem covariância? Assim, façamos uma
0
hipótese mais refinada, semelhante ao caso da variável endógena: E[X~i∗ µi ] = 0.
Ou seja, é a variável real, não a observada, que não possuo correlação.

Aonde isto nos levará? Para saber, vamos subtituir X = X ∗ + u em


0 0
−1
(X X) X (X ∗ β + )

0 0
b = [(X ∗ + u) (X ∗ + u)]−1 (X ∗ + u) (X ∗ β + )
0 0 0 0 0
= [(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u]−1 (X ∗ + u) (X ∗ β + )
0 0 0 0 0
(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u −1 (X ∗ + u) (X ∗ β + )
=[ ]
n n
0 0 0 0 0 0 0 0
(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u −1 (X ∗ X ∗ β + X ∗  + µ X ∗ β + µ )
=[ ]
n n

0 0 0
P ~ i ∗ X~ ∗ ]+E[X~ ∗ u0i ]+E[ui X~ ∗ ]+E[ui u0i ])−1 (E[X~ ∗ X~ ∗ ]β+E[X~ ∗ i ]+E[ui X~∗ 0 ]β+E[ui ei ])
b ⇒ (E[X i i i i i i i

0
Com a hipótese de que E[X~i∗ ui ] = 0, feita acima, conseguimos eliminar
dois termos. Pode-se fazer mais algumas hipóteses simplificadoras. A saber,
E[µi i ] = 0, que é plausı́vel dep ensar e já usada em outro momento, e também
dizer E[X ~ i ∗ i ] = 0 que uma simples consequência de RLM.4 e da penúltima
hipótese. Nisto, chega-se, enfim, em:

0 0
P ~ i ∗ X~ ∗ ] + E[ui u0i ])−1 (E[X~ ∗ X~ ∗ ]β)
b ⇒ (E[X i i i

Ou seja, interessantemente, com as hipóteses mais realistas, chega-se


na conclusão que ainda assim existe um viés de inconsistência.

Um caso especı́fico importante é quando temos uma regressão com


somente uma variável. Ou seja, o nossos vetores possuem somente uma variável.
Neste sentido, nosso estimador fica da seguinte forma:

P V ar(Xi∗ )
b⇒ β
V ar(Xi∗ ) + V ar(u∗i )

Aqui, fica claro algo: o multiplicador de β é menor do que 1. Por isso,


no caso de erros de medida, chamamos de ”viés de atenuação”.

92
Tutorial 19 - 20 - 21

Proxy

Nós sabemos que se deixarmos de fora uma variável que possua correlação tanto
com a variável endógena quanto com as demais explicativas, teremos um viés
de variável omitida. Assim, o econometrista zeloso sempre garantirá que todas
as variáveis relevantes - e somente elas - estejam expostas no modelo.

Contudo, pode-se ter o contexto em que, embora se saiba que uma


variável deveria estar inclusa no modelo, não é possı́vel achar dados para ela.
Isto pode acontecer por falta de fontes ou, mais gravemente, pela variável ser
definida de forma muito vaga (”inteligência”, ”beleza”, etc.)

Seria interessante que, nesses casos, tivéssemos algo para ”substituir”


ou ”aproximar” a variável que não podemos coletar. Este é exatamete a função
da proxy. Para estudá-la de maneira mais sistematizada, teremos um modelo
multivariado em que há a variável que necessita de proxy é denominada ”X00j .

~ = Xj βj + X−j β−j + 
Y

Ora, imagine que seja ”inteligência”. Mesmo que não saibamos com
precisão o que é uma proxy, nosso intuito é, em algum nı́vel, ”substituir” a
variável, parece evidente que uma variável ”fios de cabelo” parece péssima para
este propósito. Assim, desta intuição, sabe-se que podem existir proxys boas e
ruins. O que diferencia um grupo do outro? Tome a seguinte regressão, com
Xp a variável candidata a proxy.

Xj = Xp γp + X−j γ−j + µ

Listemos as condições.

1. γp 6= 0
Ou seja, tudo mais constante, uma correlação entre a variável e aquilo
que está servindo como proxy. Ou, ainda, a proxy não é irrelevante para
explicar Xj . É por isso, inclusive, que ”fios de cabelo” é uma proxy ruim.
2. γ−j = 0
Uma vez que estamos mantendo constante a proxy - ”controlando pela
proxy”, todas as outras variáveis não colaboram em nada para a explicação
de Xj . De maneira mais lúdica, tudo o que X−j explicaria está inteira-
mente contido na proxy.

93
~ i i ] = 0
3. E[X
Esta é a hipótese de ortogonalidade comum. Fiquemos atento, somente,
para o fato que ela implica que todas as variáveis explicativas, quando
multiplicadas pelo erro, dão zero.

E[X~1i i ]
  
0
E[X~  ] 0
 2i i 
..   .. 
 
 
.  .
 
=
 
 E[X~ji i ]   0

 .

..

 .
.

 . 
E[X~ki i ] 0

4. E[Xpi i ] = 0 A proxy também é ortogonal ao erro de regressão inicial.


p
~ i µi ] = 0
5. E[X

E[X~1i µi ]
  
0
E[X~ µ ] 0
 2i i 
..   .. 
 
 
. .

  

Ou seja:  =
 
~
E[Xpi µi ]  0
 .

..

 .
.

 . 
E[X~ki µi ] 0

Escrevamos o modelo, já usando estas hipóteses, da seguinte forma:

~ = Xj βj + X−j β−j + 
Y
= (Xp γp + µ)βj + X−j β−j + 
= Xp (γp βj ) + X−j β−j + µβj + 
= Xp (βj∗ ) + X−j β−j + ∗

Perguntamo-nos, agora, se o estimador para β−j é consistente. Esta


pergunta é relevante porque toda a motivação da proxy era impedir a situação
que houvesse viés de variável omitida. Estamos tentando provar que, com o uso
da proxy, não precisamos nos preocupar com isto.

Notavelmente, independente da resposta, nota-se que nunca chegare-


mos a estimar βj , mas somente um múltiplo dele. Isto é totalmente esperado: se
não tı́nhamos os dados em primeiro lugar, não era possı́vel que conseguı́ssemos
realmente achar uma estimativa para o efeito na variável explicativa. Mas tudo
bem: não era nosso objetivo em primeiro lugar.

Então, façamos o de sempre:

94
~ = Mp X−j β−j + ∗
Mp Y

Do que vem:

0 0
~
b−j = (X−j Mp X−j )−1 X−j Mp Y
0 0
= β−j + (X−j Mp X−j )−1 X−j Mp ∗
0 0 0 0 0
= β−j + ((X−j X−j − X−j Xp (Xp Xp )−1 (Xp ) X−j )−1 X−j Mp ∗
0 0 0 0 0 0 0 0
= β−j + ((X−j X−j − X−j Xp (Xp Xp )−1 (Xp ) X−j )−1 (X−j ∗ − X−j Xp (Xp Xp )−1 Xp ∗ )

Colocando condições de estabilidade e realizando o mesmo processo


para a lei dos grandes números:

0
0 0 0 0 0
~ −ji X
β−j + (E[X ~ −ji ] − E[X
~ −ji Xpi ]E[Xpi Xpi ]−1 E[Xpi X~−ji ])−1 (E[X~−ji ∗i ] − E[X~−ji Xpi ]E[(Xpi Xpi )−1 E[Xpi ∗i

O único que precisamos notar é, agora:

E[Xpi ∗i ] = E[Xpi (i + µi βj )]


= E[Xpi (i )] + βj E[Xpi (µi )]
=0+0=0

Da mesma forma:

E[X−ji ∗i ] = E[X−ji (i + µi βj )]


= E[X−ji (i )] + βj E[X−ji (µi )]
=0+0=0

Então, ao aplicar isto, chega-se na conclusão de consistência para b−j ,


como se queria demonstrar.

95
Tutorial 23-24-25

Instrumento - caso simples

Novamente, imaginemos que há uma situação em que temos certeza que há uma
variável que possui correlação com as outras variáveis explicativas e também com
a endógena. Para evitar viés, não podemos deixá-la de fora do modelo.

No entanto, imagine que não consigamos encontrar uma variável proxy


- ou, se consigamos, ela não tem as propriedades necessária. Tudo está perdido?
Não. Pode-se usar um ”instrumento”.

A ideia do intuitiva do instrumento advém de percebermos que a matriz


X possui uma parte que é correlacionada com o erro (endógena) e uma parte que
não o é (exógena). Por meio do instrumento, tenta-se usar esta parte ”exógena”
na regressão.

A fim de simplicidade, primeiro começamos com o caso simples: es-


tamos regredindo Y em somente uma variável X1 , que é correlacionada com o
erro. Como instrumento, usar-se-á a variável Z.

Y = X1 β1 + 

As hipóteses adicionais que usaremos são as seguintes:

1. (Zi )ni=1 é distribuı́da de forma independente e idêntica.


2. E[Zi X1i ] 6= 0
Ou seja, há uma relação entre a variável instrumental e X1 : eles não
são ortogonais a um outro, confirmando a intuição. Isto que dizer que o
instrumento é ”relevante”.

3. E[Zi i ] = 0
Esta aqui está de acordo com o que foi dito na intuição. O instrumento
tem sim relação com a variável X, contudo estamos interessados na parte
não correlacionada de X, que é exatamente o que se tem aqui.
Aqui, tem-se garantido que o instrumento é ”forte”.

A pergunta é como que, por meio do instrumento, conseguimos estimar


β1 . É importante que entendamos a filosofia da coisa. Anteriormente, para
0 0 0
~ , que era o
estimar β1 = E[X1i X1i ]−1 E[X1i Yi ], usávamos b1 = (X1 X1 )−1 X1 Y
estimador que minimiza a soma dos resı́duos ao quadrado. Agora, vamos usar

96
OUTRO estimador para realizar isso, embora estejamos estimando exatamente
o mesmo parâmetro. Chamaremos-lo de bIV .

Como podemos expressá-lo? Mais a frente, há um método mais rig-


oroso. Contudo, inicialmente, tentaremos fazer por analogia. Assim, tentemos
identificar β1 usando a variável instrumental.

E[Zi i ] = E[Zi (Yi − X1i β1 )] = 0


= E[Zi Yi − Zi X1i β1 ] = 0
= E[Zi Yi ] − E[Zi X1i ]β1 = 0

β1 = E[Zi X1i ]−1 E[Zi Yi ] (63)

Neste caso em especı́fico, pode-se escrever, pensando em variáveis


padronizadas:

Cov(Zi , Yi )
(64)
Cov(Zi , X1i )

Muito importante notar que só é possı́vel realizar esta identificação


distinta se o instrumento for forte, isto é, exógeno ao erro do modelo. Caso
contrário, não temos nem de onde partir. Isto não é verificável, sendo necessário
argumentar que esta exogeneidade é real.

Isto nos sugere que, para estimar, pode-se fazer:

Cov(Z
di , Yi )
biv = (65)
Cov(Z
d i , X1i )

Será que este estimador é consistente? Novamente, consideremos as


variáveis padronizadas, isto é, a média igual a zero. Somente para facilitar
trabalho :P

97
Pn
(Zi )(Yi )
biv = ni=1
P
(Z i )(X1i )
Pni=1
(Z )(X1i β1 + )
= i=1Pn i
(Zi )(X1i )
Pni=1 Pn
i=1 (Z i )(X1i ) (Zi )(i )
= β1 Pn + Pni=1
i=1 (Zi )(X1i ) i=1 (Zi )(X1i )
Pn
(Zi )(i )
= β1 + Pni=1
i=1 (Z i )(X1i )
Pn
i=1 (Zi )(i )
n P E[Zi i ]
= β1 + Pn ⇒ β1 +
i=1 (Zi )(X1i ) E[Zi X1i ]
n
= β1

De fato, é consistente! Contudo, precisamos, ainda, saber qual é a


distribuição. Para isso, precisa-se avaliar

Pn √ Pn
√ i=1 (Zi )(X1i ) −1 n i=1 (Zi )(i )
n(biv − β1 ) = ( ) ( )
n n

Como se deve esperar, usar-se-á, aqui, o teorema central do limite.


Para poupar trabalho depois, foquemos em saber como escrever V ar(Zi i |X, Z).

0 0
V ar(Zi i |) = E[(Zi  Zi |X, Z]
0 0
= E[Zi Zi E[ |Z]]
0
= σ 2 E[Zi Zi ]
= σ 2 V ar(Zi )
= σ 2 V ar(Z)

Ademais, sabe-se que:

√ D σ 2 V ar(Zi )
( n(biv − β1 ) ⇒ N (0,
Cov(Zi , X1i )2

Cov(A,B)
Dadas quaisquer variáveis A,B, Corr(A, B) = ρA,B = σA σB

98
Assim:

√ P σ 2 V ar(Zi ) σ2
( n(biv − β1 ) ⇒ N (0, 2 2 σ2 ) = N (0, 2 )
ρZ,X σZ X ρ2Z,X σX

De forma interessante, se a correlação (ρZ,X ) for baixa, ou seja, o


instrumento não for relevante, a sua variância será imensa. Nós já sabemos os
problemas relacionados com isto: perda de poder de teste - inclusive, os testes
t e F são feitos da mesmı́ssima forma.

Então, faz-se necessário, sempre, possuir um instrumento relevante,


para que a inferência seja plausı́vel.

Instrumento - multivariado quadrado

Vamos agora para um mundo multivariado. Isto quer dizer duas coisas: primeira-
mente, nossas variáveis explicativas são mais do que uma; depois, nossos instru-
mentos são mais do que um, também.

Em X, que é a matriz com as variáveis explicativas para cada indivı́duo,


tem-se variáveis/colunas que são exógenas ao erro - isto é, ortogonais - e outras
que não o são - chamadas de ”endógenas”.

Dito isso, vamos definir a matriz ”Z”, com os intrumentos para X.


Inicialmente, coloquemos que ela é uma matriz nxk, exatamente igual a X. Como
esta matriz pode ser construı́da, a fim de que seja possı́vel estimar? Veremos.

Deixando mais formal:


 
z11 z12 . . . z1k
 z21 z22 . . . z2k 
..  = Z~1 Z~2 Z~k

Z= . ...
 
. .. . .
 . . . . 
zn1 zn2 ... znk

Note que, geralmente, escrevemos de forma vetorial usando o indivı́duo


como indexador do vetor. Aqui, por uma questão que ficará clara posterior-
mente, estamos idexando na variável explicativa. Faremos o mesmo para X.

Então, nossas hipóteses se tornam:

1. Z é i.i.d
~i i ] = 0, ∀i ∈ [1 : n]
2. E[Z

99
Novamente, esta é a condição de exogeneidade. Ao formular esta hipótese,
estamos, novamente, indexando no indivı́duo, ou seja: Z
Agora, contudo, todos os intrumentos devem ser exógenos.
0
3. (Z X) possui rank cheio.
 0 0 0 
Z~1 X~1 Z~1 X ~2 . . . Z~1 X~k
 0 0 0 
Z~ X
0  2 ~1 Z~2 X ~2 . . . Z~2 X~k 
ZX = .

 . .
.. .. .. 
 . . . 

0 0 0

Z~k X~1 Z~k X ~2 . . . Z~k X~k


Neste contexto, note, Z 0 X é uma matriz quadrada.
Deixando mais uma vez explı́cito, agora, nossos vetores Z~j , ∀jin[1 : k]
estão indexados nas variáveis explicativas.
Para que essa matriz tenha rank cheio, podemos derivar algumas con-
clusões interessantes. Primeiramente, dado qualquer instrumento, é necessário
que ela tenha correlação com ao menos uma das variáveis explicativas
X~ j , j ∈ [1 : k]. Isso é verdade porque, se não houvesse com nenhum,
uma coluna seria composta inteiramente de zeros - e, daı́, o rank não seria
cheio. Assim, uma interpretação é que não pode haver nenhum instru-
mento completamente irrelevante.
Ademais, no mesmo espı́rito, cada variável explicativa precisa ter cor-
relação com ao menos um instrumento, caso contrário terı́amos uma linha
de zeros.
Isto sugere uma forma de construirmos a matriz Z. No caso, seja uma
variável explicativa em X que seja exógena: Xjex . Fixe o seu eu instru-
mento como ela mesma, isto é, Zjex = Xjex . Ao fazer isso para cada
variável explicava exógena, garantimos que:
a) Para cada variável explicativa exógena, haja um instrumento que esteja
correlacionado.
b) Para cada instrumento de uma variável explicativa exógena, há uma
variável que ele se correlaciona.
Ademais, sendo a variável exógena, isto é, E[Xiex i ] = 0, e o instrumento
idêntico a ela, garantimo, também, que o instrumento é exógeno.
Agora, seja uma variável X endógena Xiex . Basta encontrarmos, para
ela, um instrumento qeu seja correlacionado e, ao mesmo tempo, exógeno
ao erro. Ao fazer isso, também garantimos a) e b) acima, bem como a
exogeneidade.
0
Desta maneira, construı́mos uma matriz X Z que esteja de acordo com as
necessidades, como se verá.

Façamos a identificação, novamente para buscar o estimador de forma


heurı́stica.

100
0
~i i ] = E[Z
E[Z ~i (Yi − X
~ i β)] = 0
0
~i X
⇐⇒ β = E[Z ~ i ]−1 E[Z
~i Yi ]

Do que vem, como estimador:

0 0
(Z X)−1 Z Y (66)

Não é difı́cil provar a consistência. O processo é o mesmo de antes, do


que eu vou me abster. Deixarei claro, somente, a distribuição, porque há algo
para se prestar atenção.

No caso:

Pn ~i X
~i
0
√ Pn ~
√ i=1 Z −1 n i=1 Zi i
n(biv − β) = ( ) ( ) (67)
n n

0
Pn
Z ~i
~i X P
Sabe-se que: ( i=1
)−1 ⇒ E[Z ~ i ]−1 = Q−1
~i X
n ZX

0 0
~ i i 0 Z
~i i ) = E[Z ~ ~ ~ 0
Também sabemos que: V ar(Z i i ] = E[Zi Zi E[i i |Z] =
0
~i Z
σ 2 E[Z ~i ] = σ 2 QZZ

Assim, pode-se concluir:


√ D
n(biv −β) ⇒ N (0, (Q−1 −1 2 −1
ZX QZZ QXZ )σ ) = N (0, (QZX QZZ QXZ )
−1 2
σ )

Instrumento - multivariado não quadrado

Antes, a forma que criávamos a matriz Z forçava ela ser quadrada: para cada
variável, avaliámos se era endógena ou exógena e atribuı́mos para ela um, e
somente um instrumento especı́fico. A questão é que não necessariamente isto
precisa ser feito.

Imagine que eu sou um rapaz muito sortudo e, para uma mesma


variável, eu encontrei mais do que um instrumento válido! Ou seja, correla-
cionado com ela e, ao mesmo tempo, exógeno com o erro. Eu preciso jogar
um deles fora? Óbvio que não. Ao longo do desenvolvimento, buscarei dar a
intuição de porque a situação com mais instrumentos, ao invés de somente, é
mais positiva.

101
Antes disso, contudo, temos uma problemática. Não podemos simples-
0 0
mente escrever o estimador como (Z X)−1 Z Y porque, agora que temos mais
potencialmente mais de um instrumento para cada variável explicativa de X,
0
nosso Z é uma matriz nxm. De modo que Z X é mxk, ou seja, potencialmente
0
não quadrada. Não faz sentido nenhum, então, escrever (Z X). Precisaremos
de outro estimador.

Este é o chamado ”Estimador de mı́nimos quadrados em dois estágios”


que, apesar do nome grande, é bem descritivo no que devemos fazer.

Primeiro, voltemos para o básico do instrumento: queremos realizar


a regressão somente na parte exógena de uma variável que possui tanto partes
endógenas quanto exógenas.

Assim, se regredirmos as variáveis explicativas ”X” nos instrumentos


e pegarmos as partes fittadas, estaremos somente com as partes exógenas. Esta
é o ”primeiro estágio”. Intuitivamente, quanto mais instrumentos válidos pos-
suirmos, mais ”explicaremos” a parte exógena.

Podemos, então, com esses valores fittados, usá-los como variáveis ex-
plicativas para a regressão com a variável Y. Daı́, conseguiremos o estimador.

De maneira mais formal, o primeiro estágio é colocado como:

X = Zλ + v (68)

X é n x k, Z é n x m, λ é m x k, v é n x k.

Estamos regredindo uma matriz, X, em outra, Z. No fundo, estamos


realizando várias regressões simultaneamente: cada coluna de X em toda a
matriz Z. Cada variável explicativa sendo explicada por todos os instrumentos.

No caso:

 
~1 ~2 X~k = Z λ~1 λ~2 λ~k + v~1
 
X X ... ... v~2 . . . v~k

 
~1 = Z λ~1 + v~1
X ~2 = Z λ~2 + v~2
X ... X~k = Z λ~k + v~k

Ou seja, novamente, estamos fazendo k regressões de forma simultânea,


explicando cada variável explicativa com todos os instrumentos. Quanto mais
instrumentos temos, maior será nosso R2 .

Quais são os valores fitados disto? Ora, o estimador λ é dado por:

102
0 0
(Z Z)−1 Z X

De modo que o valor fittado é

b = Zλ = Z(Z 0 Z)−1 Z 0 X = PZ X
X (69)

Com este valor fittado, façamos o segundo estágio: regredir Y na parte


exógena de X, X,
b que é n x k.

~ = Xb
Y b TS + µ (70)

Daı́, por meio de MQO:

b 0 X)
bT S = (X b0Y
b −1 X ~
b 0 X)
= (X b 0 (Xβ + )
b −1 X
0 0 0 0 0 0 0 0
= (X Z(Z Z)−1 Z Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z (Xβ + )
0 0 0 0 0 0 0 0 0 0 0 0
= (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z Xβ + (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z 
0 0 0 0 0 0
= β + (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z 
n 0 n 0 n n 0 n 0 n
X X X 0 X X X
= β + (( ~ iZ
X ~i )( ~i Z
Z ~i )−1 ( ~i x~i ))−1 (
Z ~ iZ
X ~i )( ~i Z
Z ~i )−1 ( ~ i i )
Z
i=1 i=1 i=1 i=1 i=1 i=1
0 0 0 0 0
Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~
i=1 Xi Zi i=1 Zi Zi −1 i=1 Zi Xi i=1 Xi Zi i=1 Zi Zi −1 Z i i
= β + (( )( ) ( ))−1 ( )( ) ( i=1 )
n n n n n n

0
~i Z
Se aceitarmos que E[Z ~i ] possui rank cheio, conseguimos o seguinte
resultado:

0 0 0 0 0
P ~ iZ
~i ]E[Z
~i Z
~i ]−1 ]E[Z
~i X
~ i ])−1 E[X
~ iZ
~i ]E[Z
~i Z
~i ]−1 E[Z
~i i ] (71)
bT S ⇒ β + (E[X

P
bT S ⇒ β + (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 ~
ZZ E[Zi i ]

Pela hipótese de exogeneidade do instrumento, consegue-se provar a


consistência.

103
Resta a distribuição. Não há muito segredo, sendo muito parecido com
o que foi feito anteriormente.

√ D
n(bT S − β) ⇒ (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 2
ZZ N (0, σ QZZ )
= N (0, (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 2 −1 −1
ZZ σ QZZ QZZ QZX (QZX QZZ QXZ )
−1
)
= N (0, σ 2 (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 −1
ZZ QZX (QZX QZZ QXZ )
−1
)
= N (0, σ 2 (QZX Q−1
ZZ QXZ )
−1
)

Tutorial 26

Simultaneidade - caso especı́fico simples

Nossa problemática é a seguinte: imagine que nosso objetivo é saber se pessoas


mais felizes tendem a ganhar mais dinheiro. Ora, uma reflexão rápida levantaria
a pergunta: ”o contrário não poderia ocorrer, também?”. Sim, de fato: pessoas
com mais dinheiro parecem ser felizes.

Esta situação, de simultaneidade, é problemática? Façamos um modelo


simples, com duas equação para cada um das variáveis: dinheiro (W, wealth),
felicidade (H, happiness), G (gênero)

Hi = β0 + β1 Wi + β2 Gi + i (72)

W i = λ 0 + λ 1 Hi + v i (73)

Junto, este é o ”sistema estrutural de equações”. Vamos aceitar, e isto


é importante, que este sistema de equações está bem especificado, no sentido
de que qualquer variável que adicionemos - salvo Hi , Wi e Gi - em qualquer
uma das regressões seria redundante ou, ainda, teria o parâmetro zero. Se esta
variável ”forasteira” é Xi , Uma condição necessária para sua redundância é que
E[Xi Wi ] = E[Xi Hi ] = 0, isto é, não há covariância entre a variância adicionada
e as dependentes.

Afirmar isto é relevante porque, se há um problema de viés, ele não


advém de alguma variável omitida oculta, mas tão somente da simultaneidade
Também será importante na hora de discutir a solução para a simultaneidade
em si.

Mas afinal, há um viés? Por exemplo, será que Wi é correlacionado


com i ? Ora, veja:

104
E[Wi i ] = E[(λ0 + λ1 Hi + β2 Gi + vi )]
= E[(λ0 + λ1 (β0 + β1 Wi + β2 Gi + i ) + vi )i ]
= E[(λ0 i )] + E[β2 Gi ] + E[λ1 (β0 i )] + E[β1 Wi i ] + E[2i ] + E[vi i ]
= λ0 E[i ] + β1 E[Wi i ] + β2 E[Gi i ] + λ1 β0 E[i ] + E[2i ] + E[vi i ]

Duas hipóteses simplificadoras: E[i ] = E[vi i ] = E[Gi , i ] = 0. E


notar que E[E[2i |Wi ]] = E[2 ] = σ 2 , nos dará o resultado que:

σ2
E[Wi i ] = 6= 0 (74)
1 − β1

E sabe-se que, nesta situação, que análoga para E[Hi vi ], os estimadores


não são consistentes. Vejamos como o viés pode ser expresso.

Antes disso, notemos a seguinte forma de escrever Wi

W i = λ 0 + λ 1 Hi + v i
= λ0 + λ1 β0 + λ1 β1 Wi + λ1 β2 Gi + λ1 i + vi
λ0 + λ1 β0 + λ1 β2 Gi + λi i + vi
⇐⇒ Wi =
1 − λ 1 β1

Pode-se escrever Hi de maneira analóga.

β0 + β1 λ0 + β2 Gi + β1 i + vi
Hi =
1 − λ 1 β1

Este conjunto de equação é determinada ”sistema reduzido” de equações.

105
Cov(W
di , Hi )
b1 =
V ar(W
d i)

Cov(W
di , i )
= β1 +
V ar(W
d i)
Cov(λ0 +λ1 β0 +λ
di i +λ1 β2 Gi +vi ,i )
1−λ1 β1
= β1 +
Vd
ar(λ0 +λ1 β0 +λi i +λ1 β2 Gi +vi )
(1−λ1 β1 )2

λ1 Cov(
d i , i )
= β1 + (1 − λ1 β1 )
λ21 Vd
ar(i ) + (λ1 β2 )2 Vd
ar(Gi ) + Vd
ar(vi )
2
P λ1 σ
⇒ β1 + (1 − λ1 β1 ) 2 2 2
λ1 σ + (λ1 β2 ) V ar(Gi ) + V ar(vi )

Assim, certamente, há um viés de inconsistência. O mesmo ocorre, de


forma exatamente análoga, com λ
c1 . No caso:

c1 = Cov(W i, Hi)
d
λ
Vdar(Hi )
Cov(v
d i , Hi )
= λ1 +
Vdar(Hi )
P β1 σ 2
⇒ λ1 + (1 − λ1 β1 )
β12 σ 2 + β22 V ar(Gi ) + V ar(vi )

Assumindo, E[Gi vi ] = 0.

Como se pode escapar destas problemáticas? Foquemos, primeira-


mente, em tentar estimar λ1 . Ora, não se pode tirar a variável que está causando
o viés de variável omitida do erro. Isto ocorre pois esta variável é exatamente
a variável dependente. Se ignorarmos isto, terı́amos uma regressão espúria: Wi
em Wi , no caso.

Uma proxy, neste caso, também não no seria muito útil. Lembremos
que, se escolhermos uma proxy, jamais teremos uma medida para para o efeito
da variável em si, somente uma composição dela com o efeito da variável proxy
- voltar ao tutorial sobre o assunto.

Resta-nos usar um instrumento. A saber, uma variável Zi na qual:

E[Zi Hi ] 6= 0

106
E[Zi vi ] = 0

A primeira hipótese, no contexto colocado, é capciosa. Como dito,


toda variável que adicionemos, salvo as que já estão presentes no modelo, dado
que o modelo está bem especificado, será redundante. Se Zi é esta variável
nova, então, por definição da forma que o modelo foi construı́do, haverá que
E[Zi Hi ] = 0.

Assim, Zi deve, necessariamente, ser uma das variáveis já presentes no


modelo. Claramente, não pode ser nenhuma variável que seja dependente em
algumas das equações (Hi e Wi ) restando somente a opção de Gi .

Embora já tivéssemos assumido a segunda hipótese para chegar no


estimador inconsistente de λ1 , vale sempre reafirmar que deve haver E[Gi vi ] = 0
e, claro, e isto é garantido pela equação (72), a primeira do sistema estrutural,
também precisa-se de E[Gi Hi ] 6= 0.

Com isto garantido, nosso estimador seria:

Cov(G
d i , Wi )
λIV =
Cov(G
d i , Hi )

Isto é rigorosamente o estimador de instrumento que destrinchamos


algumas seções atrás. Ele é consistente, como se sabe.

Se você for particularmente atento, pode perguntar: como estimarı́amos


β1 ? Não o farı́amos: todas as variáveis passeı́veis de serem usadas estão explic-
itadas na equação (72), de modo que não há nenhum instrumento disponı́vel.

Para ver isto melhor, imagine que usemos, para Wi o instrumetos Gi .


Como discutido na seção de instrumentos, precisamos de uma matriz de instru-
mentos. Se uma variável é exógena, a instrumentalizamos com ela mesma. Este
é exatamente o caso de Gi . Ou seja, a nossa matriz instrumento, Z, teria duas
colunas exatamente iguais, impedindo sua inversão e, assim, a estimação.

Vamos explorar melhor esta situação na parte a seguir.

Simultaneidade - no geral

Vamos tentar imaginar o que seria um sistema ideal, em que todas as variáveis
poderiam ser instrumentalizadas. Imagine que neste sistema simultâneo, haja G
variáveis endógenas. Elas seriam aquelas que aparecem, em uma equação, como
variável dependente e, nas outras, como variável explicativa. São os nossos Hi
e Wi de antes.

107
Seja uma equação especı́fica destas G. Uma primeira condição para que
esse sistema seja identificável - e assim, que todos possam ser estimados - é que
só haja, no lado direito desta equação G - 1 variáveis endógenas. Isto é óbvio
porque a que sobrou é exatamente a variável dependente. Esta é a ”condição
de rank.”

Se quisermos que todas as G-1 sejam possı́veis de identificar, pre-


cisamos de G-1 variáveis exógenas - aquelas que só aparecem nas equações como
variáveis explicativas, o nosso Gi , de antes - que NÃO ESTEJAM nesta equação
e que se adequem nas necessidades de um instrumento. Se esse for o caso,
poderemos identificar, por meio da instrumentalização, todas as G-1 variáveis
endógenas. Se só há G-1-j variáveis endógenas, precisarı́amos de G-1-j variáveis
exógenas excluı́das da equação. Esta é a ”condição de ordem”.

Olha que interessante: das variáveis endogenas, não aparecem, no lado


direito, j delas. E, das exógenas, não aparecem G-1-j, de modo que, no final,
excluı́mos, entre exógenas e endógenas, G-1, exatamente como no caso ante-
rior. Então, em qualquer sistema possı́vel de ser identificado, cada equação terá
excluı́do G-1 das variáveis que compõem o sistema, entre exógenas e endógenas.

Se essas duas condições não estiverem satisfeitas - ou não haja tan-


tas equações quanto variáveis endógenas - estaremos em uma situação de sub-
identificação do sistema, sendo impossı́vel - ao menos por essa técnica de
instrumentos e com o material de graduação.

O que acontece, contudo, se eu tenho mais variáveis exógenas excluı́dos


do que o necessário? Estamos no caso de ”super-identificação”. O estimador
aqui usado será o Two-Stage Least Squares, já demonstrado na seção sobre o
instrumento. A consequência, em relação ao caso de identificação comum, é que
teremos um estimador com uma variância menor, conforme já indicado pela
discussão da seção do instrumento.

Tutorial 27 - 28 - 29 - 30

Identificação do modelo não linear

No primeiro tutorial, estabeleceu-se que a função que minimiza o erro quadrático


médio era a esperança condicional. Então, postulamos, para esta esperança,
uma função linear e, desde então, estamos buscando, nas mais diversas condições,
qual é o melhor previsor LINEAR.

Vamos fugir um pouco disto, agora, e ir para formas não-lineares de


previsão. De maneira formal:

108
~ i , β)
E[Yi |Xi ] = f (X (75)

Onde β, também, é um vetor e f é uma função não necessariamente


linear nos parâmetros. O que se precisa para isso seja bem identificado? A
resposta é que, para diferentes parâmetros, precisa-se ter diferentes resultados.
Ou, ainda, a função f deve ser injetora em relação a valores de β.

Formalmente, se β1 6= β2

~ i , β2 ) 6= f (X
f (X ~ i , β1 ) (76)

0 0
0
~ i , β) = (X
O que é um exemplo que quebra isso? Seja f (X ~ i β) (X
~ i β).
0
0
~ iX
Para β1 e −β1 , há que o resultado é o mesmo: (β1 X ~ i β1 ).

Por que isso é tão ruim? Ora, lembremos que, para realizar a identi-
ficação do parâmetro β, no modelo linear, fizemos a minimização dos mı́nimos
quadrados. No caso, tomando as variáveis aleatórias:

~ β))2 ] = E[Y 2 − 2Y f (X,


E[(Y − f (X, ~ β) + f (X,
~ β)2 ] (77)

Ao realizarmos a minimização disto em β, chega-se em:

∂f (X, β) ∂f (X, β)
E[−2Y + 2f (X, β) ]=0 (78)
∂β ∂β

A ideia, então, é que se a condição (76) não for cumprida, ter-se-á,


possivelmente, dois parâmetros minimizando a equação. Assim, não havendo
como diferenciar um do outro, não se poder partir para estimação: qual deles,
exatamente, estarı́amos estimando?

Estimação do modelo não linear

Como antes, o nosso estimador não-linear, bnls , virá de analogia com a identi-
ficação. Então, bnls é aquele que minimiza a seguinte expressão:

Pn ~ i , bnls ))2
i=1 (Yi − f (X
(79)
n

109
Ou, ainda, que está de acordo com a condição de primeira ordem:

n ~ i , bnls )
X ∂f (X ~ i , bnls )) = 0
2 (Yi − f (X (80)
i=1
∂bnls

Isto pode parecer meio bobo, imagino. Antes, tı́nhamos uma fórmula
fechada e analı́tica para o estimador. Agora, só temos uma propriedade meque-
trefe. Mas é a vida. O estimador linear é uma estrela justamente por ser mais
simples de expressar, estimar e derivar propriedades.

Aqui, para ter um valor numérico para o estimador bnls , precisa-se usar
métodos numéricos. Basicamente, chutar valores e ver qual deles dá a menor
soma de resı́duos.

Apesar desta limitação, é possı́vel derivar a consistência e, também,


qual a distribuição, mesmo que os métodos não seja direto igual o anterior.

Pn ~ i , bnls ))2 Pn ~ ~ i , bnls ))2


i=1 (Yi − f (X i=1 (f (Xi , β) + i − f (X
=
n n
Pn ~ i , β) − f (X ~ i , bnls ))2 + 2(f (X ~ i , β) − f (X~ i , bnls ))i + 2
((f ( X i
= i=1
n
Pn ~ ~ 2
Pn ~ ~ Pn 2
i=1 ((f (Xi , β) − f (Xi , bnls )) i=1 2(f (Xi , β) − f (Xi , bnls ))i 
= + + i=1 i
n n n
P ~ i , β) − f (X ~ i , bnls )2 ] + 2E[f (X ~ i , β) − f (X~ i , bnls )i ] + E[2i ]
⇒ E[(f (X
~ i , β) − f (X
= E[(f (X ~ i , bnls )2 ] + E[2i ]

Como hipótese, foi colocado, em analogia direta com antes, uma ”condição
de ortogonalidade” que garanta que o segundo termo seja zero. Não é fácil, sem
a forma funcional direta, saber qual condição é esta. Mas, genericamente, o
termo do meio sumirá.

Agora, note que, para minimizar a soma dos resı́duos ao quadrado, no


assintótico, precisamos que:
~ i , β) − f (X
E[(f (X ~ i , bnls )2 ] = 0

Isto só ocorre para bnls = β, Ou seja, no assintótico, aquilo que min-
imiza a média dos resı́duos é exatamente o parâmetro real, do que vem a con-
sistência.

Resta a distribuição, que esperamos ser uma normal. O método deste

110
é realmente bem indireto. Para chegar nele, foquemos na única coisa que real-
mente define o estimador bnls :

n ~ i , bnls ) n
X ∂f (X ~ i , bnls )) = 2
X 0
~ i , bN LS )(Yi − f (X
~ i , bnls )) = 0
2 (Yi − f (X f (X
i=1
∂bnls i=1

Definamos esta condição de primeira ordem como G(Yi , X ~ i , b). Note


que é uma função de b, que um valor arbitrário para o estimador. Faremos uma
”expansão de valor médio” em torno dela. Isto quer dizer que vamos usar o
Teorema do Valor Médio que afirma que, para qualquer função f contı́nua, é
verdade que em qualquer intervalo [a, b], existe um ponto c onde:

0 f (b) − f (a)
f (c) = (81)
b−a

Faremos exatamente isso com a função G. O intervalo que usaremos


será [β, bN LS ]. Neste intervalo, elegeremos o valor b∗ como o valor intermediário
”c”. Assim, pode-se escrever:

0 G(bN LS ) − G(β)
G (b∗ ) = (82)
bN LS − β

Por definição, como bN LS é o estimador e, como tal, satisfaz a condição


de segunda ordem, G(bN LS ) = 0. Assim:

0
(bN LS − β) = −G (b∗ )−1 (G(β))
0
G (b∗ ) −1 G(β)
= −( ) ( )
n n


Se, para evitarmos que a variância colapse, multiplacamos por n,
podemos chegar na distribuição. Os resultados relevantes são:

0 n 00
~ i , b∗ )) − f 0 (X
~ i , b∗ )(Yi − f (X ~ i , b∗ )f 0 (X
~ i , b∗ )T )
G (b∗ ) X f (X
= ( )
n i=1
n
P 00 0 0
⇒ E[f (X~ i , β)i ] − E[f (X ~ i , β)f (X
~ i , β)T ]
0
= −E[f (X~ i , β)f 0 (X
~ i , β)T ]

111
Vários pontos para notar aqui. Primeiramente, na primeira linha, note
a regra do produto. Depois, note que, quando passamos para a convergência de
probabilidade, tem-se que b∗ se tornou β. Isso é verdade porque bN LS é consis-
tente e o intervalo [bN LS , β] colapsa para, somente, β, de modo que todos os pon-
tos entre eles, como b∗ , também se tornam β. Ainda, (Yi −f (X ~ i , b∗ ). Em adição,
um detalhe menor é que, para não se confundir com o sı́mbolo da derivada, o
transposto se transformou em T . Por fim, sabe-se que E[f (X ~ i , β)i ] = 0. Assim,
pensando que pode-se passar a derivada ”para dentro” - teorema de Leibniz -
todas as derivadas também são zero.

O outro ponto é saber qual é a variância:

0
~ i , β)i ) = E[f 0 (X
V ar(f (X ~ i , β)i Ti f 0 (X
~ i , β)T ]
0
= E[[f (X ~ i , β)X
~ i , β)T E[i Ti |Xi ]
0 0
~ i , β)f (X
= σ 2 E[f (X ~ i , β)T ]

E a esperança:
0
~ i , β)i ] = 0
E[f (X

Assim, em última análise:

√ 0
P
n(bN LS − β) ⇒ −E[f (X ~ i , β)f 0 (X~ i , β)T ]−1 N (0, σ 2 E[f 0 (X
~ i , β)f 0 (X
~ i , β)T ])
0 0
= N (0, σ 2 E[f (X ~ i , β)f (X ~ i , β)T ]−1 )

E é isso. Veremos, agora, alguns casos especı́ficos de modelos não


lineares.

Probit e Logit

Imagine que nossa variável dependente, Y, possua somente dois valores possı́veis:
1 e 0. Ou seja, é categórica. Mais do que isso, vamos assumir que ela dado valores
de X, possui uma distribuição de probabilidade de Bernoulli: com probabilidade
p, assume valor 1 e, com 1-p, valor 0.

Vamos modelar, como antes, a esperança de Y, dado X. Se Y |X é uma


bernoulli, então E[Y |X] = p, ou seja, exatamente a probabilidade de Y |X = 1.

É fácil ver isso:

112
E[Y |X] = 1p + 0(1 − p) = p

Se é o caso, e vamos modelar, como antes, E[Y |X], faz sentido realizar
isso de uma maneira linear? Claramente não. Se fizermos combinações lineares
dos valores de X, não garantiremos que estaremos dentro do limite entre 0 e 1,
que deve ser atendido, dado que p é uma probabilidade e, como tal, está entre
0 e 1.

Então, que tipo de modelagem seria interessante usar? Uma função


que sempre está entre 0 e 1 é, por uma exemplo, uma CDF. Então, tome Φ(X)
como a distribuição acumulada de probabilidade da normal.

Uma primeira proposta é modelar a probabilidade de Y ser 1 como o


seguinte:

~ i ] = Φ(X
E[Yi |X ~ i β) (83)

Este é abordagem do Probit. No caso, a CDF está sendo avaliada a


patir de uma combinação linear entre os valores do vetor X ~ i . A depender do
valor desta combinação, que tem os valores do vetor β como coeficientes, tem-se
um valor para a probabilidade de Y ser 1. Se definirmos a variável ”i ” como
os possı́veis valores de uma normal, esta probabilidade pode ser expressa como:
P [i < X~ i β].

Pode-se, ainda, dar uma interpretação melhor para esta probabilidade.


Vamos trabalhar com uma variável chamada ”latente”, denominada Y ∗. Ela é
”latente” porque o resultado de Y, 0 ou 1, está fundamentalmente ligada com
o valor de Y ∗.

No caso, se Y ∗ ≥ 0, então Y = 1. Se Y ∗ < 0, então Y=0. Ademais,


Y ∗ é uma função linear das variáveis explicativas:

~ i β + i
Yi∗ = X

Uma intuição disto é o seguinte: imagine que queremos saber se algém


vai ou não para o colégio (Y=1 e Y=0, respectivamente); para isso, temos uma
série de variáveis explicativas, as quais, combinadas linearmente, dão-nos uma
informação compilada sobre o perfil do indivı́duo. Se estas informações tiverem
uma soma maior do que zero, então ele vai para a universidade. Se não, então
não.

Onde entra a probabilidade aqui? Ora, como se sabe i é uma variável


aleatória que, aqui, assumiremos ser normal.

113
Daı́:

~ i = 1] ⇐⇒ P [Yi∗ ≥ 0] ⇐⇒ P [i ≥ −X
P [Yi |X ~ i β] = P [i ≤ X
~ i β] = Φ(X
~ i β)

O último sinal de igual advém da propriedade de simetria da normal.

Este modelo, chamado de ”interpretação da variável latente”, é uma


forma de argumentar a partir de uma função linear. Imagine que gostarı́amos
de determinar a probabilidade de um indivı́dual dar ou não calote em uma
dı́vida do banco. Existe uma série de caracterı́sticas que temos da pessoa:
idade, gênero, tamanho da dı́vida, salário, etc. Também temos vários fatores
aleatórias, presentes em i . A ideia é que estamos ”destrinchando” o processo
de decisão do indivı́duo: a decisão advém das suas caraterı́sticas, mas também
de fatores aleatórias. A partir disso, assumimos que os fatores aleatórias são
normais e, conseguimos, a partir das caracterı́sticas dele, uma probabilidade de
calote. Algo como ”Dado que a pessoa é assim e assado, e dado que existem
fatores aleatórias, a probabilidade é de calote é tal”.

Dito isto, pode-se modelar a probabilidade variável dependente binária


ser 1 de ao menos mais uma forma: com a função logı́stica, a qual, também,
sempre está entre 0 e 1. No caso, a função é:

~ i] = 1
E[Yi |X 0 (84)
~ i β)
1 + exp(−X

A interpretação de variável latente não está aqui mais, embora os re-


sultados práticos da regressão sejam os mesmos.

Por fim, note que, em uma regressão linear, os valores de β podem ser
vistos como derivadas parciais de da esperança de Y em relação a uma variável
explicativa ou, em um sentido mais relevante, é o efeito marginal da variável
explicativa. Em uma regressão não linear, este não é o caso. De maneira mais
0
~ i ] = f (X
formal, se E[Yi |X ~ i β), então:

~ i]
∂E[Yi |X ~ i β)βj
= f 0 (X (85)
∂Xj

Nos dois casos que exploramos, Probit e Logit, a primeira derivada


sempre é positiva - tente demonstrar. Assim, embora observar os parâmetros
não me dê exatamente o efeito marginal (este é dado pelo produto do parâmetro
pela primeira derivada), dá-me o sinal, o que é já é bem relevante.

114
Tutorial 31-32-33

Máxima verossimilhança

Antes de passar propriamente para a parte econométrica, é interessante revisitar


um pouco o que exatamente é máxima verossimilhança. Imagine que tenhamos n
pares de (Xi , Yi )ni=1 , tirados de alguma distribuição conhecida, por um exemplo,
uma normal multivariada. A pergunta é: dado que temos estas dados especı́ficos,
e não outros, quais são os parâmetros mais prováveis? Por exemplo, se todos
os nossos pares ordenados estão no cı́rculo unitário, não faria sentido algum
0
acharmos que o valor esperado poderia ser o vetor [4, 5] . Talvez um mais
0
provável seja [0, 0] . Este é o princı́pio da verossimilhança.

Relevantemente, é um método DIFERENTE DE ESTIMAÇÃO DE


PARÂMETROS. É a primeira vez que isso acontece no curso. Antes, mesmo
que usássemos outros estimadores, sempre havia no cerne a ideia dos mı́nimos
quadrados. Não mais. Estamos em outro mundo.

Dito isso, antes, na estimação por mı́nimos quadrados, fazı́amos uma


hipótese sobre a esperança de E[Y |X] ~ - linear ou não-linear, por exemplo.
Agora, faremos uma hipótese sobre TODA a distribuição de Y |X, ~ ou, de outra
maneira, sobre todos os momentos.

Ou, ainda:

~ ∼ fθ (Yi , X
Y |X ~ i) (86)
0

Onde θ0 é o vetor de parâmetros reais que a distribuição possui. Para cada valor
~ i , possui-se um valor de probabilidade. Estamos assumindo
especı́fico de Yi e X
que conhecemos isto.

E agora? Ora, temos uma amostra com n pares ordenados. Qual é a


probabilidade de termos tido esses n pares ordenados especı́ficos? Ora, quando
só temos os valores amostrais, não temos os parâmetros reais. Então, para cada
estimativa de parâmetro que ”chutamos”, teremos uma probabilidade diferente;

Qual é essa probabilidade? Ora, para cada estimativa especı́fica θ, a


~ i . Pensando que os
probabilidade de um par [Xi , Yi ] é, como já dito, fθ (Yi , X
dados são independentes entre si, precisamos somente de um produtório para
ter a probabilidade da amostra.

n
Y
L(θ) = ~ i)
fθ (Yi , X (87)
i=1

115
Infelizmente, este produtório é muito difı́cil de maximizar. Mas se
pode realizar uma transformação monotônica nele sem interferir em qual esti-
mativa maximiza a probabilidade. Assim, ”passemos” o log! Outra ponto é
que vamos dividir por n - imagino que você saiba o motivo. No caso, defina:
~ i )n ≡ log(fθ (Yi ,X~i )) . Também, e isto será mais relevante lá na frente,
gθ (Yi , X n
definiremos também gθ (Yi , X ~ i ) ≡ log(fθ (Yi , X
~ i )), isto é, sem o n.

n
X
l(θ) = ~ i )n
gθ (Yi , X (88)
i=1

Com esta equação mais digerı́vel, pode-se fazer a condição de primeira


ordem. Embora θ seja um vetor, e derivar em relação a um vetor, como visto,
também resulta em um vetor, não vou explicitar isso, por pura falta de necessi-
dade.

n ~ i)
∂l(θM LE ) X ∂gθM LE (Yi , X
=
∂θ i=1
∂θ
Pn ~i ))
∂log(fθM LE (Yi ,X
i=1 ∂θ
=
n
Pn ~i ))
∂fθM LE (Yi ,X
1
i=1 (fθ (Y i ,X~i ) ∂θ
M LE
= =0
n

Esta é a condição de primeira ordem e, como no caso do estimador


não-linear, o único definidor do nosso estiamador para θ0 . Resta a difı́cil tarefa
de provar a consistência e, também, demonstrar qual é a distribuição. Daı́:

Pn ~i ))
∂fθM LE (Yi ,X
1
i=1 (fθ ~i )
(Yi ,X ∂θ P 1 ~ i ))
∂fθM LE (Yi , X
M LE
⇒ E[ ]=0
n ~ i)
(fθM LE (Yi , X ∂θ

Precisaremos, agora, abrir esta esperança. Vale uma interpretação


aqui. A esperança nada mais é do que os valores possı́veis da variável aleatória
multiplicada pela probabilidade desses valores e somadas. Aqui, uma vez mais,
a variável aleatória o é porque (Yi , Xi ) dependem da amostra que estamos re-
~ i ).
tirando. A probabilidade deste par especı́fico ocorrer, novamente, é fθ0 (Yi , X
Assim:

116
~ i )) Z ∞ Z ∞ ~ i ))
1 ∂fθ (Yi , X 1 ∂fθ (Yi , X ~ i) = 0
E[ ]= fθ0 (Yi , X
~ i)
(fθ (Yi , X ∂θ −∞ −∞ ~ i)
(fθ (Yi , X ∂θ

Se conseguirmos provar que θ0 satisfaz esta equação, provaremos que


ele satisfaz, no assintótico, a condição de primeira ordem. Note que ele deve
ser o único que faz isso. Colocou-se a condição de identificação justamente para
impedir que, na maximização, obtivéssemos mais do que um.

O argumento, intuitivamente, segue-se assim: em amostras pequenas,


θM LE é, por definição, o que está de acordo com a condição de primeira ordem;
se, no assintótico, a condição de primeira ordem é satisfeita por θ0 , então θ deve
convergir para ele.

Provemos isso ao substituir θ por θ0 , no assintótico.


Z ∞ Z ∞ ~ i )) Z ∞Z ∞ ~ i ))
1 ∂fθ (Yi , X ~ i) = 1 ∂fθ0 (Yi , X ~ i)
fθ0 (Yi , X fθ0 (Yi , X
−∞ ~
−∞ (fθ (Yi , Xi ) ∂θ ~
−∞ −∞ (fθ (Yi , Xi ) ∂θ
Z ∞Z ∞ ~ i ))
∂fθ0 (Yi , X
=
−∞ −∞ ∂θ
R∞ R∞ R∞ R∞
~ i ))
∂ −∞ −∞ fθ0 (Yi , X ∂ −∞ −∞ fθ0 (Yi , X ~ i )) ∂1
= = = =0
∂θ ∂θ ∂θ

Novamente, veja Leibniz sendo usado para integrar uma derivada. Isto
prova a consistência, como gostarı́amos.

Resta a distribuição. Antes de derivá-la, precisa-se revisitar um con-


ceito de estatı́stica que, provavelmente, é o mais obscuro de todos: a matriz de
informação de Fisher. Embora não farei as demonstrações formais aqui, tentarei
dar uma intuição. A ”informação” em ”Matriz de Informação de Fisher” é o
quanto de informação possuı́mos sobre uma variável aleatória, a partir de uma
matriz especı́fica -a de Fisher.

Podemos interpretá-la da seguinte forma: imagine que possuı́mos uma


função de verossimilhança, como l(θ) que definimos acima. Para cada θ e
amostra especı́fica teremos uma verossimilhança diferente. Estamos interes-
sados em maximizar esta função, dado uma amostra especı́fica.

Foquemos neste ponto de maximização, para uma amostra especı́fica.


Se realizarmos a primeira derivada, em relação a θ naturalmente ela será zero.
No entanto, qual a interpretação da segunda? É o quão rápido a inclinação se
altera ou, ainda, o quão achatado é a função de verossimilhança, perto de seu
pico. Se a inclinação e altera muito rápido, a segunda derivada é grande e ela
é pouco achatada. Do contrário, a segunda derivada é pequena e ela é bem
achatada - ”leptocúrtica” e ”platocúrtica”.

117
A matriz de informação de Fisher é exatamente está relacionada com
esta segunda derivada/achatamento. Relacionada como, exatamente? Ora,
a todo tempo estamos dizendo que todo este raciocı́nio é ”dado a amostra”.
De fato: dado n pares ordenados [Yi , X ~ i ], pode-se avaliar a probabilidade de
cada um deles e achar o parâmetro que maximiza. Então, para cada amostra,
terı́amos um parâmetro maximizador e, também, um achatamento/velocidade
de inclinação/segunda derivada em torno dele.

A matriz de informação de Fisher é nada mais do que o valor esperado


desses achatamentos, considerando uma amostra de tamanho infinito - onde,
na teoria, não havaria diferença entre as diversas amostras, dado que, bom, é
toda a população. Daı́, teremos um valor ”médio” ou representativo de todas
elas. Colocando formalmente este raciocı́nio, pode-se expressar a equação de
verossimilhança, como se viu:

n n ~ i ))
X
~ i )n =
X log(fθ (Yi , X
l(θ) = gθ (Yi , X
i=1 i=1
n

Então, precisa-se avaliar a segunda derivada disto em torno do ponto


máximo. Obviamente, este ponto máximo varia com a amostra, sendo dado por
θM LE contudo, no assintótico, isto converge para o θ0 . Este valor esperado -
advindo de uma amostra infinita - do ”achatamento” é, por fim, definida como
a matriz de Fisher.

n ~i ))
log(fθM LE (Yi ,X Pn ~i ))
∂log(fθM LE (Yi ,X
∂l(θM LE ) X ∂ n i=1 ∂θ∂θ 0
= =
∂θ∂θ0 i=1
∂θ∂θ0 n

P
~ i ))
∂log(fθ0 (Yi , X
⇒ E[ 0 ]
∂θ∂θ

Mais explicitamente:
~ i ))
∂log(fθ0 (Yi , X ∂gθ (Yi , X~ i)
I(θ0 ) = E[ 0 ] = E[ 0 ] (89)
∂θ∂θ ∂θ∂θ

Você consegue ver a ”informação”? Se estamos em um pico muito


achatado, com segunda derivada alta, qualquer pequena mudança em θ causará
uma mudança imensa no tamanho da verossimilhança. Assim, fica mais fácil
determinar qual é o ponto máximo exato, porque, afinal, existem pouquı́ssimos
candidatos. A matriz de Fisher com valor alto nos indica que temos muita
informação para encontrar o ponto máximo.

E daı́? Qual é a relevância disso? Ela reside no chamado ”Limite


de Cramer-Rao”. Por comodidade, não demonstrarei, bastando dizer que ele

118
afirma que qualquer estimador que funcione por máxima-verossimilhança tem,
como variância mı́nima, o inverso da sua matriz de Fisher:

V ar(θ) ≥ I(θ)−1 (90)

Ou seja, para mostrar que o estimador é eficiente, precisamos demon-


strar que ele atinge este limite. Para isso, buesquemos outra forma de expressar o

estimador. Foquemos na função ∂l(θ )
∂θ , qe a derivada de em relação a theta l(θ).
No intervalo [θ0 , θM LE ], apliquemos o teorema do valor médio, como fizemos na
seção anterior, quando buscamos achar a distribuição do estimador não-linear.
O valor intermediário sera θ∗ .

∂l(θM LE )
∂l(θ∗ ) ∂θ − ∂l(θ
∂θ
0)

=
∂θ∂θ0 θM LE − θ0
− ∂l(θ
∂θ
0)

=
θM LE − θ0
−1
∂l(θ∗ ) ∂l(θ0 )
⇐⇒ θM LE − θ0 =
∂θ∂θ0 ∂θ

Primeiramente, notemos:

Pn ~ i)
∂l(θ∗ ) ∂ i=1 gθ∗ (Yi , X
0 = 0
∂θ∂θ ∂θ∂θ
n ~ i)
X ∂gθ∗ (Yi , X
= 0
i=1
∂θ∂θ
n ~
X ∂ log(fθ∗ (Yi ,Xi ))
n
=
i=1
∂θ∂θ0
Pn ~i ))
∂log(fθ∗ (Yi ,X
i=1 ∂θ∂θ 0
=
n
P
~ i ))
∂log(fθ0 (Yi , X
⇒ E[ 0 ] = I(θ0 )
∂θ∂θ

Isto pode parecer um repeteco de como chegamos na matriz de Fisher.


No entanto, note que, antes, estávamos avaliando em θM LE , que sabemos que
converge para θ0 . Agora, estamos avaliando em um ponto intermediário, θ∗ ,
que é um ponto médio. O argumento para dizer que ele também converge para
θ0 é o mesmo de antes: o intervalo [θ0 , θM LE ] colapsa para somenta θ9

119
Então, isto converge, no assintótico, exatamente para a matriz de in-
formação de Fisher. Isto já é um resultado notável por si só. No entanto, quer-se,
ainda, encontrar uma outra forma de escrever este resultado. Prepara-se, pois
a conta é imensa.

Pn ~ ))
∂fθ ∗ (Yi ,X
1 i
∗ ∂l(θ ∗ ) i=1 (f ∗ (Y ,X
i
~ )
i
∂θ
∂l(θ ) ∂θ ∂( θ
n )
= =
∂θ∂θ0 ∂θ0 ∂θ0
f ∗ ~ ) ~ )) ∂f ∗ (Y ,X~ ))
θ (Yi ,X ∂fθ ∗ (Yi ,X
Pn 0
i ~i ))−
(fθ∗ (Yi ,X i θ i
0
i
∂θ∂θ ∂θ ∂θ
i=1 f 2∗ ~ )
θ (Yi ,Xi
=
n
fθ ~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
~
0 (Yi ,Xi )
0
~
(fθ0 (Yi , Xi )) − 0
P ∂θ∂θ ∂θ ∂θ 0
⇒ E[ ]
fθ0 (Yi , X~ i )2
~i )
fθ0 (Yi ,X ∂fθ (Yi ,X~i )) ∂fθ (Yi ,X~i ))
0 0
∂θ∂θ 0 ∂θ ∂θ 0
= E[ ] − E[ ]
~ i)
fθ0 (Yi , X ~ i )2
fθ0 (Yi , X
Z ∞ Z ∞ fθ0 (Yi ,X~i ) ∂fθ0 (Yi ,X~i )) ∂fθ (Yi ,X
0
~i ))
∂θ∂θ 0 ~ i ) − E[ ∂θ ∂θ 0
= fθ0 (Yi , X ]
−∞ −∞ ~ i)
fθ0 (Yi , X fθ0 (Yi , X ~ i )2
~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
Z ∞ Z ∞ ~ i) 0
fθ0 (Yi , X ∂θ ∂θ 0
= 0 − E[ ]
−∞ −∞ ∂θ∂θ fθ0 (Yi , X~ i )2
R∞ R∞ ∂fθ (Yi ,X~i )) ∂fθ (Yi ,X ~i ))
~ i)
fθ0 (Yi , X 0 0
−∞ −∞ ∂θ ∂θ 0
= 0 − E[ ]
∂θ∂θ ~ i )2
fθ0 (Yi , X
~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
0
∂1 ∂θ ∂θ 0
= − E[ ]
∂θ∂θ0 fθ0 (Yi , X~ i )2
∂fθ0 ~i )) ∂fθ (Yi ,X
(Yi ,X ~i ))
0
0
∂θ ∂θ
= −E[ ]
fθ0 (Yi , X~ i )2
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= −E[ 0 ]
∂θ ∂θ
0
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= −E[ ]
∂θ ∂θ

Ora, então,ao menos heuristicamente:

∂l(θ ∗ ) P ~i ))
∂log(fθ0 (Yi ,X ~
1- ∂θ∂θ 0
⇒ E[ ∂θ∂θ 0
] = E[ ∂gθ∂θ∂θ
(Yi ,Xi )
0 ] = I(θ0 )
0
∂l(θ ∗ ) P ~ ~
2- ∂θ∂θ 0
⇒ −E[ ∂gθ (Y
∂θ
i ,Xi ) ∂gθ (Yi ,Xi )
∂θ ]

120
De 1 e 2, vem que:

∂gθ (Yi , X~ i) ~ i ) ∂gθ (Yi , X


∂gθ (Yi , X ~ i)
I(θ0 ) = E[ 0 ] = −E[ ] (91)
∂θ∂θ ∂θ ∂θ

Dito isso, passemos para o último resultado. Sabe-se que:

Pn Pn ~i ))
log(fθ (Yi ,X
√ ∂l(θ0 ) √ ∂ ~ √ ∂
i=1 gθ (Yi , Xi )n i=1 n
n = n = n
∂θ ∂θ ∂θ
Pn ~i ))
log(fθ (Yi ,X
√ i=1 ∂ ∂θ
= n
n
P
~ i ))
log(fθ (Yi , X ~ i ))
log(fθ (Yi , X
⇒ N (E[∂ ], V ar(∂ ))
∂θ ∂θ

Resta desenvolver os resultados dentro da normal. A maioria deles nós


já sabemos, mas vou retomar.

~ i )) Z ∞Z ∞ ~ i ))
log(fθ (Yi , X log(fθ (Yi , X ~ i)
E[∂ ]= ∂ fθ0 (Yi , X
∂θ −∞ −∞ ∂θ
Z ∞Z ∞ ~ i)
1 ∂fθ0 (Yi , X ~ i)
= fθ0 (Yi , X
~
−∞ −∞ fθ0 (Yi , Xi ) ∂θ
Z ∞Z ∞ ~ i)
∂fθ0 (Yi , X
=
−∞ −∞ ∂θ
R∞ R∞
∂ ~ i)
fθ0 (Yi , X ∂1
= −∞ −∞ = =0
∂θ ∂θ

E, no caso da variância:

~ i ))
log(fθ (Yi , X gθ (Yi , X~ i)
V ar(∂ ) = V ar(∂ )
∂θ ∂θ
0
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= E[ ]
∂θ ∂θ
= −I(θ0 )

A última igualdade, claro, advém diretamente do resultado 91, que


suamos para demonstrar. Agora, pode-se, enfim, afirmar que:

121
√ D
n(θM LE − θ0 ) ⇒ I(θ0 )−1 N (0, I(θ0 )) = N (0, I(θ0 )−1 )

E cá estamos! Provou-se, enfim, que o estimador de máximo-verossimilhança


atinge o limite de Cramer-Rao, sendo, portanto, eficiente.

Apêndice A - Funções caracterı́sticas e propriedades


de distribuições

Funções caracterı́sticas

A fim de definir completamente uma distribuição de probabilidades de uma


variável aleatória, é suficiente que tenhamos sua função densidade de probabil-
idade. Contudo, em muitos situações, se torna extremamente tedioso e compli-
cado provar propriedades por meio dessas, de modo que ascende a necessidade
de algo mais simples, mas que mantenha a caracterı́stica de identificação das
distribuições de probabilidade.

Uma maneira de realizar isso é fazer uma ”transformação de Fourier”


na variável aleatória X: 18 :
R +∞
φX (t) = E[eitX ] = −∞ eitx f (x)dx

Em que ”x” é um valor especı́fico da variável aleatória, ”f(x)” é a


distribuição de probabilidade davariável X e ”t” é o parâmetro da transformada
de Fourier e ”i” é a unidade imaginária.

Como se pode avaliar uma combinação de variáveis aleatórais? Ve-


jamos:

Z ≡ c1 X1 + c2 X2 · · · + cn Xn
18 FORTEMENTE recomendo o vı́deo do 3b1b sobre o assunto:
https://www.youtube.com/watch?v=spUNpyF58BY

122
Ao aplicar a transformada de Fourier:
Z +∞ Z +∞ Z +∞
φZ (t) = E[eit(c1 X1 +c2 X2 ···+cn Xn )] = ··· eit(c1 x1 +c2 x2 ···+cn xn ) f (x1 , x2 . . . xn )dx1 dx2 . . . dxn
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
= ··· eitc1 x1 eitc2 x2 . . . eitcn xn f (x1 )f (x2 ) . . . f (xn )dx1 dx2 . . . dxn
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
= eitc1 x1 dx1 eitc2 x2 dx2 · · · eitcn xn dxn
−∞ −∞ −∞
= φc1 X1 (t)φc2 X2 (t) . . . φcn Xn (t)

Soma de normais independentes é uma normal

Se colocarmos a distribuição de probabilidade de uma normal em f(x) na trans-


formado de Fourier e fizermos os limites da integral imprópria, chegar-se-á em:
σ2 t
eitµ− 2 Ou, no caso de uma combinação linear delas:
c2
1σ t
2

ec1 itµ− 2

Note que isto é uma equação única: somente a normal possui esta
função caracterı́stica. Nesta, há que µ e σ 2 são os parâmetros da normal. O que
seria, então, a soma de variáveis aleatórias independentes? Ora, vamos definir
que:

Assim, se aplicarmos a propriedade de soma de variáveis aleatórias


para uma normal, chegaremos em:
t(c2 2 2 2 2 2
1 σ1 +c2 σ2 ...cn σn ) ∗ t(σ ∗ )
e(it(c1 µ1 +c2 µ2 ...cn µn )− 2 ) = e(it(µ )− 2 )

Que também é uma função caracterı́stica de uma normal. Ou seja,


prova-se que a soma de normais independentes é uma normal.

A soma de k normais padronizadas independentes ao quadrado


é uma qui-quadrada com ”k” graus de liberdade

19

19 Eu não sei exatamente qual é a história disso, mas me parece que o caminho ”cronológico”
deve ter sido algo como: percebeu-se que a soma de normais independentes possuı́a uma
fórmula fechada, a qual chamaram de ”Qui-quadrada”. Aqui, por didatismo, realizamos o
caminho ”contrário”: primeiro deixamos a PDF explcı́ta para depois provar as propriedades

123
Primeiramente, define-se o que é uma distribuição qui-quadrada, por
meio de sua pdf:

n x
fX (x) = cx 2 −1 e 2

1
c≡
2n/2 Γ(n/2)
Z +∞
Γ(z) = xz−1 e( −x)dx
0

Com isso definido, prova-se dois lemas a partir dos quais se torna óbvio
nossa proprosição principal.

1 - A soma de k qui-quadradasPindependentes com ki graus


k
de liberdade é uma qui quadrada com i=1 ki graus de liberdade

Para notar isso, basta invocar a função caracterı́stica de uma qui-


quadrada. Isto é, quando realizamos a transformada de Fourier na PDF, com k
os graus de liberdade, chega-se em:
φZ (t) = (1 − 2it)−k/2

Então, ao multiplicar as funções caracterı́sticas, chega-se em:

Pk
− i=1 ki
φZ1 (t)φZ2 (t) . . . φZk (t) = (1 − 2it) 2

E isto prova nosso ponto, pois a função caracterı́sticas encontradada a


partir do produtotório é exatamente o que intentávamos.

2 - Uma normal ao quadrado é uma qui-quadrada com um


grau de liberdade Se Z é uma normal, defina X como o quadrado de Z.
Começamos tomando a definição da distribuição acumulada de X e a abrindo.

FX (x) = P (X ≤ x)
= P (Z 2 ≤ x)
√ √
= P (− x ≤ Z ≤ x)
Z +√x
1 1 2
= √ p e2z
− x (2π)

124
A partir daqui, queremos chegar na função densidade de probabili-
dade e, esperamos, provar que é a mesma da Qui-Quadrada. Então, usando o
teorema fundamental do cálculo, realizamos a derivada de Fx (X). Vou deixar
claro o processo, mas omitir os cálculos. Tome fz como a função densidade de
probabilidade de uma normal.

R +√x 1 2
d( √
− x
√1 e2z )
dFX (x) (2π)
=
dx dx
d(x1/2 ) d(x−1/2 )
= fz (x 1/2
) − fz (x−1/2 )
dx dx
1 1
= x−1/2 e− 2 x
21/2 π 1/2

Daı́, notemos o seguinte: Γ(1/2) = sqrtπ. Para ver isso, que omitirei
aqui, basta fazer por mudança de variável, colocando x = u2 . Desta forma,
conseguimos concluir que:

1 1 1 1
x( − 1/2)e− 2 x = x( − 1/2)e− 2 x
21/2 π 1/2 21/2 Γ(1/2)
E isto é exatamente a PDF de uma qui-quadrada, conforme definida. Então, de
fato, a PDF de uma normal ao quadrado é a PDF de uma qui-quadrada com
um grau de liberdade.

Então, ora, se isso é verdade, e também que a soma de k qui-quadradas


é uma qui quadrada cujos graus de liberdade é a soma dos graus de liberdade
das suas constituintes, então, trivialmente, a soma de k normais independentes,
padronizadas, ao quadrados é uma qui-quadrada com k graus de liberdade - que
é o que gostarı́amos de demonstrar.

Apêndice B - Propriedades de álgebra linear

A identidade é a única matriz idempotente que possui in-


versa

Isto é fácil de ver. Se ela é idempotente:

AA = A

Pré-multiplique pela inversa:

125
A = A−1 A = I

O que prova nosso ponto.

O traço de uma matriz idempotente é igual ao seu rank

Para isso, provemos um lemma: o traço de uma matriz é igual à soma dos
seus autovalores.

A fim de chegar nessa prova, lembremos de um dos assuntos mais sub-


limes de álgebra linear: diagonalização. Quando diagonalizávamos uma matriz,
conseguı́amos muitas de suas propriedades facilmente. Por exemplo: seja ”A”
diagonalizável. De Álgebrea linear, devemos lembrar que, para a diagonalizar,
só precisávamos gerar a matriz ”P” que possuı́a, nas colunas, os autovalores de
A. Daı́:

A = P −1 DP , com D diagonal.

Ocorre que, embora eu não vá provar isto aqui, a matriz D possui o
mesmo traço e os mesmos autovalores de A. Assim, obviamente, a soma dos
autovalores é o traço de A, pois este é o traço de D.

No entanto, nem toda matriz é diagonalizável. Precisamos, então, de


um resultado mais geral. Aqui que entra a ”forma canônica de Jordan”, uma
”poor man’s diagonalization”, mas que é muito mais geral. Ela é pode escrita
como:
 
a11 a12 0 0 ... 0
 0 a22 a23 0 . . . 0 
 
 0 0 a33 a34 . . . 0 
 
 .. .. .. .. .. 
 . . . . . 
0 0 0 0 ... ann

Onde: ai(i+1) = 0 ou ai(i+1) = 1, ∀i ∈ [1 : n − 1]


 
  1 0 0 0
2 1 0 0 2 1 0 
 
Por exemplo: 0 1 2 ou   ou 1 0
.
0 0 10 0  0 1
0 0 4
0 0 0 14

O ponto é que, embora a prova fuja do escopo desta apresentação, toda


matriz A possui uma forma de Jordan, J: LAL−1 = J.

Daı́, vem o seguinte: se ”tr” simboliza o traço, então: tr(J) = tr(LAL−1 ) =


tr(AL−1 L) = tr(A).

126
Ou seja, a matriz de Jordan e a matriz ”jornalizada” possuem o mesmo
traço. A propriedade ”comutativa” usada acima é fácil de derivar.

Ademais, outra propriedade é a seguinte:

Jv = λv ⇐⇒ LAL−1 v = λv ⇐⇒ A(L−1 v) = λ(L−1 v) ⇐⇒ Ax =


λx

Ou seja, eles também possuem os mesmos autovalores. Por fim, se


notarmos que a matriz de Jordan é triangular superior e, como tal, seus auto-
valores estão em suas diagonais, chega-se na conclusão do nosso lemma: o traço
de uma matriz é igual à soma dos seus autovalores.

Com isso provado, precisamos de outro resultado: uma matriz idem-


potente só pode ter autovalores 0 ou 1. Isto é bem fácil de notar:

Av = λv ⇐⇒ AAv = Aλv Av = λAv ⇐⇒ λv = λ2 v

Se v é não nulo, então resta dizer que λ = 0 ou λ = 1, que era nosso


propósito.

Daqui, torna-se trivial: o rank da matriz idempotente A é exatamente


o número de seus autovalores que são ”1”. Então, a soma dos autovalores é
exatamente o seu rank. Mas, como vimos acima, a soma de autovalores também
é o traço. Logo, o traço de uma matriz idempotente é igual ao seu rank, como
gostarı́amos de demonstrar.

Se uma matriz é positiva-definida simétrica, sua inversa


também é

Ora, no enunciado, afirma-se que A, uma matriz positiva definida, possui in-
versa.

Neste sentido, defina um vetor da seguinte forma: y = Ax. Note


que isto é uma bijeção. Para qualquer x no Rn , consegue-se ter o y, bastando
multiplicar por A. E, ademais, para y no Rn conseguimosretornarax : A−1 y =
x.IstoérelevanteporquetodososvetoresdoRn podemserescritoscomo00 x0 ou00 y 00 .Assim :

y T A−1 y = xT AT A−1 Ax = xT AT x = xT Ax

Ou seja, para qualquer vetor y, esta equação é igual a xT Ax e isso é


positivo, porque A é positivo definido.

127

Вам также может понравиться