Вы находитесь на странице: 1из 29

ANLISE DE REGRESSO

UM GUIA PRTICO

O QUE REGRESSO?
Na anlise bidimensional de variveis, foi introduzida a
noo de condicionalidade: a proporo da populao
que fazia parte de um determinado grupo, condicional
ao fato de ter uma caracterstica. No exemplo,
calculou-se a freqncia de mulheres que so chefes de
famlia dada a informao que trabalham.
Regresso o clculo do valor esperado de uma
varivel Y, dado o conjunto de informaes fornecido
por um conjunto de caractersticas X. Ou seja, a
mdia de Y, condicional s informaes de X (E[Y|X]).

O MODELO LINEAR DE REGRESSO


O modelo linear de regresso a forma utilizada para
calcular mdias condicionais de uma varivel a partir de
dados disponveis sobre variveis supostamente
relacionadas.
O modelo assume o seguinte formato:
Y = + 1X1 + 2X2 + ... +
A varivel Y chamada de varivel dependente ou
explicada.
As variveis X1, X2, X3, ... so chamadas de explicativas.
O termo chamado de erro ou distrbio.

HIPTESES BSICAS:

Relacionamento linear entre as variveis


E() = 0
E(2) = 2 (constante)
Os resduos so independentes entre si:
E(i j) = 0,
i,j = 1, 2, 3...

Os resduos e as variveis so independentes:


E(X) =
0
As variveis Xn no podem ser combinaes lineares entre si

O AJUSTE DA REGRESSO
Graficamente, a
anlise de regresso
implica no ajuste de
uma reta que
represente de uma
boa forma a
estrutura dos dados.

70
60
50
40
30
20
10
5

Mas o que boa forma


de ajuste da reta?
Note que a diferena entre
a reta ajustada (que
produto do valor esperado
condicional) e a
observao realizada
corresponde ao resduo.
Logo, o ajuste ideal da
reta deve respeitar a
condio de menor
distncia possvel em
relao aos valores
observados.

60
55
50
45
40
35
30

25
E[Y|X]

20
15
5

Logo, a idia de ajuste dos parmetros do valor


esperado condicional passa por Minimizar a Soma
dos Quadrados dos Resduos.
O estimador de Mnimos Quadrados Ordinrios
possui propriedades interessantes, quando as
hipteses bsicas no so violadas: ele noviesado e o mais eficiente entre os estimadores
lineares.
O estimador de mnimos quadrados, escrito na
forma matricial, :
= (XX)-1(XY)

ESTATSTICAS DE AVALIAO
R2 busca decompor a variao total de Y entre
variao prevista e variao no explicada pelo
modelo (variao dos resduos). Fazendo a
separao, temos:
SQT = SQE + SQR
onde SQT = Soma dos quadrados total (Y-Y)2),
SQE = Soma dos quadrados explicada (Y*-Y)2)
e SQR = Soma dos quadrados dos resduos (e),
Y a mdia de Y e Y* o valor previsto de Y

Logo, temos:
1 = (SQE/SQT) + (SQR/SQT)
O R2 busca verificar o quanto de Y foi explicado pelo
modelo. Logo:
R2 = SQE/SQT = 1 - (SQR/SQT)
Note que, por definio, 0 < R2 < 1.
R2 ajustado: o problema da estatstica de R2 o seu
comportamento diante do acrscimo de variveis no
modelo. Qualquer varivel adicionada, por menor que seja o
seu poder de explicao, gera um crescimento no R2 normal.
Logo, o R2 ajustado busca penalizar a estatstica pelo
acrscimo de variveis irrelevantes.

ESTATSTICAS DOS PARMETROS


Toda estimativa de mnimos quadrados ordinrios
gerada de possui mdia igual ao valor esperado para
a populao e uma varincia constante. Logo, qualquer
inferncia pode ser feita atravs da estatstica t sobre
os seus valores.
Para a estimativa conjunta dos parmetros estimados,
necessrio fazer a decomposio da varincia, de tal
forma que se separe a poro da variao de Y que
explicada pelo conjunto de parmetros em questo.
Tendo como hiptese nula a ausncia de influncia
(por conseqncia, hiptese alternativa a presena de
influncia das variveis), temos:

F = [(SQE)/SQR][(n-k-1)/k]
onde SQE e SQR foram definidos acima, e n =
tamanho da amostra, k = nmero de coeficientes
angulares.

ESTIMAO DE MODELOS: POR


QUE USAR O LOGARITMO
NATURAL?
O logaritmo natural enquanto expresso de taxa
mdia de crescimento: uma varivel qualquer no
tempo pode ser expressa como uma progresso do
seu valor no instante zero
Yt = A.et.g.Y0.t
Aplicando o logaritmo natural em ambos os lados
da equao:
Ln(Yt) = (Ln(A) + Ln(Y0)) + t.g + t

O logaritmo natural como expresso da elasticidade:


Ln(Yt) = A + B Ln(Xt)
Ln(Yt) = B Ln(Xt)
Ln(Yt)/Ln(Xt) = B
Mas:

Ln(Yt) = Ln(Yt) - Ln(Yt-1) = Ln(Yt / Yt-1)


(Yt - Yt-1)/Yt-1

Ento:
Ln(Yt)/Ln(Xt) = [(Yt - Yt-1)/Yt-1]/[(Xt - Xt-1)/Xt-1]
= elasticidade = B

Exerccio Prtico:
CAPM - calculando o Beta de uma
ao

VIOLAES DAS HIPTESES HETEROCEDASTICIDADE


Se E(2) 2 (constante) E(2) = 2i
Este problema conhecido como:
heteroscedasticidade
Esta violao normalmente verificada em questes
como:
Lucro X Tamanho da empresa: empresas maiores
tendem a ter maior disperso nos seus lucros.
Consumo de um Bem X Renda: pessoas ricas podem
escolher melhor a proporo da renda consumida em
determinado bem.

Renda (dividida por 1000)

Exemplo: Relao entre Renda e Gastos


com Carto de Crdito
12
10
8
6
4
2
0
0

10

15

Gastos com Carto de Crdito (dividido por 100)

20

Teste para Detectar


Heteroscedasticidade
A hiptese nula para qualquer teste varincia constante.
Hiptese alternativa varincia inconstante na amostra.
Teste de White:
o mais popular dos testes e consiste em efetuar uma
regresso dos resduos elevados ao quadrado contra o as
variveis explicativas usadas na regresso, seus quadrados e
os produtos cruzados. A estatstica F de significncia de
todos os parmetros o valor do teste.
Testes semelhantes, como o de Breush-Pagan, so variaes
sobre os termos acrescentados na regresso de teste.

VIOLAES DAS HIPTESES AUTOCORRELAO SERIAL


Se E(i j) 0, para i,j = 1, 2, 3... temos que o
valor de um resduo passa a influenciar os
resultados futuros da mdia condicional estimada
para Y.
Problema: Autocorrelao Serial
Fontes de autocorrelao serial:
Omisso de varivel relevante;
M especificao da forma funcional;
M especificao dinmica do modelo.

A idia da autocorrelao serial que os resduos


contm mais informao sobre a varivel
dependente do que aquilo que foi filtrado pelas
variveis explicativas. Em termos tcnicos, o
resduo ainda pode ser sistematizado.
Exemplos de autocorrelao so normalmente
encontrados em trabalhos que utilizam sries de
tempo como dados de anlise.

Teste para Detectar


Autocorrelao Serial
A hiptese nula do teste de autocorrelao a
ausncia do problema. Hiptese alternativa, sua
presena.
Teste de Durbin-Watson:
Talvez o mais popular dos testes para detectar o
problema, consiste em computar uma soma
ponderada dos resduos, de tal forma que seja
possvel detectar algum padro no seu
comportamento. Possui o problema de captar
apenas a autocorrelao de primeira ordem.

Teste de Breush-Godfrey:
Teste de certa forma semelhante ao teste de White,
consiste em efetuar uma regresso do resduo
como varivel explicada tendo como explicativas o
prprio resduo defasado no tempo e as variveis
explicativas do modelo original. Usa-se a
estatstica F de significncia conjunta dos
parmetros da equao de teste.
Este teste talvez seja o mais indicado para verificar
autocorrelao, pois considera a possibilidade de
resduos correlacionados com valores defasados
acima de um perodo e pode ser usada com
variveis explicativas defasadas.

CONSEQNCIA DAS
VIOLAES DAS HIPTESES
No caso da heteroscedasticidade, a presena do
problema tende a no viesar as estimativas dos
parmetros. Todavia, as suas varincias estimadas
no sero as corretas. Logo, inferncias sobre os
parmetros estaro m especificadas.
No caso da autocorrelao serial, alm do
problema da varincia, temos a possibilidade de
vis nas estimativas se o problema for decorrente
de ausncia de variveis relevantes no modelo.

QUEBRAS ESTRUTURAIS E
VARIVEIS DUMMIES
Algumas vezes queremos incluir no modelo de
regresso variveis qualitativas ou categricas, como
planos econmicos, regio, etc...
Inclusive porque fenmenos pouco usuais podem
determinar vis nas estimativas se no forem
controlados. Este tipo de fenmeno conhecido na
literatura como quebra estrutural.
Para controlar este tipo de fenmeno e modelar as
variveis qualitativas, so utilizadas variveis binrias,
ou dummies

As variveis recebem este nome por assumirem


apenas dois valores ao longo de toda a amostra:
zero ou um. O funcionamento da varivel o
seguinte:
Perodo sem a quebra: D = 0
Yt = D Xt + t
Portanto:
Yt = Xt + t
Perodo da quebra: D = 1
Yt = ( Xt + t

Outro formato possvel que a varivel dummy


pode assumir refere-se a mudanas na inclinao. A
varivel, assim, assume o valor zero para o perodo
sem a mudana e o valor igual ao da varivel cuja
inclinao mudou para o perodo com mudana.
O modelo passa a funcionar da seguinte forma:
Perodo sem a quebra: D = 0
Yt = Xt Xt + t
Portanto:
Yt = Xt + t
Perodo da quebra: D = Xt
Yt = Xt + t

Perodo

Jan/01

Jan/00

Jan/99

Jan/98

Jan/97

Jan/96

Jan/95

Jan/94

Jan/93

Jan/92

Jan/91

Jan/90

Jan/89

Jan/88

Jan/87

Jan/86

Jan/85

Jan/84

Jan/83

Jan/82

Jan/81

Jan/80

Im porta es (em U S $ m ilh e s)

Exemplo de Quebra Estrutural:


Demanda por Importaes - Brasil
1980 - 2001
6.000

5.000

4.000

3.000

2.000

1.000

Uma funo de demanda por importaes assume o


seguinte formato:
lnMt = + 1t + 2lnYt + 3lnRERt + t

onde: Mt = importaes; t = tendncia linear; Yt =


PIB real; RERt = taxa de cmbio real. O uso de
uma tendncia justifica-se por no existir com
freqncia mensal uma medida de utilizao da
capacidade instalada da economia. Todas as
variveis, pelos motivos j conhecidos, encontramse transformadas para o seu logaritmo natural.
Estimando-se a regresso por OLS, temos o
seguinte grfico dos resduos:

-0,8

Perodo

J a n /0 1

J a n /0 0

J a n /9 9

J a n /9 8

J a n /9 7

J a n /9 6

J a n /9 5

J a n /9 4

J a n /9 3

J a n /9 2

J a n /9 1

J a n /9 0

J a n /8 9

J a n /8 8

J a n /8 7

J a n /8 6

J a n /8 5

J a n /8 4

J a n /8 3

J a n /8 2

J a n /8 1

J a n /8 0

R e s d u o s

Resduos: Modelo para demanda


por importaes - Brasil

0,8

0,6

0,4

0,2

-0,2

-0,4

-0,6

Note como o resduo exibe, aparentemente, um padro


sazonal, alm de uma quebra estrutural localizada no
incio dos anos 90. Como o resduo corresponde a tudo
aquilo que no foi explicado pelo modelo, temos aqui o
problema de especificao por no termos considerado
a quebra estrutural indicado pela mudana de tendncia
dos resduos.
Lembre-se: devem existir motivos relevantes para a
quebra!!! A presena de outliers por si s no quer
dizer que existam quebras. No nosso caso, devemos
lembrar a mudana ocorrida na economia com a sua
abertura comercial no incio dos anos 90. Logo,
justifica-se uma correo no modelo.