Вы находитесь на странице: 1из 67

A Previsão com o Modelo de Regressão....................................................................................

1
1. Introdução ao Modelo de Regressão .............................................................................. 1
2. Exemplos de Modelos Lineares ..................................................................................... 2
3. Derivação dos Mínimos Quadrados no Modelo de Regressão ...................................... 6
4. A Natureza Probabilística do Modelo de Regressão...................................................... 9
5. Propriedades Estatísticas dos Estimadores................................................................... 13
6. Critérios de Avaliação dos Estimadores....................................................................... 14
7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não
Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) .......................................... 16
8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos EstimadoresErro!
Indicador não definido.
9. O Coeficiente de Ajustamento ou Determinação: Erro! Indicador não definido.
10. Interpretação da Variação em Y em termos da Análise de VariânciaErro! Indicador
não definido.
11. O Modelo de Regressão Múltipla......................... Erro! Indicador não definido.
12. Considerações Adicionais: a Correlação Parcial.................................................34
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos ................36
14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas......36
15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico..............37
16. O Problema da Multicolinearidade .....................................................................38
17. O Problema de Heteroscedasticidade..................................................................40
18. O Problema da Correlação Serial ......................... Erro! Indicador não definido.
19. A Previsão com o Modelo de Regressão.............. Erro! Indicador não definido.

Leituras recomendadas (Pindyck e Rubinfeld(1976)):


1. Variáveis instrumentais e mínimos quadrados em dois estágios (Leitura
recomendada) (Pindyck e Rubinfeld)
2. Tópicos avançados em estimação de uma equação singular (Leitura
recomendada)
3. Modelos de escolha qualitativa (Leitura recomendada) (Pindyck e Rubinfeld)
Referências Bibliográficas:
• Kmenta, Jan, “Elementos de Econometria”, Ed. Atlas.
• Thomas, J. J. (1978), “Introdução à Análise Estatística para Economistas”,
Zahar Editores.
• Pindyck, R. S. e Rubinfeld, D. L. (1976), “Econometric Models and Economic
Forecasts”, McGraw-Hill Kogakusha Ltd., Tokyo.
• Pindyck, R.S. e Rubinfeld, D.L. (1991), “Econometric Models and Economic
Forecasts”, Mcgraw-Hill International Editors.
• Bowerman, B.L. e O`Connel, R.T. (1987), “Times Series Forecasting-Unified
Concepts and Computer Implementation”, Duxbury Press, Boston.
• Levenbach, H. e Cleary, J.P. (1984), “ The Modern Forecaster: The Forecasting
Process Through Data Analysis”, Lifetime Learning Publications, Belmonnt,
Califórnia.
A Previsão com o Modelo de Regressão

1. Introdução ao Modelo de Regressão

A teoria da Regressão permite que se estabeleçam relações entre variáveis que se


interrelacionam cujas informações estão disponíveis (dados pré-coletados), relações às quais
associam-se os modelos de regressão. Dessa forma, os economistas e os administradores
procuram compreender a natureza e o funcionamento de sistemas econômicos que são
descritos por meio dessas variáveis. Por exemplo, o volume do comércio internacional pode
ser modelado como uma função linear do produto interno bruto dos países. As vendas de um
produto podem ser estimadas por uma relação entre a variável que as representa e variáveis
relativas aos preços desse produto e de seus concorrentes no mercado e aos respectivos gastos
relativos com propaganda. Uma vez estabelecida essa relação pelo modelo de regressão, é
preciso avaliar a confiança que nela se pode colocar, realizando testes estatísticos.

Temos dois tipos básicos de informação a considerar:

(1) • Informação descrevendo as mudanças assumidas por uma variável através


do tempo (dados de séries temporais)

(2) • Informação descrevendo as atividades de pessoas, firmas etc. num dado


instante de tempo (dados de corte transversal)

Para esses dois tipos de informação é possível estabelecer relações que descrevem as
situações observadas por meio de modelos de regressão.

Ou seja, dado um conjunto finito de observações X e Y, por meio do modelo de


regressão é buscado estabelecer relações entre X e Y. Esse conjunto finito de observações
corresponde a uma amostra representativa do universo de informações ou população, a qual
permitiria estabelecer a verdadeira relação entre X e Y (Figura 1).

Amostra População (verdadeira relação entre X e Y)

Figura 1- Relação entre a amostra e a população ou universo de informações

1
Tome-se por hipótese que exista a relação linear li entre X e Y. No diagrama de
dispersão da Figura 2 são representadas as linhas l1 e l2 que se procurou ajustar ao conjunto de
pares ordenados (X, Y) do conjunto amostral, assim como os desvios (positivos e negativos)
em relação a l2 .

Figura 2 - Diagrama de dispersão e desvios em relação à linha ajustada

Definem-se desvios como os valores, segundo Y, das diferenças entre os valores


observados e os valores sobre a linha li ajustada ao conjunto de pares (X, Y). Como regra
estabelece-se que a melhor linha li corresponde àquela cujo somatório dos desvios tende a
zero (é minimizado). A melhor linha ajustada define o modelo de regressão e pode ser obtida
pela derivação de mínimos quadrados ordinários, apresentada mais à frente.

2. Exemplos de Modelos Lineares

(A) Modelagem de Tendência e Sazonalidade através de Funções do Tempo

Seja por exemplo o modelo Yt = St + Tt , onde Tt representa a tendência no período


t. Por outro lado, St representa a sazonalidade no período t, sendo L o comprimento da
sazonalidade. Exemplos de situações onde a tendência é modelada, em que β0, β1 e β2 são os
parâmetros do modelo, são:

2
Modelo
∗ Tendência inexistente, ou constante Tt = β0
horizontal

∗ Tendência linear Tt = β0 + β1t

∗ Tendência quadrática (Figura 3) Tt = β0 + β1t + β2t2

Tt Tt que se transforma em:

Tt = β0 + β1t + β2v,

fazendo v=t2, o que torna


t t
possível transformação do grau
da relação.
Tt Tt

t t

Figura 3- Gráficos de dados com tendência quadrática

Em algumas situações observa-se sazonalidade ou seja, os valores observados variam


de forma característica por período de tempo t ao longo do comprimento da sazonalidade.
Assim, pode-se escrever que:

St = β S1 X S1, t + β S2 X S2, t + ... + β S(L −1) X S(L −1), t

Variáveis “dummies”

Define-se cada variável “dummy” por:

X S1,t = 1 se t é o período sazonal 1


0 senão

1 se t é o período sazonal 2
X S2,t = 0 senão

1 se t é o período sazonal (L-1)


XS(L-1),t = 0 senão

3
Observa-se que o período sazonal L corresponde ao período base da representação de St
(poderia ser outro qualquer, definindo-o a priori).

(B) Exemplos de Transformação Linear

Seja o modelo:
y 1
• y=e a+bx
⇒ logey = (a + bx) logee ⇒ y = a + bx (transformação
linear).

Substituindo-se x = 1/t, obtém-se a curva S ou curva do aprendizado (Figura 4):

t
Figura 4- Gráfico da curva do aprendizado

• Modelo recíproco

1 1
Y= ⇒ = a + bx ⇒ y=a+bx (transformação linear)
a + bx Y

• Modelo semilogarítmico

Y = a + b log x ⇒ Y = a + bv (transformação linear)

v
Da mesma forma:

Y = α0 + α1 x12 + α2 log x2 ⇒ Y = α0 + α1 V1 + α2 V2

V1 V2

Seja a equação não linear nas variáveis independentes:

Y = α0 x1α1 x2α2

Esta equação é não linear nos coeficientes, mas linearizável, por meio de aplicação
de logaritmos.

4
Seja o exemplo das vendas de um produto introduzido no mercado e com vendas,
posteriormente, em expansão. Esta situação é típica do modelo que representa a curva do
aprendizado do tipo Y = ea – (b/t), pois observa-se o começo lento, crescimento forte e período
de saturação (Figura 5).

Dados
tempo(t) vendas(Y) 1/t Loge(vendas)
1 0.023 1 -3.77226
2 0.157 0.5 -1.851151
3 0.329
4 0.48
5 1.205
6 1.748
7 1.996
8 2.509
9 2.366
10 2.94
11 2.8714
12 2.9346
13 3.1346
14 3.24
Y = e1,478 – (5,786/t) 15 3.148
16 3.522
Resultados do ajuste do modelo ao 17 3.54
18 3.31
conjunto de observações: 19 3.547
20 3.374
Parâmetros (a) 20.7867 21 3.3745
22 3.401
(b) -21.0389 23 3.6971
24 3.493
R2 = 0.953, Fteste = 442.6

Figura 5- Exemplo de situação típica da curva do aprendizado (vendas de T.V.

a cores, Makridakis e Wheelwright, Forecasting, pág. 203)

(C) Uso do tempo como uma das variáveis explanatórias

Situações-Exemplo:

1) Qt = γ Ltα Ktβ A(t) εt


funcional de t
δt
função de mudança ex.: A(t) = e
produção técnica

2) Inclusão da variável tempo em modelo “pouco aderente”

Yt = β1 + β2 x2t + β3t + εt, sendo que o termo β3t modela o efeito líquido de
conjunto de variáveis excluídas. O efeito da inclusão desse termo é estatístico.

5
3. Derivação dos Mínimos Quadrados no Modelo de Regressão

A derivação dos mínimos quadrados permite testes estatísticos sobre o


ajustamento entre X e Y, da forma Y = a + bX, sendo, por hipótese, Y a variável
dependente e X a variável independente.

Y = a + bX
⇓ ⇓
Variável dependente Variável independente

Figura 6 – Linha de mínimos quadrados ajustada ao conjunto amostral

Define-se o resíduo ou desvio (εi) como εi = Yi – Ŷi , onde Ŷi = a + bXi , e N


corresponde ao número de observações amostrais.

N
Busca-se obter Min ∑ (Yi − a − bX i ) 2 ou seja, a minimização do somatório dos N
i =1

desvios ao quadrado (Figura 6).


εi
Dessa forma, define-se o sistema de equações normais:
-2 ∑iεi = 0 equações normais

∑ (Yi − a − bX i ) = 0 ⇒ ... ⇒ ∑ Yi = a N + b∑Xi
2
(I)
∂a
-2 ∑Xiεi = 0
∂ 2
∑ (Yi − a − bX i ) = 0 ⇒ ... ⇒ ∑ Xi Yi = a ∑Xi + b∑Xi (II)
2

∂b

que multiplicadas, respectivamente, por ∑ Xi e N, são reescritas:

6
(I) ∗ ∑ Xi ⇒ equações ⇒ (∗∑Xi) ∑Yi = (∗∑Xi) (a N + b ∑Xi)

(II) ∗ N normais (∗ N) ∑Xi Yi = (∗ N) (a ∑Xi + b ∑Xi2)


Fazendo (II) – (I), pode-se obter os parâmetros (a e b) do modelo de regressão:
“inclinação”
N ∑ X i Yi − ∑ X i ∑ Yi
b=
N ∑ X i 2 − (∑ X i ) 2
“coeficiente linear”

“intercepto”
∑ Yi ∑ Xi
a= −b
N N
“constante”
Y X

onde se definem as médias amostrais Y e X .

Se Y = X = 0 isto significa a = 0, e
X Y

... (÷) N 2 (∑ X i Yi / N) − (Σ X i /N) (Σ Yi /N)


b= ⇒ b= , que pode ser escrito:
(÷) N 2 ∑ Xi
2
− (Σ X i /N) 2
N
X
(∑ X i Yi /N) − X Y
b= 2
∑ Xi
- X2
N

(∑ X i Yi /N)
Tomando-se a situação onde X = Y = 0 ⇒ b = .
(∑ X i2 /N)
Esses resultados sugerem a conveniência de escrever a estimativa de mínimos
quadrados por meio de variáveis que representam desvios em relação às médias, sejam
essas nulas ou não. Dessa forma, deve-se obter a transformação: xi = Xi - X e yi = Yi - Y ,
Σx i
pois x = = 0 = y (são nulas as médias das variáveis que correspondem à uma
N
transformação de defasagem em relação às médias das variáveis originais, pois:
∑(X i − X) ∑ X i NX
x= = − = 0 ).
N N N

Assim, reescrevem-se as estimativas dos parâmetros de mínimos quadrados da


relação linear ajustada entre X e Y, antes da transformação, como:

7
Σx i y i
b=
Σx i2

a = Y − bX

onde o significado dessas estimativas de a e b é:

dY
b→ razão da variação (marginal) em Y com a variação em X.
dX

a → Y = a, quando Xi = 0 ⇒ tal conclusão em geral não diz muita coisa sobre o


evento observado, sendo apenas um valor para o intercepto da relação linear do ajuste
feito. Para que essa informação tenha significado para a situação modelada, deve-se ter
informação próxima de X = 0.

Na Tabela 1 a seguir exemplifica-se a obtenção dos valores de a e b, sendo os


gráficos da linha ajustada representados na Figura 7.

Tabela 1- Obtenção das estimativas dos parâmetros

(introduzir planilha EXCEL)

Y X ∑xi = 0
4.0 21.0 ∑yi = 0
3.0 15.0
∑xiyi = 19.50
3.5 15.0
2.0 9.0 ∑xi2 = 162.00
3.0 12.0 Σx i y i
b= = 0,120
3.5 18.0 Σx i2
2.5 6.0
2.5 12.0 a = 1,375
Ŷ = 1,375 + 0,12 X
Calcula-se: X = 13.5 e Y = 3.0 (R2 = 0.77; F1,6 = 21.2)

8
Regressão transformada
Figura 7- Exemplo do ajustamento da linha de regressão e da linha de regressão
transformada

Exercício (casa)

Prove que a linha de regressão estimada passa sobre o ponto de média ( X , Y ).

Sugestão: mostre que X e Y satisfazem à equação Y = a + bX, sendo a e b


N ∑ X i Yi − ∑ X i ∑ Yi ∑ Yi b ∑ X i
definidos como: b = 2 2
e a= −
N ∑ X i − (∑ X i ) N N

4. A Natureza Probabilística do Modelo de Regressão

Para que se possa avaliar a qualidade da relação linear ajustada às informações


amostrais das variáveis, é preciso realizar testes estatísticos no modelo de regressão. Por
exemplo, como realizar esses testes estatísticos no modelo de regressão de mínimos
quadrados com uma variável independente e uma variável dependente? Para isso, é
preciso, em primeiro lugar, reconhecer a natureza probabilística do modelo de regressão.

Seja o exemplo da Figura 8, no qual observa-se que para um mesmo valor de X


(renda) existem vários valores de Y (gastos com alimentação). Isto se explica porque,
embora a renda de grupos de indivíduos esteja, por exemplo, em torno de R$ 60.000/ano, o
meio e fatores aleatórios fazem existir uma significativa oscilação nos gastos com
alimentação nessa faixa de renda.

9
X Y

observados

εi

Renda dos Meio/ Gastos com


Indivíduos Fatores aleatórios alimentação

Figura 8- Relação entre amostra de renda dos indivíduos e seus gastos com
alimentação

Dessa forma, definem-se as variáveis aleatórias Yi e Xi e, por hipótese, a


verdadeira relação linear entre elas, como Yi = α + βXi + εi (Figura 9).

Yi = α + β Xi + εi “TRUE MODEL”
variável (população)
aleatória erro aleatório
“Fixados”
(omissão de variáveis explicativas)
(distribuição de (erro de coleta de dados)
probabilidade)

Figura 9- A verdadeira relação linear ou “true model” entre as variáveis aleatórias

O valor esperado E(Yi) = E(α + βXi + εi) = α + βX corresponde ao verdadeiro


modelo, representado na Figura 10 a seguir. Embora Xi ´s tenham seus valores fixados, são
variáveis aleatórias com distribuição de probabilidades.

Figura 10 – Natureza probabilística das variáveis do modelo de regressão

10
Assim, são pressupostos básicos do modelo clássico de regressão linear a duas
variáveis:

(i) Relação linear entre Y e X como descrita em Yi = α + βXi + εi

(ii) Xi`s não-estocásticos e fixados (será relaxado mais tarde)

(iii) a) O erro εi tem E (εi) = 0 (zero) e E(εi)2 = σ2 (constante), para


todas as observações.

b) εi`s não correlacionados estatisticamente, de forma que: E (εi εj) = 0,


para i ≠ j.

No caso de (iii), supondo-se E (εi) = α`, sendo α` um valor constante qualquer,


pode-se escrever: Yi = α + βXi + εi + (α` - α`) = (α + α`) + βXi + (εi - α`), definindo-se
assim um novo coeficiente α*.
α* εi*
Obtém-se E (εi*) como: E (εi - α`) = E (εi ) – E (α`) = E (εi ) - α` = 0 (!),

constante α`

ou seja: E (εi*) = 0, mantendo válidas as suposições do modelo de regressão clássico.

As suposições (ii) (a) e (b) tratam de garantir a homocedasticidade (variância do


erro aleatório constante) e a ausência de correlação serial. No caso contrário, tem-se a
presença de heteroscedasticidade e correlação serial (Figuras 11 e 12):

1) Presença de heteroscedasticidade: E(εi2) não é constante e igual a σ2

2) Erros correlacionados → correlação serial ou autocorrelação,


onde E (εi εj) ≠ 0 (existe um padrão na disposição dos dados em
relação à linha ajustada)

11
Variância decresce ou cresce (heteroscedasticidade)
Figura 11- Exemplos de heteroscedasticidade

Correlação serial negativa Correlação serial positiva


Figura 12- Exemplos de correlação serial

Às afirmações acima deve-se acrescentar as seguintes observações:

* Corolário de (ii) e iii (a)

E (Xi εi) = Xi E (εi) = 0, ou seja: erro aleatório não correlacionado com Xi, onde
Xi`s são valores fixados.

* E (∑ εi) = ∑ E (εi) = 0, que se refere a uma amostra de erros de uma população,


sendo que esses erros são não-correlacionados.

Além disso, são válidas as seguintes suposições do modelo de regressão em


termos da distribuição de probabilidade da variável Y:

12
(iii) (a`) Y → E (Yi) = α + βX

VAR (Yi) = σ2 , sendo α, β e σ2 a determinar.

(b`) Yi`s → não correlacionados

5. Propriedades Estatísticas dos Estimadores

Assume-se que:

(iii) c) O termo do erro é normalmente distribuído (erros de medida e omissão


de variáveis pequenos e independentes entre si).

Yi → combinação dos εi`s, normalmente distribuída, sendo: Yi = α + βXi +εi.

Assim, a linha de regressão estimada Ŷ = α̂ + β̂X deve estar próxima ao

verdadeiro modelo Y = α + βX, onde as estimativas de α e β, os estimadores α̂ e β̂ , são

variáveis aleatórias ou seja, tem E ( α̂ ), VAR( α̂ ), E ( β̂ ) e VAR ( β̂ ) (Figura 13). Para que
se possa entender melhor este ponto supõe-se que se tenha N valores fixados de Xi, em
uma determinada amostra (A1), de forma que se tenha Yi valores associados a esses N

valores de Xi. Com esses valores de X e Y, estima-se β → (β̂) .

β / (β̂)
E (β̂) e VAR (β̂) ,

E (α̂) e VAR (α̂) .


α / (α̂)

população Yi

A1 A2 Yi ↔ Xi
N

X1

Figura 13- A natureza probabilística dos estimadores α̂ e β̂

13
Toma-se outra amostra de pares de valores Xi e Yi, obtendo novos N valores de Yi

associados aos N valores de Xi, com os quais estima-se um novo β → (β̂) . Note-se que os

εi`s são diferentes, sempre. Com esse procedimento, pode-se obter uma distribuição de
∑ x i yi
estimativas de β (β̂) , sendo: β̂ = com respectivos valor esperado e variância, aos
∑ x i2

quais aplica-se os testes estatísticos. O mesmo raciocínio se estende ao estimador α̂ .

6. Critérios de Avaliação dos Estimadores

São exemplicados a seguir quatro critérios de avaliação dos estimadores.

1) Ausência de tendenciosidade (viés = 0)

Define-se o viés como: Viés = E (β̂) - β, onde β é o verdadeiro parâmetro


(Figura 14).

Figura 14- Exemplo de viés

∑ Xi
Quando N → número grande, é estimador não-viesado da verdadeira média
N
∑ (X i − X)
2
da população. Da mesma forma, observa-se que: é estimador não-viesado da
N −1
verdadeira variância da população, em cujo denominador tem-se N-1, pois X foi fixado
para estabelecer os desvios.

2) Eficiência

14
β̂ é um estimador não-viesado eficiente se a VAR (β̂) é menor que a variância de
qualquer outro estimador não-viesado.

Maior eficiência implica que são mais fortes as afirmações estatísticas sobre os
estimadores. Quando a variância é igual a zero (0), isto implica que se está tratando do
parâmetro verdadeiro da regressão.

3) Erro Quadrático Médio Mínimo (MSE)

MSE (β̂) = E (β̂ - β) 2 = E [ (β̂ - β̂ ) + ( β̂ − β)] 2 = ... = VAR (β̂) + [viés (β̂) ]2, sendo

E (β̂) = β̂ .

Observa-se uma interrelação (“trade-off”) entre viés e variância para se obter


maior precisão ou seja, o “trade-off” de maior precisão entre o viés e a variância
implicando pequena variância e algum viés.

4) Consistência

Este critério diz respeito a quando o tamanho da amostra N tender a ser grande
(Figura 15) verificar-se propriedades assintóticas, definidas pelo limite em probabilidade
de β̂ ou p lim β̂ :

p lim β̂ ⇔ lim Prob (( | β - β̂ |) < δ) = 1 , de forma que: p lim β̂ = β.

N→∞
δ > 0, pequeno

Prob β̂

N muito grande

Pequeno N

β β̂

Figura 15- Exemplo das propriedades assintóticas com aumento do tamanho


amostral

Na prática, o critério de estimação é a consistência ou seja: estimador viesado mas


consistente pode não ser igual ao valor de β na média mas aproxima-se dele para N muito

15
grande. Como exemplo, usa-se N no denominador para obter estimador da variância
(X i − X) 2
populacional, de forma a ter ∑ como um estimador viesado mas consistente da
N
variância populacional (base das estimações robustas).

Como alternativa para a consistência pode-se ter por critério:

MSE → 0 quando N → ∞, o que significa que se tem um estimador não-viesado


assintóticamente cuja variância → 0 quando N → ∞.

7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares


Não Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs)

Considerando-se que α̂ e β̂ são os estimadores de mínimos quadrados do modelo

de regressão Yi = α + βXi + εi, pelo Teorema de Gauss-Markov se estabelece que “ α̂ e β̂

são os melhores (mais eficientes) estimadores lineares não tendenciosos de α e β” no


sentido de que esses estimadores tem variância mínima em relação aos estimadores não
tendenciosos de α e β, ou seja: α̂ e β̂ são BLUEs.

O Teorema não se aplica a estimadores não-lineares. É possível que existam


estimadores não-lineares não tendenciosos e com variância menor que a dos estimadores
de mínimos quadrados. Além disso, um estimador tendencioso pode ter variância menor
que os estimadores de mínimos quadrados. Estimadores ditos robustos, não-lineares e
tendenciosos, com mínimos MSE, tem sido estudados e utilizados em aplicações práticas
(embora não sejam objeto do presente estudo).

Como já visto, os estimadores α̂ e β̂ são variáveis aleatórias, com respectivas

média e variância. Considerando-se que x i = X i − X e y i = Yi − Y , pode-se escrever


xi
E (yi) = βxi e β̂ = ∑ x i yi / ∑ x i2 , onde é definida a constante ci = de forma que
∑ x i2
N
β̂ = ∑ ci yi .
i =1

Assim:

β̂ = ∑ ci yi = ∑ ci (βx i + ε i ) = ∑ ciβx i + ∑ ci ε i (I)

Obtém-se:

16
E (β̂) = ∑ ciβx i + ∑ ci E(ε i )

* E (β̂) = ∑ c i βx i = β ∑ c i x i = β , logo β̂ é estimador não tendencioso,

⎡ x ⎤
onde ∑ ci x i = ∑ ⎢ i 2 ⎥ x i =1 (II)
⎣ ∑ xi ⎦

De modo similar:

VAR (β̂) = E ( β̂ - β) 2

Substituindo (I) em VAR (β̂) , tem-se que VAR (β̂) = E [ ∑ ciβx i + ∑ ci ε i − β ]2 .

β̂ - β
Observa-se que β̂ - β = ∑ ciβx i + ∑ ci ε i − β = ( ∑ c i x i − 1) β + ∑ c i ε i

De (II) tem-se que ∑ ci x i = 1 , logo

β̂ - β = ∑ ci ε i , sendo ( β̂ - β )2 = ( ∑ ci ε i )2

∴ VAR (β̂) = E ( β̂ - β )2 = E [ ∑ ci ε i ]2

VAR (β̂) = E [( c1ε1 )2 + ( c 2ε 2 )2 + ...] + E [(2c1c2ε1ε2) + ...]

Ora, E (εiεj) = 0, i ≠ j, assim:

VAR (β̂) = E ( c1ε1 )2 + E ( c 2ε 2 )2 + ... =

= c12 E (ε1)2 + c22 E (ε2)2 + ... =

= c12 σ12 + c22 σ22 + ... = σ2∑ci2, pois, na presença de


homocedasticidade, E (εi)2 = cte = σi2 = σ2.

2
∑ xi 1
Ora, ∑ci2 = 2 2
= 2
, logo:
(∑ x i ) ∑ xi

VAR (β̂) = σ2 / ∑xi2 , xi = Xi - X

De forma similar pode-se obter que:

E (α̂) = α

17
⎡ ∑ X i2
2 ⎤
VAR (α̂) = σ ⎢ 2 ⎥
⎣ N ∑(X i − X) ⎦

− Xσ 2
COV ( α̂, β̂ ) =
∑ x i2

É preciso remarcar que se β̂ = ∑ ci yi é uma combinação linear de variáveis yi e se

yi é normalmente distribuída, β̂ é uma variável aleatória normalmente distribuída, o que

implica que os testes de hipótese são válidos para β̂ . Além disso, observa-se que, de
acordo com o Teorema do Limite Central, se o tamanho da amostra cresce, a distribuição
da média amostral de uma variável independentemente distribuída tende para a
normalidade. Com isso pode-se afirmar que, mesmo no caso dos yi não serem
normalmente distribuídos, a distribuição de β̂ é, ainda assim, assintóticamente normal.

Ou seja, para amostras de grande tamanho:

⎡ σ2 ⎤
β̂ ~ N ⎢β, 2 ⎥
, de onde extrai-se o critério amostral: maior variância na amostra
⎣ ∑ xi ⎦

de Xi leva a menor variância de β̂ .

⎡ 2 ∑ Xi ⎤
2
α̂ ~ N ⎢α, σ 2 ⎥
, cuja variância reduz-se a σ2/N se X = 0 na amostra.
⎣ N ∑ xi ⎦

Xσ 2
COV (α̂, β̂) = − , onde se observa que, se X > 0, superestimar α̂ corresponde
∑ x i2

a subestimar β̂ e vice-versa.

Observa-se que: σ 2 é o verdadeiro valor da variância do erro. Utiliza-se S2 como


∑ ε̂ i2 ∑ (Yi − α̂ − β̂X i ) 2
estimador não-viesado σ̂ 2 de σ 2 ou seja: S2 = σ̂ 2 = = .
N−2 N−2

8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos Estimadores

Define-se o intervalo de confiança como o intervalo de valores que contém, com


uma determinada probabilidade (1-n.s.), ou um nível de significância estatística (n.s.), os
verdadeiros parâmetros da regressão. Nele se baseiam os testes de hipóteses estatísticas.

18
Em geral estabelece-se a hipótese nula ou seja, de que o efeito não está presente. Para o
modelo ser explicativo, a hipótese nula deve ser rejeitada. Ao associar-se ao conjunto
amostral um modelo de regressão, é objetivo analisar os dados de forma a testar o modelo
ajustado e avaliar a adequação de novos modelos. Desta forma, realizam-se os testes de
hipóteses, tendo resultados que podem levar a uma seqüência de testes de modelos. Ou
seja:

(a) Informação inconsistente com o modelo:


Rejeição do modelo; novo modelo é considerado.
(b) Informação consistente com o modelo:
Modelo aceito até que novas hipóteses ou nova informação permitam novos
testes.
Os testes são aplicados a um nível de significância (n.s.). Por exemplo, o que
significa: nível de significância de 5%? Significa que, se a hipótese nula for rejeitada neste
nível, é fato que ela estava correta pelo menos 5% das vezes. O nível de significância pode
ser compreendido como o índice de erro aceito ao estabelecer o modelo de regressão (ou
erro Tipo 1).

O teste estatístico para rejeitar a hipótese nula associada ao coeficiente da


regressão baseia-se usualmente na distribuição t de “Students”. Essa distribuição é
relevante pois nela utiliza-se a estimativa amostral da variância do erro, ao invés de seu
valor verdadeiro (na população).

Para compreender a formação dos intervalos de confiança e o procedimento do


teste, inicialmente obtém-se a estatística t com N-2 graus de liberdade (considerando-se o
modelo com dois estimadores) como:

β̂ − β β̂ − β
tN-2 = = , com a qual se obtém a padronização do valor estimado
Sβ̂ S/( ∑ x i2 )1/2

β̂ .

Constrói-se em torno de estatística tN-2 um intervalo de confiança tal que:

-tc < tN-2 < tc , que tem (1-n.s.)% de probabilidade de conter o verdadeiro valor do
parâmetro, onde tc corresponde ao valor tabelado da estatística t de “Students” para um
nível de significância (n.s.) ou probabilidade (1-n.s.), com N-2 graus de liberdade (N é o
tamanho da amostra e 2 representa o número de estimadores).

19
Assim, seja por exemplo a probabilidade de 95% de que o valor padronizado
pertença ao intervalo de confiança:

Prob (- tc < tN-2 < tc) = 0,95 por exemplo, onde tc = 1,96, com N – 2 graus de
liberdade, N tendendo a um número grande.

⎡ β̂ − β ⎤
Prob ⎢− t c < < t c ⎥ = 0,95 significa que há 95% de probabilidade de
⎣⎢ S/( ∑ x i2 )1/2 ⎥⎦
S
que β está contido no intervalo entre β̂ ± tc = β̂ ± tc S β̂ .
(∑ x i2 )1/2

Da mesma forma, estabelece-se o intervalo:

S (∑ X i2 )1/2
α̂ ± tc S α̂ = α̂ ± tc
(N ∑ x i2 )1/2

O teste de hipótese é definido de forma que:

Ho = hipótese nula β = 0,

Hipótese alternativa β ≠ 0.

Nesse caso, sendo o valor padronizado:

β̂ − β β̂
, se β = 0 ⇒ ≥ t c , sendo tc = 1,96, por exemplo.
Sβ̂ Sβ̂

1.96

condição de rejeição de Ho

β̂
Como regra prática: a 5% n.s., se > 2 → rejeito Ho.
Ŝβ

Deve ser remarcado que não rejeitar Ho não significa aceitá-la. O procedimento
de teste nos fala sobre a situação de rejeitar a hipótese nula (e aceitar a estimativa de β)
quando na verdade a hipótese nula é verdadeira em n.s. % das vezes.

São exemplos de testes de hipóteses para situações com presença de sazonalidade:

Caso 1

20
Ct = β1 + β2 Yt + εt não há variação do tipo sazonal, logo não
há teste de hipótese para avaliar a
presença de sazonalidade.

Caso 2

Ct = β1 + β2 Yt + α Dt + εt , onde Dt representa a variação sazonal.

1 0
guerra paz

E (Ct) = β1 + β2 E (Yt)
σ2 constante
ou teste: α=0, verifica se a
mudança é significativa entre
E (Ct) = (β1 + α) + β2 E (Yt) diferentes períodos.

Caso 3

Ct = β1 + β2 Yt + γ (Dt Yt) + εt

E (Ct) = β1 + β2 Yt
teste: γ=0, verifica se a
ou mudança é significativa e
altera a taxa de mudança em
E (Ct) = β1 + (β2 + γ) Yt Ct associada a Yt.

Caso 4
Os testes para α=0 e para
Ct = β1 + β2 Yt + α Dt + γ (Dt Yt) + εt
γ=0 avaliam se há mudança
significativa entre diferentes
períodos sazonais.

9. O Coeficiente de Ajustamento ou Determinação:

Os resíduos de uma regressão dão uma medida da qualidade do ajustamento.


Como regra, tem-se que:

21
Grandes resíduos → ajuste ruim

Pequenos resíduos → bom ajuste

Observe-se que os resíduos têm unidade relativa ao problema. Intuitivamente, ao


( resíduo ) 2
obter-se tem-se a geração de parâmetros para comparações. É esse raciocínio
σ 2y

que inspira a definição de uma medida de qualidade do ajustamento ou aderência, o


coeficiente de ajustamento R2 (ou coeficiente de determinação).

Seja a Figura 16 a seguir, onde se tem a representação da linha ajustada a um


conjunto de observações de X e Y.

Figura 16- Obtenção dos desvios entre a variável observada, a linha ajustada e o seu valor
médio

Analisando o valor Y, pode-se obter a variação total de Y como o somatório do


quadrado dos desvios das observações em relação à média amostral:

Variação (Y) = ∑ (Yi − Y) 2 , onde:

Yi − Y = (Yi − Ŷi ) + (Ŷi − Y) ,

De forma que:

22
∑ (Yi − Y) = ∑ (Yi − Ŷi ) + ∑ (Ŷi − Y) + 2∑ (Yi − Ŷi )(Ŷi − Y)
2 2 2

⇓ ⇓ ⇓ ε̂ i ŷ i

variação variação variação


total de residual explicada
Y de Y de Y ŷ i = β̂x i
(TSS) (não explicada) (RSS)
(ESS) 2 ∑ β̂x i ε i
0
De forma simbólica, escreve-se:

TSS = ESS + RSS

Regressão
Erro
Total

Dividindo-se os dois lados da equação por TSS (a variação total de Y):

ESS RSS
1= +
TSS TSS

Define-se o coeficiente de ajustamento R2 como a relação entre a variação de Y


explicada pela regressão e a variação total. Assim,
ESS RSS
R2 = 1 - = , sem , 0 ≤ R2 ≤ 1.
TSS TSS
Observe-se que R2 é função dos parâmetros estimados. Na Figura 17 são
representadas duas situações-limite para o valor de R2: ajustamento perfeito (a), e caso em
que a relação linear não se ajusta aos dados amostrais (b).

Figura 17 – Exemplos de situações-limite do ajustamento

23
Uma outra maneira de se obter R2 é mostrada a seguir. Seja:

y i = Yi − Y ; x i = X i − X

ŷ i = β̂x i
y i = ŷ i + ε̂ i ∑ y i = ∑ ŷ i + ∑ ε̂ i + 2∑ ŷ i ε̂ i
2 2 2

Resíduo da 2 ∑ β̂x i ε̂ i
regressão

2β̂ ∑ x i ε̂ i

⇓=0

(nas equações normais da regressão)

2
∑ yi = β̂ 2 ∑ x i2 + ∑ ε̂ i2 + ( 2 β̂ 0 = 0 ), onde

β̂ 2 ∑ x i2 = ∑ y i2 - ∑ ε̂ i2 .

2 2
Lembrando que o coeficiente de ajustamento é função de ŷi e yi , ou seja, as

variações (Ŷi − Y) 2 e (Yi − Y) 2 , e considerando-se a relação anterior obtida:


(explicado)
2 RSS ∑ ŷ i2 2
2 ∑ xi 2
2
∑ ε̂ i
R = = = β̂ => R = 1 - 2
TSS ∑ y i2 2
∑ yi ∑ yi
(total)

10. Interpretação da Variação em Y em termos da Análise de Variância

As medidas relativas a TSS, RSS e ESS devem ser convertidas em variâncias, por
sua divisão pelos graus de liberdade associados ao processo de sua obtenção. Assim,

TSS
Variância total em Y =
N −1

média
RSS
Variância explicada em Y =
1

24
Xi
ESS
Variância residual em Y =
N−2

α̂ , β̂ ou X, β̂

variância explicada
Define-se a relação de variâncias: , como uma boa
variância não − explicada
medida (complementar ao coeficiente de determinação) da qualidade do ajustamento,
permitindo que se avalie a existência de relação linear em Y e X. Essa medida permite que
se aplique o teste estatístico da equação de regressão. O teste da equação de regressão que
testa a existência de relação linear entre Y e X baseia-se na estatística F de “Snedecor”
associada à essa relação de variâncias.

Assim, obtém-se a estatística F1,N-2, com 1 e N-2 graus de liberdade, como:

variância explicada RSS/1


F1,N-2 = = ,
variância não − explicada ESS/N − 2

S2
que segue a distribuição F com 1, N-2 graus de liberdade no numerador e no denominador,
respectivamente.

β̂ 2 ∑ x i2 RSS
F1, N-2 = 2
⇔ F1, N-2 = 0 → somente quando =0,
S 1
2
2∑ ε̂ i
onde S =
N-2
F1, N-2 pequenos

Relação linear fraca


Como orientação,
Relação linear forte

F1, N-2 grandes

Dessa forma, estabelece-se o teste da equação de regressão onde:


Hipótese Nula (H0): Relação linear não explicada (F1, N-2 = 0)

25
Os valores da distribuição F estão tabelados, onde se obtém valores de Fcrítico (Fc).
Dessa forma,
se F1, N-2 > Fc rejeito Ho
Tabela F1, N-2 → Fc
se F1, N-2 < Fc não posso rejeitar
n.s. %
1, N-2 graus de liberdade

11. O Modelo de Regressão Múltipla

O caso geral de modelo de regressão múltipla significa que existem várias


variáveis Xi explicativas da variação em uma outra (Yi). Assim, escreve-se o modelo de
regressão múltipla a k variáveis ou parâmetros:

Yi = β1 X1i + β2 X2i + ... + βk Xki + εi

onde X1i = 1

i = 1,2,…, N β1, β2, ... βk são os coeficientes parciais da regressão.

São válidas as seguintes suposições para o modelo:

i) A especificação do modelo é linear

ii) X`s não-estocásticos. Não há relação linear exata entre os X`s (senão:
multicolinearidade).

iii) E (εi) = 0

E (εi)2 = σ2

E (εi . εj) = 0, i ≠ j

εi ~ N [0, σ2]

Por simplicidade, considere-se o modelo a 2 variáveis independentes:

Yi = β1 + β2 X2i + β3 X3i + εi ⇒ Ŷi = β̂ 1 + β̂ 2 X 2i + β̂ 3 X 3i

E (Yi) = β1 + β2X2i + β3X3i

E (Yi)2 = σ2 σ̂ 2 = S 2

Os coeficientes da regressão podem ser obtidos por:

26
β̂1 = Y − β̂ 2 X 2 −β̂ 3 X 3

(∑ x 2i y i )(∑ x 3i ) − (∑ x 3i y i )(∑ x 2i x 3i )
2

β̂ 2 =
(∑ x 2i ) (∑ x 3i ) − (∑ x 2i x 3i ) 2
2 2

(∑ x 3i y i )(∑ x 2i ) − (∑ x 2i y i )(∑ x 2i x 3i )
2

β̂ 3 =
(∑ x 2i ) (∑ x 3i ) − (∑ x 2i x 3i ) 2
2 2

sendo que as estimativas das variâncias podem ser obtidas por:

σ 2 ∑ x 3i2 [∑ x 22i ∑ x 3i2 −(∑ x 2i x 3i ) 2 ]


S 2
= ... E[(b 2 −β 2 ) ] =
2
=
β̂j
[∑ x 22i .∑ x 3i2 −(∑ x 2i x 3i ) 2 ] 2

j = 1, ..., k

σ 2 ∑ x 3i2
k=3 =
∑x ∑x 2
2i
2
3i −(∑ x 2i x 3i ) 2

σ 2 ∑ x 22i
β̂ 2 = b 2 E[(b3 - β3)2] = ... =
∑x ∑x
2
2i
2
3i − (∑ x 2i x 3i ) 2

β̂ 3 = b3

Pode-se demonstrar também que:

σ 2 [∑ X 22i ∑ X 3i2 − (∑ X 2i X 3i ) 2
E[(b1 −β1 ) 2 ] = , sendo b1 = β̂1 .
N [∑ x 22i ∑ x 3i2 − (∑ x 2i x 3i ) 2 ]

− σ 2 ∑ x 2i x 3i
Cov (b2, b3) =
∑ x 22i ∑ x 3i2 − (∑ x 2i x 3i ) 2

(a) A Significância dos Coeficientes do Modelo de Regressão Múltipla

A derivação das estatísticas dos estimadores no modelo de regressão múltipla é


obtida através da Álgebra Matricial. Apresenta-se a seguir sumário dos resultados mais
relevantes:

i) Os estimadores de mínimos quadrados de βj, j = 1, ... , k são BLUEs

Quando o erro ~ N (0, σ2), estes estimadores são também os estimadores de


máxima verossimilhança.

27
∑ε̂ i2
ii) S2 = é uma estimativa consistente e não-viesada de σ2.
N−k

iii) Quando o erro é normalmente distribuído, testes t podem ser aplicados pois
os valores padronizados dos parâmetros βj seguem essa distribuição de probabilidade de
forma que:

β̂ j − β j
~ tN-k, j = 1, ..., k
Sβ̂j

(b) Avaliação da Qualidade do Ajustamento: Teste F, R2 e R2 Corrigido

Seja:

Yi = β1 + β2 X2i + ... + εi, com k variáveis ou k parâmetros

Yi - Y = (Yi − Ŷi ) + (Ŷ − Y)

⇓ Total = Residual + Explicada

∑ (Yi - Y) 2 = ∑(Yi − Ŷi ) 2 + ∑(Ŷi − Y) 2 ⇒ TSS = ESS + RSS

O coeficiente de ajustamento:

RSS ∑(Ŷi − Y) 2 ∑ε̂ i2


R2 = = = 1−
TSS ∑(Yi − Y) 2 ∑(Yi − Y)

mede a qualidade do ajustamento

Algumas questões se impõem ao uso isolado do R2 como medida do ajustamento.


Entre elas:

1) Em sua obtenção parte-se do pressuposto da boa especificação

2) R2 → depende do número de variáveis independentes.

A adição de variável independente pode não ser adequada, mas não

deve baixar R2

Além disso, o uso isolado do R2 tem valor limitado, pois pode ocorrer bom ajustamento
(leia-se aqui: bom R2) do modelo global porque variáveis independentes estão fortemente
correlacionadas entre si, com baixos valores de t e altos desvios padrão individuais.

28
Para avaliar a significância do R2 realiza-se o teste F k-1, N-k , com k-1 e N-k graus
de liberdade no numerador e denominador, respectivamente, representando o número de
variáveis independentes e o grau de variação não explicada. Para realizar o teste de
hipótese Fk-1, N-k, obtém-se:

R2 N − k
Fk-1, N-k =
1− R 2 k −1

Define-se medida complementar da qualidade do ajustamento: R2 corrigido ou R 2 ,


que é obtido, por definição, em função de variâncias.

S 2
=
∑ ε̂ 2
i

N−k

var(ε̂)
R2 = 1 -
var(Y)

∑ (Yi − Y)
2

N −1

Note-se que:

Variação não explicada

2
2
∑ ε̂ i S 2 (N − k)
R =1- é igual a 1 -
∑ (Yi − Y)
2
var(Y) (N - 1)

Variação total

Assim, pode-se derivar a relação entre R2 e R 2 :

N −1
R 2 = 1 – (1 – R2) (N>k), para a qual:
N−k

1. k = 1 ⇔ R2 = R 2

2. k > 1, R2 ≥ R 2 , sendo que R 2 pode ser negativo.

R 2 é sensível à informação usada para estimar k parâmetros.

29
(c) Comparando Modelos de Regressão

Seja o R 2 obtido por:

S2
Var(ε̂) S2
R2 = 1 - -, onde (1 - R 2 ) = 2 e S2 = (1 - R 2 ) S 2Y .
Var(Y) SY

S 2Y

A equação de S2 permite concluir que S2 decresce se R 2 aumenta, pois S 2Y

(variância de Y) depende de Yi e Y e independe do modelo formulado.

Neste ponto são necessárias algumas considerações. Por exemplo, R2 ≈ 1 indica


bom modelo explicativo. Mas qual é seu valor na previsão?

Para nortear essa resposta, deve ser destacado que R2 deve aumentar ao adicionar-
se uma variável explicativa pouco importante ao modelo, mas se esse aumento ocorrer com
um decréscimo em R 2 e um aumento em S2 (impacta a variância do erro de previsão;
significa perda de precisão do modelo de previsão), essa variável não deve constar da
formulação definitiva do modelo.

Nota-se que a adição de uma variável explicativa (k cresce) irá diminuir a


N ESS
variação não explicada em Y (ESS = ∑ (Yi − Ŷ) 2 ) , entretanto a variância S2 =
i =1 N−k
poderá diminuir ou aumentar (depende da variação do numerador e do denominador).

(d) Construindo Modelos de Regressão com o Método de Máxima Melhoria em


R2 (MAXR)

O Método da Máxima Melhoria em R2 é composto de etapas sucessivas para


ajustar modelo composto de n variáveis explicativas aos dados:

Y ↔ Xi ... Xn

30
Etapas:

1) Avaliação dos coeficientes de ajustamento dos modelos a 2 variáveis:

Ŷ = â 1 + b̂1,1 X 1 → R 12
.
.
. Busca do maior R2:
Ŷ = â 2 + b̂1,2 X 2 → R 22 Ŷ = â + b̂1 X t
. b̂1 = b̂1, t do modelo com o maior R2
.
.
Ŷ = â n + b̂1,n X n → R 2n

Assim,

Ŷ = â + b̂1 x t modelo a duas variáveis

2) Modelos a 3 variáveis:

Ŷ = â + b̂1 X t + b̂ 2,p X p , novo modelo, onde Xp é a variável associada ao maior R2

(valor abaixo do R2 do modelo escolhido na etapa anterior).

Estratégia:

“Troca-se” cada variável no modelo (Xt e Xp) com cada variável fora do modelo,
de forma a saber se haverá uma troca de variável (entre as dentro e as fora do
modelo) que irá melhorar o R2 do modelo.

Resultado:

Novo modelo a três variáveis.

3) Modelos a 4 variáveis:

Toma-se o melhor modelo a três variáveis e adiciona-se uma nova variável


(aquela associada ao maior R2 na etapa 1, por exemplo). Procede-se à troca entre
as três variáveis de dentro com as de fora do modelo. A composição com maior
R2 ⇒ novo modelo a 4 variáveis.

4) Repete-se o procedimento, até obter o modelo a n variáveis.

31
Exercício 1 - Regressão

Estabeleça, com suas palavras, um paralelo entre o método MAXR e o processo


de comparação de modelos a partir de R2, R 2 e S2, considerando-se o modelo de vendas
do detergente Fresh (30 observações semanais) (Bowerman e O´Connel, 1987), onde:

Yt ≡ centenas de milhares de embalagens vendidas em cada período de observações t;

xt1 ≡ preço (US$) do detergente Fresh no período t;

xt2 ≡ o preço médio dos detergentes competidores (US$);

xt3 ≡ o gasto em propaganda no período t (em centenas de milhares de US$);

xt4 ≡ xt2 – xt1 ≡ diferença de preços entre a média do mercado e o Fresh;

x t2
xt5 ≡ ≡ razão entre preços (alternativa a xt4).
x t1

O modelo a quatro variáveis independentes (ou a 5 variáveis):

v1 (⇒ linearizado) ...)
v2
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + εt tem as seguintes estatísticas associadas:

1. ESS = 1,0644

2. Variação Explicada = 12,3942

Variação Explicada 12,3942


3. R2 = = = 0,9209
Variação Total 13,4586

ESS 1,0644 1,0644


4. S2 = = = = 0,0426
N − k 30 − 5 25

⎡ k −1 ⎤ ⎡ N −1 ⎤
5. R 2 = ⎢R 2 − ⎥⎢ ⎥=
⎣ N − 1⎦ ⎣ N − k ⎦

⎡ 5 −1 ⎤ ⎡ 30 − 1 ⎤
= ⎢0,9029 − ⎥⎢ ⎥ = 0,9083
⎣ 30 − 1⎦ ⎣ 30 − 5 ⎦

N −1
O mesmo que R 2 =1 − (1 − R 2 ) N>k
N−k
v3
2
Adicionando-se a variável independente xt4 x t3

32
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + β5 xt4 x2t3 + εt

1. ESS decresce para 1,0425

2. Variação explicada pelo modelo cresce para 12,4161

12,4161
3. R2 (cresce) = = 0,9225
13,4586

ESS 1,0425
4. S2 (cresce) = = = 0,0434
N − np 30 − 6

5. R 2 = 0,8701

Embora R2 cresça, S2 cresce e R 2 diminui, logo o poder preditivo decresce,


desaconselhando a manter a nova variável independente no modelo.

33
Exemplo: DATA (QUATERLY, 1954-1 até 1971-4, em US$)

mod I Ct = α1 + β1 yt + ε1t
Função de con.s.umo (Ct) mod II Ct = α2 + β2 yt + γ2Ct-1 + ε2t

Variáveis independentes: yt renda disponível, Ct-1 con.s.umo no período anterior.

Modelo III → St = Yt - Ct ⇒ variável dependente representando renda disponível


após con.s.umo (“savings function”).

St = α3 + β3Yt + ε3t

Coeficientes Valores Estatístico t


Modelo α̂ 1 14,51 7,03
disposição
I 0,88 173,06
β̂ 1 ao con.s.umo
2
R = 0,9977 ESS = 966,50 SER = 3,72
Cresceu 5,52 3,06
pois não
Modelo α̂ 2
há II β̂ 2 0,31 4,85
multicoli- 0,31 = 0,88
nearidade ŷ 2 0,65 8,78 (1 − 0,65)
2 significante
R = 0,9989 ESS = 440,70 SER = 2,55
Modelo α̂ 3 -14,51 -7,03
III
β̂ 3 0,12 24,57
2
R = 0,8961 ESS = 966,5 SER = 3,72

Abaixou em relação ao σ
R2 mod. I

12. Considerações Adicionais: a Correlação Parcial

As correlações parciais variam no intervalo [-1,1]. Elas são medida de


importância relativa das variáveis independentes no modelo.

Seja: Yi = β1 + β 2 X 2i + β 3 X 3i + ε i .

34
O coeficiente de correlação parcial entre Y e X2 mede o efeito de X2 em Y sem
levar em conta outra variável do modelo.

Os passos para sua obtenção são:

1. Regressão Y em X3 Ŷ = α̂ 1 + α̂ 2 X 3

2. Regressão X2 em X3 X̂ 2 = γ̂ 1 + γ̂ 2 X 3

3. Remover influência de X3 em Y e X2

Assim, obtém-se: Y* = Y – Ŷ

X2* = X2 - X̂ 2

4. A correlação parcial entre X2 e Y é a correlação simples entre Y* e X2*.

Conhecendo-se a definição de correlação parcial, pode-se derivar a relação entre a


correlação parcial e a correlação simples ( rYX 2 , rYX 3 , rYX 3 ), de forma que:

rYX 2 .X 3

rYX 2 − rYX 3 . rX 2 X 3
rYX 2 rYX 2 .X 3 = , onde:
(1 − rX2 2 X 3 )1/2 (1 − rYX
2
3
)1/2

rYX 3 rYX 2 .X 3 é o coeficiente de correlação parcial

rX 2 .X3

É possível também derivar a seguinte relação entre o coeficiente de ajustamento


R2, que mede a múltipla correlação no modelo, e a correlação parcial:

R 2 − r 2 YX 3
2
rYX . =
2 X3
ou 1-R2 = (1 − r 2 YX3 ) (1 − r 2 YX 2 .X 3 )
1 − r YX 3
2

Observa-se uso freqüente do coeficiente de correlação parcial como apoio nas


escolhas do procedimento de composição do modelo de regressão denominado “Stepwise”
(as variáveis adicionadas ao modelo devem maximizar R 2 ). Esse coeficiente dá medida do
impacto de cada variável independente sobre a variável dependente, sendo particularmente
útil com grande número de variáveis independentes.

35
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos

É importante saber se a estabilidade estrutural do modelo se mantém ao longo do


tempo em que se obtém informações de suas variáveis. O teste de Chow é um teste da
estatística F que permite avaliar se um modelo adequado a um conjunto de informações
continua válido para valores mais recentes amostrais.
O procedimento do teste é o seguinte:
• Combinar todas as (N1 + N2) informações e ajustar um modelo de regressão a esse
conjunto amostral. Calcular a soma do quadrado dos resíduos (ESS0) com N1 + N2– k
graus de liberdade, onde k é o número de parâmetros estimados (incluindo o termo
constante).
• Ajustar dois modelos aos N1 e N2 subconjuntos amostrais, que não precisam ser de
mesmo tamanho, calculando as respectivas somas do quadrado dos resíduos (ESS1 e
ESS2), com graus de liberdade N1-k e N2-k.
• Adicionar as somas do quadrado dos resíduos desses dois subconjuntos amostrais e
subtrair essa adição do valor ESS0 inicialmente calculado (modelo ajustado ao conjunto
total de dados).
• Calcular a estatística F:
{ESS 0 − ( ESS1 + ESS 2 )} / k
F= , com k e N1 + N2– k graus de liberdade.
( ESS1 + ESS 2 ) /( N 1 + N 2 − 2k )

• Se o valor da estatística F for significativo a n.s. % , a hipótese de que não existe


significativa diferença entre os modelos deve ser rejeitada e pode-se concluir que o
modelo completo é estruturalmente instável.
ESS
Observe-se que: S2 = , onde ESS é soma do quadrado dos resíduos e S2 é a
N−k
estimativa amostral da variância do erro para amostras de tamanho N.

14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas

Suposição: X´s ~ distribuição de probabilidade.

São pressupostos:

1. A distribuição de cada variável explanatória é independente dos verdadeiros


parâmetros de regressão.

36
2. Cada variável explanatória é distribuída independente dos verdadeiros erros no
modelo.

Pode-se afirmar que as propriedades dos estimadores de mínimos quadrados


ordinários (MQO) de consistência e eficiência permanecem para grandes amostras, não
sendo afetadas na condição de que os valores das variáveis independentes e os erros sejam
independentes um do outro. Os parâmetros de regressão estimados são estimados
condicionados a determinados valores de X`s. Sob os pressupostos acima, continuam a ser
estimadores de máxima verossimilhança.

15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico

É preciso determinar quando os pressupostos são violados e quais os


procedimentos de estimação são adequados nesses casos.

Sejam exemplos de violação:

1) Em relação à forma funcional:

Yi = β1 + β2X2i + ... + βk Xki + εi

erro de especificação

erro de construção do modelo

2) Em relação às variáveis explanatórias:

X`s média e variância finitas não correlacionadas com erros


(variável estocástica)

erros de medida solução através de variáveis instrumentais

não existe relação linear entre X´s

forte relação linear entre variáveis explanatórias (multicolinearidade)

3) Em relação ao pressuposto de normalidade dos resíduos:

εi ~ N (0, σ2) e distribuídos independentemente

E (εi) ≠ 0 muda intercepto (α*)

ausência de normalidade: os estimadores de MQO permanecem não-


viesados e consistentes mas nada se pode dizer sobre a verossimilhança.

37
Nesse caso diz-se que os testes são aproximadamente válidos ou seja, são
válidos quando o tamanho da amostra N → ∞.

Outras violações são os casos de heteroscedasticidade e correlação serial,


discutidos a seguir.

16. O Problema da Multicolinearidade

Uma forma de detectar multicolinearidade é através da porcentagem de variação


explicada (RSS/TSS) associada a alguma variável sendo introduzida no modelo de
regressão. Se a porcentagem RSS/TSS decrescer, a multicolinearidade explica este fato.

Como regra prática, quando o coeficiente de correlação simples entre duas


variáveis aleatórias independentes for ≥ 0,7, isso significa indício de problema de
multicolineariedade.

A multicolinearidade é um problema associado à amostra de dados. A presença


da multicolinearidade implica que há pouca informação na amostra para dar confiança na
interpretação da situação em análise.

Se existe multicolineariedade, os resultados da regressão podem estar errados.

Passos para avaliar a multicolineariedade:

Passo no 1: Testar nova amostra de dados.

Há indicação de multicolineariedade, por exemplo, quando o teste t indica


insignificância estatística dos estimadores e R2 ou estatística F são altos.

Passo no 2: Nessa situação, a matriz de correlação deve ser investigada.

Todas as variáveis independentes altamente correlacionadas devem ser retiradas


exceto uma. Embora essa seja uma solução, há perda de valor dos estimadores dos
parâmetros.

É importante ressaltar que:

1. É possível haver variáveis independentes altamente correlacionadas (altos


coeficientes de correlação) e a regressão não ter problemas de multicolinearidade.

2. Se o teste t indicar significância do estimador, é sinal que a


multicolinearidade não é séria para fins de previsão.

38
Entretanto na presença de multicolinearidade os parâmetros individuais não são
valores satisfatórios.

O exame dos desvios padrão dos coeficientes pode indicar se a multicolinearidade


está causando problemas. Assim, se vários coeficientes tem altos desvios padrão e, ao
retirar-se duas ou mais variáveis do modelo, observa-se baixarem os desvios padrão, a
multicolinearidade é provavelmente a origem disto.

Uma outra regra prática, válida para o caso de duas variáveis independentes:

Se a correlação simples entre duas variáveis independentes for maior que a


correlação de pelo menos uma delas com a variável dependente, a multicolinearidade é um
problema.

A multicolinearidade é um problema computacional que se amplia quando duas


ou mais variáveis independentes estão altamente correlacionadas (nos cálculos aparece a
indeterminação 0/0).

(a) Explicação do Problema

Considere-se o modelo:

Yi = β1 + β 2 X 2i + β 3 X 3i + ε i , i = 1, ..., N

No caso extremo, por exemplo, tem-se: X 2i = γ + δX 3i , uma relação exata. Se


essa relação for conhecida: não há problema.

Essa relação pode ser reescrita: x 2i = δx 3i , fazendo x 2i = X 2i − X 2 e

x 3i = X 3i − X 3 , por exemplo. Dessa forma,

δ ∑ y i x 3i ∑ x 3i2 − δ ∑ y i x 3i ∑ x 3i2 0 0
β̂ 2 = = e β̂ 3 = ... = indeterminação.
δ (∑ x 3i ) − δ (∑ x 3i )
2 2 2 2 2 2
0 0

σ 2 ∑ x 3i2 σ2
Var (β̂ 2 ) = = , onde r23 é o coeficiente de
∑ x 22i ∑ x 3i2 − (∑ x 2i x 3i ) 2 ∑ x 22i (1 − r 2 23 )
correlação simples entre X2 e X3, de forma que:

∑ x2x3
r23 = 1
(Thomas, (1978), págs. 132, 217).
(∑ x x )
2
2
2
3
2

39
Como r23 → ± 1 (alta correlação), e Var (β̂ 2 ) → ∞ e Var (β̂ 3 ) → ∞, a aplicação

dos mínimos quadrados falha neste caso.

O problema da multicolinearidade é razoavelmente fácil de reconhecer, mas


difícil de resolver, pois exige soluções como a retirada de variáveis explicativas do
modelo, o que não deve ser feito sob risco de retirar-se importante variável por causa de
seu baixo valor de t. Quando o modelo é projetado para a previsão, muitas vezes é
preferível manter no modelo as variáveis que a teoria indica que explicam a variável
independente e que sejam fáceis de prever. Uma vez que a multicolinearidade tenha sido
resolvida, deve-se verificar se outros pressupostos do modelo clássico foram violados.

17. O Problema de Heteroscedasticidade

A heteroscedasticidade ocorre quando as variâncias são variáveis. Seja por


exemplo os gastos de indivíduos de renda baixa e alta. É esperado que exista uma
impossibilidade de variar no caso de renda baixa e uma grande variabilidade nos gastos de
indivíduos de renda alta, com excedente em relação aos gastos obrigatórios mensais
(Figura 18).

baixa

Gastos de indivíduos
de renda

alta

Figura 18- Variabilidade nos gastos de indivíduos de acordo com a renda

Em conjuntos de dados de séries temporais, é raro observar-se a


heteroscedasticidade, pois a relação é com tempo. Entretanto, ela é frequente em conjuntos
de dados de corte transversal, como o exemplo citado acima.

Na presença de heteroscedasticidade, assume-se;

εi ~ N (0, σ2i)

Var(εi) = E(εi2) = σ2i

40
Em presença de σ2i, o procedimento de MQO dá maior peso, naturalmente, às
observações com maiores variâncias, o que leva a estimadores não-viesados e consistentes,
mas que não são eficientes (variâncias do MQO não são as mínimas).

Na derivação de β̂ , onde Ŷi = α̂ + β̂ X i ou, com a transformação de variáveis,

ŷ i = β̂x i , y i = βx i + ε i , logo y i = ŷ i + ε i ,

∑ x i yi ∑ x iε i
β̂ = ⇒ β+
∑ x i2 ∑ x i2

E(∑ x i ε i )
E (β̂) = β + = β , logo σi2 não importa na derivação do valor esperado.
∑ xi
2

σ2
Entretanto, na derivação de Var (β̂) = , σ2 não pode ser concluído. O uso da
∑ x i2

σ2
expressão Var (β̂) = para obtenção da variância do estimador leva a estimativas
∑ x i2
tendenciosas das verdadeiras variâncias e a aplicação dos testes a resultados incorretos.

Dessa maneira são definidos procedimentos para a correção e teste da


heteroscedasticidade.

(a) Procedimentos para correção da heteroscedasticidade

Caso 1: Variâncias são conhecidas

Var(εi) = σi2 conhecidas a priori.

Uso dos Mínimos Quadrados Ponderados (caso especial dos mínimos quadrados
generalizados). Seja o modelo a duas variáveis:

Ŷi = α̂ + β̂ X i

2 2
⎡ Y −α̂ − β̂ X i ⎤ ⎡ y − β̂ x i ⎤
min ∑ ⎢ i ⎥ ou min ∑⎢ i ⎥
⎢⎣ σi ⎥⎦ ⎢⎣ σ i ⎥⎦

* *
∑ x i yi * xi * yi
∴ β̂ = * 2
, xi = e yi = ,
∑(x i ) σi σi

onde primeiro obtém-se a transformação das variáveis dividindo-as por σi, para
em seguida subtraí-las dos seus valores médios.

41
No caso do modelo de regressão múltipla, obtém-se:

* Yi * X ji * ε
Yi = , X ji = , ε i = i , j = 1, ..., k
σi σi σi

* * * * * 1
Yi = β1 X 1i +β 2 X 2i +...+ ε i , onde X 1i = ou seja, a equação ajustada não tem
σi

⎡ε ⎤ Var(ε i ) σ i2
intercepto, sendo que: Var(εi*) = Var ⎢ i ⎥ = = 2 = 1.
⎣σi ⎦ σ i2 σi

Caso 2: Variâncias desconhecidas mas estimadas nas amostras

Seja a Tabela 2, onde são tabulados os gastos com a casa de indivíduos, agrupados
em grupos de acordo com a variação nesses gastos, com as faixas de renda familiar
variando entre R$ 5.000,00 e R$20.000,00. Após proceder à análise dos dados em que
observa-se que os gastos variam diferentemente por cada uma das faixas de renda, obtém-
se as variâncias desses gastos por grupo, o que é apresentado na Tabela 3.

Tabela 2

Grupos (Yi) gastos com a casa (Xi) renda familiar


($1.000) ($1.000)
1 1,8 2,0 2,0 2,0 2,1 5,0
2 3,0 3,2 3,5 3,5 3,6 10,0 Yi = α + βX i + ε i
3 4,2 4,2 4,5 4,8 5,0 15,0
4 4,8 5,0 5,7 6,0 6,2 20,0

Yi = 890,0 + 0,237 Xi R2 = 0,93 F = 252,7


(4,4) (15,9) Análise do Dados (plotar)
estimativa de MQO Heteroscedasticidade

As variâncias estimadas por grupo representam uma possibilidade de correção


para o Caso 2. A correção sugerida sege a correção do Caso 1, por exemplo.

Tabela 3-

Variâncias estimadas por grupo


1 9.800
2 50.400
3 102.400
4 302.400

A correção sugerida segue a correção do Caso 1.

42
Caso 3: Variâncias do erro variam diretamente com uma variável
independente

Assume-se: Var(εi) = C Xi2

uma das variáveis independentes

≠0

Por exemplo: Var(εi) = C X 22i em Yi = β1 + β 2 X 2i +...+ β k X ki + ε i

onde a transformação das variáveis do modelo define o novo intercepto:

β 2 X 2i
=β2 .
X 2i

Aplica-se os mínimos quadrados ponderados com as variáveis:

* Yi * X ji * εi
Yi = X ji = εi =
X 21 X 21 X 21

εi Var(ε i )
onde: Var(εi*) = Var = 2
=C
X 2i X 2i

A estimação com dados do exemplo do Caso 2 permite obter:

Yi 1 * Yi 1
= β* + α* + εi = 0,249 + 752,9
Xi Xi Xi Xi

R2 = 0,76 F = 58,7

Houve transformação na variável


dependente (R2 não deve ser comparado
ao anterior).

(b) Testes para Verificar Heteroscedasticidade

Hipótese Nula (Ho): σ12 = σ22 = ... = σN2, em N observações (Homocedasticidade)

Hipótese Alternativa: Heteroscedasticidade

Teste 1: Teste de Bartlett (a partir dos dados amostrais).

Passos do teste:

43
⎡ 1 ⎤ Ng
1. Estima-se Sg2 = ⎢ ⎥ ∑ (Yi − Y) 2 para cada grupo de observações, g = 1, 2, ..., G,
⎣⎢ N g ⎦⎥ i =1
onde: Sg2 = σ̂ g2

G 2 G 2
N log [ ∑ (N g /N) S g ] − ∑ N g log S g
g =1 g =1
2. Teste S, sendo S = G
1 + [1/3 (G − 1) ][ ∑ (1/N g ) − (1/N)]
g =1

3. Na situação de homocedasticidade ⇒ S ~ Qui-quadrado com (G-1) graus de liberdade

Hipótese Nula: Variâncias iguais em todos os grupos

Se S > Scrítico (tabela χ2) ⇒ rejeito Ho

4. Rejeição de Ho ⇒ modificação de MQO

No exemplo do Caso 2: S = 10,7 Scrítico, 3 graus de liberdade = 7,81, 5% n.s.

Teste 2: Teste de Goldfeld-Quandt


Hipótese Nula: Homocedasticidade

Hipótese Alternativa: σi2 = C Xi2

44
Procedimentos gerais do teste:

Linha de regressão com dados


associados às baixas variâncias

* Cálculo de duas linhas de regressão +

linha de regressão com dados associados


às grandes variâncias

Assim:

1. Ordenação dos dados de acordo com a magnitude de uma das variáveis independentes
(relacionada à magnitude da variância do erro).

N−d
2. Omite-se d informações centrais (d ≈ 1/5 N), e ajusta-se 2 regressões aos dados
2
(N − d)
e − k graus de liberdade.
2

3 Calcula-se ESS1 (menores valores) e ESS2.

Erros normalmente distribuídos


4. Pressupõe-se
Erros não correlacionados serialmente

ESS 2
⇒ distribuição F[N-d-2k)/2 graus de liberdade no numerador e no denominador]
ESS1

ESS 2
Se > Fcrítico ⇒ rejeito Ho
ESS1

Ao utilizar-se maiores valores de d, melhora-se o teste.

45
Seja o mesmo exemplo anterior (em que d = 0):

1. Rendas menores ($5.000 e $10.000)

Yi = 600,00 + 0,276 Xi

(3,1) (11,3)

R2 = 0,94 ESS1 = 3,0 x 105

2. Rendas maiores ($15.000 e $20.000)


ESS 2
Yi = 1.540,0 + 0,20 Xi =6,7
ESS1
(1,4) (3,1) Fcrítico = 6,03
(8,8) graus de liberdade
R2 = 0,55 ESS2 = 20,2 x 105 6,7 > 6,3, logo, rejeito Ho

Teste 3: Teste de White

O procedimento do teste de White determina que, em um primeiro passo, se avalie


o ajustamento entre os resíduos da regressão original estimada e as variáveis explanatórias
formuladas conforme o modelo:

ε i2 = γ+ φ X i2 + δ Z i2 + θ Xi Zi + νi,

que permite não-linearidades e para o qual se obtém o coeficiente de ajustamento


ou determinação R2,

sendo que Zi e Xi correspondem às variáveis explanatórias da regressão original


das quais se suspeita serem a origem da heteroscedasticidade.

Em seguida é obtida a estatística Qui-quadrado para o teste, em que se calcula o


valor:

χ 2 = N R2, onde N é o tamanho da amostra que ajustou a regressão que deu


origem aos resíduos ε i2 .

Se N R2 for um valor significativo com p graus de liberdade e (1-n.s.)% de


probabilidade significa que o modelo sugerido para relacionar o quadrado dos resíduos e as
p variáveis explanatórias indica heteroscedasticidade (no modelo formulado, p=3).

46
Por exemplo, se Xi for a única variável da qual se suspeita ser a origem da
heteroscedasticidade, deve-se calcular a estatística χ 2 para o modelo:

a) ε i2 = γ+ φ X i2 + νi , e avaliar sua significância com 1 grau de liberdade, ou

b) Sugere-se que o modelo inclua as variáveis explanatórias X i e X i2 , e o teste


seja feito com 2 graus de liberdade.

47
Exemplo

Considere-se o modelo de regressão estimado:

ŜD t = β̂1 + β̂ 2 DI t − 6 + β̂ 3 ISt −1 + β̂ 4 I t −1 + β̂ 5 E t −1 + β̂ 6 Pt −1 (highly trended time-series).

N = 88 graus de liberdade = 82

S = 263,4 R2 = 0,93 R 2 = 0,92

Soma dos (Resíduos2) = 5,7 x 106 F5,82 = 220,6

Desvio Coeficientes parciais


Coeficiente Valor t Média
Padrão (de correlação)
β̂ 1 12.091,0 2.321,0 5,2 1,0

β̂ 2 0,109 0,06 1,8 15.507,9 0,19373

β̂ 3 -1.690,3 483,6 -3,5 1,96 -0,36010

β̂ 4 -76,2 65,6 -1,2 5,28 -0,12719

β̂ 5 5.585,6 974,4 5,7 2,96 0,53486

β̂ 6 -175,6 34,4 -5,1 105,1 -049147


(coef. corr. parcial)2 = (0,53)2 = 0,28 da variância da variável dependente SD.

Exercício: Questão 1 escolher uma série sazonal e estimar seus parâmetros, R2,
testes, ...

48
18. O Problema da Correlação Serial

Na análise de dados de séries temporais, principalmente, é freqüente a correlação


entre os termos de erro em períodos de tempo adjacentes. A presença de correlação serial
de 1ª ordem significa que os erros em um período estão correlacionados diretamente aos
erros no período seguinte. Por exemplo, a previsão superestimada de taxa de vendas para
um período provavelmente induz a superestimativas dos períodos seguintes (exemplo de
correlação serial positiva). A correlação serial entre termos de erro é positiva, na maioria
das séries temporais. Isto deve-se, por exemplo, ao efeito de variáveis omitidas ou erros de
medida.

Como regra geral, a presença de correlação serial não afeta a não-tendenciosidade


e a consistência dos estimadores de mínimos quadrados (MQO) mas afeta a eficiência
(variância). No caso de correlação serial positiva a “perda” de eficiência é mascarada pelo
fato de que as estimativas dos desvios padrão obtidas (pelo MQO) são menores que os
verdadeiros desvios padrão (desvio padrão viesado para menos). Com isso os parâmetros
da regressão podem ser considerados mais precisos do que realmente são. Além disso, o
intervalo de confiança é mais estreito, fazendo com que a hipótese nula seja rejeitada
quando ela não deveria sê-lo.

Intuitivamente, as duas situações da Figura 19 ocorrem:

Figura 19- Exemplos de ajustamentos de modelos de regressão a dados


serialmente correlacionados (positivamente)

No caso de correlação serial positiva, R2 é melhor do que deveria ser. Como


representado na Figura 19, são observadas duas situações de ajustamento ao longo do

49
conjunto amostral: (a) β̂ < β e (b) β̂ > β . Na média, entretanto, há ausência de viés (ou
seja, os estimadores estão corretos). Entretanto, a medida do sucesso da estimação estará
super avaliada se a variância estimada for utilizada em testes.

Desta forma, devem ser introduzidas medidas de correção e de teste sobre a


presença da correlação serial dos erros ou autocorrelação.

a) Correção para a autocorrelação:

Assume-se erros ~ N (0, σε2) mas E (εt εt-1) ≠ 0

Yt = β 1 + β 2 X 2t + ... + β k X kt + ε t , t = 1, ..., T

Assume-se que os erros correlacionem-se serialmente conforme:

ε t = ρ ε t −1 + v t , 0 ≤ ρ ≤1 Processo autoregressivo de 1ª ordem,

onde v t ~ N(0, σ 2v ); E(v t v t −1 ) = 0 e E(v t ε t ) = 0 .

O efeito do erro num determinado instante de tempo sobre os demais períodos


decresce no tempo. Isto é fácil de observar por meio das covariâncias dos erros. Assim,
se:

Var (εt) = E (ε2t) = E [(ρ εt-1 + vt)2] =

= E[ρ2ε2t-1 + v2t + 2 (ρεt-1 . vt)] = ρ2 Var (εt-1) + Var (vt) = ρ2 Var (εt) + Var (vt)

σ2v
Var (εt) = σ2ε = ,
1− ρ2

Cov (εt, εt-1) = E (εt, εt-1) =

= E [(ρ εt-1 + vt) . εt-1] = E [ρ ε2t-1 + vt . εt-1] = ρ E (ε2t-1) = ρ Var(εt) = ρ σ2ε ,

de forma similar obtém-se:

Cov (εt, εt-2) = E (εt, εt-2) = ρ2 σ2ε

Cov (εt, εt-3) = E (εt, εt-3) = ρ3 σ2ε

São válidas as seguintes observações adicionais no estudo de correlação serial:

1. Sobre o termo de erro para o primeiro período: Não há dados sobre valores
σ2v
anteriores que o influenciaram. Assim, assume-se: ε1 ~ N (0, )
1− ρ2

50
Cov (ε t , ε t −1 )
2. Assume-se a seguinte expressão para obtenção de ρ: ρ = ,
σ2ε
1 1
sendo σ 2 ε = Var(ε t ) 2
Var(ε t −1 ) 2

(I) Correção na hipótese: ρ conhecido a priori

Neste caso, é feito um ajustamento do procedimento de regressão por mínimos


quadrados, aplicando o método das diferenças generalizadas para recálculo das variáveis,
de forma que:

Yt* = Yt − ρ Yt −1

Assim:

Yt = ....

Yt-1 = β1 + β2 X2t-1 + ... + βk Xkt-1 + εt-1

Essa equação é multiplicada por ρ x (-1), de forma que se obtém:

Yt* = β1(1-ρ) + β2 X*2t + ... + βk X*kt + vt , onde vt não são correlacionados entre si, sendo:

Y*t = Yt - ρYt-1, X*2t = X2t - ρX2t-1, vt = εt - ρεt-1

σ2v
var(εt) = 0≤ρ<1.
1− ρ2

Observa-se que o intercepto do modelo original (β1) deve ser calculado a partir do
intercepto obtido para a equação transformada Yt* .

Quando:
k
ρ = 1 ⇒ “primeira diferença”. Obtém-se. β̂1 = Y − ∑ β̂ i X i , pois nessa situação
2

o intercepto é nulo. Ou seja: Y*t = β2 X*2t + ... + βkX*kt + vt

Y*t = Yt – Yt-1, X*2t = X2t – X2t-1, vt = εt - εt-1

(II) Correção na hipótese: ρ não é conhecido a priori

Neste caso são sugeridos três procedimentos alternativos:

- O Procedimento de Cochrane - Orcutt

51
1º passo: Estimação do modelo original por mínimos quadrados.

Definição de “erros estimados” (resíduos)

2º passo: Utilização dos resíduos como dados de base para a estimação.

ε̂ t = ρ ε̂ t −1 + v t

parâmetro estimado (ρ̂)

3º passo: Uso do parâmetro estimado (ρ̂) para compor as diferenças


generalizadas.

Yt* = Yt − ρ̂ Yt −1

X *kt = X kt − ρ̂ X kt −1

4º passo: Estimar parâmetros da equação transformada

Y*t = β1(1- ρ̂ ) + β2X*2t + ... + vt

β̂1 , β̂ 2 , β̂ 3 , ... , β̂ k

5º passo: Definir e obter:

ε̂ˆ t = Yt − β̂1 − β̂ 2 X 2t − ... − β̂ k X kt

6º passo: Estimar parâmetro da regressão.

ε̂ˆ t = ρ ε̂ˆ t −1 + v t

Nova estimativa de ρ

7º passo: Pare o procedimento ou continue até que,

1º, 2º estimativas de ρ foram obtidas

por exemplo:

ρ - ρanterior ≤ 0,01 ou 0,005

Problema: valor obtido pela minimização da soma dos quadrados dos resíduos
pode ser mínimo local (x mínimo global).

- O Procedimento de Hildreth-Lu

52
Os passos do procedimento são os seguintes:

1º passo: Escolha de valores alternativos para ρ ⇒ escolhido em um conjunto


de valores entre 0 e 1.

0
0,1
0,2
0,3
0,4
Por exemplo 0,5
0,6
ρ= ρ 0,7
0,8
0,9
1,0

2º passo: Para cada ρ , estimar Y*t = β1 (1- ρ ) + β2X*2t + ... + vt e calcular a


soma dos quadrados dos resíduos

3º passo: ρ ótimo ⇒ menor soma dos quadrados dos resíduos.

4º passo: Pare o procedimento (estabelecendo critério de parada) ou continue


estabelecendo nova variação de valores em torno do ρ ótimo, recomeçando no
1º passo.

Esse procedimento pode garantir máxima verossimilhança. Como precaução, no


entanto, deve-se ter atenção na escolha de valores dos coeficientes para definir ρ ótimo de
forma que sejam bem espaçados e deve-se também variar o conjunto inicial.

- O Procedimento de Durbin

1º passo: A partir das diferenças generalizadas do modelo linear:

Yt - ρ Yt-1 = β1 (1-ρ) + β2 (X2t - ρX2t-1) + ... + vt, que permite obter:

Yt = β1 (1-ρ) + ρ Yt-1 + β2X2t - ρβ2X2t-1 +...+ βkXkt - ρβkXkt-1 + vt,

estima-se ρ̂ aplicando a estimação de mínimos quadrados ( ρ̂ é o coeficiente


estimado para a variável Yt-1).

2º passo: Substitui-se ρ̂ na equação:

Yt - ρ̂ Yt-1 = β1 (1- ρ̂ ) + β2 (X2t - ρ̂ X2t-1) +...+ βk (Xkt - ρ̂ Xkt-1) + vt

53
Nova Variável Nova Variável Nova Variável
Dependente Independente Independente

Com esse conjunto de variáveis estima-se novo conjunto de parâmetros (mais


eficiente que o anteriormente obtido).

(b) Testes para correlação serial

Hipótese nula ⇒ ρ = 0

Hipótese Alternativa ⇒ ρ ≠ 0 (ou ρ > 0 ou ρ < 0)

O teste mais popular para a correlação serial é o teste de Durbin-Watson.

Existem testes alternativos, como o teste de Durbin, que se aplicam a situações


específicas observados na amostra e modeladas (ver Durbin, J. (1970), “Testing for Serial
Correlation in Least-Squares Regression When Some of the Regressors are Lagged
Variables”, Econometrica, vol. 38, pp.410-421; Siegel, S. (1956), “Nonparametric
Statistics for the Behavioral Sciences”, Mc Graw-Hill e Theil. H. (1965), “The Analysis of
Disturbances in Regression Analysis”, Journal of the American Statistical Association,
Vol. 60, pp. 1067-1079).

(b1) Teste de Durbin-Watson

No teste de Durbin-Watson, é calculada a estatística DW, cujo valor permite


concluir sobre a presença ou não de significativa correlação serial. São procedimentos do
teste:

Sejam ε̂ t , ε̂ t −1 ⇒ resíduos da aplicação de MQO

T
∑ (ε̂ t − ε̂ t −1 )
2

t =2
Calcula-se: DW = T
, situando essa estatística de acordo com valores
2
∑ ε̂ t
t =1

tabelados conforme a Figura 20.

O teste não pode ser usado (por definição) quando o modelo de regressão inclui,
como variável explanatória, a variável dependente defasada.

Observa-se que, quando(Figura 20):

ε̂ t próximos a ε̂ t -1 (autocorrelação positiva) ⇒ baixos DW

54
ε̂ t opostos a ε̂ t -1 (autocorrelação negativa) ⇒ altos DW

Caso DW = 2 ⇒ correlação serial de 1ª ordem: ausente.

dL e dU ⇒ obtidos na Tabela DW, a 5% n.s, k’ variáveis, onde k’= k-1

(exclui-se o intercepto) e de acordo com o tamanho (T) da amostra.

4 – dL < DW < 4: rejeito Ho; há correlação serial negativa.

4 – dU < DW < 4 – dL: inconclusivo.

2 < DW < 4 - dU: não há.

dU < DW < 2: não há.

dL < DW < dU: inconclusivo.

0 < DW < dL: há correlação positiva.

Figura 20- Variação de valores para a avaliação da presença de correlação

serial

As regiões de indeterminação do teste devem-se à seqüência de resíduos ser


influenciada pelas variáveis independentes. Por outro lado, a análise do modelo de
regressão a duas variáveis leva à conclusão que DW ≈ 2 (1 - ρ̂ ) podendo este resultado ser
T

∑ (ε̂
t =2
t − ε̂ t −1 ) 2
obtido a partir da relação DW = T
inicial.
∑ ε̂
t =1
2
t

Exemplo:

COAL = 12,262 + 92,34 FIS + 118,57 FEU- 48,90 PCOAL + 118,91 PGAS
(Demanda) (3,51) (6,46) (7,14) (-3,82) (3,18)

R2 = 0,692 F(4,91) = 51,0 DW = 0,95 (DW< dL, logo há correlação positiva)

Hildreth-Lu ⇒ ρ = 0,6

55
COAL* = 16,245 + 75,29 FIS* + 100,26 FEU*- 38,98 PCOAL* + 105,99 PFAS*
(3,3) (4,4) (3,7) (-2,0) (2,0)
DW = 2,07 ⇒ Ho aceita (2<DW< 4-dU) nas condições: 5% n.s., 96 observações e
4 variáveis independentes, para os valores de dL = 1,58 e dU = 1,75 tabelados.

(b2) O teste de Durbin

Este teste aplica-se ao caso em que a variável dependente defasada é variável


independente no modelo.

Para isto calcula-se a estatística h que vai testar a presença de correlação serial no
caso citado. Essa estatística é definida por:

h = ρ̂ { N/(1-N VAR ( β̂ )}1/2 para N VAR ( β̂ ) <1, onde:

ρ̂ = (1-1/2 DW),

VAR ( β̂ ) é a variância estimada do coeficiente da variável defasada Y t-1.

O teste é válido para amostras de grande tamanho (N>30) (embora na prática seja
aplicado também em amostras pequenas). A estatística é testada como um desvio da
distribuição normal. Se h > 1,645, rejeita-se a hipótese nula de que os resíduos não tem
correlação serial a 5 % de nível de significância.

19. A Previsão com o Modelo de Regressão

O modelo de regressão de uma equação (singular) é base para dois tipos de


previsão: (a) as previsões pontuais, às quais associam-se intervalos de confiança, dando
origem a (b) previsões de intervalos de confiança da previsão, construídos de forma a que
se observe uma margem de erro em torno da previsão pontual, definindo bandas de (1-
n.s.)% de confiança (n.s. é o nível de significância).

As previsões são guias para as decisões e dão orientação para a (re)construção do


modelo de regressão, na medida que se tenha informação atual da situação em análise.
Elas se distinguem em ex “post” e ex “ante”, conforme o período previsto se baseie ou
não no conjunto de dados amostrais correntes das variáveis independentes (Figura 21):

56
(a) Período das previsões ex “post”: usado para a avaliação do modelo de
previsão. Essas são previsões ditas incondicionais (valores das variáveis
independentes conhecidos).

(b) Período das previsões ex “ante”: essas previsões podem ser incondicionais ou
condicionais. Seja por exemplo:

S(t) = ao + b1 X(t-3) + b2 Y(t-4)

Incondicional até 3 períodos no futuro


S(t) = ao t b1 X(t) + b2 Y(t)

condicional

T1 T2 T3 (atual)
Tempo T
Período da
ex“post” ex “ante”
estimação

Períodos de previsão

Figura 21- Distinção entre previsão ex “post” e ex “ante”

Pode-se definir como sendo a melhor previsão aquela com variância mínima em
seu erro de previsão. Pode-se afirmar que as estimativas de MQO levam às melhores
previsões não tendenciosas com modelos lineares (BLUEs). O erro do procedimento de
previsão está associado aos seguintes pontos:

1. Natureza aleatória do termo aditivo do erro.

2. O processo de estimação envolve erro ao estimar parâmetros que tendem aos


verdadeiros parâmetros, mas diferindo deles.

3. Previsão condicional introduz erros ao calcular valores esperados para as


variáveis independentes ou explanatórias.

4. Erro de especificação do modelo (≠ do modelo real).

O erro de previsão é, aqui, avaliado em três situações: (A) previsão incondicional,


(B) previsão incondicional com erros serialmente correlacionados e (C) previsão
condicional, que traz inerente maior dificuldade.

57
(A) Previsão Incondicional

Na previsão incondicional os valores assumidos pelas variáveis independentes são


conhecidos no período da previsão. Nesse caso diz-se que os valores são previstos quase
– perfeitamente. Cita-se como exemplo de variáveis explanatórias: mês do ano e
população no mês do ano, em um período de previsão (mensal) total de 1 ano.

Os modelos para previsão incondicional são desejáveis pois removem erros do


processo de previsão, ao serem construídos com base em variáveis explanatórias de
previsão fácil e precisa.

Seja:

Yt = α + β Xt + εt, t = 1, 2, ..., T

εt ~ N (0, σ2), a variável independente XT+1 conhecida.

Pressuposto: α e β conhecidos ∴ Ŷ T+1 = E (YT+1) = α + β XT+1

erro de previsão: êT+1 = Ŷ T+1 – YT+1

Nesse caso, são válidas as seguintes propriedades do erro de previsão:

1. E ( ê T +1 ) = E ( ŶT +1 - YT +1 ) = 0 = E (-εT+1) , ou seja: a previsão de YT+1 é um


valor não-enviesado (isto é: correto na média).

2. A variância do erro de previsão (σp2 )

σp2 = E [( ê T +1 )2] = E [( ε T +1 )2] = σ2 ou seja, é a variância de MQO.

Assim: erro de previsão ~ N (0, σ2)

Para a avaliação da significância estatística dos valores previstos deve ser obtido o
ŶT +1 − YT +1
erro normalizado: λ = , onde λ ~ N (0, 1).
σ

Constrói-se o intervalo de confiança em torno do erro normalizado com 5% de


nível de significância (Figura 22), de forma que:

ŶT +1 − YT +1
- λ0,0 5 ≤ ≤ λ0,05, onde λ0,05 é o valor de λcrítico que se obtém segundo
σ
a tabela da distribuição normal.

58
Yt = α + βX
ŶT +1 − λ 0,05 σ ≤ YT +1 ≤ ŶT +1 + λ 0,05 σ
* intervalo de previsão

Figura 22- A previsão pontual e o intervalo de previsão com bandas de 95 % de


confiança para a previsão incondicional

Pode ser feita a avaliação do modelo de previsão após obter-se YT+1 e comparar-se
seu valor com valores previstos para os limites do intervalo de previsão. São possíveis as
situações:

− O valor obtido ∈ intervalo de previsão; com isto, conclui-se que o modelo é


satisfatório.

− Se o valor estiver fora do intervalo, deve ser analisado se trata-se de um


evento extraordinário, ou se o modelo deve ser revisto. Novas observações
devem, neste caso, ser obtidas antes de uma conclusão.

Ao se utilizar os modelos de regressão para a previsão é possível ter:

* Modelos com estatísticas t com valores significativos e bom R2 mas que


podem não explicar mudanças estruturais resultando em previsões pobres.

* Modelos com baixos R2 e algum(s) coeficiente(s) não significativos que


podem fornecer boas previsões pois embora os modelos não sejam muito
explicativos, houve pouca variação em Yt, e a previsão é fácil de ser obtida.

59
No caso de violação do pressuposto: α e β conhecidos, tem-se a situação mais
realista ou seja, supõe-se que α e β são variáveis aleatórias que podem ser estimadas e σ2
desconhecido, podendo ser, também, estimado.

Nesse caso, a previsão de Yt+1 é obtida por procedimento de dois estágios,


apresentado a seguir, sendo que o valor previsto é BLUE. (Johnston, J., “Econometric
Methods”, pp. 38-40, 1972).

O procedimento de 2 estágios:

1. Yt = α + βXt + εt
Com a aplicação dos Mínimos Quadrados Ordinários obtém-se α̂ , β̂ , σ 2 .

2. ŶT +1 = E ( YT +1 ) = α̂ + β̂ XT+1

O erro de previsão é ê T +1 = ŶT +1 - YT +1 = ( α̂ - α) + ( β̂ - β) XT+1 - εT+1


As origens de erro em ê T +1 são:

1) Presença de um termo εT+1 aditivo, devido à variância de Y.

2) Natureza aleatória dos coeficientes estimados, sensível aos graus de


liberdade do processo de estimação.

O erro de previsão, combinação linear de variáveis normalmente distribuídas α̂ ,

β̂ e εT+1, também é considerado normalmente distribuído. O valor esperado do erro de


previsão é:

E ( ê T +1 ) = E ( α̂ - α) + E [( β̂ - β)XT+1] + E (-εT+1) = E ( α̂ - α) + XT+1 E ( β̂ - β) =

0, pois XT+1 é considerado conhecido e E(εT+1) = 0.

A variância de ê T +1 (σp2) pode ser obtida:

σp2 = E [( ê T +1 )2] = E [( α̂ - α)2] + E [( β̂ - β)2] . X2T+1 +

+ E [(εT+1)2] + E [( α̂ - α) ( β̂ - β)] 2XT+1

Observe-se que α̂ , β̂ dependem de ε1, ... , εt mas são independentes de εT+1.


Assim,

σp2 = Var( α̂ ) + 2Xt+1 COV ( α̂ , β̂ ) + X2T+1 Var(β̂ ) + σ2 ,

sendo:

60
2
σ2 ∑ Xt σ2
Var( α̂ ) = , Var(β̂ ) = ,
T ∑ (X t − X) 2 ∑ (X t − X) 2

- X σ2
Cov( α̂ , β̂ ) = e X ≡ média amostral .
∑ (X t − X) 2

2 ⎡ 1 X 2 − 2XX T +1 + X 2 T +1 ⎤
2
∴ σp = σ ⎢1 + + ⎥
⎣ T ∑ (X t − X) 2 ⎦ (a)
ou “distância” entre Xt+1 e X

⎡ 1 (X T +1 - X) 2 ⎤
σp2 = σ2 ⎢1 + + 2 ⎥
⎣ T ∑ (X t − X) ⎦
(b)
(c) Variância na amostra de dados de X
Tamanho da amostra (estimação)

Ou seja, o erro de previsão é sensível a (a), (b) e (c). Dessa forma, (XT+1 - X )
permite ter uma medida da variação que pode-se assumir para o período de previsão. Em
pacotes estatísticos, são gerados valores para a variável hzz , definida para o modelo a 2
1 (Xz − X) 2
variáveis por hzz = + sendo σp2 = σ2 (1 + hzz), onde z é o período da
∑X
2
T t −T X 2

previsão.

Para construir o intervalo de confiança em torno dos valores previstos, obtém-se o


Ŷt +1 − Yt +1
valor do erro normalizado λ tal que, se σ for conhecido, λ = ~ N (0,1), e se σ2
σp

não é conhecido, utiliza-se S2 ≡ estimativa amostral de σ2 , sendo:

1
S2 = ∑ (Yt − Ŷt ) 2
T−2

⎡ 1 (X t +1 − X) 2 ⎤
2 2
Assim, conhecida Sp = S ⎢1 + + 2 ⎥
e o valor do erro normalizado λ:
⎣ T ∑ (X t − X) ⎦

ŶT +1 − YT +1
, que segue a distribuição da estatística t, com (T-2) graus de liberdade:
Sp

61
ŶT +1 − t 0.05 S p ≤ YT +1 ≤ ŶT +1 + t 0.05 S p é o intervalo de previsão com 95% de

confiança de conter o verdadeiro valor a ser observado da variável independente (Figura


23). Como foi visto, ele varia com o tamanho da amostra, a variância na amostra da
variável independente e com a diferença entre o valor da média amostral da variável
independente e o seu valor no período da previsão.

Figura 23 – Intervalo de previsão com bandas de confiança quando α̂ , β̂ e σ2 são variáveis


aleatórias

Exemplo-

Previsão de padrão médio (Yi) x rendas familiares (Xi)

N = 8, linha de regressão estimada: Ŷi = 1,375 + 0,120 Xi

S2 = 0,111

X = 13,5 ∑ (Xi - X )2 = 162

XN+1 Ŷ N+1 Sf2 Ŷ N+1 – 1,96 Sf Ŷ N+1 + 1,96 Sf


6,5 2,155 0,158 1,375 2,935
10,0 2,575 0,133 1,860 3,415

X 13,5 2,995 0,125 2,303 3,687 menor Sp2

17,0 3,315 0,133 2,600 4,030


20,5 3,835 0,158 3,055 4,615
24,00 4,155 0,259 3,677 5,673

bem fora dos valores observados

62
(B) A Previsão incondicional com erros serialmente correlacionados

É preciso atenção pois o erro da previsão em séries com erros serialmente


correlacionados será menor do que quando a autocorrelação não for levada em conta.

Seja:

Yt = α + β Xt + εt , onde os erros são serialmente correlacionados segundo:

εt = ρ εt-1 + vt

vt ~ N (0, σv2), E (vt vt-1) = 0

|ρ| < 1

Tome-se como pressuposto: α, β e ρ conhecidos a priori

ŶT +1 = α + β X T +1 + ε̂ T +1

Uma vez que εT+1 = ρ εT + vT , pode-se escrever ε̂ T +1 = ρ ε T , logo:

ŶT +1 = α + β X T +1 + ρ ε T .

Observe-se que, quanto mais para o futuro T+s, a informação sobre a correlação
dos erros se torna pouco expressiva:

ε̂ t + 2 = ρ ε̂ t +1 = ρ 2 ε t
.
.
ε̂ t +S = ρ s ε t , s → ∞ ⇒ ρ s → 0

A expressão ŶT +1 = α + β X T +1 + ρ ε T também pode ser derivada do modelo na


forma de diferenças generalizadas em (1) a seguir. Esse é um resultado interessante, pois a
correlação serial é comumente corrigida introduzindo essa modificação nas variáveis do
modelo.

Yt* = α (1 - ρ) + β Xt* + vt (1)

onde:

Yt* = Yt - ρ Yt-1

Xt* = Xt - ρ Xt-1

63
Nessa forma, a previsão para o período T+1 pode ser obtida pela equação (2):

ŶT*+1 = α (1 - ρ) + β X *T +1 (2)

onde:

Ŷ *T+1 = Ŷ T+1 - ρ YT (3)

X *T +1 = XT+1 - ρ XT (4)

Assim, substituindo-se (2) em (3) pode-se escrever:

Ŷ T+1 = ŶT*+1 + ρ YT = α (1 - ρ) + β X*T+1 + ρ YT

Sabendo de (4) que X *T +1 = XT+1 - ρ XT ,

Ŷ T+1 = α (1 - ρ) + β (XT+1 - ρ XT) + ρYT =

= α (1 - ρ) + β XT+1 + ρ (YT - β XT),

devendo ser lembrado que YT = α + β XT + εt ∴YT - β XT = α + εT ,

logo:

Ŷ T+1 = α (1 - ρ) + β XT+1 + ρ (α + εT) = α + β XT+1 + ρ εT

Além disso:

* ê T+1 = Ŷ T+1 – YT+1 = ρ εT - εT+1 = - vT+1 ∴ E ( ê T+1) = 0

* σp2 = E [(ρ εT - εT+1)2] =


εT+1 = ρ εT + vT+1
= ρ2 E (εT2) + E ( ε T2 +1 ) – 2 ρ E (εT εT+1) =

= ρ2 E (εT2) + E (ε2T+1) – 2 ρ2 E (εT2) =

= ρ2 σ2 + σ2 – 2 ρ2 σ2 = σ2 - ρ2 σ2 = (1 - ρ2) σ2,

onde (1 - ρ2) é o fator de redução no erro de previsão (em relação à situação com ausência
de autocorrelação). Observe-se que (1 - ρ2) σ2 = σ 2v .

Na prática, há violação do pressuposto, pois α, β e ρ não são conhecidos, embora


possam ser estimados (veja: Goldberger, A.S. (1962), “Best Linear Unbiased Prediction in
the Linear Regression Model”, Journal of the American Statistical Association, vol. 57, pp.
369-375).

64
Nessa situação, o valor previsto ŶT +1 pode ser calculado por:

ŶT +1 = ρ̂ YT + α̂ (1 − ρ̂) + β̂ (X T +1 − ρ̂ X T ) ou seja, na forma das diferenças


generalizadas. Pode ser provado que E ( ê T+1) → 0 quando T → ∞. Na prática assume-se
ρ̂ = ρ (isto é, que foi estimado com exatidão), para se obter a variância do erro de previsão
(na realidade há correlação entre parâmetros estimados e os resíduos).

A variância do erro de previsão é obtida por:

⎡ 1 (X * − X * ) 2 ⎤
Sp2 = S2 ⎢1 + + T +1* * 2 ⎥
, onde o termo do erro é vt ao invés de εt, fazendo
⎣ T ∑ (X t − X ) ⎦
com que se obtenha S2 = Sv2 , pois Sp2 é obtida a partir do modelo de diferenças
generalizadas (baseado em Pindyck e Rubinfeld (1976), “Economic Models and Economic
Forecasts”, pp. 172).

(C) A Previsão Condicional

Neste caso é reconhecida a natureza estocástica dos Xi`s. Os intervalos de


previsão crescem quando os valores assumidos para as variáveis independentes Xi forem
também previstos. É difícil derivar resultados para o erro de previsão no caso geral. Para
o modelo a duas variáveis, supõe-se:

Yt = α + β Xt + εt , t = 1, 2, ..., T

X̂ T+1 = XT+1 + uT+1

εt ~ N (0, σ2), ut ~ N (0, σu2), εt e ut não correlacionados

E [( X̂ t+1 – Xt+1) ( β̂ - β)] = E [( X̂ t+1 – Xt+1) ( α̂ - α)] = 0

onde α̂ , β̂ são as estimativas de MQO.

Nesse caso, pode-se concluir que:

ŶT +1 = α̂ + β̂ X̂ T +1 , sendo a variância do erro de previsão:

⎡ 1 (X − X) 2 + σ u 2 ⎤
σp2 = σ2 ⎢1 + + T +1
2
⎥ + β σu
2

⎢⎣ T ∑ (X t − X) 2
⎥⎦

ŶT +1 não é normalmente distribuído, envolvendo a soma de produtos de variáveis


normalmente distribuídas.

65
Assim, uma estimativa robusta para o intervalo de previsão pode ser obtida por:

1. Calcula-se os intervalos de previsão que são obtidos a partir dos intervalos


de confiança associados à variável dependente, considerando a variável
independente X̂ T +1 conhecida dois desvios padrão acima ( X *T +1 ) e dois

desvios padrão abaixo ( X ** T +1 ) do seu valor no período da previsão (T+1)


ou seja, os intervalos de confiança associados a:

ŶT*+1 = α̂ + β̂ (X̂ T +1 + 2 σ u ) e ŶT**+1 = α̂ + β̂ (X̂ T +1 − 2 σ u ) , sendo

⎡ 1 (X * T +1 − X) 2 ⎤
σp2 ≈ σ2 ⎢1 + + 2 ⎥
, com cálculo similar para X ** T +1 .
⎣ T ∑ (X t − X) ⎦

2. O intervalo final da previsão é a união dos dois intervalos, isto é, contém


todos os valores de ŶT +1 comuns a ambos os intervalos (Figura 24).

Figura 24- Aproximação do intervalo de previsão com base em bandas de


confiança de 95% de confiança, assumindo Xt conhecido

66