Вы находитесь на странице: 1из 195

Econometria – Prof. Adriano M. R.

Figueiredo 1
UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL - UFMS
ESCOLA DE ADMINISTRAÇÃO E NEGÓCIOS - ESAN

Econometria
Prof. Adriano Marcos Rodrigues Figueiredo
Versão de 06.08.20181

Campo Grande – MS

2018

Citar como:
FIGUEIREDO, Adriano M. R. Econometria. Campo Grande, MS: UFMS, 2018.
195p. (no prelo)

1
Os direitos de reprodução pertencem ao autor e requer citação apropriada.
Econometria – Prof. Adriano M. R. Figueiredo 2
Econometria – Prof. Adriano M. R. Figueiredo 3

Not everything that can be counted


counts, and not everything that
counts can be counted.

Albert Einstein, (atribuído)


Cientista, Físico Alemão (1879 -
1955)
Econometria – Prof. Adriano M. R. Figueiredo 4

LISTA DE FIGURAS

Figura 1-1. População (Universo) e Amostra (parte da população). ........................................ 12


Figura 1-2. Estrutura da análise empírica método. ................................................................... 13
Figura 1-3. Relação entre o PIB dos municípios de Mato Grosso do Sul e o valor
adicionado bruto da agropecuária para o ano de 2014 (SCN 2010). ..................... 15
Figura 1-4. Valor do PIB nominal de Campo Grande - MS, 2002-2014 (SCN 2010). ............ 16
Figura 1-5. Arrecadação de ICMS de combustíveis em Mato Grosso em 2008. ..................... 17
Figura 1-6. PIB dos municípios de Mato Grosso do Sul em 2014 (SCN 2010) em Bilhões
de Reais correntes. ................................................................................................. 18
Figura 2-1. Retornos das ações das Lojas Americanas em função de uma variável Z
qualquer. ................................................................................................................ 21
Figura 2-2. Gráfico de dispersão dos retornos mensais dos ativos das Lojas Americanas
(LAME4) e Lojas Renner (LREN3), Jan/2005 a Mar/2012. ................................. 25
Figura 2-3. Representação dos resultados de uma estimação dos retornos mensais do ativo
Lojas Americanas (LAME4) contra os do ativo Lojas Renner (LREN3) e os
do índice da Bolsa de Valores e Mercadorias e Futuros de São Paulo(BMF-
BOVESPA), Jan/2005 a Mar/2012. ....................................................................... 25
Figura 2-4. Representações da dispersão dos pontos em torno de uma reta estimada –
ilustração da heterocedasticidade. ......................................................................... 26
Figura 2-5. Representações da dispersão dos pontos em torno de uma reta estimada –
ilustração da correlação serial. ............................................................................... 27
Figura 2-6. Padrões de correlação entre os distúrbios. (a) correlação serial positiva; (b)
correlação serial negativa; e (c) correlação nula.................................................... 28
Figura 2-7. Histograma dos resíduos e a curva normal. ........................................................... 30
Figura 3-1. Ilustração da área de rejeição do teste de hipótese bicaudal da distribuição t-
Student. .................................................................................................................. 36
Figura 3-2. Áreas para a distribuição de t para um exemplo genérico com 20 graus de
liberdade e três graus de confiança: 90%, 95% e 99%. ......................................... 37
Figura 3-3. Comparação de distribuições t-Student com a normal, em diferentes graus de
liberdade (df). ........................................................................................................ 38
Figura 3-4. Decomposição da variação de Y em função de X. ................................................ 39
Figura 3-5. Estimadores: com tendenciosidade ( ˆMQ 2 ) e sem tendenciosidade ( ˆMQO ). ......... 42
Figura 3-6. Consistência: Distribuições amostrais do parâmetro para tamanhos de
amostras diferentes. ............................................................................................... 43
Figura 3-7. Exemplificação do melhor estimador não-tendencioso dos parâmetros................ 44
Figura 4-1. Exemplo do teste de especificação do modelo no Stata. ....................................... 66
Figura 4-2. Exemplo do teste Reset de Ramsey no Stata. ........................................................ 66
Figura 4-3. Gráfico de dispersão para identificação de outliers. .............................................. 80
Figura 4-4. Detalhamento dos limites do box-plot no Stata. .................................................... 82
Figura 4-5. Gráfico de box-plot para identificação de outliers................................................. 82
Figura 4-6. Exemplo de box-plot para identificação de outliers no Stata. ............................... 83
Figura 4-7. Box-plot das variáveis de proporções de práticas tecnológicas PCALC,
PADUB, PAGROT, PNIVEL, PPRAGA, PROT. ................................................ 84
Figura 4-8. Saída da regressão do valor da produção excluindo-se os outliers 51 e 54, no
Stata. ...................................................................................................................... 84
Figura 4-9. Gráficos de diagnósticos da regressão original com R. ......................................... 85
Figura 4-10. Gráficos de diagnósticos da regressão sem outliers 51 e 54 com R. ................... 86
Figura 4-11. Comandos e resultados do teste de Bonferroni para outliers. .............................. 86
Econometria – Prof. Adriano M. R. Figueiredo 5
Figura 4-12 . Gráfico dos resíduos versus valores previstos da variável dependente. ............. 89
Figura 4-13. Script para o teste de média zero dos resíduos no R............................................ 90
Econometria – Prof. Adriano M. R. Figueiredo 6
LISTA DE TABELAS

Tabela 3-1. Despesas familiares de consumo semanal Y e renda familiar semanal X –


dados hipotéticos. .................................................................................................. 45
Tabela 4-1. Dados para exemplo do cálculo da TGC. .............................................................. 78
Tabela 4-2. Teste de White – no cross terms, no Eviews. ...................................................... 108
Tabela 4-3. Teste de White – cross terms, no Eviews. ........................................................... 109
Tabela 4-4. Resultados da estimação inicial para o exemplo de Gujarati, p.388, 4ed.no
Eviews.................................................................................................................. 113
Tabela 4-5. Saída do Teste de White para o exemplo de Gujarati, p.388, 4ed. Eviews. ........ 113
Tabela 4-6. Resultados da estimação com a correção de White para heterocedasticidade. ... 114
Tabela 4-7. Resultados dos R² das regressões auxiliares: ...................................................... 179
Tabela 4-8. Resumo: R² das regressões auxiliares ................................................................. 188
Econometria – Prof. Adriano M. R. Figueiredo 7
LISTA DE QUADROS

Quadro 2.1. Pressuposições do Modelo de Regressão Linear Clássico Normal ...................... 33


Quadro 3.1. Estimadores de Mínimos Quadrados Ordinários. ................................................. 36
Quadro 3.2. Script em R para reproduzir a Figura 3-2. ............................................................ 38
Quadro 4.1. Exemplo de saída do Eviews para o Ramsey RESET Test: Equação original: .... 58
Quadro 4.2. Exemplo de saída do Eviews para o Ramsey RESET Test: equação de teste: ..... 60
Quadro 4.3. Resultados do Ramsey RESET para especificação do modelo no Stata. ............. 65
Quadro 4.4. Saída do Ovtest – Ramsey Reset Test no Stata. ................................................... 66
Quadro 4.5. Exemplo do Linktest para especificação do modelo no Stata. ............................. 67
Quadro 4.6. Script para o teste de especificação em R............................................................. 68
Quadro 4.7. Script para o teste de omissão de variáveis em R. ................................................ 69
Quadro 4.8. Resultados das estimações com diferentes especificações. .................................. 70
Quadro 4.9. Script e resultados para o teste de omissão de variáveis. ..................................... 70
Quadro 4.10. Script para o teste de omissão de variáveis no R com pacote ‘car’. ................... 71
Quadro 4.11. Saída do Critério de Informação pelo Stata. ....................................................... 72
Quadro 4.12. Saída do Critério de Informação pelo R. ............................................................ 72
Quadro 4.13. Saída da estimação com uso de variáveis binárias: produção de algodão. ......... 76
Quadro 4.14. Estimação da produção de algodão com alterações nas inclinações e no
intercepto. .............................................................................................................. 77
Quadro 4.15. Estimação de um modelo para a Taxa Geométrica de Crescimento com
variável tendência, usando Excel........................................................................... 79
Quadro 4.16. exemplo de teste de White de heterocedasticidade com o Stata....................... 110
Quadro 4.17. Exemplo com Teste de White de heterocedasticidade no Stata. ...................... 110
Quadro 4.18. Saída da regressão da equação de teste de White no Stata. .............................. 111
Quadro 4.19. Saída da regressão com erros robustos para corrigir heterocedasticidade no
Stata, White clássico. ........................................................................................... 112
Quadro 4.20. Matriz de correlação simples, Stata. ................................................................. 162
Quadro 4.21. Matrizes de correlações parciais, Stata. ............................................................ 163
Quadro 4.22. Estimativas do modelo original, em Stata ........................................................ 165
Quadro 4.23. Cálculo de VIF da regressão principal, em Stata.............................................. 165
Quadro 4.24. Rotina de obtenção do VIF da regressão principal, em Stata. .......................... 166
Quadro 4.25. Regressão auxiliar para a regra de Klein: index, em Stata ............................... 166
Quadro 4.26. Regressão auxiliar para a regra de Klein: g, em Stata ...................................... 167
Quadro 4.27. Regressão auxiliar para a regra de Klein: interest, em Stata ............................ 167
Quadro 4.28. Regressão auxiliar para a regra de Klein: p, em Stata ...................................... 167
Quadro 4.29. Rotina para obtenção do VIF da regressão principal, em Gretl. ...................... 169
Quadro 4.30. Cálculo de VIF da regressão principal, em Gretl. ............................................ 169
Quadro 4.31. Estimativas do modelo original, em Eviews .................................................... 170
Quadro 4.32. Rotina de cálculo de VIF da regressão principal, em Eviews. ......................... 170
Quadro 4.33. Cálculo de VIF da regressão principal, em Eviews. ......................................... 171
Quadro 4.34. Estimativas do modelo original, em R ............................................................. 171
Quadro 4.35. Cálculo de VIF da regressão principal, em R. .................................................. 172
Quadro 4.36. Regressão auxiliar para a regra de Klein: index, em R .................................... 172
Quadro 4.37. Regressão auxiliar para a regra de Klein: g, em R ........................................... 173
Quadro 4.38. Regressão auxiliar para a regra de Klein: interest, em R.................................. 173
Quadro 4.39. Regressão auxiliar para a regra de Klein: p, em R. .......................................... 174
Quadro 4.40. Equação com a variável index, Stata. ............................................................... 175
Quadro 4.41. Equação sem a variável index, Stata. ............................................................... 175
Quadro 4.42. Estimativas do modelo sem a variável index, R. .............................................. 176
Quadro 4.43. Resultados da regressão principal pelo R. ........................................................ 177
Econometria – Prof. Adriano M. R. Figueiredo 8
Quadro 4.44. Resultados da regressão principal pelo Eviews. ............................................... 178
Quadro 4.45. Resultados da regressão principal pelo Stata.................................................... 178
Quadro 4.46. Matriz de Correlação das Variáveis Explicativas, Stata:.................................. 179
Quadro 4.47. Matriz de Correlação das variáveis explicativas pelo R:.................................. 179
Quadro 4.48. Regressão auxiliar do reg1.GNPdef, em R ....................................................... 180
Quadro 4.49. Regressão auxiliar do reg1.GNP, em R ............................................................ 180
Quadro 4.50. Regressão auxiliar do reg1.unemp, em R ......................................................... 181
Quadro 4.51. Regressão auxiliar do reg1.armed em R ........................................................... 181
Quadro 4.52. Regressão auxiliar do reg1.pop, em R .............................................................. 182
Quadro 4.53. Regressão auxiliar do reg1.year, em R ............................................................. 182
Quadro 4.54. Regressão auxiliar do X1, em Eviews .............................................................. 183
Quadro 4.55. Regressão auxiliar do X1, em Stata .................................................................. 183
Quadro 4.56. Regressão auxiliar do X2, em Eviews .............................................................. 184
Quadro 4.57. Regressão auxiliar do X2, em Stata .................................................................. 184
Quadro 4.58. Regressão auxiliar do X3, em Eviews .............................................................. 185
Quadro 4.59. Regressão auxiliar do X3, em Stata .................................................................. 185
Quadro 4.60. Regressão auxiliar do X4, em Eviews .............................................................. 186
Quadro 4.61. Regressão auxiliar do X4, em Stata .................................................................. 186
Quadro 4.62. Regressão auxiliar do X5, em Eviews .............................................................. 187
Quadro 4.63. Regressão auxiliar do X5, em Stata .................................................................. 187
Quadro 4.64. Regressão auxiliar do X6, em Eviews .............................................................. 188
Quadro 4.65. Regressão auxiliar do X6, em Stata .................................................................. 188
Quadro 4.66. Cálculo do VIF pelo R. ..................................................................................... 189
Quadro 4.67. Cálculo do VIF pelo Stata. ............................................................................... 189
Quadro 4.68. Resultados da estimação com transformação das variáveis, Eviews................ 190
Quadro 4.69. Resultados da estimação com transformação das variáveis, Stata. .................. 190
Quadro 4.70. Resultados da estimação com transformação das variáveis, R......................... 191
Quadro 4.71. Resumo das violações de pressupostos do modelo de regressão linear
clássico................................................................................................................. 192
Econometria – Prof. Adriano M. R. Figueiredo 9

SUMÁRIO

1. INTRODUÇÃO .......................................................................................................................................11
2. PRESSUPOSIÇÕES DO MODELO DE REGRESSÃO LINEAR CLÁSSICO .......................................................20
2.1. PRESSUPOSIÇÃO 1: A RELAÇÃO ENTRE Y E X É LINEAR ........................................................................................ 20
2.2. PRESSUPOSIÇÃO 2: O ERRO ALEATÓRIO TEM MÉDIA ZERO .................................................................................. 24
2.3. PRESSUPOSIÇÃO 3: O ERRO ALEATÓRIO TEM VARIÂNCIA CONSTANTE (PRESENÇA DE HOMOCEDASTICIDADE) ................ 26
2.4. PRESSUPOSIÇÃO 4: OS ERROS ALEATÓRIOS SÃO INDEPENDENTES (OU NÃO AUTOCORRELACIONADOS)......................... 27
2.5. PRESSUPOSIÇÃO 5: AS VARIÁVEIS EXPLICATIVAS SÃO NÃO ALEATÓRIAS (SÃO FIXAS) ................................................. 29
2.6. PRESSUPOSIÇÃO 6: O ERRO TEM DISTRIBUIÇÃO NORMAL, COM MÉDIA ZERO E VARIÂNCIA CONSTANTE:....................... 30
2.7. PRESSUPOSIÇÃO 7: AUSÊNCIA DE MULTICOLINEARIDADE ENTRE AS VARIÁVEIS EXPLICATIVAS ..................................... 30
2.8. RESUMO DAS PRESSUPOSIÇÕES ..................................................................................................................... 32
3. ESTIMAÇÃO ..........................................................................................................................................34
3.1. PROPRIEDADES DOS ESTIMADORES DE MQO .................................................................................................. 41
ANEXO 1: ESTIMAÇÃO UTILIZANDO MATRIZES NO EXCEL: .............................................................................................. 45
ANEXO 2: ESTIMAÇÃO UTILIZANDO MATRIZES NO R/RSTUDIO: ...................................................................................... 47
ANEXO 3: EXERCÍCIOS:........................................................................................................................................... 48
4. VIOLAÇÕES NAS PRESSUPOSIÇÕES CLÁSSICAS DO MODELO DE REGRESSÃO LINEAR............................52
4.1. PRESSUPOSIÇÃO 1: ESPECIFICAÇÃO DO MODELO .............................................................................................. 52
4.1.1. DETECÇÃO DO PROBLEMA: O TESTE RESET DE RAMSEY ............................................................................... 52
4.1.1.1. IMPLEMENTAÇÃO NO R: ........................................................................................................................ 54
4.1.1.2. IMPLEMENTAÇÃO NO EVIEWS: ................................................................................................................ 58
4.1.1.3. IMPLEMENTAÇÃO NO STATA: .................................................................................................................. 61
4.1.2. TESTES PARA OMISSÃO DE VARIÁVEIS COM R ............................................................................................. 67
4.1.3. OBSERVANDO OUTROS INDICADORES DE BOA ESPECIFICAÇÃO DO MODELO ....................................................... 71
4.1.4. VARIÁVEIS ESPECIAIS NA ESPECIFICAÇÃO DO MODELO .................................................................................. 72
4.1.5. IDENTIFICAÇÃO DE OUTLIERS DO MODELO ................................................................................................. 80
4.2. PRESSUPOSIÇÃO 2: O ERRO ALEATÓRIO TEM MÉDIA ZERO .................................................................................. 89
4.2.1. NO R ................................................................................................................................................. 89
4.2.2. NO STATA........................................................................................................................................... 90
4.2.3. EVIEWS .............................................................................................................................................. 92
4.3. PRESSUPOSIÇÃO 5: O ERRO TEM DISTRIBUIÇÃO NORMAL, COM MÉDIA ZERO E VARIÂNCIA CONSTANTE:....................... 96
4.3.1. ROTEIRO PARA TESTAR NORMALIDADE NO R: ............................................................................................. 96
4.3.2. ROTEIRO PARA TESTAR NORMALIDADE NO STATA:..................................................................................... 100
4.3.3. ROTEIRO PARA TESTAR NORMALIDADE NO EVIEWS: ................................................................................... 101
4.4. PRESSUPOSIÇÃO 3: O ERRO ALEATÓRIO TEM VARIÂNCIA CONSTANTE (PRESENÇA DE HOMOCEDASTICIDADE) .............. 103
4.4.1. TESTE DE WHITE DE HETEROCEDASTICIDADE DOS RESÍDUOS........................................................................ 104
4.4.2. TESTE DE HETEROCEDASTICIDADE DOS RESÍDUOS DE WHITE, R: .................................................................. 105
4.4.3. TESTE DE HETEROCEDASTICIDADE DOS RESÍDUOS DE WHITE, EVIEWS: .......................................................... 108
4.4.4. TESTE DE HETEROCEDASTICIDADE DOS RESÍDUOS DE WHITE, STATA: ............................................................ 109
4.4.5. TESTE DE BREUSCH-PAGAN-GODFREY DE HETEROCEDASTICIDADE DOS RESÍDUOS (WOOLDRIDGE, P.257): .......... 114
4.4.5.1. TESTE DE BREUSCH-PAGAN-GODFREY NO R: ........................................................................................... 115
4.4.5.2. TESTE DE BREUSCH-PAGAN-GODFREY NO STATA:..................................................................................... 116
4.4.5.3. HETEROSKEDASTICITY TEST: BREUSCH-PAGAN-GODFREY , NO EVIEWS: ........................................................ 117
4.4.5.4. ANEXO: ROTEIRO PARA ESTIMAÇÃO DE OUTROS TESTES NO EVIEWS – HETEROCEDASTICIDADE .......................... 119
4.5. PRESSUPOSIÇÃO 4: OS ERROS ALEATÓRIOS SÃO INDEPENDENTES (OU NÃO AUTOCORRELACIONADOS)....................... 127
4.5.1. TESTE DE DURBIN-WATSON E H DE DURBIN ............................................................................................ 127
4.5.1.1. TESTE DE DURBIN-WATSON NO R ......................................................................................................... 131
4.5.2. TESTE DE BREUSCH-GODFREY OU DE LM DE CORRELAÇÃO SERIAL............................................................... 132
4.5.2.1. TESTE DE BREUSCH-GODFREY OU DE LM DE CORRELAÇÃO SERIAL NO R ....................................................... 133
Econometria – Prof. Adriano M. R. Figueiredo 10
4.5.2.2. TESTE DE BREUSCH-GODFREY OU DE LM DE CORRELAÇÃO SERIAL NO STATA ................................................ 139
4.5.3. ESTIMAÇÃO SOLUCIONANDO O PROBLEMA DE AUTOCORRELAÇÃO - FGLS:..................................................... 145
4.5.4. EXEMPLO DE CORREÇÃO POR COCHRANE-ORCUTT NO R: ........................................................................... 146
4.5.5. EXEMPLO DE CORREÇÃO COM INFERÊNCIA ROBUSTA NO R: ......................................................................... 146
4.5.6. EXEMPLO DE CORREÇÃO POR ARIMA NO EVIEWS: ................................................................................... 147
4.6. PRESSUPOSIÇÃO 6: AS VARIÁVEIS EXPLICATIVAS SÃO NÃO ALEATÓRIAS (SÃO FIXAS) ............................................... 158
4.7. PRESSUPOSIÇÃO 7: AUSÊNCIA DE MULTICOLINEARIDADE ENTRE AS VARIÁVEIS EXPLICATIVAS ................................... 161
4.7.1. TESTE DE MULTICOLINEARIDADE NO STATA: ............................................................................................. 164
4.7.1.1. TESTE DO VARIANCE INFLATION FACTOR (VIF) NO STATA: ......................................................................... 164
4.7.1.2. TESTE DE MULTICOLINEARIDADE NO STATA – REGRA DE KLEIN: .................................................................... 166
4.7.2. TESTE DE MULTICOLINEARIDADE NO GRETL:............................................................................................. 168
4.7.2.1. TESTE DO FACTOR DE INFLACCIONAMIENTO DA VARIÂNCIA (VIF) NO GRETL: ................................................. 168
4.7.3. TESTE DE MULTICOLINEARIDADE NO EVIEWS: ........................................................................................... 170
4.7.3.1. TESTE DO VARIANCE INFLATION FACTOR (VIF) NO EVIEWS: ........................................................................ 170
4.7.4. TESTE DE MULTICOLINEARIDADE NO R: ................................................................................................... 171
4.7.4.1. TESTE DO VARIANCE INFLATION FACTOR (VIF) NO R: ................................................................................ 171
4.7.5. CORREÇÃO DA MULTICOLINEARIDADE NO STATA, OMITINDO A VARIÁVEL PROBLEMÁTICA:................................. 174
4.7.6. CORREÇÃO DA MULTICOLINEARIDADE NO R, EVIEWS E STATA ..................................................................... 177
5. REFERÊNCIAS BIBLIOGRÁFICAS...........................................................................................................193
6. PROGRAMAS RECOMENDADOS .........................................................................................................195
Econometria – Prof. Adriano M. R. Figueiredo 11

1. Introdução

A Econometria é um ramo da ciência econômica que trata da quantificação das


relações econômicas. Combina a teoria econômica, a matemática e a estatística para a análise
de problemas econômicos como a oferta e demanda de moeda, oferta e demanda de produtos,
a função investimento, o emprego e a renda entre outros.
O objetivo básico da econometria é Analisar conjuntos de dados econômicos de modo
a poder verificar e dar sustentação às teorias econômicas. Da teoria econômica elaboram-se
hipóteses, traduzidas em linguagem pelas ferramentas da matemática [ex.: uma função
y=f(x1, x2, x3,..., xn)] e faz-se a inferência ou dedução pelo raciocínio, tirando por conclusão
com técnicas da estatística.
Tem como instrumento fundamental a análise de regressão, que consiste na obtenção
dos parâmetros para uma dada relação existente entre as variáveis dependentes e
independentes. Muitas vezes trabalha-se com uma amostra de dados obtidos de uma
população. Assim, têm-se alguns conceitos importantes aqui detalhados.
A população, ou também chamada de universo, é o conjunto de indivíduos com
características comuns para um determinado fenômeno. O fenômeno é definido pela variável,
no presente caso, um fenômeno econômico definido por uma ou mais variáveis econômicas.
Estas variáveis são as características medidas, podendo ser quantitativas como a produção e a
renda, ou qualitativas como o gênero e a religião.
A amostra é um subconjunto da população, uma parte do todo. Normalmente se utiliza
a amostra quando existe algum empecilho (financeiro, prático ou outro) para o uso da
população. Neste caso, espera-se que a amostra tenha características tais que representem
adequadamente o todo, e de preferência que seja ao acaso. Para tanto, utilizam-se técnicas
estatísticas para garantir maior representatividade da amostra. Muitas vezes a amostra é
estratificada ou separada em estratos, de acordo com a necessidade de se detalhar os
diferentes grupos (Figura 1-1).
Econometria – Prof. Adriano M. R. Figueiredo 12
Figura 1-1. População (Universo) e Amostra (parte da população).

Fonte: elaboração do autor.

As variáveis podem ser chamadas de aleatórias quando seus valores estiverem


relacionados com uma probabilidade de ocorrência. A probabilidade é a relação entre os casos
favoráveis entre todos os possíveis. Serão variáveis discretas quando não houver
probabilidade de ocorrência.
Uma técnica para analisar a relação entre variáveis econômicas é por meio da
regressão. Na regressão linear simples (RLS), estima-se a relação existente entre apenas duas
(2) variáveis: uma dependente (ou também chamada de endógena ou explicada), Y; e uma
independente (ou também chamada de exógena ou explicativa ou explicadora), X. Com o uso
da matemática, a relação se expressa como uma função f qualquer: Y = f (X).
No caso mais geral, com mais de duas variáveis, tem-se a regressão linear múltipla
(RLM), estimando-se a relação Y = f (X1, X2, ..., Xn). Neste caso, portanto, tem-se n variáveis
explicativas X para uma variável explicada Y, sendo que existem situações em que se pode ter
mais de uma variável explicada assim como mais de uma equação dentro do modelo analítico
em estudo.
Para melhor compreensão da econometria, convém explicar a estrutura do método de
análise empírica conforme a Figura 1-2.
Econometria – Prof. Adriano M. R. Figueiredo 13
Figura 1-2. Estrutura da análise empírica método.

Fonte: Elaboração do autor.

A estrutura da análise empírica do método é composta inicialmente por um problema –


uma questão a ser investigada. Com base na teoria econômica referendada em artigos, livros e
observação, elaboram-se hipóteses teóricas (que poderão ou não ser aceitas) compondo o
modelo teórico.
A validação e verificação do modelo e confirmação ou não das hipóteses requer o uso
de dados e técnicas estatísticas e matemáticas as quais compõem o que aqui chamamos de
estimação do modelo, além de critérios econômicos e estatísticos. A validação do modelo
também pode ser realizada com economia política e uso de argumentos não quantitativos,
normalmente associados aos enfoques da sociologia, do direito, das ciências políticas as quais
se relacionarão com a econometria na fase de análise e interpretação dos resultados. Assim, na
análise dos resultados pode-se ter um detalhamento da consistência do modelo teórico
adotado, refutação ou indicação de modelos teóricos, e principalmente a sugestão de políticas
econômicas para tratar o fenômeno econômico estudado.
Portanto, o método implica na origem numa teoria e numa linguagem teórica
econômica, passando por uma tradução desta para a linguagem matemática, muitas vezes com
o uso de estatística descritiva e emprego de tabelas, gráficos, cartogramas ou outros objetos
que melhoram a visualização dos resultados. É importante frisar que a base teórica deve ser a
Econometria – Prof. Adriano M. R. Figueiredo 14
origem da investigação do problema. Os dados serão associados às variáveis detectadas nesta
teoria. Ao passar para a linguagem matemática, compõe-se o que chamamos de modelo
analítico ou modelo operacional ou ainda modelo econométrico.
O modelo econométrico será uma representação simplificada de um processo real, ou
ainda, o conjunto de equações comportamentais derivadas do modelo econômico,
(VASCONCELOS, 2000: p.14)2. É a operacionalização do modelo em linguagem
matemática.
O modelo a ser estimado normalmente possui componente aleatório, requerendo a
inclusão de um erro que captará os efeitos das variáveis importantes para explicar Y, mas que
não estão no modelo. Representa-se então, o efeito das demais variáveis explicativas por um
termo aditivo ui, denominado resíduo ou erro da observação i. O modelo torna-se:
𝑌 = 𝑓 (𝑋 ) + 𝑢 ,
cuja expressão geral matricial é
Y = Xβ + ε
em que  é uma matriz de parâmetros a serem estimados (incluindo o intercepto e os
coeficientes angulares) e ε é um vetor de resíduos ou erros aleatórios. Os parâmetros são
constantes às quais cabem papéis particulares em termos de efeitos de uma variável sobre
outra.
O formato matricial linear aberto será, para n observações e k variáveis explicativas:
 Y1  1 X 11  X 1k  0   1 
Y  1 X  X 2 k   1    2 
 2   21
 
         
       
Yn  1 X n1  X nk  k    n 

Portanto, têm-se as matrizes assim nomeadas:


 Y1  1 X 11  X 1k  0   1 
Y  1 X 
 X 2k   
1   
Y  2
;X   21
;   ;   2 
       
       
Yn  n x 1 1 X n1  X nk  n x ( k 1 ) k ( k 1 ) x 1  n  n x 1
Neste cenário, tem-se uma relação entre variáveis X e a Y, podendo-se ilustrar
graficamente como uma dispersão de pontos em dois eixos. A dispersão dos pontos em torno
de uma reta de tendência é o resultado de um grande número de pequenas causas, cada uma
delas produzindo um desvio positivo (+) ou negativo (–). O desvio será a diferença entre o

2
VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo: Atlas, 2000.
Econometria – Prof. Adriano M. R. Figueiredo 15
valor observado e o valor estimado da variável dependente do modelo. Portanto, tem-se ui
devido a:
 omissão de variáveis
 problemas de especificação
 erros de medida da variável dependente
Pode-se dizer que Y nunca pode ser previsto com exatidão, ou seja, sem resíduo.
Portanto, para cada valor de X, existe uma distribuição de probabilidade dos valores de Y,
com média E(Yi) = Y = X e variância constante 2.
O objetivo da análise de regressão é estimar uma curva através da nuvem de pontos,
relacionando uma variável dependente como função de outras variáveis ditas independentes,
sendo que a forma funcional deve ser pressuposta pelo pesquisador. Neste caso, a teoria a
respeito da relação estudada, a análise da dispersão dos pontos e os estudos anteriores acerca
desta relação ajudarão nesta definição.
Por exemplo, pode-se observar a relação entre o PIB dos municípios de Mato Grosso
do Sul e e o valor adicionado bruto da agropecuária para o ano de 2014 na Figura 1-3.

Figura 1-3. Relação entre o PIB dos municípios de Mato Grosso do Sul e o valor
adicionado bruto da agropecuária para o ano de 2014 (SCN 2010).

Fonte: Elaboração do autor.


A mera descrição gráfica destes valores indica uma dispersão mais concentrada entre
os valores de PIB inferiores a R$5 bilhões e de agropecuária inferior a R$200 milhões,
mesmo havendo valores atípicos maiores que os mencionados, mas para poucos municípios.
Econometria – Prof. Adriano M. R. Figueiredo 16
A mesma observação poderia ser conduzida com cartogramas, ou com tabelas, mas que talvez
não permitissem ao leitor a mesma impressão que o gráfico de dispersão.
Uma inspeção visual nos dados, como nos gráficos ou com uso de medidas estatísticas
descritivas como média, mediana, moda, máximos e mínimos, é importante para o
investigador ter maior conhecimento do comportamento das variáveis, o que permitirá melhor
especificação do modelo analítico. A ocorrência de valores atípicos é uma preocupação que o
investigador deve tentar “tratar” adequadamente e melhorando as estimações.
As variáveis como mencionadas anteriormente, podem ser quantitativas ou
qualitativas. Os dados a ela associados, portanto, poderão ter diferentes características,
diferenciando-se entre séries temporais, de seção cruzada, ou combinação entre estes dois
tipos.
Podem-se ter dados de uma variável acompanhada no tempo, ou seja, o que se chama
de série temporal como no gráfico do índice do PIB nominal de Campo Grande - MS, 2002-
2014 (SCN 2010), dados anuais em valores correntes, na Figura 1.4.

Figura 1-4. Valor do PIB nominal de Campo Grande - MS, 2002-2014 (SCN 2010).

Fonte: Dados do IBGE. Elaboração do autor.


Outro exemplo é o preço de uma ação ou a renda de um indivíduo pode ser
acompanhada semanalmente, ou mensalmente ou anualmente, e neste caso procura-se avaliar
as alterações desta no tempo, ou a dinâmica da série. Neste caso, não se trata de uma amostra
aleatória, embora o pesquisador deva ter argumentos para a escolha do período analisado.
Econometria – Prof. Adriano M. R. Figueiredo 17
As investigações das relações entre séries temporais têm ocupado vasto espaço na
literatura econométrica recente, preocupando-se principalmente com a possibilidade de
relações espúrias, quando a relação decorre do comportamento temporal (tendência e
sazonalidade) e não precisamente do efeito entre as variáveis, dando origem aos modelos
autoregressivos, médias móveis e outros a serem desenvolvidos mais a frente.
Alguns dados podem estar relacionados ao mesmo período de tempo, para diferentes
indivíduos, empresas, regiões. Neste caso, dá-se o nome de séries de secção cruzada. Quando
se tratam de indivíduos ou empresas e são amostras, chamamos de amostra aleatória. Cada
observação é um novo indivíduo, firma ou município com informação em um ponto no
tempo. São típicos os casos de dados municipais, como o PIB dos municípios de Mato Grosso
do Sul para um dado ano. Nestes dados, em geral se preocupa com a variabilidade entre as
unidades da série, ou seja, entre os municípios. Os dados neste caso ficam melhor expressos
em cartogramas como na Figura 1-5 para o ICMS de Mato Grosso, ou em gráficos de barras
ou colunas como na Figura 1-6 para o PIB municipal de Mato Grosso do Sul, pois não é
possível “unir pontos” como num gráfico no tempo.

Figura 1-5. Arrecadação de ICMS de combustíveis em Mato Grosso em 2008.

Fonte: Elaboração do autor.


Econometria – Prof. Adriano M. R. Figueiredo 18

Figura 1-6. PIB dos municípios de Mato Grosso do Sul em 2014 (SCN 2010) em Bilhões
de Reais correntes.

Fonte: Elaboração do autor.

Os dados podem ainda relacionar os dois tipos anteriores, ou seja, dados de diferentes
unidades ou indivíduos acompanhados para diferentes períodos de tempo, originando o que se
chama de combinação de séries temporais e seção cruzada (STSC), ou dados longitudinais.
Como exemplo, pode-se ter uma amostra de consumidores de Mato Grosso como no caso da
Pesquisa Nacional de Amostragem por Domicílio (PNAD) conduzida pelo IBGE, cujos
detalhes do consumo são investigados anualmente. Neste caso, a preocupação é tanto na
variabilidade entre indivíduos como na dinâmica ou no comportamento temporal de cada
individuo. No caso de se ter os mesmos indivíduos nos mesmos períodos de tempo, tem-se a
especificidade de uma combinação STSC chamada “painel”.
A forma de relacionar as variáveis no modelo econométrico observará aspectos
matemáticos e estatísticos, sempre com base na teoria. As previsões a serem obtidas devem
ser olhadas com cautela, pois o uso de funções matemáticas ou escolhas de variáveis
inadequadas poderá resultar em má especificação do modelo e outros problemas estatísticos
que invalidarão as estimativas. Por este motivo, é fundamental ter uma boa revisão de
literatura investigando o que outros pesquisadores realizaram, de que modo trabalharam, e
quais os principais resultados, tudo isto previamente ao desenvolvimento do modelo
Econometria – Prof. Adriano M. R. Figueiredo 19
econométrico. Este modelo ainda estará sujeito a verificações estatísticas de pressupostos
importantes, detalhados no próximo capítulo.
Econometria – Prof. Adriano M. R. Figueiredo 20

2. Pressuposições do Modelo de Regressão Linear


Clássico

O modelo clássico de análise de regressão é construído com base numa série de


pressuposições referentes ao comportamento da população. Conhecidas essas pressuposições,
será possível estimar os parâmetros do modelo, assim como a matriz de variância e
covariância dos mesmos e a respectiva matriz para os resíduos.
A seguir faz-se a descrição rápida das pressuposições do modelo clássico de regressão.

2.1. Pressuposição 1: a relação entre Y e X é linear

 Forma funcional
Esta pressuposição em princípio implica na consideração de uma reta estimada, ou
seja, uma função linear nas variáveis do tipo
Yi  0 1 X1i 2 X 2i  k X ki  i ,
ou pela forma matricial:
Y = X + ε ,

em que Y é o vetor de variáveis explicadas, X é uma matriz de variáveis explicativas


(incluindo uma coluna de uns para o intercepto) e ε é um vetor de resíduos aleatórios.
Entretanto, deve-se atentar para outros tipos de linearidades implícitas na
pressuposição. Têm-se os seguintes tipos de linearidades: linearidade das variáveis
explicativas (X) e linearidade dos parâmetros (). A não linearidade nas variáveis às vezes
pode ser contornada por transformações nas variáveis, mas a não linearidade dos parâmetros é
mais complicada e requer outros métodos de estimação não lineares.
É fácil imaginar que o comportamento de um fenômeno econômico não segue a
relação retilínea, como por exemplo, as tradicionais relações de oferta e demanda não
necessariamente serão retas que se cruzam. É muito mais fácil admitir que o comportamento
de variáveis econômicas seja curvilíneo. Na Figura 2-1, dos retornos das ações das Lojas
Americanas em função de uma variável Z qualquer, observa-se que as possibilidades de
ajustamentos em reta ou em parábola apresentam diferentes resultados em termos de melhor
representar a nuvem de pontos.
Quando as variáveis explicativas são elevadas a alguma potência diferente de um, a
função que relaciona o comportamento dessas variáveis com a variável explicada será
Econometria – Prof. Adriano M. R. Figueiredo 21
diferente de uma reta e os estimadores tradicionais de Mínimos Quadrados Ordinários (MQO)
não mais serão válidos. O estimador de um parâmetro é uma “regra” ou “expressão” que
resultará de uma amostra selecionada. Por exemplo, um estimador simples comumente
utilizado é o da média aritmética de uma amostra.

Figura 2-1. Retornos das ações das Lojas Americanas em função de uma variável Z
qualquer.

RLAME x Z
0.07

0.06

0.05

0.04

y = 0.2541x2 - 0.0188x + 0.0016


0.03

0.02

0.01
y = 0.0018x + 0.0048

0
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Z Linear (Z) Polinômio (Z)

Fonte: Elaboração do autor.


Existem modelos que são chamados de “intrinsecamente lineares”, ou que podem se
tornar lineares por transformação das variáveis. O caso mais comum na literatura econômica é
o de funções do tipo Cobb-Douglas, ou seja,
Y  AX1 1 X 2 2 X 3 3e

em que os parâmetros podem assumir valores diferentes de um e, ainda, tem-se a


multiplicação de variáveis explicativas. A função acima pode ser linearizada transformando-
se as variáveis em logaritmos, obtendo:

𝑙𝑛𝑌 = 𝑙𝑛𝐴 + 𝛽 . 𝑙𝑛𝑋 + 𝛽 . 𝑙𝑛𝑋 + 𝛽 . 𝑙𝑛𝑋 + 𝜀

ou, simbolizando o ln por *:


Econometria – Prof. Adriano M. R. Figueiredo 22

Y *   0  1 X 1*   2 X 2*  3 X 3*  

A função linearizada pode ser estimada da forma tradicional lembrando que os


parâmetros estimados serão agora da função transformada, que no caso log-log (Cobb-
Douglas), equivalem às elasticidades. A função transformada pode ser vista como linear nos
parâmetros (os parâmetros β são todos em primeira potência) e nas variáveis transformadas
(X*=lnX).
Outros modelos não podem ser transformados e são os chamados intrinsecamente não
lineares. Por exemplo, é possível perceber que a função abaixo não pode ser linearizada:
Y  A1   2 e 3X1   4 e 5X 2  e 

Esses modelos devem ser estimados por Mínimos Quadrados não lineares ou Máxima
Verossimilhança não linear. Algumas formas funcionais utilizadas em economia da produção
podem ser:
n
Cobb-Douglas logaritmizada: log y  a 0   a i log x i
i 1

n
Elasticidade Constante de Substituição ou CES: y   a 0   a i x i
i 1

n n n
Generalizada Leontief: y  a 0   a i x i   a ij x i x j
i 1 i 1 j1

n n n
Transcendental Logaritmica ou Translog: log y  a 0   a i log x i   a ij log x i log x j
i 1 i 1 j1
n n n
Quadrática: y  a 0   a i x i   a ij x i x j
i 1 i 1 j1

A utilização de uma forma mais complexa em detrimento de uma mais simples


dependerá da disposição dos dados e do rigor científico desejado. A função Cobb-Douglas de
modo geral oferece um ajustamento satisfatório e é fácil de executar. As funções elasticidade
de substituição constante (CES), Generalizada Leontief, Transcendental Logarítmica e
Quadrática são generalizações da função Cobb-Douglas para contornar pressuposições
econômicas de substitutibilidade dos fatores e produtos ou ainda de concorrência perfeita,
entre outras situações.
Juntamente ao problema da forma funcional (linearidade dos parâmetros e variáveis),
quando se especifica um modelo, automaticamente estão sendo cometidos outros dois tipos de
Econometria – Prof. Adriano M. R. Figueiredo 23
erros que poderão ou não comprometer a análise. Um está associado à “omissão de uma
variável relevante” e outro associado à “inclusão de variável irrelevante”.
 Omissão de variável relevante
Imagine que a revisão de literatura, revisão teórica, indique que a quantidade
demandada (Q) de um produto seja função do preço do produto (P) e da renda (R), e que o
comportamento da demanda do produto analisado na realidade está em conformidade com a
teoria. O modelo “correto” seria:
(A) Qt = β0 + β1.Pt + β2.Rt + εt*
em que os β são parâmetros estimados e ε é o resíduo aleatório.
Imagine agora que, por algum motivo, estimou-se a demanda em função apenas do
preço do produto, fazendo:
(B) Qt = α 0 + α 1.Pt + εt.
em que α são parâmetros e as demais variáveis como anteriormente citadas.
A questão é: quais as consequências sobre os estimadores de MQO (ou sobre os β
estimados)? Qual o efeito sobre α 0 e α 1 em razão da exclusão de R do modelo?
Se Pt for altamente correlacionado com Rt, a retirada de Rt trará um alto viés (alta
tendenciosidade) e os parâmetros estimados serão muito diferentes do valor esperado:
βestimado ≠ E(β)
ou seja, os parâmetros estimados serão inconsistentes e no limite E(β) ≠ β.
Os testes de hipóteses não serão válidos e as estimativas de variâncias também serão
tendenciosas.
 Inclusão de variável irrelevante
Imagine agora a situação inversa: o modelo estimado contempla mais variáveis
explicativas do que as que deveriam estar no modelo “correto”. Imagine que o modelo deveria
ter apenas P e que foi estimado com P e Z, sendo Z uma variável irrelevante no modelo.
(A) Qt = β0 + β1.Pt + εt. modelo correto
(B) Qt = α 0 + α 1.Pt + α 2.Zt + εt* modelo estimado
e que Z não tem relevância teórica.
A questão é: quais as consequências de α, em razão da inclusão de Zt, sobre β?
As consequências da inclusão de uma variável irrelevante serão menos problemáticas
que no caso da omissão de uma variável relevante. Primeiro, a presença das variáveis
“irrelevantes” não viesa as outras estimativas. Segundo, aumentam-se a variância dos
parâmetros e o desvio-padrão. Tende, portanto, a fazer com que “α” seja não significativo,
mas aumenta o coeficiente R2.
Econometria – Prof. Adriano M. R. Figueiredo 24

2.2. Pressuposição 2: O erro aleatório tem média zero

Significa que o erro tem uma distribuição de probabilidade centralizada em zero (com
média zero). O erro é o efeito das variáveis que não consigo explicar no modelo. A média
pode ser considerada como o valor esperado do erro, ou seja,
𝐸 (𝜀 ) = 0 , 𝑖 = 1, 2, . . . , 𝑛
Ou na forma matricial,
𝐸(𝜀) = 0

Dado que 𝐸(𝜀) = 0, 𝑒𝑛𝑡ã𝑜 𝐸(𝑌) = 𝐸[ 𝑋𝛽 + 𝜀] = 𝐸[ 𝑋𝛽] + 𝐸[ 𝜀] = 𝐸[ 𝑋𝛽] + 0


Portanto, E(Y) = Xβ e o modelo fornece soluções adequadas estatisticamente. Essa
pressuposição é importante para ter confiança na estimação por β = (X´X)-1X´Y. Caso os
erros não tenham média zero, o estimador β = (X´X)-1X´Y será tendencioso.
Observe na Figura 2-1 (anteriormente mostrada) que traz as taxas de retorno
observadas e estimadas para a ação das Lojas Americanas S.A. (LAME4), e verifique que
existem momentos em que os pontos vermelhos (com marcador quadrado) estão acima que os
verdes (com marcador de x) e em outros momentos estão abaixo. O gráfico dos resíduos
obtidos fazendo resíduo igual a diferença entre o observado e o estimado, tem-se valores
positivos e negativos. A pressuposição prevê que estes, na média, sejam nulos. Ainda, no
gráfico de dispersão dos retornos mensais dos ativos das Lojas Americanas (LAME4) e Lojas
Renner (LREN3), Jan/2005 a Mar/2012 (aqui denominados RLAME x RREN, Figura 2-2),
pode-se observar que existem resíduos ui positivos e negativos e que a reta de regressão
estimada como a reta de tendência passa aproximadamente no meio da nuvem de pontos.
Outra situação pode ser observada na Figura 2-3, com os resultados de uma estimação
dos retornos mensais do ativo Lojas Americanas (LAME4) contra os do ativo Lojas Renner
(LREN3) e os do índice da Bolsa de Valores e Mercadorias e Futuros de São Paulo (BMF-
BOVESPA), Jan/2005 a Mar/2012. São mostrados os resíduos (linha azul), resultado da
diferença entre os valores observados (linha vermelha) e os valores estimados (linha verde).
Econometria – Prof. Adriano M. R. Figueiredo 25
Figura 2-2. Gráfico de dispersão dos retornos mensais dos ativos das Lojas Americanas
(LAME4) e Lojas Renner (LREN3), Jan/2005 a Mar/2012.

Fonte: Elaboração do autor.

Figura 2-3. Representação dos resultados de uma estimação dos retornos mensais do
ativo Lojas Americanas (LAME4) contra os do ativo Lojas Renner (LREN3) e os do
índice da Bolsa de Valores e Mercadorias e Futuros de São Paulo(BMF-BOVESPA),
Jan/2005 a Mar/2012.
Resultados de RLAME = f(RREN, RBVSP) e resíduos

.4

.2

.0

.3
-.2
.2

.1 -.4

.0

-.1

-.2

-.3
2005 2006 2007 2008 2009 2010 2011

Residual = observado menos estimado


Actual - observado
Fitted - estimado

Fonte: Elaboração do autor.


Econometria – Prof. Adriano M. R. Figueiredo 26

2.3. Pressuposição 3: O erro aleatório tem variância


constante (presença de homocedasticidade)

A variância é calculada com base no valor esperado do quadrado da diferença entre a


média e o valor esperado da média. Ou seja, a definição estatística é
V(ei) = E [ei – E (ei)]2
V(ei) = E (ei2) = 2 (populacional) para todo i
ou seja, presença de Homocedasticidade nos resíduos. A presença da
homocedasticidade implica que a variância para todos os resíduos é a mesma.
O caso contrário será:
V(ei) = E (ei2) = i2 presença de Heterocedasticidade
O problema de heterocedasticidade é típico de dados de seção cruzada. Pode
significar, por exemplo, uma heterogeneidade da amostra. A dispersão dos valores para cada
observação é diferente entre as observações. A amostra vem de uma população onde os erros
não são homogêneos. Na Figura 2-4, observa-se que a nuvem de pontos não tem uma
dispersão constante em torno da reta estimada, o que caracteriza a variabilidade distinta ao
longo da amostra de X. A variância dos resíduos reduz com X no caso (a) e aumenta no caso
(b), caracterizando a presença de heterocedasticidade.

Figura 2-4. Representações da dispersão dos pontos em torno de uma reta estimada –
ilustração da heterocedasticidade.

Fonte: Figura 3.2 de Pindyck e Rubinfeld (2004).


Econometria – Prof. Adriano M. R. Figueiredo 27

2.4. Pressuposição 4: Os erros aleatórios são independentes


(ou não autocorrelacionados)

Neste caso pressupõe-se que os erros de uma observação não afetam os erros do
período seguinte, e assim sucessivamente.
COV(ei ,ej) = E { [ei – E(ei)] [ej – E(ej)] }
E (ei, ej) = 0, i  j
esta pressuposição é denominada “ausência de autocorrelação”. A violação desta
pressuposição é um problema típico de séries temporais.
Quando se trabalha com ajustamentos de séries temporais, essa pressuposição em geral
não é obedecida, visto que nas séries temporais como, por exemplo, as séries de preços, de
salários e de produção têm no seu comportamento o reflexo de movimentos cíclicos e/ou
sazonais. Observa-se na Figura 2-5 que existem relações entre os resíduos das observações à
medida que X aumenta – correlação negativa (caso a) e positiva (caso b).

Figura 2-5. Representações da dispersão dos pontos em torno de uma reta estimada –
ilustração da correlação serial.

Fonte: Figura 3.3 de Pindyck e Rubinfeld (2004).

Algumas causas da autocorrelação nos resíduos estão relacionadas a variáveis não


especificadas no modelo, forma funcional inadequada e inércia temporal no fenômeno.
A principal consequência da violação desta pressuposição é a ineficiência dos
estimadores de MQO, mas continuam não tendenciosos. Nesta situação, da mesma forma que
Econometria – Prof. Adriano M. R. Figueiredo 28
para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados Generalizados
(MQG).
Uma forma usual é olhar os gráficos de dispersão entre os resíduos da regressão.
Padrões geométricos podem indicar o tipo de correlação, como na Figura 2-6.

Figura 2-6. Padrões de correlação entre os distúrbios. (a) correlação serial positiva; (b)
correlação serial negativa; e (c) correlação nula.

Fonte: Adaptado da Figura 3.6 de Gujarati (2006).

2.4.1 Investigação acerca da Matriz de Variância e Covariância dos resíduos


A análise da Matriz de Variância e Covariância dos resíduos, doravante chamada de
Var-cov(εε´), permite interpretar as pressuposições de presença de homocedasticidade dos
resíduos e presença da não autocorrelação dos resíduos numa mesma matriz.
Seja o vetor de resíduos ε do tipo:
 1 
 
   2

 
 n  n x 1

Então, sua transposta será: '   1 2  n 1 x n . Assim, a matriz var-cov(εε´) será:


Econometria – Prof. Adriano M. R. Figueiredo 29

 21 1 2  1n 


 
 21  2
2
  2n 
Var  Cov     E     E  
     
n 1  n 2
  2n 
2 0  0
 
0 2  0
E     I  E 
2
   
 
 0 0  2 

Assim, ao escrever que var-cov(εε´) = 2.I, ao mesmo tempo se diz que as variâncias são
homocedásticas iguais a 2 (diagonal principal tem todos os valores iguais a 2, i=j) e que as
autocorrelações entre resíduos de observações distintas são nulas (valores nulos fora da
diagonal principal, i≠j).

2.5. Pressuposição 5: As variáveis explicativas são não


aleatórias (são fixas)
Neste caso, pressupõem-se fixos os valores da variável explicativa e observa-se o que
ocorre com a variável dependente. Se o X é aleatório, mas independente do erro, pode-se
mostrar que os parâmetros estimados serão não tendenciosos. Assim, a confirmação esta
pressuposição significa dizer que as variáveis explicativas são distribuídas independentemente
dos resíduos.
Em linguagem matemática, pode-se dizer que a covariância entre os resíduos ui e Xi é
igual a zero (𝑐𝑜𝑣(𝑢 , 𝑋 ) = 0). Formalmente,
𝑐𝑜𝑣(𝑢 , 𝑋 ) = 𝐸[𝑢 − 𝐸(𝑢 )][𝑋 − 𝐸(𝑋 )]
𝑐𝑜𝑣(𝑢 , 𝑋 ) = 𝐸 𝑢 𝑋 − 𝐸(𝑋 ) 𝑝𝑜𝑖𝑠 𝐸(𝑢 ) = 0
𝑐𝑜𝑣(𝑢 , 𝑋 ) = 𝐸(𝑢 𝑋 ) − 𝐸(𝑋 )𝐸(𝑢 ) 𝑝𝑜𝑖𝑠 𝐸(𝑋 ) é 𝑛ã𝑜 𝑒𝑠𝑡𝑜𝑐á𝑠𝑡𝑖𝑐𝑎
𝑐𝑜𝑣(𝑢 , 𝑋 ) = 𝐸(𝑢 𝑋 ) 𝑝𝑜𝑖𝑠 𝐸(𝑢 ) = 0
𝑐𝑜𝑣(𝑢 , 𝑋 ) = 0 𝑝𝑜𝑟 𝑝𝑟𝑒𝑠𝑠𝑢𝑝𝑜𝑠𝑖çã𝑜
Entretanto, se as variáveis explicativas e os termos aleatórios forem
correlacionados, haverá inconsistência dos estimadores de mínimos quadrados ordinários.
Deve-se utilizar o estimador de variáveis instrumentais. O método de Variáveis instrumentais
prevê que
β = (Z´X)-1Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.
Econometria – Prof. Adriano M. R. Figueiredo 30

2.6. Pressuposição 6: O erro tem distribuição normal, com


média zero e variância constante:

Esta pressuposição pode ser especificada da forma:

εi ∼ N (0, 2) , i = 1, 2, ..., n


As consequências associadas a não normalidade dos resíduos são parâmetros
estimados não normais e não será possível fazer os testes de hipóteses com distribuições
baseadas na normal, como os usuais testes “t” e “F” para avaliar a qualidade dos
ajustamentos, e para construir intervalos de confiança para os parâmetros conforme exposto
ao longo do curso. Em termos gráficos, pode-se plotar o histograma da série de resíduos e
comparar com a distribuição normal teórica como na Figura 2-7.
Os estimadores continuam sendo os Melhores Estimadores Lineares Não-
Tendenciosos (MELNT).

Figura 2-7. Histograma dos resíduos e a curva normal.

RESID01
10

6
Density

0
-.3 -.2 -.1 .0 .1 .2 .3

Histogram Normal

2.7. Pressuposição 7: Ausência de multicolinearidade entre


as variáveis explicativas
Econometria – Prof. Adriano M. R. Figueiredo 31
A multicolinearidade é um problema relacionado com fortes relações entre as variáveis
explicativas no modelo de regressão. Considere a matriz de variáveis explicativas como
composta por colunas das variáveis X1, X2, ... , Xn e ainda uma coluna de “1” para incluir o
intercepto.
A pressuposição prevê a não existência de qualquer relação linear entre as variáveis
explicativas X, como por exemplo,
X1 = 2.X2
X1 + 3.X2 = X5
No método de mínimos quadrados ordinários, a existência de uma relação linear entre
os X´s representa uma redução no posto da matriz (X) e o determinante de X´X será próximo
de zero. No caso de uma relação linear exata, haverá uma singularidade perfeita na matriz
X´X e seu determinante será zero. Como o método de mínimos quadrados ordinários prevê a
inversão da matriz X´X, o determinante próximo de zero fará com que os parâmetros sejam
indeterminados. A matriz (X´X)-1 não existirá e não será possível estimar o modelo. No caso
exato, o sistema interrompe e acusará erro. Em muitos casos aplicados, o que se observa são
valores de determinantes muito próximo de zeros, e muitas vezes o sistema não interrompe,
requerendo a observância das estatísticas de teste.
O problema da correlação entre as variáveis explicativas pode ser visto da seguinte
maneira:
1) ausência de correlação ou ausência de multicolinearidade: a regressão múltipla dá o
mesmo resultado que as regressões simples quando as correlações parciais entre as variáveis
explicativas forem nulas;
2) correlação perfeita ou multicolinearidade perfeita: a relação linear perfeita entre os
X´s causa a indeterminação de β = (X´X)-1X´Y pois (X´X)-1 é singular;
3) alto grau de correlação entre os X´s ou multicolinearidade imperfeita:
multicolinearidade
O enfoque é diferente das outras pressuposições: é um problema da amostra, enquanto
as outras pressuposições se referiam mais ao erro e à população, enquanto esta se refere mais
à amostra. Não se trata, portanto, de testar a pressuposição, mas sim de pensar como lidar com
o problema.

Consequências da multicolinearidade:
 Teóricas: consequências sobre as propriedades dos estimadores de M.Q.O.; a
multicolinearidade não afeta em nada as propriedades dos estimadores de M.Q.O.,
Econometria – Prof. Adriano M. R. Figueiredo 32
que continuam os melhores estimadores lineares não tendenciosos (MELNT);
conforme Gujarati e Porter (2011, p.335), haverá maior dificuldade na estimação
dos parâmetros com erros-padrões muito pequenos, mas as propriedades de
MELNT permanecem.
 Práticas:
1. aumenta as variâncias dos parâmetros estimados:
aumenta V(β) = s2(X´X)-1
(X´X)-1 = (1/|X´X|) . Adj(X´X)
como |X´X| → 0 => (X´X)-1→ ∞ e V(β) → ∞
2. aumenta erro-padrão
3. reduz “t” => induz à não significância => estarei aceitando o fato de que a
variável não é importante no modelo em virtude da multicolinearidade, mas
que na realidade a variável poderá ser importante ao corrigir o modelo
4. Estimativas muito sensíveis: tirando uma ou duas observações, as estimativas
alteram muito => é melhor ter um modelo onde as alterações não alteram
muito as estimativas, uma certa estabilidade do modelo em termos de
magnitudes e sinais

2.8. Resumo das pressuposições


Apresentadas as pressuposições, o Quadro 2.1 tem um resumo com a expressão
matemática em forma escalar e matricial, assim como o problema que se tem caso as
pressuposições sejam violadas ou não atendidas. Em geral, pode-se dizer que se testará o
modelo e, em caso de violação, se “tratará” ou corrigirá adequadamente.
Econometria – Prof. Adriano M. R. Figueiredo 33

Quadro 2.1. Pressuposições do Modelo de Regressão Linear Clássico Normal

EXPRESSÃO MATEMÁTICA* PROBLEMA


PRESSUPOSIÇÃO (o que acontece se as pressuposições não forem
Notação Escalar Notação Matricial atendidas)

Yi=β0 + β1 Xi1 + ... + βk Xik + εi Não linearidade,


1. Relação Linear Y = Xβ + ε
em que i =1, 2, 3,..., n Erro de especificação dos X´s

2 . Média do erro é zero E(εi) = 0 para todo i E(ε) = 0, onde ε e 0 são vetores nX1 Erro de especificação

3. Variância do erro é constante E(εi²) = δ², para todo i Heterocedasticidade


E(εε´) = δ² I
4. Erros independentes E(εiεj) = 0, i ≠ j Autocorrelação

X1, X2, ..., Xk são fixos Erros nas variáveis,


5. Variáveis explicativas são não A matriz X é não estocástica
Cov(Xij, εi) = 0 Variável dependente defasada, Relações
estocásticas ou fixas Cov(X, ε) = 0
p/ j= 1, 2, 3, ..., n simultâneas

Posto de X igual ao seu número de


6. Independência linear entre as
Ausência de relação linear entre os X´s colunas, isto é, Multicolinearidade
variáveis explicativas
ρ(X) = p < n
εi ~ N (0, δ²)
7. Erro tem distribuição normal ε ~ N (0, δ²I) Erros não normais
i = 1, 2, 3, ..., n
* Em que Y = [Yi] é um vetor (n x 1) das observações da variável dependente; X = [Xij] é uma matriz (n x p) das observações das variáveis independentes; ε = [εi] é um vetor
(nx1) dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor (p x 1) de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz
identidade de ordem (m x n); k é o número de variáveis independentes; p = (K + 1) é o número de parâmetros; n é o número de observações; E significa valor esperado ou
esperança matemática.

Fonte: elaboração própria.


Econometria – Prof. Adriano M. R. Figueiredo 34

3. Estimação

A estimação dos parâmetros do modelo linear pressupõe a satisfação aos pressupostos


básicos anteriormente mencionados. O princípio que norteia os cálculos é “obter valores de
parâmetros que minimizem a Soma do Quadrado dos Resíduos - SQRes”, ou comumente
chamado de Mínimos Quadrados Ordinários - MQO.
Ou seja, para o modelo Y  X    a estimação requer a minimização conforme a
seguir:
FORMA ALGÉBRICA:

Min  SQRes    i2    Yi   0  1 X 1i   2 X 2i  ...   k X ki 


2

FORMA MATRICIAL: Min  SQRes   '  

O problema matemático é de otimizar, ou seja, minimizar um produto de um vetor


linha por um vetor coluna. Portanto, deriva-se e iguala a zero obtendo a solução para o vetor
de parâmetros. Segue abaixo:

 
ˆ  Y  X
'   Y  X  ˆ 
ˆ 
'   Y Y  Y X  ˆ X Y  
ˆ X X 
ˆ
( '  ) ˆ 0
 2 X Y  2 X X 
ˆ Sistema de equações normais dos
ˆ  X Y mínimos quadrados
X X 
ˆ   X X 1 X Y

Válida para não multicolinearidade de X

Portanto, o estimador dos parâmetros pelo método de Mínimos Quadrados Ordinários


(MQO) é:

(k+1 x 1)   X X 
1
ˆ
  X Y

Assim, com as matrizes X e Y posso obter os parâmetros estimados. O estimador da


variância dos resíduos será s2, para os (n-p) Graus de Liberdade (simbolizado por GL igual ao
número de observações, n, menos o número de parâmetros, p):
Econometria – Prof. Adriano M. R. Figueiredo 35
ee SQRes SQRes
s2   
n p n p G.L.
A matriz de variância-covariância dos parâmetros será:

Var  Cov(  ˆ ) E ˆ ˆ   
  

mas
ˆ   X X 1 X Y

ˆ   X X 1 X   X       X X 1 X X    X X  1 X 

ˆ  I .   X X 1 X 

ˆ     X X 1 X 


Var  Cov(  

 
ˆ )  E   X X 1 X   X X 1 X  



ˆ )  E  X X  X X  X X  
Var  Cov( 
1 1

 

Mas como X são fixas, independentes dos resíduos, o valor esperado se reduz a:
ˆ )   X X 1 X E   X  X X 1
Var  Cov( 
ˆ )   X X 1 X  2 IX  X X 1
Var  Cov( 

Ou seja,
ˆ )  2  X X 1 X X  X X 1
Var  Cov( 
ˆ )  2 I  X X 1
Var  Cov( 
ˆ )  2  X X 1
Var  Cov( 
ou
ˆ )  s 2  X X 1
Var  Cov( 

Desta forma, têm-se as equações essenciais para a estimação. Segue o Quadro 3.1 com
um resumo dos estimadores de MQO.
Econometria – Prof. Adriano M. R. Figueiredo 36
Quadro 3.1. Estimadores de Mínimos Quadrados Ordinários.

Estimador da
variância-
Estimadores dos covariância dos
parâmetros ˆ   X X 1 X Y
 resíduos
ee SQRes SQRes
s2   
n p n p G.L.
ˆ )  s 2  X X 1
Var  Cov(  Estimador da
variância-
covariância dos
parâmetros

Fonte: elaboração própria.

O valor dos erros padrões dos parâmetros será obtido a partir da raiz da variância dos
parâmetros, ou seja, tirando-se a raiz da diagonal principal da var-cov(β).
Os parâmetros devem ter análise de significância, por meio de um teste de hipótese do
tipo t:
H0 :  j  0
H1 :  j  0 ( bilateral )
ˆ
 j
tcalculado  ~ tn  p
sˆ G.L.
j

O teste t bicaudal prevê a área de rejeição de H0 para valores em módulo maiores que
tc = tn-p para o nível de significância escolhido, que geralmente é 1%, 5% ou 10% (Figura 3-1).

Figura 3-1. Ilustração da área de rejeição do teste de hipótese bicaudal da distribuição t-


Student.

Fonte: elaboração própria.


Econometria – Prof. Adriano M. R. Figueiredo 37
Na Figura 3-2, tem-se as áreas para a distribuição de t para um exemplo genérico com
20 graus de liberdade e três graus de confiança: 90% (área vermelha), 95%(área vermelha
mais azul), e 99% (áreas vermelha mais azul mais verde).
As áreas coloridas são de não-rejeição de H0: β = 0, ou seja, nos bordos se têm as
áreas de rejeição e no centro as áreas de não-rejeição. O que os softwares reportam são as os
valores das probabilidades para valores maiores que os limites críticos, ou seja, os softwares
como R, Stata e Eviews reportam os valores das probabilidades de +infinito (+∞) ou –infinito
(-∞) até os limites das áreas pintadas. Os limites para 90% (área vermelha), 95%(área
vermelha mais azul), e 99% (áreas vermelha mais azul mais verde), para por exemplo, 20
graus de liberdade serão, respectivamente:  1,724718;  2,085963;  2,845340.

Figura 3-2. Áreas para a distribuição de t para um exemplo genérico com 20 graus de
liberdade e três graus de confiança: 90%, 95% e 99%.

99%
95%
90%

Para maiores graus de liberdade, a distribuição de t converge para a distribuição


normal, como pode ser observado na Figura 3-3. A distribuição teórica para df=30 já é
praticamente sobreposta à normal. Por esse motivo muitos livros falam de ter mais de 30
observações para uma regressão confiável, mas isto dependerá do número de parâmetros a
estimar.
Econometria – Prof. Adriano M. R. Figueiredo 38
Figura 3-3. Comparação de distribuições t-Student com a normal, em diferentes graus
de liberdade (df).

Fonte: elaboração própria a partir do script do Quadro 3.2.

Quadro 3.2. Script em R para reproduzir a Figura 3-2.

x <- seq(-4, 4, length=100)


hx <- dnorm(x)
degf <- c(1, 3, 8, 30)
colors <- c("red", "blue", "darkgreen", "gold", "black")
labels <- c("df=1", "df=3", "df=8", "df=30", "normal")
plot(x, hx, type="l", lty=2, xlab="valor da estatística",
ylab="Densidade", main="Comparação de Distribuições t")
for (i in 1:4){
lines(x, dt(x,degf[i]), lwd=2, col=colors[i])
}

legend("topright", inset=.05, title="Distribuições",


labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors)
Fonte: elaboração própria.

Os softwares econométricos em geral disponibilizam o valor da probabilidade (p-


value) associado ao valor de t calculado. Desta forma, pode-se comparar com níveis
predeterminados de significância para rejeitar ou não a hipótese nula. Em geral, costuma-se
observar os valores das probabilidades comparando a 10%, 5% ou 1% para concluir a respeito
da hipótese nula. Espera-se, para que a variável X tenha efeito não nulo sobre Y, que se rejeite
Econometria – Prof. Adriano M. R. Figueiredo 39
a hipótese nula e que assim, os valores calculados dos parâmetros permitam uma interpretação
econômica deste efeito.
Para auxiliar o entendimento, é possível decompor a variação de Y como na Figura
3-4.

Figura 3-4. Decomposição da variação de Y em função de X.

Y
𝑦
𝑌 = 𝛽 +𝛽 𝑋 (reta estimada)
𝑌 𝑒̂
𝑌 𝑌 −𝑌
𝑌

X
𝑦 =𝑌 −𝑌
𝑦 = 𝑌 + 𝑒̂ − 𝑌
A variação total (𝑦 ) será a variação explicada por X (𝑦 ) [em que 𝑦 = 𝑌 − 𝑌 é a
variação devida à regressão] mais a variação não explicada (decorrente do resíduo), de modo
que 𝑦 = (𝑦 + 𝑒̂ ). Assim,

SQTot=SQReg + SQRes
em que SQTot é a soma dos quadrados totais (relativa à variação total, 𝑦 ), SQRes é a soma
do quadrado dos resíduos (relativa à variação não explicada) e SQReg é a soma dos quadrados
da regressão (relativa à variação explicada por X). Portanto,
𝑦 = (𝑦 + 𝑒̂ )

SQTot   yi2   ˆyi2  2 ˆyi eˆ i   eˆ i2   Yi  Y   Y Y  nY 2


2

SQRes   êi2  e' e  Y Y  


ˆ X Y

 
2
SQReg   ŷi2  Yˆi  Y  Yˆ Yˆ  nY 2

SQTot  SQReg + SQRes


Econometria – Prof. Adriano M. R. Figueiredo 40
O coeficiente de determinação (R2 = R-squared ou R quadrado) é utilizado para avaliar
quanto da variação total é explicada. Define-se como:
𝑅 = = 1−

Seu intervalo de variação é de zero a um em condições normais: 0 < R2 < 1.


Se SQRes=SQT então R2=0.
Se SQRes ≈ 0 então R2=1.
Ou seja, mede quanto da variação de Y está sendo explicada por variações de X, ou
seja, mede a qualidade do ajustamento. Procura-se estimar um modelo com o maior R2
possível. Em geral, acredita-se ter um modelo bem ajustado para valores maiores que 0,8, mas
sempre se deve ter cautela quanto a esses indicadores usualmente aceitos.
Na forma matricial, o cálculo será;
ˆ X Y  nY 2
 ˆ X Y
Y Y  
R2   1
Y Y  nY 2
Y Y  nY 2
Outro indicador útil, principalmente para comparações entre modelos é o R2 ajustado
(adjusted R-squared). Ele recebe este nome, pois se faz um ajustamento de SQRes e de SQTot
quanto aos graus de liberdade da respectiva variação. Assim, tem-se:

SQRes

R2  1
 n-p 
SQTot
 n-1
Em geral, quanto maior o número de variáveis X, maior é o valor de R2, mas para o R2
ajustado esta regra não vale. Justamente para evitar a inclusão equivocada de variáveis
explicativas é que se usa o R2 ajustado. Assim, a inclusão de uma variável irrelevante poderá
elevar o valor de R2, mas não necessariamente elevará o valor de R2 ajustado.
2
Se n for grande e p pequeno em relação a n, a diferença entre R (R quadrado
ajustado) e R² será pequena. Se n for pequeno e p grande em relação a n, a diferença entre
ambos pode ser grande e o valor ajustado será mais importante.
Outro indicador é o Teste F da regressão (F-statistic). Procura-se saber se o modelo
tem suporte estatístico. É o Teste de significância global da regressão: os X’s em conjunto
explicam Y de forma significativa. A hipótese nula é de que todos os parâmetros em conjunto
são nulos. A Hipótese alternativa prevê pelo menos um parâmetro não nulo.
H 0 : 1  0,2  0,...,k  0
H1 : pelo menos um i  0
Econometria – Prof. Adriano M. R. Figueiredo 41
Define-se a estatística de teste F como:
SQReg
p-1
F ~ Fp 1,n  p
SQRes G .L.
n-p
Se Fcalculado > Ftabelado , então rejeita-se H0 e concluo pela existência de ao menos um X
explicando Y. Deseja-se um P-value (F de significação) menor que 10%, 5% ou 1%,
similarmente ao teste de t dos parâmetros.
O teste F muitas vezes é usado para outras hipóteses como para testar a especificação
do modelo, ou a omissão de variáveis. Estes testes alternativos serão apresentados na seção de
teste da especificação do modelo.
Esses indicadores em geral são obtidos em todos os softwares econométricos ou
estatísticos. Podem-se mencionar alguns: R/RStudio, Excel, Eviews, Stata, Gretl, SAS, SPSS,
Gauss, e MatLab.
Alguns sites podem auxiliar ao leitor:
https://cran.r-project.org/web/views/Econometrics.html
http://www.oswego.edu/~economic/econsoftware.htm
http://www.economics.ltsn.ac.uk/software/econometrics.htm
http://emlab.berkeley.edu/eml/index.shtml
O anexo apresenta rotinas para execução dos cálculos usando matrizes no Excel. Um
software bastante interessante, plataforma livre e com versão em português é o Gretl, no link:
<http://gretl.sourceforge.net/gretl_portugues.html>. Neste material, trabalham-se exemplos
com RStudio, Eviews e Stata.

3.1. Propriedades dos estimadores de MQO

Os estimadores do MQO são os Melhores Estimadores Lineares Não-Tendenciosos


(MELNT), ou no inglês, BLUE (Best Linear Unbiased Estimator). Como os estimadores do
modelo do Quadro 3.1 são obtidos a partir de uma amostra aleatória, os estimadores dos
parâmetros ( ̂ ), da variância-covariância dos resíduos (s²) e dos parâmetros ( Var  Cov(  ) )
terão distribuições de probabilidade associadas, e seus valores normalmente se alteram
conforme o tamanho da amostra, ou seja, com o número de observações.

Tendenciosidade
Econometria – Prof. Adriano M. R. Figueiredo 42
Uma propriedade desejável é a da não-tendenciosidade, ou seja, os valores esperados
ˆ   X X 1 X Y são iguais ao verdadeiro
dos parâmetros estimados por meio da expressão 

valor de  . Ou seja, para cada i , o valor esperado do estimador  


E ˆi  i .

Intuitivamente, ao coletar várias amostras para um fenômeno, e ao calcular os parâmetros pela


ˆ   X X  X Y ), então o valor médio das estimativas das várias
expressão de MQO ( 
1

amostras será  , para um modelo estatisticamente correto, ou que suas pressuposições


clássicas sejam válidas. De outro modo, se não convergir para  , então a estimativa obtida

por ̂ pelo MQO será dita tendenciosa ou viesada (Figura 3-5).


O viés de um estimador será exatamente a medida da diferença entre o valor esperado
e seu valor observado. Ou seja, para uma variável Y, o viés será a diferença entre o valor
estimado de Y e o próprio Y (ou o Y observado). Portanto, viés  E Y   Y  Yˆ  Y .

Figura 3-5. Estimadores: com tendenciosidade ( ˆMQ 2 ) e sem tendenciosidade ( ˆMQO ).

f  

fdp de  MQO
fdp de  MQ 2

ˆMQO  E    E   MQ 2  

Fonte: Adaptado de Wooldridge (2016).

Consistência
Econometria – Prof. Adriano M. R. Figueiredo 43
Embora tenha sido falado sobre estimadores não-tendenciosos, há casos em séries
temporais, nos quais o estimador de MQO não é não-tendencioso. Neste caso, em geral os
pesquisadores costumam observar a propriedade da Consistência dos estimadores, dentro do
espectro chamado de propriedades assintóticas dos estimadores, ou propriedades dos
estimadores para grandes amostras, ou quando n tender ao infinito (n = número de
observações). Faz-se uma explicação intuitiva ao leitor. Demonstrações formais podem ser
obtidas, entre outros lugares, no Apêndice C de Wooldridge (2016). Se aumentar o tamanho
da amostra e o estimador ̂ convergir para o valor verdadeiro, então se tem matematicamente

que ̂ é o limite de probabilidade de  , ou seja, plim( ˆ )   . A distribuição de ̂ está


cada vez mais concentrada em torno de seu valor verdadeiro  . Ou seja, para grandes
amostras, a estimativa está ficando cada vez mais próxima do valor verdadeiro (Figura 3-6).

Figura 3-6. Consistência: Distribuições amostrais do parâmetro para tamanhos de


amostras diferentes.

 
f ˆ
n  1000

n  100

n  10

 ̂
Fonte: Adaptado de Wooldridge (2016).

Eficiência

Entre os estimadores da classe dos estimadores lineares não tendenciosos, o de MQO


tem a menor variância, e a isto se deve a ideia de melhor estimador. Espera-se que quanto
Econometria – Prof. Adriano M. R. Figueiredo 44
maior a amostra, tendendo ao infinito, os estimadores de MQO tenderão aos valores
verdadeiros, aos que se teria para a população, não tendenciosos, de variância mínima. Esta
ideia está explicada pelo Teorema de Gauss-Markov: Em um modelo estatisticamente correto,
ou seja, cujas pressuposições clássicas sejam válidas, os estimadores de Mínimos Quadrados
são os melhores, os de variância mínima, quando comparados a outros estimadores lineares
não-tendenciosos. Este Teorema independe da satisfação ao pressuposto da normalidade dos
resíduos. Será mostrado nos capítulos de violação dos pressupostos clássicos que as variâncias
estimadas, na presença daqueles problemas de violação, não serão as mínimas.

Se tiver para a distribuição de  2 , dois estimadores ̂ 2 e ̂ 2* , o estimador eficiente


será o de menor variância. Por exemplo, sejam duas distribuições de  2 : a distribuição da

Figura 3-7 (a) para ̂ 2 ; e a distribuição da Figura 3-7 (b) para ̂ 2* . A distribuição de variância
mínima será a de ̂ 2 , a mais concentrada em torno da média E ( ˆ2 )   2 . Portanto, ̂ 2
será dito o estimador eficiente de  2 , posto que Var ( ˆ2 )  Var ( ˆ2* ) . No caso de estimadores
em que algum deles é viesado, uma forma de comparar é olhando o erro quadrático médio
(EQM), pois este pode ser demonstrado como a soma da variância com o quadrado do viés. O
EQM medirá o quanto o estimador está longe de seu valor esperado.

Figura 3-7. Exemplificação do melhor estimador não-tendencioso dos parâmetros.

   
f ˆ2 , f ˆ2*

fdp de  2

fdp de  2*

   
E ˆ2   2  E ˆ2* ˆ2 , ˆ2*
Fonte: Adaptado de Wooldridge (2016) e Gujarati (2011, p.92).
Econometria – Prof. Adriano M. R. Figueiredo 45

Anexo 1: Estimação utilizando matrizes no Excel:

1. Entrada dos dados:


a. Digitar matriz de dados X e Y no Excel
i. Gujarati (2006: p.71) X(10x2) e Y(10x1)

Tabela 3-1. Despesas familiares de consumo semanal Y e renda familiar semanal X –


dados hipotéticos.
X
Y
obs
(consumo) X0 X1
(intercepto) (renda)
1 70 1 80
2 65 1 100
3 90 1 120
4 95 1 140
5 110 1 160
6 115 1 180
7 120 1 200
8 140 1 220
9 155 1 240
10 150 1 260
Fonte: Gujarati (2006: p.71).

2. Copiar X e colar especial selecionando transpor, fazendo X’ (2x10)

3. Fazer multiplicação X’.X (2x10).(10x2) = X’X(2x2)


a. Seleciona a área de saída (2x2)
b. Inserir fórmula matemática Matriz.mult
i. Matriz 1 = X’
ii. Matriz 2 = X
c. Teclar OK
d. Teclar F2
e. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz X’X (2x2)

4. Fazer inversa de X’X fazendo (X’X)-1


a. Selecionar área de saída (2x2)
b. Inserir fórmula matemática Matriz.inverso
c. Matriz = X’X
d. Teclar OK
e. Teclar F2
f. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz (X’X)-1 (2x2)

5. Fazer X’Y (2x10).(10x1) = X’Y(2x1)


a. Selecionar área de saída (2x1)
b. Inserir fórmula Matriz.mult
i. Matriz 1 = X’
ii. Matriz 2 = Y
Econometria – Prof. Adriano M. R. Figueiredo 46
c. Teclar OK
d. Teclar F2
e. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz (X’Y) (2x1)

6. Cálculo de beta estimado


a. Betaest = (X’X)-1(2x2) (X’Y)(2x1) = (X’X)-1(X’Y)(2x1)
i. Selecionar saída 2x1
ii. Inserir fórmula Matriz.mult
1. matriz 1 = (X’X)-1
2. matriz 2 = (X’Y)
b. Teclar OK
c. Teclar F2
d. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz (betaest) (2x1)

7. Para obter Matriz de var-cov(betaest) fazer


a. û'û = Y’Y – betaest’. X’Y
i. Calcular Y’Y pela função Matriz.mult
ii. Calcular betaest’. X’Y pela função Matriz.mult
1. matriz 1 = betaest’
2. matriz 2 = X’Y
iii. Fazer diferença i – ii
b. Calcular sigma quadrado: s2 = û’û/(n-k)
i. n-k = graus de liberdade
c. Calcular var-cov(betaest) = s2.(X’X)-1 (2x2)
i. Fazer multiplicação de escalar por cada elemento de (X’X)-1

8. Fazer a raiz quadrada dos elementos da diagonal, obtendo os erros padrões dos
parâmetros estimados: utilizar a função RAIZ(·) do Excel.

9. Calcular o valor de t fazendo tβ = betaest/erropbeta . O valor da probabilidade do teste


pode ser obtido pela função estatística do Excel, fazendo DISTT(tβ;n-p;2) que
retornará o valor da probabilidade para P(t> tβ) para o valor tβ, para n-p graus de
liberdade e 2 caudas (bicaudal).

10. Calcular R2
a. R2 = SQE/SQT = (betaest.X’Y – n. Y 2)/(Y’Y - n. Y 2)
i. Y = média de Y
SQE SQ Re s
p 1 np
b. R 2   1
SQT SQT
n 1 n 1
SQE
p 1
c. F  ~ Fp 1,n  p ( GL )
SQ Re s
np

11. No Stata
Econometria – Prof. Adriano M. R. Figueiredo 47
. regress y x

Source | SS df MS Number of obs = 10


-------------+----------------------------- F( 1, 8) = 202.87
Model | 8552.72727 1 8552.72727 Prob > F = 0.0000
Residual | 337.272727 8 42.1590909 R-squared = 0.9621
-------------+----------------------------- Adj R-squared = 0.9573
Total | 8890 9 987.777778 Root MSE = 6.493

------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------
x | .5090909 .0357428 14.24 0.000 .4266678 .591514
_cons | 24.45455 6.413817 3.81 0.005 9.664256 39.24483
------------------------------------------------------------------------------

Anexo 2: Estimação utilizando matrizes no R/RStudio3:


1. Cria o projeto onde está o arquivo “exercicio_matrizes.xlsx”
2. Lê o arquivo no “import data/import Excel data” do RStudio e attach para ele entender
os rotulos das variáveis
3. Segue script em R o qual deve ter adaptações conforme o local do arquivo:
#exercicio para os dados da apostila, conforme Gujarati (2006, p.71)
#Despesas familiares de consumo semanal Y e renda familiar semanal X – dados hipotéticos.
#chamando os dados de exercicio_matrizes.xlsx
library(readxl)
exercicio_matrizes <- read_excel("~/disciplinas/econometria/material de
aula/exercicio_matrizes.xlsx",
sheet = "dados_R")
View(exercicio_matrizes)
attach(exercicio_matrizes)

#Para criar a matriz X


#coluna 1 com valores unitários e x1
X<-cbind(1,x)
#Para transformar a variavel (y) em vetor se utiliza o mesmo codigo:
y1<-cbind(y)
#Para estimar o vetor (X'X) da equacao, primeiro se obtem o parametro pelo seguintes passos:
#1) transposta de X:
trX<-(t(X))
#2) Produto da transposta de X por X, com o codigo %*%:
X_X<-trX %*% X
X_X
#Para obter a inversa (X'X)-1 se deve primeiro ativar o pacote library(MASS), e usar ginv():
det(X_X)
library(MASS)
invX_X<-(ginv(X_X))
invX_X
#Uma vez que se tem a inversa (X'X)-1 , se procede o produto X'y:
Xy<-trX %*% y1

3
Este script foi adaptado a partir de HEISS (2016, capítulos 3 e 4).
Econometria – Prof. Adriano M. R. Figueiredo 48
Xy
#Para calcular o vetor beta:
beta<-invX_X %*% Xy
beta
#agora calculamos os desvios-padrões
# obtencao de sigma quadrado estimado
yly<-t(y)%*%y
blXy<-t(beta)%*%Xy
ulu<-yly - blXy
ulu
uhat<-y-X%*%(beta)
uhat
#sigma quadrado para gl=n-p=8
n<-nrow(exercicio_matrizes)
k<-ncol(X)
sigsqhat<-as.numeric(ulu/(n-k))
sigsqhat
varcovbeta<-sigsqhat*invX_X
varcovbeta
#obtendo a raiz da variancia da diagonal de varcovbeta
sebeta<-sqrt(diag(varcovbeta))
sebeta
#estatistica t dos parametros
beta
tbeta<-beta/sebeta
tbeta
#obtendo a probabilidade de tbeta para 5% e df=n-k
pvalue<-2*pt(-abs(tbeta),n-k)
pvalue
#obtendo R2 e R2 ajustado
sqtot<-yly-n*mean(y1)^2
sqtot
sqres<-ulu
sqres
sqreg<-sqtot-sqres
sqreg
r2<-sqreg/sqtot
r2
r2aj<-1-(sqres/(n-k))/(sqtot/(n-1))
r2aj
F<-(sqreg/(k-1))/(sqres/(n-k))
F
probF<-1-pf(F,k-1,n-k)
probF
#fim

Anexo 3: Exercícios:

1. De acordo com a metodologia econométrica, responda verdadeiro (V) ou falso (F):


Econometria – Prof. Adriano M. R. Figueiredo 49
( ) A heterocedasticidade é um problema no modelo de regressão clássico pois altera os erros-
padrões dos parâmetros.
( ) A expressão    X ' X  X ' Y permite o cálculo dos parâmetros por MQO.
ˆ 1

( ) A existência de resíduos autocorrelacionados implica em interdependência entre os mesmos.


( ) A aceitação da hipótese nula do teste t-Student dos parâmetros implica na existência de efeitos da
variável X sobre Y no modelo Y = f(X) + ε
( ) É sempre desejável acrescentar variáveis ao modelo de regressão até o limite de dez regressores.
( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,
ˆ   X ' X 1 X ' Y pode ser utilizada para um modelo logaritmizado linear.
( ) A pressuposição de não-autocorrelação dos resíduos implica em covariâncias nulas entre os
mesmos.
( ) A estimação realizada pela Ferramenta de Análise de Dados de Regressão no Excel fornece os
mesmos parâmetros estimados que em    X ' X  X ' Y .
ˆ 1

( ) A idéia básica da estimação econométrica é obter os parâmetros de tal forma que a soma dos erros
seja, na média, nula, e a soma de seus quadrados seja mínima.
( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,
ˆ   X ' X 1 X ' Y refere-se a um modelo linearizado qualquer.
( ) A heterocedasticidade dos resíduos implica em variâncias constantes dos resíduos ao longo da
amostra.
( ) A estimação realizada pelas operações matriciais no Excel fornecem os mesmos parâmetros
estimados que a Ferramenta de Análise de Dados de Regressão do referido software.
( ) A especificação do modelo não precisa ser feita antes da estimação, pois as vezes será necessário
excluir alguma variável do modelo.
( ) A fase de estimação do modelo consiste em determinar os parâmetros da equação estimada.
( ) Todo modelo estimado pode ser utilizado para fazer previsões da variável explicada.
( ) A econometria pode favorecer todas as áreas da economia, pois sempre é possível explicar tudo
que se quer com a econometria.
( ) O modelo de regressão linear simples é um caso específico do modelo de regressão linear
múltiplo, podendo estimar os parâmetros matricialmente nos dois casos.

2. Cite e comente a pressuposição de linearidade do modelo de regressão clássico.

3. O método de estimação de Mínimos Quadrados Ordinários é um dos mais utilizados para estimar
parâmetros econométricos. Explique o que significa e o raciocínio por trás desse método.

4. Cite e comente a pressuposição de presença de homocedasticidade dos resíduos do modelo de


regressão clássico.

5. Suponha que se tem dados municipais para o modelo lnQi = βo + β1.lnJUROSi1 + β2.lnRDi2
+ εi, em que Q é a quantidade demandada de moeda no município i, em milhares de reais; JUROS é a
taxa de juros interbancária (CDI) em valores nominais; RD é a renda disponível per capita em reais;
β’s são parâmetros do modelo e ε é o erro aleatório tal que ε ~ N(0,s2). Pergunta-se:
a) Como você faria para obter os valores dos β’s num ambiente computacional do Microsoft Excel?
Quais os passos necessários para execução da estimação?
b) É possível fazer por meio matricial? Quais os passos necessários para execução da estimação?

6. Seja um exemplo da versão modificada da Curva de Phillips macroeconômica, relacionando o


índice de salários como variável dependente (W) como função dos preços (IGP), da taxa de
desemprego (U) e do produto nacional bruto (PNB) como variáveis independentes. O modelo será do
tipo: Wt  0  1IGPt  2 PNBt  3 U t   t . Interprete os resultados abaixo e avalie
comparativamente os dois resultados. Fonte: dados mensais de W, U e IGP-DI, coletados no
Econometria – Prof. Adriano M. R. Figueiredo 50
www.ipeadata.gov.br e realizaram-se médias anuais. O PIB per capita anual foi obtido diretamente do
mesmo site.

Variável Dependente: LOG(W)


Método: Mínimos Quadrados
Data: 22/03/06 Horário: 11:05
Amostra: 1980 2004
Observações incluídas: 25
Variável Coeficiente Erro padrão Estatística-t Prob.
C -17.74151 3.737840 -4.746459 0.0001
LOG(IGP) -0.020270 0.002273 -8.918010 0.0000
LOG(PIB) 2.450833 0.407685 6.011589 0.0000
LOG(U) 0.425183 0.068249 6.229885 0.0000
R-quadrado 0.818600 Média da Var. Dep. 5.414171
R-quadrado ajustado 0.792686 Desv. Pad. Da var. dep. 0.181513
Erro pad. da regressão 0.082646 Crit. Inf. Akaike -2.002847
Soma dos quadrados 0.143439 Critério Schwarz -1.807827
dos resíduos
Log Verossimilhança 29.03559 Estatística F 31.58878
Est. Durbin-Watson 1.724283 Prob(F) 0.000000

Variável Dependente: W
Método: Mínimos Quadrados
Data: 22/03/06 Horário: 11:10
Amostra: 1980 2004
Observações incluídas: 25
Variável Coeficiente Erro padrão Estatística-t Prob.
C -290.8117 327.1702 -0.888870 0.3841
IGP -0.326847 0.193898 -1.685664 0.1067
PIB 0.046182 0.034176 1.351321 0.1910
U 21.07782 8.048040 2.619000 0.0160
R-quadrado 0.255609 Média da Var. Dep. 228.0943
R-quadrado ajustado 0.149268 Desv. Pad. Da var. dep. 40.64528
Erro pad. da regressão 37.48923 Crit. Inf. Akaike 10.23163
Soma dos quadrados 29514.30 Critério Schwarz 10.42665
dos resíduos
Log Verossimilhança -123.8954 Estatística F 2.403666
Est. Durbin-Watson 0.607152 Prob(F) 0.096187
7. Seja um exemplo do PIB Real (REALGDP) como função do Consumo Real (REALCONS),
Investimento Real (REALINVS), Gastos Reais do Governo (REALGOVT), e Transações Líquidas
Reais com o Exterior (REALINT), OBS é a variável de tendência. Encontre o R2, R2 ajustado, os
coeficientes, erros-padrões e valores de t para completar os resultados e analise-os a seguir:

Dependent Variable: REALGDP


Method: Least Squares
Date: 03/09/06 Time: 08:29
Sample: 1950:1 2000:4
Included observations: 204
Variable Coefficient Std. Error t-Statistic Prob.
REALCONS 1.123936 44.48754 0.0000
REALINVS 0.516396 0.044046 11.72401 0.0000
REALGOVT 0.538837 0.056164 9.594029 0.0000
REALINT 1.089732 -1.558385 0.1207
OBS 1.928942 0.370999 0.0000
Econometria – Prof. Adriano M. R. Figueiredo 51
C 121.9011 24.04763 5.069154 0.0000
R-squared Mean dependent var 4562.646
Adjusted R-squared S.D. dependent var 2113.962
S.E. of regression 40.65281 Akaike info criterion 10.27698
Sum squared resid 327224.9 Schwarz criterion 10.37458
Log likelihood -1042.252 F-statistic 109744.5
Durbin-Watson stat 0.246057 Prob(F-statistic) 0.000000
Econometria – Prof. Adriano M. R. Figueiredo 52

4. Violações nas Pressuposições Clássicas do Modelo de


Regressão Linear

O modelo clássico de análise de regressão é construído com base numa série de


pressuposições referentes ao comportamento da população. Estas pressuposições foram
descritas nas seções anteriores e aqui se discute principalmente a forma de testar a hipótese e
a operacionalização da solução.

4.1. Pressuposição 1: Especificação do modelo

A pressuposição pode ser escrita como: A relação entre Y e X é linear e o modelo está
bem especificado. Conforme exposto anteriormente, a pressuposição em análise implica que
os modelo tem uma forma funcional linear ou linearizada nas variáveis e nos coeficientes, e
ainda, que não existem problemas de omissão de variável relevante (o que geraria um viés nas
estimativas). Portanto, a preocupação é saber se existe violação do pressuposto, ou seja, se o
modelo está mal especificado, o que requereria alteração na especificação. A identificação do
problema é normalmente feita por testes do tipo proposto por Ramsey (1969)4.

4.1.1. Detecção do problema: o teste RESET de Ramsey

Entre outros testes, o teste RESET de Ramsey é um dos mais aplicados na literatura. O
nome vem do pesquisador Ramsey para o ‘Regression Specification Error Test’ ou ‘Teste de
Erro de Especificação da Regressão’.
O teste é baseado na regressão aumentada
Y = Xβ + Zα + ε ,
em que X são as variáveis explicativas e Z são variáveis dependentes estimadas e elevadas a
uma potência, Z = [ Yest2 Yest3 Yest4], (neste exemplo, para três fitted terms, três termos
acrescentados na regressão aumentada, em que Yest é a variável Y prevista pelo modelo
estimado originalmente: Y = Xβ + ε).

4
RAMSEY, J. B. Tests for Specification Errors in Classical Linear Least Squares Regression Analysis. Journal
of the Royal Statistical Society, Series B, v.31. 1969. pp.350–371.
Econometria – Prof. Adriano M. R. Figueiredo 53
A ideia é olhar a significância dos α para ver se os termos acrescentados são relevantes
no modelo, indicando erro de especificação.
Procedimento do teste:
1) estima-se Y = Xβ + ε
2) obtém-se os valores previstos de Y e gera-se Yest2 Yest3 ou mais se
desejar. Recomenda-se no máximo até 3 termos, ou seja, até Yest4.
3) Ajusta-se a regressão aumentada, colocando-se os X e as variáveis do
item 2 : Y = f ( X, Yest2, Yest3 )
4) Com as regressões de 1 e de 3, observam-se os valores de R2 novo (de
3) e R2 velho (de 1) e calcula-se a estatística de teste:
5) Estatística de Teste;

2
Rnovo  Rvelho
2

número de novos regressores(m)


F
1  Rnovo
2

n  número parametros no novo mod elo (p) ,


em que F ~ Fm, n-p ; m é o número de novos regressores (potências
incluídas);
n-p é o número de observações menos o número de parâmetros no novo
modelo.

6) Comparar o F do item 5 com o F da tabela teórica de distribuição de F5,


para o nível de significância, numerador m e denominador n-p. Como a
hipótese nula é de que não há erro de especificação, espera-se que a
hipótese nula não seja rejeitada, ou seja, que F seja muito pequeno e
sua respectiva probabilidade seja elevada.
O teste RESET indica apenas se o modelo está especificado incorretamente, mas não
diz qual seria a solução. A solução para um problema seria incluir outras variáveis relevantes
no modelo (variáveis novas ou as X nas potências), retirar as irrelevantes, ou mudar a forma
funcional (por exemplo, alterando para logs, CES, Translog ou outra). Portanto, o bom senso
indica que é melhor incluir variáveis do que excluir, pois a exclusão pode causar viés,
enquanto a inclusão tende a melhorar o modelo, a não ser pela possibilidade de não-
significância dos parâmetros.

5
Praticamente todos os livros de estatística trazem as tabelas teóricas de distribuição de probabilidade para
diferentes tipos de distribuição.
Econometria – Prof. Adriano M. R. Figueiredo 54

4.1.1.1. Implementação no R:

No software R, o teste RESET pode ser feito manualmente, por meio de ajustamento
da regressão, obtenção dos valores ‘ajustados’ ou ‘estimados’ e estimação da regressão de
teste como nos procedimentos 1 a 6 mencionados na página anterior desta seção. Outra forma
é usar o comando resettest da library lmtest. Serão mostrados no script os dois
procedimentos.
Portanto, os passos seriam, usando o arquivo ‘soja_apostila.xlsx’, que contém os
dados do valor de produção de soja, sabendo que a variável dependente Qsoja é a quantidade
produzida de soja, a variável FERTILIZANTE é a quantidade utilizada de fertilizantes, a
variável TRATOR é o número de horas-máquina utilizadas, e MO é a quantidade de mão-de-
obra em número de pessoas (script ao final).
Econometria – Prof. Adriano M. R. Figueiredo 55

O teste para o R acusou erro de matriz singular, provavelmente devido a diferenças no


número de casas utilizadas pelo R, e foi feito o teste para quadrado e cubo, com resultados
abaixo. Observar que agora a regressão de teste foi refeita para apenas estas potencias. Mais a
frente apresenta-se o resultado com as três potências pelo comando “resettest”.
Econometria – Prof. Adriano M. R. Figueiredo 56

Ou seja, o teste acusou probabilidade de F menor que 1%, rejeita-se H0, conclui-se
que algum dos coeficientes de “fitted” é diferente de zero. Desta forma, elas apresentam
algum poder explicativo e o modelo é dito mal especificado.
Outra alternativa é usar o “resettest” da library “lmtest”. Neste caso, apenas pede-se o
comando e especifica-se o objeto que contém a regressão original. Este teste foi colocado
também no script do exemplo anterior. A interpretação e resultados são idênticos. Foi
apresentado também o teste RESET para potências 2,3 e 4, com resultados abaixo e que são
idênticos aos calculados em outros softwares como Eviews e Stata ou manualmente.
Econometria – Prof. Adriano M. R. Figueiredo 57

Primeiro teste com Yest2


Yest3 e depois
acrescentou-se até Yest4

Script::: “soja.R”:
#exercicio para trabalhar especificacao e RESET de Ramsey
#chamando os dados de soja
library(readxl)
library(foreign)
dados <- read_excel("soja_apostila.xlsx",
sheet = "dados")
# QSOJA = quantidade de soja;
# FERTILIZANTE = quantidade utilizada de fertilizantes,
# TRATOR = número de horas-máquina utilizadas, e
# MO = quantidade de mão-de-obra em número de pessoas

library(sfsmisc)
View(dados)
attach(dados)
#execucao manual do RESET de Ramsey para especificacao
# PASSO 1: estimar o modelo

regressao1<-lm(QSOJA~FERTILIZANTE+TRATOR+MO)
summary(regressao1)
library(stargazer)
stargazer(list(regressao1),type="text",style="all" )

#PASSO 2: obtencao dos valores ajustados


# utilizaremos o recurso I(fitted(regressao1)) para gerar automaticamente e já estimar a
regressão de teste

#PASSO 3: colocar valores ajustados ao quadrado e ao cubo e a quarta potencias


#PASSO 4: estimar regressão de teste

#reg_RESET<-
lm(QSOJA~FERTILIZANTE+TRATOR+MO+I(fitted(regressao1)^2)+I(fitted(regressao1)^3
)+I(fitted(regressao1)^4),data=dados)
reg_RESET<-
lm(QSOJA~FERTILIZANTE+TRATOR+MO+I(fitted(regressao1)^2)+I(fitted(regressao1)^3
),data=dados)
results<-stargazer(list(regressao1,reg_RESET),type="text",style="all" )

#PASSOS 4 A 6: calcular estatisticas de teste


Econometria – Prof. Adriano M. R. Figueiredo 58
# RESET: H0: o modelo esta bem especificado, ou H0: COEFICIENTES incluindo "fitted"
sao nulos
library(car)
#RESETH0<-c("I(fitted(regressao1)^2)","I(fitted(regressao1)^3)","I(fitted(regressao1)^4)")
RESETH0<-c("I(fitted(regressao1)^2)","I(fitted(regressao1)^3)")
Tabela_RESET<-linearHypothesis(reg_RESET,RESETH0)
# outra alternativa é usar a linha abaixo com o matchCoefs
#Tabela_RESET<-linearHypothesis(reg_RESET, matchCoefs(reg_RESET,"fitted"))
Tabela_RESET

#Fazendo agora pelo comando resettest da library(lmtest)


library(lmtest)
TesteRESET<-resettest(regressao1)
TesteRESET

4.1.1.2. Implementação no Eviews:


No Eviews, após a estimação dos parâmetros, abre-se a janela da equação e depois se
clica em View, e posteriormente em Stability Tests. A opção do teste RESET aparecerá em
outra janela perguntando quantos termos ajustados serão incluídos (fitted terms). O aluno deve
estabelecer quantos termos (sugere-se até 3) e clica-se em ok. O programa gerará a estatística
de teste RESET de Ramsey, mas aqui a hipótese nula é um pouco diferente do teste calculado
anterior, pois o programa testa se todos os parâmetros α são zeros, o que indicará que não há
erro. Portanto, se a probabilidade de F do Eviews for abaixo do nível de significância (por
exemplo, 10%) (F alto), pode-se dizer que se rejeita a hipótese nula e existe um erro de
especificação (ou seja, o modelo está mal especificado). Se o F for baixo, se aceita que α =0
e, portanto, não há erro de especificação.
No exemplo dos Quadro 4.1 e 4.2, mostra-se que existe erro de especificação.

Quadro 4.1. Exemplo de saída do Eviews para o Ramsey RESET Test: Equação
original:
Econometria – Prof. Adriano M. R. Figueiredo 59
Dependent Variable: QSOJA
Method: Least Squares
Date: 04/12/14 Time: 17:37
Sample: 1 117
Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

FERTILIZANTE -0.553544 1.058904 -0.522751 0.6022


TRATOR -33.68994 3.741035 -9.005512 0.0000
MO -209.1407 107.8926 -1.938415 0.0551
C 494.9657 25.57225 19.35558 0.0000

R-squared 0.465110 Mean dependent var 322.2544


Adjusted R-squared 0.450910 S.D. dependent var 56.01272
S.E. of regression 41.50578 Akaike info criterion 10.32313
Sum squared resid 194668.5 Schwarz criterion 10.41757
Log likelihood -599.9033 Hannan-Quinn criter. 10.36147
F-statistic 32.75282 Durbin-Watson stat 0.673655
Prob(F-statistic) 0.000000
Econometria – Prof. Adriano M. R. Figueiredo 60
Quadro 4.2. Exemplo de saída do Eviews para o Ramsey RESET Test: equação de teste:
Ramsey RESET Test
Equation: EQ01
Specification: QSOJA FERTILIZANTE TRATOR MO C
Omitted Variables: Powers of fitted values from 2 to 4

Value df Probability
F-statistic 5.281559 (3, 110) 0.0019
Likelihood ratio 15.74446 3 0.0013

F-test summary:
Mean
Sum of Sq. df Squares
Test SSR 24510.05 3 8170.017
Restricted SSR 194668.5 113 1722.730
Unrestricted SSR 170158.4 110 1546.895

LR test summary:
Value df
Restricted LogL -599.9033 113
Unrestricted LogL -592.0310 110

Unrestricted Test Equation:


Dependent Variable: QSOJA
Method: Least Squares
Date: 04/12/14 Time: 17:38
Sample: 1 117
Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

FERTILIZANTE 304.1301 135.0470 2.252031 0.0263


TRATOR 18591.31 8231.770 2.258482 0.0259
MO 115237.8 51069.38 2.256494 0.0260
C -230604.9 101861.4 -2.263909 0.0255
FITTED^2 2.664806 1.165269 2.286858 0.0241
FITTED^3 -0.005642 0.002453 -2.300026 0.0233
FITTED^4 4.43E-06 1.92E-06 2.302617 0.0232

R-squared 0.532456 Mean dependent var 322.2544


Adjusted R-squared 0.506954 S.D. dependent var 56.01272
S.E. of regression 39.33059 Akaike info criterion 10.23985
Sum squared resid 170158.4 Schwarz criterion 10.40510
Log likelihood -592.0310 Hannan-Quinn criter. 10.30694
F-statistic 20.87869 Durbin-Watson stat 0.770973
Prob(F-statistic) 0.000000

Neste caso, é possível observar que no topo da saída do Teste RESET, o Eviews
apresenta os valores de F-statistic = 5.281559, com graus de liberdade do numerador e
denominador de (3, 110), e valor da probabilidade de 0.0019. Neste caso, rejeita-se a hipótese
nula de que os coeficientes das variáveis elevadas às potências são nulas. Desta forma, elas
apresentam algum poder explicativo e o modelo é dito mal especificado.
Econometria – Prof. Adriano M. R. Figueiredo 61

4.1.1.3. Implementação no Stata:


No Stata, uma forma é realizar o passo a passo: estimando-se o modelo; gerando a
variável dependente prevista (com o comando predict); gerando as variáveis elevadas às
potências (2, 3 e 4); estimando o novo modelo com X e as variáveis nas potências; e
calculando-se a estatística F do RESET.
Portanto, os passos seriam, usando o arquivo ‘soja.dta’:
1) Estimar o modelo:
. regress qsoja fertilizante trator mo

Source SS df MS Number of obs = 117


F( 3, 113) = 32.75
Model 169272.79 3 56424.2634 Prob > F = 0.0000
Residual 194668.491 113 1722.73001 R-squared = 0.4651
Adj R-squared = 0.4509
Total 363941.281 116 3137.42483 Root MSE = 41.506

qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]

fertilizante -.5535435 1.058904 -0.52 0.602 -2.651424 1.544337


trator -33.68994 3.741035 -9.01 0.000 -41.1016 -26.27827
mo -209.1407 107.8926 -1.94 0.055 -422.8955 4.614037
_cons 494.9657 25.57225 19.36 0.000 444.3025 545.629

2) Gerar variável dependente estimada (prevista), aqui chamada de ‘qsojah’:


. predict qsojah
3) Gerar variáveis estimadas nas potências:
. gen qsojah2 = qsojah^2
. gen qsojah3 = qsojah^3
. gen qsojah4 = qsojah^4
4) Estimar modelo contendo as variáveis do modelo original mais as três a serem
adicionadas:
Econometria – Prof. Adriano M. R. Figueiredo 62
. regress qsoja fertilizante trator mo qsojah2 qsojah3 qsojah4

Source SS df MS Number of obs = 117


F( 6, 110) = 20.88
Model 193774.359 6 32295.7264 Prob > F = 0.0000
Residual 170166.922 110 1546.97202 R-squared = 0.5324
Adj R-squared = 0.5069
Total 363941.281 116 3137.42483 Root MSE = 39.332

qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]

fertilizante 303.9929 135.0616 2.25 0.026 36.33245 571.6534


trator 18582.92 8232.651 2.26 0.026 2267.736 34898.1
mo 115185.7 51074.83 2.26 0.026 13967.37 216404
qsojah2 2.663613 1.165392 2.29 0.024 .35408 4.973145
qsojah3 -.0056398 .0024534 -2.30 0.023 -.0105019 -.0007777
qsojah4 4.43e-06 1.92e-06 2.30 0.023 6.15e-07 8.24e-06
_cons -230501 101872.2 -2.26 0.026 -432387.8 -28614.16

Observa-se agora que no modelo original, o R², agora chamado de R²velho = 0,46511.
No modelo novo, aumentado, o R² chamado de R²novo = 0,532456. Observar que
aqui, para efeito de demonstração, optei por utilizar mais dígitos de R² do que os mostrados na
saída do Stata, de modo a demonstrar a precisão dos cálculos entre o método do Eviews e
cálculos do Stata.
Foram adicionadas 3 variáveis, portanto, m=3. E o modelo tem 117 observações (n=117) e
ficou após aumentado, contendo 7 parâmetros. Assim, n-p = 110 no modelo novo.
5) Calcular a estatística F do teste:
2
Rnovo  Rvelho
2
0,532456  0,46511
número de novos regressores ( m) 3
F   5,281
1  Rnovo
2
1  0,532456
n  número parametros no novo mod elo (p) 117  7

Para a distribuição de F = 5,281, o valor da probabilidade é (1-0,9981) (o Stata fornece


o valor da distribuição acumulada da origem até o valor de F. Assim, o que se deseja é o valor
do complemento (1-p acumulado). Os comandos seriam, para a distribuição acumulada:
. disp F(3,110,5.281) == .99806636 (1-.99806636) = .00193364
Ou usar o comando ‘Ftail’, obtendo:
. disp Ftail(3,110,5.281) ==.00193364

Para a distribuição de F com (m,n-p) = (3, 117-7) = (3,110) graus de liberdade, tem-se
F tabelado de 0.19 para 90% de confiança, com uso do comando ‘invFtail’:
Econometria – Prof. Adriano M. R. Figueiredo 63
. disp invFtail(3,110,0.9) ==.19442741

Outra opção, no Stata, é utilizando o pacote Reset. Tem-se, para o mesmo exemplo da
soja, o Quadro 4.3. Neste caso, o pacote realiza vários testes inserindo as variáveis de Y
estimado às potências (2, 3 e 4) e mostrando os resultados para o teste com H0: o modelo está
especificado, contra Ha: o modelo está mal especificado (misspecified). Ainda apresenta
alternativas como as de DeBenedictis-Giles Specification ResetL Test, o DeBenedictis-Giles
Specification ResetS Test6, e o White Functional Form Test.
É possível verificar os mesmos resultados obtidos acima (a menos de alguma variação
por causa do número de decimais) para o caso de 3 variáveis adicionadas:
- Ramsey RESETF3 Test: Y= X Yh2 Yh3 Yh4 = 5.279 P-Value > F(3, 110) 0.0019.

 teste de DeBenedictis-Giles Specification (FReset):


– Usa uma distribuição de Fourier (ao invés da série de Taylor do teste de
Ramsey;
– O teste RESET de Ramsey tem problemas quando o modelo tiver
autocorrelação dos resíduos, portanto, o FReset seria uma alternativa melhor
que a de Ramsey;
– FRESETL – quando usa uma transformação linear para investigar a série de
valores previstos;
– FRESETS - quando usa uma transformação senoidal (de seno) para investigar
a série de valores previstos:
“O teste FRESETL é geralmente o melhor quando o modelo mal
especificado é estático, enquanto o teste FRESETS é melhor quando o
modelo é mal especificado pela omissão de um efeito dinâmico”
(DeBenedicitis e Giles, 1998, p.38, tradução livre).
– Da mesma forma que o RESET tradicional, H0: o modelo está bem
especificado; e Ha: o modelo está mal especificado.

6
DEBENEDICTIS, L. F.; GILES D. E. A. Diagnostic Testing in Econometrics: Variable Addition, RESET and
Fourier Approximations. In: ULLAH, Aman; GILES, D. E. A. (Eds.), Handbook of Applied Economic
Statistics. Marcel Dekker, New York; 1998. pp.383-417.
RAMSEY, J. B. Tests for Specification Errors in Classical Linear Least-Squares Regression Analysis. Journal
of the Royal Statistical Society, Series B, v.31, 1969. pp.350-371.
Econometria – Prof. Adriano M. R. Figueiredo 64
Econometria – Prof. Adriano M. R. Figueiredo 65
Quadro 4.3. Resultados do Ramsey RESET para especificação do modelo no Stata.
. reset qsoja fertilizante trator mo

==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
qsoja = fertilizante + trator + mo

Sample Size = 117


Wald Test = 98.2585 | P-Value > Chi2(3) = 0.0000
F-Test = 32.7528 | P-Value > F(3 , 113) = 0.0000
(Buse 1973) R2 = 0.4651 | Raw Moments R2 = 0.9844
(Buse 1973) R2 Adj = 0.4509 | Raw Moments R2 Adj = 0.9840
Root MSE (Sigma) = 41.5058 | Log Likelihood Function = -599.9033
------------------------------------------------------------------------------
- R2h= 0.4651 R2h Adj= 0.4509 F-Test = 32.75 P-Value > F(3 , 113) 0.0000
- R2v= 0.4651 R2v Adj= 0.4509 F-Test = 32.75 P-Value > F(3 , 113) 0.0000

qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]

fertilizante -.5535435 1.058904 -0.52 0.602 -2.651424 1.544337


trator -33.68994 3.741035 -9.01 0.000 -41.1016 -26.27827
mo -209.1407 107.8926 -1.94 0.055 -422.8955 4.614037
_cons 494.9657 25.57225 19.36 0.000 444.3025 545.629

==============================================================================
*** REgression Specification Error Tests (RESET)
==============================================================================
Ho: Model is Specified - Ha: Model is Misspecified
------------------------------------------------------------------------------
* Ramsey Specification ResetF Test
- Ramsey RESETF1 Test: Y= X Yh2 = 10.237 P-Value > F(1, 112) 0.0018
- Ramsey RESETF2 Test: Y= X Yh2 Yh3 = 5.075 P-Value > F(2, 111) 0.0078
- Ramsey RESETF3 Test: Y= X Yh2 Yh3 Yh4 = 5.279 P-Value > F(3, 110) 0.0019
------------------------------------------------------------------------------
* DeBenedictis-Giles Specification ResetL Test
- Debenedictis-Giles ResetL1 Test = 7.426 P-Value > F(2, 111) 0.0009
- Debenedictis-Giles ResetL2 Test = 5.816 P-Value > F(4, 109) 0.0003
- Debenedictis-Giles ResetL3 Test = 3.852 P-Value > F(6, 107) 0.0016
------------------------------------------------------------------------------
* DeBenedictis-Giles Specification ResetS Test
- Debenedictis-Giles ResetS1 Test = 4.721 P-Value > F(2, 111) 0.0108
- Debenedictis-Giles ResetS2 Test = 2.549 P-Value > F(4, 109) 0.0433
- Debenedictis-Giles ResetS3 Test = 2.205 P-Value > F(6, 107) 0.0480
------------------------------------------------------------------------------
- White Functional Form Test: E2= X X2 = 16.245 P-Value > Chi2(1) 0.0003
------------------------------------------------------------------------------

O Stata trata o problema na especificação do modelo quanto à omissão de variáveis, o


que deixa as estimativas enviesadas, ou seja, não convergem para o valor populacional (são
inconsistentes). Assim, deve-se proceder a um teste de variável omitida. O Stata oferece um
comando ‘ovtest’ dentro da classe dos diagnósticos da regressão (Figuras 4.1 e 4.2, Quadro
Econometria – Prof. Adriano M. R. Figueiredo 66
4.4): <Statistics<Linear models and related<regression diagnostics<Specification tests
etc.<Ramsey regression...[ovtest]:
Figura 4-1. Exemplo do teste de especificação do modelo no Stata.

Figura 4-2. Exemplo do teste Reset de Ramsey no Stata.

Quadro 4.4. Saída do Ovtest – Ramsey Reset Test no Stata.


. estat ovtest

Ramsey RESET test using powers of the fitted values of qsoja


Ho: model has no omitted variables
F(3, 110) = 5.28
Prob > F = 0.0019
Econometria – Prof. Adriano M. R. Figueiredo 67
Neste caso, ele adiciona os três valores estimados nas potências e reporta os mesmos
resultados anteriormente calculados, e a interpretação é como feita anteriormente.

Outra alternativa no Stata é o Linktest, que procede uma estimação para uma potencia,
de modo semelhante ao Ramsey RESET (Quadro 4.5). A diferença é que neste não se incluem
as variáveis X originais e adiciona-se apenas a potencia ao quadrado para a variável
dependente estimada. De novo, se rejeitar H0, o modelo estará mal especificado. A ‘_hatsq’ é
a variável dependente estimada ao quadrado. Neste caso, conforme sugestão de Pregibon
(1980)7, deve-se olhar a significância do coeficiente da variável dependente ao quadrado, ou
seja, olhar o valor da probabilidade associado a ‘_hatsq’. É possível ver que ‘_hatsq’ foi
significativa diferente de zero, levando a rejeição da especificação apresentada originalmente,
ou seja, o modelo foi mal especificado.
Quadro 4.5. Exemplo do Linktest para especificação do modelo no Stata.
. linktest

Source SS df MS Number of obs = 117


F( 2, 114) = 57.68
Model 183049.122 2 91524.561 Prob > F = 0.0000
Residual 180892.159 114 1586.77332 R-squared = 0.5030
Adj R-squared = 0.4942
Total 363941.281 116 3137.42483 Root MSE = 39.834

qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]

_hat 6.438339 1.848219 3.48 0.001 2.777031 10.09965


_hatsq -.0084946 .0028829 -2.95 0.004 -.0142056 -.0027835
_cons -858.0958 292.9131 -2.93 0.004 -1438.355 -277.8372

4.1.2. Testes para omissão de variáveis com R

O teste para inclusão ou omissão de variáveis é um teste clássico de distribuição F em


que se compara um modelo irrestrito com outro restrito, ou seja, cujas variáveis tenham
coeficientes nulos. O modelo irrestrito será aquele com todas as variáveis que se deseja testar,
enquanto o restrito terá menos variáveis.

7
PREGIBON, D. Goodness of link tests for generalized linear models. Applied Statistics, vol.29, pp. 15–24.
1980.
Econometria – Prof. Adriano M. R. Figueiredo 68
Para exemplificar estes testes, faz-se uso do exercício 7.19 de Gujarati (2011, p.236)
para os dados da tabela 7.9 com a Demanda por frangos nos Estados Unidos, de 1960 a 1982,
com os dados do arquivo <gujarati 5ed p236 frangos tabela7_9.xlsx>, como no script do
Quadro 4.6. Observe que são colocadas quatro possíveis especificações, com as variáveis em
logaritmos e a variável Y sendo dependente em todas. As alterações são para as variáveis X2
até X5. Neste exemplo, não se está preocupado com a interpretação econômica, para fins do
exemplo e, portanto, apenas trata-se das variáveis como X.

Quadro 4.6. Script para o teste de especificação em R.

#exercicio 7.19 para os dados da tabela 7.9, conforme Gujarati (2011, p.236)
#Demanda por frangos nos Estados Unidos, 1960-1982 (23 observacoes)
#chamando os dados de <gujarati 5ed p236 frangos tabela7_9.xlsx>
library(readxl)
library(foreign)
dados <- read_excel("gujarati 5ed p236 frangos tabela7_9.xlsx",
sheet = "dados")
#Y Per Capita Consumption of Chickens, Pounds
#X2 Real Disposable Income Per Capita, $
#X3 Real Retail Price of Chicken Per Pound, Cents
#X4 Real Retail Price of Pork Per Pound, Cents
#X5 Real Retail Price of Beef Per Pound, Cents
#X6 Composite Real Price of Chicken Substitutes Per Pound, Cents

View(dados)
attach(dados)

#Estimando o modelo linear de regressao multipla


#Fazendo as regressoes de Y contra as variaveis X2 X3 X4 X5 e X6
# com logs
EQ1<-lm(log(Y)~log(X2)+log(X3))
EQ2<-lm(log(Y)~log(X2)+log(X3)+log(X4))
EQ3<-lm(log(Y)~log(X2)+log(X3)+ log(X5))
EQ4<-lm(log(Y)~log(X2)+log(X3)+log(X4)+log(X5))

As equações são como a seguir:


1: log(Y)~log(X2)+log(X3);
2: log(Y)~log(X2)+log(X3)+log(X4)
3: log(Y)~log(X2)+log(X3)+ log(X5))
4: log(Y)~log(X2)+log(X3)+log(X4)+log(X5))
Assim, formalmente, a equação irrestrita será a equação 4 e os testes de especificação
serão para as hipóteses a saber:
H0: coeficientes iguais a zero para X4 e X5.
Econometria – Prof. Adriano M. R. Figueiredo 69
A rejeição de H0 implica que a escolha pela equação 1 representará erro de
especificação por omissão de variável e estará viesando o modelo.
O teste F é dado pela expressão a seguir em que SSR é a soma dos quadrados dos
resíduos dos modelos restrito (SSRr) e irrestrito (SSRur), para n observações, k variáveis
explicativas e q restrições. A expressão pode ser calculada em termos das estatísticas R² dos
modelos irrestrito (𝑅 ) e restrito (𝑅 ). O script está colocado na sequência das fórmulas.

𝑆𝑆𝑅𝑟 − 𝑆𝑆𝑅𝑢𝑟 𝑛 − 𝑘 − 1
𝐹= .
𝑆𝑆𝑅𝑢𝑟 𝑞
ou
𝑅 −𝑅 𝑛−𝑘−1
𝐹= .
1−𝑅 𝑞

𝐹~𝐹(𝑞, 𝑛 − 𝑘 − 1) e nível de confiança.

Quadro 4.7. Script para o teste de omissão de variáveis em R.

#modelo irrestrito é o da EQ4


# Unrestricted OLS regression:
res.ur <- lm(log(Y)~log(X2)+log(X3)+log(X4)+log(X5))

#modelo restrito para X4 e X5 serem nulos, equivalente ao EQ1


# Restricted OLS regression:
res.r <- lm(log(Y)~log(X2)+log(X3))

# R2:
( r2.ur <- summary(res.ur)$r.squared )
( r2.r <- summary(res.r)$r.squared )

# F statistic para (n-k-1=23-4-1) no numerador e q (=2) restricoes no denominador:


( F <- (r2.ur-r2.r) / (1-r2.ur) * (23-4-1)/2 )

# p value = 1-cdf of the appropriate F distribution:


1-pf(F, 2,18)

Fazendo manualmente tem-se como no quadro.


Econometria – Prof. Adriano M. R. Figueiredo 70
Quadro 4.8. Resultados das estimações com diferentes especificações.

Os resultados apresentam os respectivos R² e podem-se calcular os testes para


qualquer hipótese. Aqui se apresenta para a equação 1.

Quadro 4.9. Script e resultados para o teste de omissão de variáveis.

Outra opção é usar o pacote “car” como no script. O resultado será o mesmo, como na
figura. Para uma probabilidade de 0.3421, não se rejeita H0 para coeficientes de X4 e X5
simultaneamente nulos. Assim, algum desses coeficientes é diferente de zero e o modelo da
equação 1 está omitindo alguma dessas variáveis testadas.
Econometria – Prof. Adriano M. R. Figueiredo 71
Quadro 4.10. Script para o teste de omissão de variáveis no R com pacote ‘car’.

4.1.3. Observando outros indicadores de boa especificação do


modelo

Outra forma é olhar os diferentes modelos e comparar o R2 ajustado. Quanto mais


próximo de 1 melhor será a estimação. É deficiente para o caso de variável omitida.
Outras opções são observar os coeficientes do critério de Akaike e Schwarz,
fornecidos na saída da estimação do Eviews. Menores coeficientes AIC e SIC indicam
melhores ajustamentos da regressão, mas só podem ser comparados se as unidades das
variáveis das diferentes regressões forem as mesmas (por exemplo, não se aplica numa
comparação entre Y e outra com LogY). Deve-se olhar todos os critérios para melhor análise
dos resultados.
O Critério de Informação de Akaike (ou AIC de Akaike’s Information Criterion) ou o
Critério de Informação de Schwarz ou Bayesiano (ou SIC de Schwarz’s Information Criterion
ou em alguns livros BIC de Bayesian Information Criterion) são expressos no Eviews da
forma já logaritmizada como:
2𝑙 2𝑘
𝐴𝐼𝐶 = − +
𝑛 𝑛
2𝑙 𝑘. log 𝑛
𝑆𝐼𝐶 = − +
𝑛 𝑛
𝑛 𝜀̂ 𝜀̂
𝑙=− 1 + log(2𝜋) + log
2 𝑛
em que k é o número de regressores incluindo-se o intercepto; n é o número de observações; l
é o log Verossimilhança da regressão; e 𝜀̂ são os resíduos estimados do modelo.
No formato mais simplificado exposto por Greene (2002), tem-se:
Econometria – Prof. Adriano M. R. Figueiredo 72
𝜀̂ 𝜀̂ 2𝑘
𝐴𝐼𝐶 = log +
𝑛 𝑛
𝜀̂ 𝜀̂ 𝑘. log 𝑛
𝑆𝐼𝐶 = 𝐵𝐼𝐶 = log +
𝑛 𝑛

No Stata, é só usar o comando de ‘post estimation’ ‘estat ic’. No Quadro 4.11,


apresenta-se a saída do AIC para a mesma estimação que apresentada para o teste RESET. No
R é ainda mais simples pois estas funções estão pre-estabelecidas e basta usar a função AIC e
BIC para ter os respectivos valores de uma regressão (Quadro 4.12).

Quadro 4.11. Saída do Critério de Informação pelo Stata.


. estat ic

Akaike's information criterion and Bayesian information criterion

Model Obs ll(null) ll(model) df AIC BIC

. 117 -636.5064 -599.9033 4 1207.807 1218.855

Note: N=Obs used in calculating BIC; see [R] BIC note

Quadro 4.12. Saída do Critério de Informação pelo R.

4.1.4. Variáveis especiais na especificação do modelo

a) Variáveis dummy, binárias ou categóricas

As variáveis dummy ou categóricas ou binárias, são variáveis atípicas que buscam


diferenciar grupos ou estados ou características comuns a partes da amostra. São atípicas pois
a ordem não indica superioridade ou grandeza do valor, por exemplo, uma variável categórica
com valor igual 2 numa observação e 1 na outra não quer dizer que uma é duas vezes a outra,
mas que uma é da categoria associada ao valor 2 e outra ao valor 1.
Econometria – Prof. Adriano M. R. Figueiredo 73
Explicando melhor, imagine um cenário em que a questão em uma entrevista pergunte
a religião. Imagine que as possíveis respostas sejam: católico, presbiteriano, espírita ou
muçulmano. Neste caso, o atributo religião possui quatro (4) possíveis respostas para este
exemplo. Seria possível imaginar uma variável que assumiria valores 1, 2, 3 ou 4 conforme a
religião respondida. Neste caso, seria uma variável multinomial, mas observe que o valor 4
(muçulmano) não quer dizer que é quatro vezes a resposta de uma observação com valor 1
(católico). Ainda, também não quer dizer que o 4 é maior que o 1. Apenas indica que um é do
grupo 4 e outro do 1.
Neste caso, seria interessante trabalhar com variáveis binárias, normalmente
associadas às respostas 0 e 1, no sentido de pertencer ou não a um grupo. Por exemplo, uma
dummy (ou binária) para indicar católico (Dc = 1 se for e 0 se não for). Assim, similarmente
para as demais respostas, têm-se outras três dummies binárias, uma para cada resposta
(presbiteriano – Dp, espírita – Des ou muçulmano – Dmu).
Uma ideia seria fazer a regressão incluindo estas binárias na expressão:
Y   0  1 X 1   2 X 2   3 D1   4 D1 X 1   5 D2   6 D2 X 1   7 D3   8 D3 X 1   9 D4  10 D4 X 1  
ou
Y   0  1 X 1   2 X 2   3 Dc   4 Dc X 1   5 D p   6 Dp X1   7 Des   8 Des X 1   9 Dmu  10 Dmu X 1  

O leitor poderia observar que em alguns termos a dummy aparece associada apenas ao
coeficiente α e noutros ao αX1, ou seja, ao coeficiente e a variável X1. Imagine aqui que X1
seja uma variável quantitativa contínua. Em uma estimação cujo coeficiente α fosse não
significativo, seria o equivalente a ter um termo nulo, pois a dummy e a variável X
multiplicada pelo coeficiente não significativo retornaria um valor não diferente de zero.
De outra forma, quando o α for significativo para algum termo contendo a dummy, se
está não estiver multiplicada por X1, seria o equivalente a uma alteração do intercepto  0 . Se
estiver multiplicada por X1, seria o equivalente a uma alteração do coeficiente associado à
inclinação de X1, somando-se o α da dummy ao 1 . Neste caso, a presença da característica
cujo coeficiente da dummy foi significativo, diferente de zero, indica uma curva estimada
distinta das demais (no intercepto ou na inclinação ou em ambos).
Entretanto, uma estimação desta forma do exemplo, contendo quatro dummies
para as quatro possíveis respostas, geraria um problema de multicolinearidade perfeita
com o termo do intercepto. Recorde-se que na matriz de variáveis explicativas também está
a coluna de 1 para o intercepto. Mas a soma das colunas das dummies também será 1. Ou seja,
não será possível estimar o vetor de coeficientes, pois não será possível computar (X’X)-1.
Econometria – Prof. Adriano M. R. Figueiredo 74
Assim, o procedimento normal é excluir uma das dummies, ou seja, sempre que tiver m
possíveis respostas, acrescentam-se m-1 dummies. A dummy excluída do modelo será do
grupo básico, e a estimação do modelo quando todos os coeficientes das dummies forem
nulos retornará o resultado do grupo básico. Portanto, as observações do grupo básico terão
valores zero para as dummies, por não fazer parte daqueles grupos.
Assim, para cada categoria, seria o equivalente a ter as equações como abaixo:

equação católico ( Dc  1) : Y   0   3   1   4  X 1   2 X 2


equação presbiteriano ( D p  1) : Y   0   5   1   6  X 1   2 X 2
equação espírita ( Des  1) : Y   0   7   1   8  X 1   2 X 2
equação muçulmano ( Dc  D p  Des  0) : Y   0  1 X 1   2 X 2 BASE
Seja o exemplo abaixo, cujas observações respondem a uma pergunta indicando
respostas de a até g. Imagine que os nomes sejam os setores de vendas em uma loja de varejo:

Respostas
Nome
a b c d e f g
Marcelo x
Antônio x
Tassiany x
Elenir x
Joice x
Alexandre x
Adriano x
João x
Pedro x

Para representar estas respostas em variáveis binárias, no exemplo, adota-se o g como


o grupo básico. Se forem feitas uma dummy para cada resposta, o quadro ficaria, colocando 1
para pertence e zero para não pertence:
OBSERVAÇÃO Da Db Dc Dd De Df Dg SOMA
Marcelo 1 0 0 0 0 0 0 1
Antônio 0 1 0 0 0 0 0 1
Tassiany 1 0 0 0 0 0 0 1
Elenir 0 0 1 0 0 0 0 1
Joice 0 0 0 1 0 0 0 1
Alexandre 0 0 0 0 1 0 0 1
Adriano 0 0 0 0 0 1 0 1
João 0 0 0 0 0 0 1 1
Pedro 0 0 0 0 0 0 1 1
Econometria – Prof. Adriano M. R. Figueiredo 75
Observe que a soma da linha é sempre igual a 1. Assim, uma coluna adicional para
representar o intercepto seria exatamente igual a soma das colunas de dummies. A solução
seria excluir a coluna de Dg, e todas as observações do grupo g ficariam com zeros nas
dummies de a até f (João e Pedro).
OBSERVAÇÃO Da Db Dc Dd De Df
Marcelo 1 0 0 0 0 0
Antônio 0 1 0 0 0 0
Tassiany 1 0 0 0 0 0
Elenir 0 0 1 0 0 0
Joice 0 0 0 1 0 0
Alexandre 0 0 0 0 1 0
Adriano 0 0 0 0 0 1
João 0 0 0 0 0 0
Pedro 0 0 0 0 0 0

Estimando um modelo do tipo acima, alterando apenas intercepto, cada grupo teria a
equação estimada como abaixo, ou seja, alterando o intercepto relativamente ao grupo básico
g:
Y   0  1 X 1   2 X 2   3 Da   4 Db   5 Dc   6 Dd   7 De  8 D f  
Quando as dummies forem todas com coeficientes nulos, Da=Db =Dc=Dd=De=Df=0,
então o modelo se reduz a curva para o grupo g, quando as dummies são nulas:
Y   0  1 X 1   2 X 2  
Assim, os coeficientes  0 ,1 , 2 representam exatamente o grupo básico g.
Suponha que os coeficientes estimados associados as dummies, sejam significativos,
ou  d  0 , d= 3, 4, 5, 6, 7 e 8. Então a expressão para os grupos serão:
para a: Ya  ˆ0  ˆ3   ˆ1 X 1  ˆ 2 X 2
para b: Yb  ˆ0  ˆ 4   ˆ1 X1  ˆ 2 X 2
para c: Yc  ˆ0  ˆ5   ˆ1 X 1  ˆ 2 X 2
para d: Yd  ˆ0  ˆ6   ˆ1 X1  ˆ2 X 2
para e: Ye  ˆ0  ˆ7   ˆ1 X 1  ˆ 2 X 2
para f: Y f  ˆ 0  ˆ8   ˆ1 X1  ˆ 2 X 2

Os valores de  d  0 , d= 3, 4, 5, 6, 7 e 8, podem ser positivos ou negativos. Quando


positivos, indicarão interceptos maiores para o grupo, comparativamente ao grupo básico g.
Econometria – Prof. Adriano M. R. Figueiredo 76
Valores negativos indicarão interceptos menores do que o de g. Similarmente se teria para as
inclinações, indicando reações maiores ou menores de Y com respeito a X.
Seja uma estimação da quantidade de algodão (QALG) em função da área de algodão
(AALG), do preço do algodão (PALG), do preço da soja (PSOJA), para municípios de Mato
Grosso do Sul, Mato Grosso e Goiás. É possível dizer que a quantidade de algodão tem um
comportamento distinto entre os estados MS, MT e GO? Neste exemplo, para m=3 respostas,
colocam-se m-1=2 dummies: DMS e DMT. Goiás ficou como grupo básico, ou seja, para
DMS=DMT=0. Conforme a estimação do Quadro 4.7, as dummies tiveram coeficientes
alterando o intercepto, com valores das probabilidades, respectivamente: 0,98 e 0,09, DMS e
DMT. Assim, não foram coeficientes significativos diferentes de zero para LOG(PSOJA) e
DMS, e pode-se dizer que não houve diferença entre os interceptos de MS e o grupo básico de
GO. Mas pode-se dizer que existe diferença do intercepto de MT em relação a GO pois o
valor da probabilidade de 0,09 indica que a DMT teve coeficiente significativo diferente de
zero para MT.
Quadro 4.13. Saída da estimação com uso de variáveis binárias: produção de algodão.
Dependent Variable: LOG(QALG)
Method: Least Squares
Date: 04/21/14 Time: 18:11
Sample: 1 33
Included observations: 33

Variable Coefficient Std. Error t-Statistic Prob.

LOG(AALG) 1.204696 0.103819 11.60378 0.0000


LOG(PALG) 0.653454 0.258398 2.528867 0.0176
LOG(PSOJA) -0.475624 0.336745 -1.412415 0.1693
DMS -0.002898 0.121463 -0.023858 0.9811
DMT -0.202506 0.114617 -1.766807 0.0886
C -1.800698 1.251232 -1.439140 0.1616

R-squared 0.871370 Mean dependent var 11.66500


Adjusted R-squared 0.847550 S.D. dependent var 0.675453
S.E. of regression 0.263729 Akaike info criterion 0.335179
Sum squared resid 1.877936 Schwarz criterion 0.607272
Log likelihood 0.469542 Hannan-Quinn criter. 0.426730
F-statistic 36.58104 Durbin-Watson stat 1.554954
Prob(F-statistic) 0.000000

A representação das equações para cada grupo serão, partindo da equação geral:
LOG(QALG) = 1.204*LOG(AALG) + 0.653*LOG(PALG) - 0.475*LOG(PSOJA) - 0.002*DMS - 0.202*DMT - 1.800

Para GO, DMS=DMT=0, com PSOJA e intercepto C não significativos:


LOG(QALG) = 1.204*LOG(AALG) + 0.653*LOG(PALG)

Para MS: DMT=0, mas DMS não teve coeficiente significativo:


Econometria – Prof. Adriano M. R. Figueiredo 77
LOG(QALG) = 1.204*LOG(AALG) + 0.653*LOG(PALG)

Para MT: DMS=0, ou seja, esta curva está pouco abaixo das curvas de MS e GO:
LOG(QALG) = 1.204*LOG(AALG) + 0.653*LOG(PALG) - 0.202
Para uma estimação contendo alterações nas inclinações de AALG e no intercepto,
Quadro 4.14:

Quadro 4.14. Estimação da produção de algodão com alterações nas inclinações e no


intercepto.
Dependent Variable: LOG(QALG)
Method: Least Squares
Date: 04/21/14 Time: 18:19
Sample: 1 33
Included observations: 33

Variable Coefficient Std. Error t-Statistic Prob.

LOG(AALG) 0.925760 0.133697 6.924334 0.0000


DMS*LOG(AALG) -0.275684 0.300807 -0.916480 0.3682
DMT*LOG(AALG) 0.624366 0.174474 3.578571 0.0014
LOG(PALG) 0.498915 0.206746 2.413177 0.0235
LOG(PSOJA) -0.339490 0.271881 -1.248672 0.2234
DMS 2.854683 3.272221 0.872399 0.3913
DMT -7.201335 1.952192 -3.688845 0.0011
C 1.407927 1.625219 0.866300 0.3946

R-squared 0.926379 Mean dependent var 11.66500


Adjusted R-squared 0.905766 S.D. dependent var 0.675453
S.E. of regression 0.207348 Akaike info criterion -0.101619
Sum squared resid 1.074831 Schwarz criterion 0.261171
Log likelihood 9.676714 Hannan-Quinn criter. 0.020449
F-statistic 44.93979 Durbin-Watson stat 1.771309
Prob(F-statistic) 0.000000

Observe que neste caso, não foram significativos os coeficientes de


DMS*LOG(AALG), LOG(PSOJA), DMS e C.
Assim, as expressões serão, omitindo os termos não significativos:
LOG(QALG) = 0.925*LOG(AALG) + 0.624*DMT*LOG(AALG) + 0.498*LOG(PALG) - 7.201*DMT

Para GO: LOG(QALG) = 0.925*LOG(AALG) + 0.624*DMT*LOG(AALG) + 0.498*LOG(PALG)


Para MS: LOG(QALG) = 0.925*LOG(AALG) + 0.624*DMT*LOG(AALG) + 0.498*LOG(PALG)
Para MT: LOG(QALG) = (0.925+ 0.624)*LOG(AALG) + 0.498*LOG(PALG) - 7.201

Assim, conclui-se que a reação de QALG a AALG para MT é maior que em GO e MS,
mas a curva de MT está em nível mais baixo que os demais.

b) Variáveis tendência
Econometria – Prof. Adriano M. R. Figueiredo 78
Este tipo de variável é típico dos modelos de série temporal, ou seja, com dados
organizados no tempo. Uma variável tendência será criada para considerar a evolução
temporal de modo explícito e evitar regressões espúrias.
É uma variável com característica básica de que ao passar da observação 1 para 2,
tem-se exatamente a mudança de um período de tempo. Assim, o fato de ser um valor, por
exemplo, 30, indica 2 períodos a frente de outro igual a 28. Existe uma ordem implícita e
também a cada observação se tem a mudança de um período igual.
Normalmente se usa esta variável em cálculos da taxa geométrica de crescimento. Seja
uma variável V de periodicidade anual que se deseja saber a variação anual num período. Faz
a regressão log linear de logv = f(t), em que t é a variável tendência, que pode ser 1,2,3, ... ou
por exemplo 1990,1991, 1992, ... . O que importa é que a alteração é sempre de um período
de tempo e sequencial.
Por exemplo, seja a tabela:
Tabela 4-1. Dados para exemplo do cálculo da TGC.

v t logv
100 1 4,60517
112 2 4,718499
145 3 4,976734
178 4 5,181784
134 5 4,89784
A regressão logV     t   , fornece os resultados do Quadro 4.9:
Econometria – Prof. Adriano M. R. Figueiredo 79
Quadro 4.15. Estimação de um modelo para a Taxa Geométrica de Crescimento com
variável tendência, usando Excel.

Caso o coeficiente associado a variável tendência seja significativo diferente de zero,


então a taxa geométrica de crescimento (TGC) será: TGC = (exp(β)-1)*100. No exemplo,
TGC = (exp(0,10486239)-1)*100 = 11,0557777.

O mesmo pode ser feito no R. Sejam os dados como a tabela:


v t
100 91
112 92
145 93
178 94
134 95
104 96
108 97
112 98
110 99

Fazendo o logaritmo e estimando o modelo tem-se:


Econometria – Prof. Adriano M. R. Figueiredo 80

4.1.5. Identificação de outliers do modelo

Os valores atípicos ou outliers são observações com valores muito diferentes da


maioria, ou da média. Estes valores poderão alterar os valores estimados dos coeficientes e
invalidar os resultados obtidos caso não sejam tratados adequadamente.
Em geral se utilizam gráficos tipo scatter (dispersão) ou box-plot associados aos
valores do desvio-padrão e seus múltiplos como critérios para julgar se os valores estão muito
distintos da média. Por exemplo, na Figura 4.3, observam-se alguns pontos muito destacados
dos demais, ou valores atípicos:

Figura 4-3. Gráfico de dispersão para identificação de outliers.

Nota: comando no R: dispersao<-plot(QTMAQ~VP).


Econometria – Prof. Adriano M. R. Figueiredo 81

Os gráficos de box-plot mostram o centro e a dispersão dos dados. O box refere-se aos
limites dados pelo primeiro e terceiro quartis. O ponto ao meio, dentro do box, indica a média.
A mediana é o traço horizontal no box. Os traços horizontais denotam os inner fences e o
staple: limites a partir dos quais são detectados outliers (ver Figura 4.4).
Econometria – Prof. Adriano M. R. Figueiredo 82
Figura 4-4. Detalhamento dos limites do box-plot no Stata.

Figura 4-5. Gráfico de box-plot para identificação de outliers.

Quando se tem dados com outliers, uma alternativa é distinguir grupos utilizando as
dummies. Esta situação poderá auxiliar a melhor incorporar esta informação no modelo sem,
no entanto excluir a observação. Esta opção de excluir a observação atípica poderá gerar
problemas de viés de seleção da amostra.
No Stata, o comando será, para o box-plot: . graph box vprod (Figura 4.6):
Econometria – Prof. Adriano M. R. Figueiredo 83
Figura 4-6. Exemplo de box-plot para identificação de outliers no Stata.

1.0e+08 outlier 1
outlier 2

outlier3
outlier 4
outlier 5
outlier 6
VPROD

outlier 7
5.0e+07

outlier 8
0

No R, por meio do comando bp1_vp<-boxplot(VP) tem-se:

Para as demais variáveis seria com o comando e Figura 4-7.


bp2_proportions<-boxplot(PCALC,PADUB,PAGROT,PNIVEL,PPRAGA,PROT,horizontal
= TRUE,names = c("PCALC","PADUB","PAGROT","PNIVEL","PPRAGA","PROT"))
Econometria – Prof. Adriano M. R. Figueiredo 84
Figura 4-7. Box-plot das variáveis de proporções de práticas tecnológicas PCALC,
PADUB, PAGROT, PNIVEL, PPRAGA, PROT.

Conforme o box-plot da variável VPROD, excluindo-se os outliers 1 e 2, tem-se a


Figura 4-8.

Figura 4-8. Saída da regressão do valor da produção excluindo-se os outliers 51 e 54, no


Stata.
Econometria – Prof. Adriano M. R. Figueiredo 85

Observando os gráficos dos diagnósticos da regressão podem-se ver os outliers 51 e 54


na Figura 4-9 e os da regressão sem os outliers 51 e 54 na Figura 4-10.

Figura 4-9. Gráficos de diagnósticos da regressão original com R.


Econometria – Prof. Adriano M. R. Figueiredo 86
Figura 4-10. Gráficos de diagnósticos da regressão sem outliers 51 e 54 com R.

Outra opção para investigar outliers é o teste de Bonferroni do pacote ‘car’ do R, em


que tem-se H0: a observação é um outliers. Se o P-value foi menor que 0.10, rejeito H0 e tem-
se um outlier (Figura 4-11)!

Figura 4-11. Comandos e resultados do teste de Bonferroni para outliers.

#teste de Bonferroni para outlier


library(car)
outlierTest(regressao1)
Econometria – Prof. Adriano M. R. Figueiredo 87
Anexo

Fazendo o teste RESET para investigar se existe erro de especificação no EVIEWS:

1) fazer a estimação original a ser testada

2) na janela Equation, entrar em View, Stability Tests, Ramsey Reset Test como na
figura a seguir:

3) na janela RESET Specification, colocar o número de variáveis a serem adicionadas no teste


(número de variáveis dos valores previstos de Y)

Os resultados sairão conforme a tabela a seguir.


Econometria – Prof. Adriano M. R. Figueiredo 88

Ramsey RESET Test


Equation: EQ01
Specification: QSOJA FERTILIZANTE TRATOR MO C
Omitted Variables: Powers of fitted values from 2 to 3

Value df Probability
F-statistic 5.074639 (2, 111) 0.0078
Likelihood ratio 10.23671 2 0.0060

F-test summary:
Mean
Sum of Sq. df Squares
Test SSR 16308.35 2 8154.174
Restricted SSR 194668.5 113 1722.730
Unrestricted SSR 178360.1 111 1606.848

LR test summary:
Value df
Restricted LogL -599.9033 113
Unrestricted LogL -594.7849 111

Unrestricted Test Equation:


Dependent Variable: QSOJA
Method: Least Squares
Date: 04/14/14 Time: 19:55
Sample: 1 117
Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

FERTILIZANTE -5.646893 12.00256 -0.470474 0.6389


TRATOR -291.8208 727.9866 -0.400860 0.6893
MO -1914.940 4501.175 -0.425431 0.6713
C 3168.566 8428.683 0.375927 0.7077
FITTED^2 -0.013941 0.068160 -0.204533 0.8383
FITTED^3 4.07E-06 7.12E-05 0.057110 0.9546

R-squared 0.509921 Mean dependent var 322.2544


Adjusted R-squared 0.487845 S.D. dependent var 56.01272
S.E. of regression 40.08551 Akaike info criterion 10.26983
Sum squared resid 178360.1 Schwarz criterion 10.41148
Log likelihood -594.7849 Hannan-Quinn criter. 10.32734
F-statistic 23.09878 Durbin-Watson stat 0.766155
Prob(F-statistic) 0.000000
Econometria – Prof. Adriano M. R. Figueiredo 89

4.2. Pressuposição 2: O erro aleatório tem média zero

A maior dificuldade é que não existe teste formal para essa pressuposição. É similar a
um erro de especificação do modelo, como por exemplo, com variáveis relevantes omitidas do
modelo. O modelo com uma correta especificação provavelmente não terá problemas com
média dos resíduos não nula.
Normalmente se faz o teste simples de “H0: média igual a zero” para investigar a
violação ou não da pressuposição. Valores elevados para a probabilidade indicarão a aceitação
da hipótese nula e confirmação da pressuposição.

4.2.1. No R

No R, assim como será visto também em outros softwares, faz-se a estimação da


regressão, gera-se a série de resíduos e testa se a média desta série é zero.
Para obter os resíduos, faz-se
#obtendo residuos do modelo
u.hat<-resid(regressao1)
Uma primeira forma é ver os gráficos de diagnósticos já preparados pelo comando
‘lm’ do R e fazendo graficamente os resíduos em função dos valores estimados da variável
dependente (gráfico residual) ou em função dos valores de uma das variáveis independentes.
Ou seja, faz-se o gráfico ‘Residuals x fitted’ com: reg1.plot1<-plot(regressao1, which = 1).
Como exemplo, reproduz-se na Figura 4-12 o gráfico ‘Residuals x fitted’ do exemplo
anterior: reg1.plot1<-plot(regressao1, which = 1).
Figura 4-12 . Gráfico dos resíduos versus valores previstos da variável dependente.
Econometria – Prof. Adriano M. R. Figueiredo 90
Na Figura 4-12, os resultados devem se distribuir aleatoriamente ao longo de uma
‘reta’ com ‘dispersão’ uniforme, ou seja, dentro de alguma ‘banda’ de variação, em torno da
abscissa ‘zero’. Havendo algum padrão tem-se indicação de presença de autocorrelação
residual. Havendo dispersão variável tem-se indicação de presença de heterocedasticidade
residual. Fora da abscissa zero, a média é não nula. A hipótese de teste H0: a média dos
resíduos é zero. O script para R está na Figura 4-13.

Figura 4-13. Script para o teste de média zero dos resíduos no R.

#teste de media zero dos residuos uhat


#obtendo residuos do modelo
u.hat_reg2<-resid(regressao2)
t.test(u.hat_reg2)

4.2.2. No Stata

Procedendo pelo Stata, é só gerar a série de resíduos pelo comando ‘predict’, e depois
proceder o teste de hipótese simples.
Econometria – Prof. Adriano M. R. Figueiredo 91

. ttest residuos == 0

One-sample t test

Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

residuos 117 -6.88e-08 3.787267 40.96555 -7.501159 7.501159

mean = mean(residuos) t = -0.0000


Ho: mean = 0 degrees of freedom = 116

Ha: mean < 0 Ha: mean != 0 Ha: mean > 0


Pr(T < t) = 0.5000 Pr(|T| > |t|) = 1.0000 Pr(T > t) = 0.5000

Olhando os resultados para a hipótese Ho: mean = 0, tem-se logo abaixo três
possibilidades de hipótese alternativa: unicaudal à direita, à esquerda e bicaudal.
Para Ha: mean < 0, a probabilidade de 0.5 indica pela não rejeição de Ho. Da mesma
forma tem-se para Ha: mean > 0, com probabilidade de 0.5. Para o caso bicaudal, a indicação
de Ha: mean != 0 indica o mesmo que Ha: mean ≠ 0, ou seja, pode ser maior ou menor que 0.
Econometria – Prof. Adriano M. R. Figueiredo 92
Neste caso a probabilidade de 1.0 indica pela não rejeição de Ho, e a média pode ser
considerada como zero.

4.2.3. Eviews

No caso do Eviews, também se gera a série dos resíduos e se faz o teste de média igual
a zero.
Econometria – Prof. Adriano M. R. Figueiredo 93
Tabela dos resíduos

observação observado previsto resíduos


obs Actual Fitted Residual
1971Q3 11484.0 10943.9 540.083
1971Q4 9348.00 9417.85 -69.8452
1972Q1 8429.00 9502.75 -1073.75
1972Q2 10079.0 9184.43 894.568
1972Q3 9240.00 8884.84 355.164
1972Q4 8862.00 9288.01 -426.006
1973Q1 6216.00 7311.47 -1095.47
1973Q2 8253.00 7595.20 657.800
1973Q3 8038.00 8297.50 -259.501
1973Q4 7476.00 7559.49 -83.4900
1974Q1 5911.00 5955.55 -44.5506
1974Q2 7950.00 6004.86 1945.14
1974Q3 6134.00 6802.14 -668.142
1974Q4 5868.00 6544.46 -676.458
1975Q1 3160.00 3992.40 -832.395
1975Q2 5872.00 5035.14 836.855
Econometria – Prof. Adriano M. R. Figueiredo 94
Na janela do Workfile, na serie “Resid”, é possível fazer o teste t para a média dos
erros igual a zero:

Na janela View da Series: Resid, escolher a opção “Tests for Description Stats”,
Simple Hypothesis Tests:

A janela do “simple Hypothesis tests” permitirá especificar se a média é igual a zero,


especificando zero e teclando ok:
Econometria – Prof. Adriano M. R. Figueiredo 95

Hypothesis Testing for RESID


Date: 03/16/06 Time: 17:12
Sample: 1971Q3 1975Q2
Included observations: 16
Test of Hypothesis: Mean = 0.000000

Sample Mean = -4.16e-16


Sample Std. Dev. = 0.144606
Method Value Probability
t-statistic -1.15E-14 1.0000

Como o valor da probabilidade implica na aceitação da hipótese nula, ou seja,


H0: média = 0.
Econometria – Prof. Adriano M. R. Figueiredo 96

4.3. Pressuposição 5: O erro tem distribuição normal, com


média zero e variância constante:

O teste para detecção mais usual é o Bera-Jarque, ou teste BJ, o qual testa a simetria e
a curtose da distribuição dos resíduos em relação à curva normal.
A curtose está associada ao achatamento da distribuição, quanto mais chata menor o
valor da curtose (K). Exemplo: K>3 (distribuição mais “em pé”), K<3 (distribuição mais
“chata”).
A curtose (em inglês kurtosis) é definida pela expressão:
4
1  Yi  Y 
t 1 Var
N
K
N   

A simetria (do inglês skewness) é dada pela expressão:


3
1  Yi  Y 
t 1 Var
N
S
N  
N 1
ˆ 2  Var   ŝ

N
A estatística do teste BJ será:

BJ 
1
6

n  p  S 2  1
4
K  32  ~  2gl 2
Se rejeitar ‘H0: erros normais’, ou seja, p-value menor que 10%, 5% ou 1% de
significância, tenho que descobrir qual é a distribuição real dos resíduos e fazer nova dedução
do estimador dos parâmetros.
Em geral, para amostras grandes, aplica-se o Teorema do Limite Central
argumentando que no limite tem-se a normalidade da distribuição dos resíduos.

4.3.1. Roteiro para testar normalidade no R:

Seja o projeto ‘dummies.Rproj’ e o script ‘dummies e outliers.R’. Neste caso tem-se


59 observações dos setores censitários de Sinop-MT, o mesmo dataset utilizado para
investigar os outliers. O script apresenta o teste de normalidade por meio do gráfico QQPlot,
Econometria – Prof. Adriano M. R. Figueiredo 97
seguido do teste de Jarque-Bera e por testes alternativos variados. Vários pacotes podem ser
utilizados em diferentes casos: car, tseries, moments, nortest, stats.
Existem dois tipos de gráficos de probabilidade normal: 1º tipo: representa a
probabilidade acumulada que seria de esperar se a distribuição fosse normal, em função da
probabilidade observada acumulada dos erros (Normal P-P Plot); 2º tipo: representa o quantil
de probabilidade esperado se a distribuição fosse normal em função dos resíduos (Normal Q-
Q Plot).

## normalidade dos residuos no R


qqPlot(regressao2)
#teste de jarque-bera para normalidade
JB.reg2<-jarque.bera.test(u.hat_reg2)
JB.reg2
library(moments)
JB_reg1<-jarque.test(u.hat)
JB_reg2<-jarque.test(u.hat_reg2)
JB_reg1
JB_reg2

Pelo pacote tseries, o Jarque-Bera será:

#teste de normalidade dos residuos da regressao 1


library(tseries)
Econometria – Prof. Adriano M. R. Figueiredo 98
jarque.bera.test(u.hat)

Alternativa: pacote “moments” usando o jarque.test(u.hat) para H0: resíduos normais:

Outros testes são aqui apresentados: Kolmogorov-Smirnov (KS), Lilliefors, Cramér-


von Mises, Shapiro-Wilk, Shapiro-Francia, Anderson-Darling.
Econometria – Prof. Adriano M. R. Figueiredo 99

#outros testes
### Testes de normalidade
# Pacote com alguns testes
library(nortest)
# Testes
t1.2 <- ks.test(u.hat_reg2, "pnorm") # KS
t2.2 <- lillie.test(u.hat_reg2) # Lilliefors
t3.2 <- cvm.test(u.hat_reg2) # Cramér-von Mises
t4.2 <- shapiro.test(u.hat_reg2) # Shapiro-Wilk
t5.2 <- sf.test(u.hat_reg2) # Shapiro-Francia
t6.2 <- ad.test(u.hat_reg2) # Anderson-Darling
# Tabela de resultados
testes <- c(t1.2$method, t2.2$method, t3.2$method, t4.2$method, t5.2$method,
t6.2$method)
estt <- as.numeric(c(t1.2$statistic, t2.2$statistic, t3.2$statistic,
t4.2$statistic, t5.2$statistic, t6.2$statistic))
valorp <- c(t1.2$p.value, t2.2$p.value, t3.2$p.value, t4.2$p.value, t5.2$p.value,
t6.2$p.value)
resultados <- cbind(estt, valorp)
rownames(resultados) <- testes
colnames(resultados) <- c("Estatística", "p")
print(resultados, digits = 4)

#agora para a regressao 1


# Testes
t1.1 <- ks.test(u.hat, "pnorm") # KS
t2.1 <- lillie.test(u.hat) # Lilliefors
t3.1 <- cvm.test(u.hat) # Cramér-von Mises
t4.1 <- shapiro.test(u.hat) # Shapiro-Wilk
t5.1 <- sf.test(u.hat) # Shapiro-Francia
t6.1 <- ad.test(u.hat) # Anderson-Darling
# Tabela de resultados
testes <- c(t1.1$method, t2.1$method, t3.1$method, t4.1$method, t5.1$method,
t6.1$method)
estt <- as.numeric(c(t1.1$statistic, t2.1$statistic, t3.1$statistic,
t4.1$statistic, t5.1$statistic, t6.1$statistic))
valorp <- c(t1.1$p.value, t2.1$p.value, t3.1$p.value, t4.1$p.value, t5.1$p.value,
t6.1$p.value)
resultados <- cbind(estt, valorp)
rownames(resultados) <- testes
colnames(resultados) <- c("Estatística", "p")
print(resultados, digits = 4)

O resultado do script será, para a regressão 1 contendo todas as observações, inclusive


os outliers 51 e 54, a tabela:
Econometria – Prof. Adriano M. R. Figueiredo 100

4.3.2. Roteiro para testar normalidade no Stata:


1) Estimar a regressão
2) Gerar os resíduos pelo comando predict
. predict residuos, residuals
3) Usar o sktest, que faz um teste de skewness e kurtosis pelo Stata
. sktest residuos

Skewness/Kurtosis tests for Normality


joint
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2

residuos 117 0.0016 0.0344 12.12 0.0023

O que o resultado do sktest do Stata nos traz é um valor de probabilidade associada a


Skewness e outro a Kurtosis, e ainda a proposta do Jarque-Bera é um tipo de teste de
Portmanteau conjunto de Skewness e Kurtosis, reportado pela estatística chi2 ajustada, e seu
respectivo valor da probabilidade. Neste caso, a indicação menor que 1% é de rejeição de
“H0: os erros são normais”, e aceitação de Ha: os erros não são normais. Outros testes podem
ser observados, assim como o histograma dos resíduos para investigar a normalidade com
maior precisão.
Econometria – Prof. Adriano M. R. Figueiredo 101

4.3.3. Roteiro para testar normalidade no Eviews:


1) estimar a regressão
2) no menu “equation”, acionar View/Residual Tests/histogram
3) a análise fornece o histograma com uma tabela de estatísticas
descritivas da serie de resíduos, contendo o skewness (simetria) e a
kurtosis (curtose). Se K for próximo de 3, então é próxima da normal.

Exemplo 1: se K=2,95 e χ2tab = 1,76 e o p-value=0,41, para H0: erro normal, então p-
value maior que 0,10 indica a aceitação de H0, ou seja, os erros são normais.
Exemplo 2:
Ex12_22, Gujarati (p.447):
Std. Dev = 0,085542
Skewness = 0,047155
Kurtosis = 2,367936
BJ = 0,47 e p-value = 0,78 => aceita H0: erros normais

Erros Normais: Equation/View/Residual Tests/Histogram – Normality Test


Econometria – Prof. Adriano M. R. Figueiredo 102

Probabilidade igual a 0,788 ou 78,8%, maior que 10%, logo não se rejeita a hipótese H0 de
que não há erro de distribuição.
Econometria – Prof. Adriano M. R. Figueiredo 103

4.4. Pressuposição 3: O erro aleatório tem variância


constante (presença de homocedasticidade)

A presença de heterocedasticidade não gera viés ou tendenciosidade nos parâmetros


angulares. Entretanto, os parâmetros de M.Q.O. não serão os mais eficientes (pois o M.Q. O.
superestimará o verdadeiro erro-padrão e presença de heterocedasticidade) e a estimação
deverá ser feita por Mínimos Quadrados Generalizados (M.Q.G.), que consiste em um
M.Q.O. para variáveis transformadas que satisfazem as hipóteses usuais de mínimos
quadrados. A mecânica passa pela divisão de todas as variáveis, por exemplo, pelo respectivo
desvio-padrão do resíduo, ou caso o desconheça, pela variável explicativa correlacionada ao
resíduo.
Procede-se da seguinte forma. Primeiro realiza-se o teste de Glejser, que entre outros
como o de Goldfeld-Quandt, apresenta-se mais eficiente e auxilia na implementação da
correção do problema. Esse teste permite que se indique a exata relação existente entre a
variável X e os resíduos (Diaz, 2000)8.
Passos:
1. estimar o modelo inicial: Y = Xβ + ε
2. com os resíduos de 1, estimar as regressões auxiliares:
a. |ei| = α0 + α1Xi
b. |ei| = α0 + α1Xi2
c. |ei| = α0 + α1(1/Xi)
d. |ei| = α0 + α1(√Xi)
e. |ei| = α0 + α1Xih
em que h denota uma potência.
Se o α1 for diferente de zero em alguma das regressões auxiliares (pelo teste usual de
t), então rejeita-se a hipótese nula de que não há heterocedasticidade. Portanto, existe
heterocedasticidade. Caso todas as regressões tenham α1= 0, então não existe
heterocedasticidade.

8
DIAZ, M.D.M. Problemas econométricos no modelo linear geral. In: VASCONCELLOS, M.A.S.; ALVES, D.
(Coords.) Manual de econometria. São Paulo:Atlas, 2000. p.105-137.
Econometria – Prof. Adriano M. R. Figueiredo 104
Este problema de presença de heterocedasticidade também pode ser detectado por
meio de análise gráfica. Pode-se estimar a função e fazer o gráfico dos resíduos ao longo da
amostra:
ei x Xi
ei x Yi ou Yi,estimado
Conhecido o resultado do teste de Glejser, utiliza-se a variável da regressão auxiliar
que acusou o problema para ponderar as variáveis, transformando-as, e procedendo a
estimação de M.Q.G., ou seja, M.Q.O. nas variáveis transformadas.
A estimação por M.Q.G. será para o modelo:
P.Y = PXβ + Pε
e o vetor de parâmetros estimados será
β = (X´P´PX)-1X´P´PY
que é o mesmo que estimar o M.Q.O. para Y* = X*β + ε*.
Os resíduos podem ser obtidos no Eviews fazendo, na janela de uma equação,
Procs/make residual series. O programa pergunta o nome da série a conter os resíduos e uma
vez feito isso é só especificar a série como variável.
O método como descrito acima é uma alternativa apresentada em vários livros de
econometria, mas como a transformação fazendo Y/Xi pode gerar uma correlação espúria,
indicando uma correlação entre Y/X que na realidade não ocorreria entre Y e X caso não
fosse feita a transformação, sugere-se então os testes de White e de Breusch-Pagan-Godfrey e
a correção de White9.

4.4.1. Teste de White de Heterocedasticidade dos resíduos


Por exemplo, para uma regressão da forma
𝑌 =𝛽 + 𝛽𝑋 + 𝛽𝑋 + 𝜀
o teste de White é implementado manualmente da seguinte forma:
a) estima-se a regressão inicial e obtêm-se os resíduos ei;
b) faz-se uma regressão auxiliar do tipo
𝑒 = 𝛼 + 𝛼 𝑋 +𝛼 𝑋 +𝛼 𝑋 + 𝛼 𝑋 + 𝛼 𝑋 𝑋 + 𝜐

9
WHITE, Halbert. A Heteroskedasticity-Consistent Covariance Matrix and a Direct Test for Heteroskedasticity.
Econometrica, 48, 817–838. 1980.
Econometria – Prof. Adriano M. R. Figueiredo 105
ou seja, o quadrado dos resíduos estimados como função das variáveis explicativas,
dos quadrados das variáveis explicativas e do produto cruzado das variáveis explicativas.
Deve-se incluir o termo do intercepto (α1) mesmo que na regressão original não o tenha.
c) Analisa-se o R2 da regressão auxiliar multiplicado pelo tamanho da amostra (n)
comparando com o valor da tabela qui-quadrado para graus de liberdade iguais ao número
total de regressores da equação auxiliar. No nosso exemplo,
n. R2 ~ χ2 com gl = 5 (X2i, X3i , X2i2, X3i2 , X2i.X3i)
Se n.R2 > χ2 tabelado, então existe heterocedasticidade.
Se n.R2 < χ2 tabelado, então α2 = α3 = α4 = α5 = α6 = 0 , e não existe
heterocedasticidade.
Deve-se tomar cuidado com este teste, pois ele prevê a inclusão de termos adicionais
que, em presença de muitas variáveis X, poderá comprometer o modelo com relação aos seus
graus de liberdade.

4.4.2. Teste de Heterocedasticidade dos Resíduos de White, R:

O teste de White, fazendo os passos como indicado acima, pode ser feito pelos
comandos.
#teste de White
m <- regressao1
data <- dados
#rotina do teste com base em m e data
u2 <- m$residuals^2
reg.auxiliar <- lm(u2 ~ I(FERTILIZANTE^2)+I(TRATOR^2)+I(MO^2)) #sem termos cruzados, no cross-terms
summary(reg.auxiliar)
Ru2<- summary(reg.auxiliar)$r.squared
LM <- nrow(data)*Ru2
#obtendo o numero de regressores menos o intercepto
k <- length(coefficients(reg.auxiliar))-1
k
p.value <- 1-pchisq(LM, k) # O TESTE TEM k TERMOS REGRESSORES EM reg.auxiliar
#c("LM","p.value")
c(LM, p.value)
# white com termos cruzados - com cross-terms
reg.auxiliar <- lm(u2 ~
FERTILIZANTE+I(FERTILIZANTE*FERTILIZANTE)+I(FERTILIZANTE*TRATOR)+I(FERTILIZANTE*
MO)+TRATOR+I(TRATOR*TRATOR)+I(TRATOR*MO)+MO+I(MO*MO))
summary(reg.auxiliar)
Ru2<- summary(reg.auxiliar)$r.squared
LM <- nrow(data)*Ru2
#obtendo o numero de regressores menos o intercepto
k <- length(coefficients(reg.auxiliar))-1
k
p.value <- 1-pchisq(LM, k) # O TESTE TEM k TERMOS REGRESSORES EM reg.auxiliar
c(LM, p.value)
Econometria – Prof. Adriano M. R. Figueiredo 106

Os passos e a estimação do script anterior produz os resultados como a seguir. O p-


value menor que 1% indica a rejeição de “H0: resíduos homocedásticos” e o modelo deverá
ser corrigido para a matriz de variância-covariância consistente com a heterocedasticidade.

A correção da estimação, em caso de rejeição de “H0:erros homocedásticos”, ou seja,


p-value inferior ao nível de significância adotado (10%, 5% ou 1%), então procede-se o MQP.
No pacote ‘car’, tem-se a função hccm que corrige a matriz de variância-covariância dos
modelos lineares sem ponderação, por meio das matrizes chamadas de matrizes de White.
Existem várias alternativas denotadas por: "hc0", "hc1", "hc2", "hc3", ou "hc4". A notação é
hccm(model, type=c("hc3", "hc0", "hc1", "hc2", "hc4"), ...):
 “hc0”: matriz clássica de correção de White
 "hc1", "hc2" e "hc3": matrizes de correção conforme Long e Ervin (2000);
 "hc4": matriz de correção conforme Cribari-Neto (2004).
A correção clássica de White para a matriz de var-cov dos coeficientes ("hc0") é:

V(beta) = inv(X'X) X' diag(e^2) X inv(X'X)

em que e^2 são os resíduos ao quadrado, e X é a matriz do modelo. Os demais métodos são
ajustamentos desta fórmula para a matriz de var-cov dos resíduos, denotada por  . Conforme
Zeileis (2006), na instrução do pacote sandwich, tem-se as expressões de  para as diferentes
especificações do modelo e alternativas de HC (heterocedasticidade corrigida):
Econometria – Prof. Adriano M. R. Figueiredo 107

para hi = Hii como os elementos diagonais da matriz estimada, h é sua média e


δi = min{4, hi/ h }.

A opção que retorna os mesmos resultados que o “padrão” de correção e White no


Stata e Eviews é a “hc1”. Ver exemplo para ‘soja.R’ em ‘soja_apostila.Rproj’:

#regressao1<-lm(QSOJA~FERTILIZANTE+TRATOR+MO)
#library(car)
#possibilidades: hccm(regressao1,type=c("hc0","hc1","hc2","hc3","hc4"))
vcov.white0<-hccm(regressao1,type=c("hc1"))
#para obtener los resultados de las pruebas que hicimos aplicamos el siguiente comando
coeftest(regressao1,vcov.white0)

Outra possibilidade inclue o pacote ‘sandwich’ com notação parecida e mesmos


resultados. Ainda no pacote ‘MASS’ tem alternativas interessantes para o MQ Generalizado
com a função glm.
Econometria – Prof. Adriano M. R. Figueiredo 108

4.4.3. Teste de Heterocedasticidade dos Resíduos de White,


Eviews:

A correção do modelo neste caso pode ser feita utilizando os estimadores de matrizes
de covariâncias heterocedástico-consistentes de White, que podem ser obtidos rapidamente
pelo software Eviews.
A operacionalização no Eviews é bastante simples. Primeiro o estudante deve estimar
o modelo e, na janela da equação estimada, selecionar View/Residual Tests e depois clicar em
White Heteroskedasticity (no cross terms ou cross terms). A diferença das duas opções é que
na primeira não inclui termos multiplicativos das variáveis Xi.Xj. Na primeira opção, se
economizam graus de liberdade mas representa uma distorção do teste original. Na segunda
opção, no rigor científico, incluem-se termos cruzados e, em presença de muitos regressores,
pode causar problemas de reduzidos graus de liberdade.
Sugere-se utilizar a primeira opção quando tiver mais de 5 regressores Xi, e a segunda
quando tiver menos de 5, pois com os termos cruzados, ocorreria uma inclusão de mais outros
5 termos.
Para a mesma regressão do Quadro 4.1, mostram-se os resultados do teste de White
para termos cruzados e sem termos cruzados na Tabela 4.1. Procure distinguir as diferenças
nos resultados. A hipótese nula do teste é que não há heterocedasticidade, ou seja, de que os
erros são homocedásticos e independentes dos regressores, e que a especificação do modelo é
correta. Assim, é desejável ter a aceitação da hipótese nula, com probabilidade acima de 10%,
e baixo valor de n.R2.
Tabela 4-2. Teste de White – no cross terms, no Eviews.
White Heteroskedasticity Test:
F-statistic 2.956033 Probability 0.010300
Obs*R-squared 16.24547 Probability 0.012495
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Sample: 1988:09 1998:05
Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
C 9515.997 6550.445 1.452725 0.1491
FERTILIZANTE -810.4509 551.7908 -1.468765 0.1448
FERTILIZANTE^2 18.85117 15.37210 1.226324 0.2227
TRATOR -2061.748 2106.302 -0.978848 0.3298
TRATOR^2 245.7209 236.7449 1.037914 0.3016
MO 76907.49 29850.12 2.576455 0.0113
MO^2 -230942.8 103719.0 -2.226620 0.0280
R-squared 0.138850 Mean dependent var 1663.833
Adjusted R-squared 0.091878 S.D. dependent var 2943.689
Econometria – Prof. Adriano M. R. Figueiredo 109
S.E. of regression 2805.201 Akaike info criterion 18.77430
Sum squared resid 8.66E+08 Schwarz criterion 18.93956
Log likelihood -1091.297 F-statistic 2.956033
Durbin-Watson stat 1.307013 Prob(F-statistic) 0.010300

Tabela 4-3. Teste de White – cross terms, no Eviews.


White Heteroskedasticity Test:
F-statistic 4.638220 Probability 0.000034
Obs*R-squared 32.83525 Probability 0.000143

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/06/03 Time: 18:01
Sample: 1988:09 1998:05
Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
C -20557.49 9888.589 -2.078910 0.0400
FERTILIZANTE 445.3517 600.7180 0.741366 0.4601
FERTILIZANTE^2 25.26911 15.80557 1.598748 0.1128
FERTILIZANTE*TRA -120.1672 87.69892 -1.370224 0.1735
TOR
FERTILIZANTE*MO -13077.63 3137.312 -4.168419 0.0001
TRATOR 864.9398 3116.365 0.277548 0.7819
TRATOR^2 309.3549 253.6114 1.219799 0.2252
TRATOR*MO -22449.97 12081.31 -1.858240 0.0659
MO 426444.0 90390.39 4.717802 0.0000
MO^2 -365960.5 130236.2 -2.809975 0.0059
R-squared 0.280643 Mean dependent var 1663.833
Adjusted R-squared 0.220136 S.D. dependent var 2943.689
S.E. of regression 2599.568 Akaike info criterion 18.64567
Sum squared resid 7.23E+08 Schwarz criterion 18.88176
Log likelihood -1080.772 F-statistic 4.638220
Durbin-Watson stat 1.549746 Prob(F-statistic) 0.000034

4.4.4. Teste de Heterocedasticidade dos Resíduos de White,


Stata:

A utilização do Stata para o teste de White pode ser realizada fazendo a regressão por
meio do comando fit e depois utilizando o pacote <white.ado>. Observe que este pacote
requer o prévio uso do fit ao invés do regress (Quadro 4.10).
Outra opção é usar o pacote <whitetst.pkg>, que faz o teste de White após o regress
(Quadro 4.11).
Econometria – Prof. Adriano M. R. Figueiredo 110
Quadro 4.16. exemplo de teste de White de heterocedasticidade com o Stata.
. fit qsoja fertilizante trator mo

Source SS df MS Number of obs = 117


F( 3, 113) = 32.75
Model 169272.79 3 56424.2634 Prob > F = 0.0000
Residual 194668.491 113 1722.73001 R-squared = 0.4651
Adj R-squared = 0.4509
Total 363941.281 116 3137.42483 Root MSE = 41.506

qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]

fertilizante -.5535435 1.058904 -0.52 0.602 -2.651424 1.544337


trator -33.68994 3.741035 -9.01 0.000 -41.1016 -26.27827
mo -209.1407 107.8926 -1.94 0.055 -422.8955 4.614037
_cons 494.9657 25.57225 19.36 0.000 444.3025 545.629

. white
White's test for Ho: homoscedasticity
against Ha: unrestricted heteroscedasticity

test statistic W = 32.83525


Pr(chi2(8) > W) = 0.0001

Quadro 4.17. Exemplo com Teste de White de heterocedasticidade no Stata.


. whitetst

White's general test statistic : 32.83525 Chi-sq( 9) P-value = 1.4e-04

Caso o pesquisador deseje ver a equação de teste de White, deverá gerar os resíduos e
estimar o modelo contendo as variáveis e os termos cruzados, o que pode ser feito pelos
comandos do Stata (Quadro 4.12):
. regress qsoja fertilizante trator mo
. predict res, residuals
. gen res2=res*res
. regress res2 fertilizante c.fertilizante#c.fertilizante c.fertilizante#c.trator c.fertilizante#c.mo
trator c.trator#c.trator c.trator#c.mo mo c.mo#c.mo
Econometria – Prof. Adriano M. R. Figueiredo 111
Quadro 4.18. Saída da regressão da equação de teste de White no Stata.
Source SS df MS Number of obs = 117
F( 9, 107) = 4.64
Model 282095629 9 31343958.8 Prob > F = 0.0000
Residual 723079870 107 6757755.79 R-squared = 0.2806
Adj R-squared = 0.2201
Total 1.0052e+09 116 8665306.02 Root MSE = 2599.6

res2 Coef. Std. Err. t P>|t| [95% Conf. Interval]

fertilizante 445.352 600.718 0.74 0.460 -745.5014 1636.205

c.fertilizante#c.fertilizante 25.2691 15.80557 1.60 0.113 -6.063589 56.60179

c.fertilizante#c.trator -120.1671 87.69892 -1.37 0.173 -294.02 53.68573

c.fertilizante#c.mo -13077.63 3137.312 -4.17 0.000 -19296.99 -6858.278

trator 864.939 3116.365 0.28 0.782 -5312.892 7042.77

c.trator#c.trator 309.3548 253.6114 1.22 0.225 -193.4001 812.1098

c.trator#c.mo -22449.97 12081.31 -1.86 0.066 -46399.76 1499.82

mo 426444 90390.39 4.72 0.000 247255.6 605632.4

c.mo#c.mo -365960.4 130236.2 -2.81 0.006 -624138.6 -107782.3

_cons -20557.49 9888.589 -2.08 0.040 -40160.47 -954.5196

Observe que no exemplo dado, existem indícios de que há heterocedasticidade.


Sabendo anteriormente que ocorre erro de especificação e que os dados originais são de série
temporal, conclui-se pela existência de erro de especificação, mas deve-se analisar com maior
detalhe a questão da homocedasticidade, pois esta geralmente não ocorre em séries temporais,
mas sim em seção cruzada. Talvez o resultado do teste possa estar mais ligado à dependência
dos resultados em relação aos regressores.
No caso do Stata, a correção de heterocedasticidade se dá por meio da escolha da
opção de erros robustos (vce(r)) (Quadro 4.13).
Econometria – Prof. Adriano M. R. Figueiredo 112
Quadro 4.19. Saída da regressão com erros robustos para corrigir heterocedasticidade
no Stata, White clássico.
. regress qsoja fertilizante trator mo, vce(r)

Linear regression Number of obs = 117


F( 3, 113) = 33.94
Prob > F = 0.0000
R-squared = 0.4651
Root MSE = 41.506

Robust
qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]

fertilizante -.5535435 1.272433 -0.44 0.664 -3.074463 1.967376


trator -33.68994 3.794883 -8.88 0.000 -41.20829 -26.17159
mo -209.1407 115.177 -1.82 0.072 -437.3271 19.0456
_cons 494.9657 26.4601 18.71 0.000 442.5435 547.388

Num outro exemplo, com os dados de Gujarati (2000:p.388), para gastos com P&D
em relação as vendas, obteve-se o teste de White com cross terms e os resultados a seguir.
Primeiro apresenta-se os resultados da estimação sem a correção para heterocedasticidade,
faz-se o teste de White e depois se re-estima o modelo com a correção de White (Tabelas 4.3
e 4.4 no Eviews).
Econometria – Prof. Adriano M. R. Figueiredo 113
Tabela 4-4. Resultados da estimação inicial para o exemplo de Gujarati, p.388, 4ed.no
Eviews.
Dependent Variable: RD
Method: Least Squares
Date: 06/06/03 Time: 18:38
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.008329 3.830033 0.0015
C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Tabela 4-5. Saída do Teste de White para o exemplo de Gujarati, p.388, 4ed. Eviews.
White Heteroskedasticity Test:
F-statistic 3.057178 Probability 0.076975
Obs*R-squared 5.212492 Probability 0.073811

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/06/03 Time: 18:32
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509
SALES 229.3508 126.2197 1.817077 0.0892
SALES^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046.
Adjusted R-squared 0.194861 S.D. dependent var 14706011
S.E. of regression 13195639 Akaike info criterion 35.77968
Sum squared resid 2.61E+15 Schwarz criterion 35.92808
Log likelihood -319.0171 F-statistic 3.057178
Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975

Neste caso, com os dados em seção cruzada (indústrias dos EUA), não foi possível
deixar de rejeitar a hipótese nula de homocedasticidade ao nível de 10% de significância,
como observado pelo valor da probabilidade de Obs*R-squared = 0,073811, menor que 0,10.
Existe problema de heterocedasticidade nos resíduos.
Mostram-se agora os resultados com a correção de White, obtidos no Eviews fazendo
alteração na janela da estimação, clicando em Options e selecionando a caixa
heteroskedasticity, e clicando em White. Os resultados são como na Tabela 4-6.
Econometria – Prof. Adriano M. R. Figueiredo 114

Tabela 4-6. Resultados da estimação com a correção de White para heterocedasticidade.


Dependent Variable: RD
Method: Least Squares
Date: 06/06/03 Time: 18:42
Sample: 1 18
Included observations: 18
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.010147 3.143815 0.0063
C 192.9931 533.9317 0.361457 0.7225
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Observe que agora na saída do Eviews, indica-se que foi utilizada a opção White
Heteroskedasticity-Consistent Standard Errors & Covariance, e pode-se comparar os
resultados com os da Tabela 4.3, sem essa opção de White. De modo geral, nesse exemplo, os
erros-padrões estavam subestimados. Pode-se observar que o modelo com heterocedasticidade
apresenta viés nos erros padrões, podendo ser negativo ou positivo, dependendo do estudo.
Quanto aos parâmetros, não ocorrem alterações.
Após a correção de White não cabe mais a nova realização do teste, pois os resultados
já foram obtidos com os resíduos alterados pelo critério de White.

4.4.5. Teste de Breusch-Pagan-Godfrey de heterocedasticidade


dos resíduos (Wooldridge, p.257):

Neste caso, seguem-se os passos:


1. Estima por MQO e obtém resíduos;
2. Obtém a variância dos resíduos (Var(û));
3. Constrói variáveis p = û²/Var(û);
4. Faz regressão auxiliar de p contra variáveis Z, em que podem ser alguns ou todos os X
como parte de Z
5. Obtém a soma dos quadrados da regressão, faz a divisão pela metade e compara com
distribuição qui-quadrado;
Econometria – Prof. Adriano M. R. Figueiredo 115

a. Se a probabilidade de LM = SQReg/(2 ̂ )
4
(Scaled explained Sum of
Squares) < 0.10, (10%), rejeita-se H0 e existirá heterocedasticidade;
b. H0: não tem heterocedasticidade dos resíduos.

6. Outra estatística é a LM (BP): LM  n.Ruˆ 2


2

a. Equivale a opção Obs*R-squared do Eviews.

4.4.5.1. Teste de Breusch-Pagan-Godfrey no R:

No R, diferentes pacotes podem ser utilizados com a finalidade de fazer o teste de


BPG, ou às vezes chamado apenas de BP Test. São eles: library (AER) ou library(lmtest). Por
padrão, o teste é feito com resíduos padronizados na forma de Student, ou ‘Studentizados’,
assim como no EViews (seção 4.4.2.3) (Observar que no Stata o padrão do hettest é sem
studentizar. A alternativa equivalente seria pelo hettest com n.R², conforme demonstrado na
seção 4.4.2.2.). Fazendo para o exemplo de Quantidade de soja em função de fertilizante,
trator e Mão-de-obra, como feito para o teste RESET na seção 4.1.1.1.

regressao1<-lm(QSOJA~FERTILIZANTE+TRATOR+MO)
library(AER)
## teste de Breusch-Pagan - bptest simples
bp.het<-bptest(regressao1, studentize = TRUE)

Pelo pacote lmtest o resultado será o mesmo.


Econometria – Prof. Adriano M. R. Figueiredo 116
Para H0: erros são homocedásticos, o resultado de p-value inferior a 5% de
significância leva, neste exemplo, à rejeição da hipótese nula. Deve-se então corrigir o
modelo fazendo o MQP (mínimos quadrados ponderados).

4.4.5.2. Teste de Breusch-Pagan-Godfrey no Stata:

. estat hettest fertilizante trator mo

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity


Ho: Constant variance
Variables: fertilizante trator mo

chi2(3) = 15.65
Prob > chi2 = 0.0013

Portanto, rejeita-se H0 a 1% de significância e o modelo deve ser corrigido para


heterocedasticidade.
Econometria – Prof. Adriano M. R. Figueiredo 117

Outra opção para a seleção de N.R²:

. estat hettest fertilizante trator mo, iid rhs

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity


Ho: Constant variance
Variables: fertilizante trator mo

chi2(3) = 10.09
Prob > chi2 = 0.0178

Portanto, rejeita-se H0 a 5% de significância e o modelo deve ser corrigido para


heterocedasticidade.

4.4.5.3. Heteroskedasticity Test: Breusch-Pagan-Godfrey ,


no Eviews:

Heteroskedasticity Test: Breusch-Pagan-Godfrey

F-statistic 3.553806 Prob. F(3,113) 0.0167


Obs*R-squared 10.08711 Prob. Chi-Square(3) 0.0178
Scaled explained SS 14.60018 Prob. Chi-Square(3) 0.0022

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 04/21/14 Time: 16:20
Sample: 1 117
Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

C 4383.140 1756.565 2.495291 0.0140


Econometria – Prof. Adriano M. R. Figueiredo 118
FERTILIZANTE -160.9674 72.73642 -2.213023 0.0289
TRATOR -141.4600 256.9727 -0.550487 0.5831
MO 10457.94 7411.174 1.411104 0.1610

R-squared 0.086215 Mean dependent var 1663.833


Adjusted R-squared 0.061955 S.D. dependent var 2943.689
S.E. of regression 2851.043 Akaike info criterion 18.78235
Sum squared resid 9.19E+08 Schwarz criterion 18.87678
Log likelihood -1094.767 Hannan-Quinn criter. 18.82069
F-statistic 3.553806 Durbin-Watson stat 1.239674
Prob(F-statistic) 0.016689

Portanto, rejeita-se H0 a 5% de significância e o modelo deve ser corrigido para


heterocedasticidade.
Econometria – Prof. Adriano M. R. Figueiredo 119

4.4.5.4. Anexo: Roteiro para estimação de outros testes no


Eviews – Heterocedasticidade

Gujarati, Tabela 11.5 (Table11-5.wf1), p. 388 – Teste de Glejser

1. Estimar modelo normalmente:

Descrição do modelo estimado – representação da equação:


Estimation Command:
=====================
LS (PD) (VENDAS) C
Estimation Equation:
=====================
PD = C(1)*VENDAS + C(2)
Substituted Coefficients:
=====================
PD = 0.03190033243*VENDAS + 192.9931098

Dependent Variable: PD
Method: Least Squares
Date: 03/04/05 Time: 16:00
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.031900 0.008329 3.830033 0.0015
C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Gerar séries de resíduos em Procs/Make residual series:


Econometria – Prof. Adriano M. R. Figueiredo 120

Fazer série de resíduos absolutos: me=@abs(e)


Econometria – Prof. Adriano M. R. Figueiredo 121
Estimar “me” em função de Vendas: ou seja, módulo dos resíduos em função de vendas:

Dependent Variable: ME
Method: Least Squares
Date: 03/04/05 Time: 18:18
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.011939 0.005704 2.093059 0.0526
C 578.5710 678.6950 0.852476 0.4065
R-squared 0.214951 Mean dependent var 1650.432
Adjusted R-squared 0.165886 S.D. dependent var 2069.046
S.E. of regression 1889.657 Akaike info criterion 18.03062
Sum squared resid 57132868 Schwarz criterion 18.12955
Log likelihood -160.2756 F-statistic 4.380896
Durbin-Watson stat 1.743294 Prob(F-statistic) 0.052633
Econometria – Prof. Adriano M. R. Figueiredo 122
Me em função da raiz de vendas:

Dependent Variable: ME
Method: Least Squares
Date: 03/04/05 Time: 18:18
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SQR(VENDAS) 7.971957 3.363146 2.370387 0.0307
C -507.0202 1007.684 -0.503154 0.6217
R-squared 0.259901 Mean dependent var 1650.432
Adjusted R-squared 0.213645 S.D. dependent var 2069.046
S.E. of regression 1834.761 Akaike info criterion 17.97166
Sum squared resid 53861578 Schwarz criterion 18.07059
Log likelihood -159.7449 F-statistic 5.618732
Durbin-Watson stat 1.785727 Prob(F-statistic) 0.030672
Econometria – Prof. Adriano M. R. Figueiredo 123
Me em função de 1/vendas:

Dependent Variable: ME
Method: Least Squares
Date: 03/04/05 Time: 18:20
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
1/(VENDAS) -19924566 12318138 -1.617498 0.1253
C 2273.702 604.6990 3.760056 0.0017
R-squared 0.140538 Mean dependent var 1650.432
Adjusted R-squared 0.086822 S.D. dependent var 2069.046
S.E. of regression 1977.188 Akaike info criterion 18.12118
Sum squared resid 62548360 Schwarz criterion 18.22011
Log likelihood -161.0906 F-statistic 2.616300
Durbin-Watson stat 1.505561 Prob(F-statistic) 0.125313

Correção:

Fazer PD/(SQR(Vendas)) em função de 1/(SQR(Vendas)) e de (SQR(Vendas))


Econometria – Prof. Adriano M. R. Figueiredo 124

Dependent Variable: PD/SQR(VENDAS)


Method: Least Squares
Date: 03/04/05 Time: 18:23
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
1/SQR(VENDAS) -246.6769 381.1285 -0.647228 0.5267
SQR(VENDAS) 0.036798 0.007114 5.172315 0.0001
R-squared 0.364889 Mean dependent var 8.855264
Adjusted R-squared 0.325195 S.D. dependent var 8.834378
S.E. of regression 7.257134 Akaike info criterion 6.906286
Sum squared resid 842.6560 Schwarz criterion 7.005216
Log likelihood -60.15658 F-statistic 9.192455
Durbin-Watson stat 2.885313 Prob(F-statistic) 0.007933
Econometria – Prof. Adriano M. R. Figueiredo 125
Teste de Heterocedasticidade dos Resíduos de White, Eviews:

White Heteroskedasticity Test:


F-statistic 3.057178 Probability 0.076975
Obs*R-squared 5.212492 Probability 0.073811

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 03/04/05 Time: 18:32
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509
VENDAS 229.3508 126.2197 1.817077 0.0892
VENDAS^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046.
Adjusted R-squared 0.194861 S.D. dependent var 14706011
S.E. of regression 13195639 Akaike info criterion 35.77968
Sum squared resid 2.61E+15 Schwarz criterion 35.92808
Log likelihood -319.0171 F-statistic 3.057178
Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975

Rejeita-se a hipótese nula , portanto temos presença de erros heterocedásticos a 10%


de significância. Não teríamos se fosse considerado 5%!!!!

Correção de heterocedasticidade pelo método de White, no Eviews:


Econometria – Prof. Adriano M. R. Figueiredo 126

Dependent Variable: PD
Method: Least Squares
Date: 03/04/05 Time: 18:29
Sample: 1 18
Included observations: 18
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
C 192.9931 533.9317 0.361457 0.7225
VENDAS 0.031900 0.010147 3.143815 0.0063
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Observar que os erros-padrões entre a regressão principal e a regressão com correção


de White se alteraram, ou seja, a correção de White retirou os vieses nos erros-padrões
estimados.
Econometria – Prof. Adriano M. R. Figueiredo 127

4.5. Pressuposição 4: Os erros aleatórios são independentes


(ou não autocorrelacionados)

A principal consequência da violação desta pressuposição é a ineficiência dos


estimadores de M.Q.O. mas, continuam não-tendenciosos. Nesta situação, da mesma forma
que para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados
Generalizados (M.Q.G.).
Imagine um modelo mais comum, com autocorrelação de 1ª. Ordem:
 t  t 1  t
em que ρ é o parâmetro de autocorrelação e υ é um termo de erro “bem comportado”, ou seja,
não autocorrelacionado normal de média zero e variância σ2υ, ou também chamado de ruído
branco (white noise).
O coeficiente de autocorrelação ρ pode ser obtido pela expressão
Cov( t ,  t 1 )
ˆ 
[Var( t )]1 / 2 [Var( t 1 )]1 / 2

4.5.1. Teste de Durbin-Watson e h de Durbin

O teste mais comum para detectar a presença de erros autocorrelacionados é o Teste de


Durbin-Watson. A hipótese nula a ser testada é que

Ho: ρ = 0 => não há autocorrelação

Contra a hipótese alternativa


H1: ρ ≠ 0 => ρ > 0 autocorrelação positiva => ρ < 0 autocorrelação negativa

A estatística de teste é o chamado DW, calculado como:


T

 ˆ t  ˆ t 1 
2

DW  t 2
T
 21  ˆ 
 ˆ
2
t
t 1
em que
ρ=0 DW = 2 => ausência de autocorrelação
ρ = +1 DW = 0 => autocorrelação positiva e perfeita
ρ = -1 DW = 4 => autocorrelação negativa e perfeita
Econometria – Prof. Adriano M. R. Figueiredo 128

Portanto, deseja-se DW próximo de 2, ou seja, ausência de autocorrelação.


A análise requer a comparação dos valores de DW com valores tabelados, que
prevêem duas distribuições de probabilidade entrelaçadas: uma distribuição inferior e outra
superior. Elas determinam áreas de aceitação e rejeição da hipótese nula, como na figura a
seguir:

em que
dL = limite inferior => vem da tabela para n observações e k variáveis explanatórias
dU = limite superior => vem da tabela para n observações e k variáveis explanatórias

Exemplo:
Para k = 3 (referente a um modelo com X1, X2 e X3), para n = 30 observações, a tabela de
DW para 5% de significância nos fornece dL = 1,214 e dU=1,650, e portanto,
4-dL = 4 – 1,214 = 2,786
4 – dU = 4 – 1,650 = 2,350
Para 0<DW<1,214 = rejeição de Ho e autocorrelação positiva
Para 1,214<DW<1,650 = área inconclusiva
Para 1,650<DW<2,350 = aceitação de Ho e não-autocorrelação
Para 2,350<DW<2,786 = área inconclusiva
Para 2,786<DW<4 = rejeição de Ho e autocorrelação negativa

As deficiências neste método são:


 presença de áreas inconclusivas
 só testa autocorrelação de primeira ordem
 deve incluir intercepto na regressão
Econometria – Prof. Adriano M. R. Figueiredo 129
 o teste não é válido quando o modelo tem variável dependente defasada como
variável explicativa
Uma alternativa para contornar essas deficiências é via teste h de Durbin, para casos
de variável dependente defasada como variável explicativa. O teste é calculado por

T
h ~ N(0,1) = comparar com o limite de ±1,96 p/ 5%
1  T.Var()
em que
T – número de observações
β – parâmetro da variável dependente defasada.

Exemplo: seja o modelo de PNB em função da oferta de moeda, conforme o arquivo


<tab5_6_moeda gujarati_p157.dta>. O primeiro passo é declarar o dataset como time series.
O software requer esta declaração de modo a permitir a realização dos testes de Durbin-
Watson e outros evidenciados na sequência. Neste caso, faz-se o uso do comando tsset,
especificando a variável que informa o período e a periodicidade. No exemplo, a variável ano
continha esta informação de período de 1970 até 1983 e a informação yearly indicou a
periodicidade anual.
Para especificar o período inicial da time series, por exemplo, especificando o mês
inicial em jan/1984, seria no Stata, pelos comandos, com uma variável ‘mes' como a
indicadora do período:
. generate mes = tm(1984m01) + _n-1
. format %tm mes

Para especificar uma série temporal para anual, seria utilizando ty ao invés de tm.
Econometria – Prof. Adriano M. R. Figueiredo 130
. tsset ano, yearly
time variable: ano, 1970 to 1983
delta: 1 year

. regress pnb m1 m2 m3 l

Source SS df MS Number of obs = 14


F( 4, 9) = 467.70
Model 7912655.56 4 1978163.89 Prob > F = 0.0000
Residual 38065.6381 9 4229.51534 R-squared = 0.9952
Adj R-squared = 0.9931
Total 7950721.2 13 611593.939 Root MSE = 65.035

pnb Coef. Std. Err. t P>|t| [95% Conf. Interval]

m1 -6.014162 6.400151 -0.94 0.372 -20.49231 8.463986


m2 -.3647407 .8782297 -0.42 0.688 -2.351434 1.621953
m3 2.336468 1.989016 1.17 0.270 -2.162998 6.835935
l .0308376 1.687075 0.02 0.986 -3.785592 3.847267
_cons 913.4892 720.1114 1.27 0.236 -715.5161 2542.494

Tendo feita a estimação, é possível solicitar a estatística de DW por comando


<estat dwatson>, ou pelas janelas do software.

. estat dwatson

Durbin-Watson d-statistic( 5, 14) = .70426


Econometria – Prof. Adriano M. R. Figueiredo 131
Como escrito anteriormente, este DW apenas informa a situação de autocorrelação de
primeira ordem. No exemplo, DW=0.7, com certeza muito afastado de 2, indicando que existe
rejeição de H0 para primeira ordem. Da tabela do anexo (dos valores de DW) tem-se, para:

K=4 (numero de variáveis explanatórias excluindo termo constante)


N=14 (tamanho da amostra)
dL = 0.632 4-dL = 3.368
dU = 2.030 4-dU = 1.970
DW = 0.70 => área inconclusiva – o leitor deve atentar que neste exemplo, a área
inconclusiva se estende por sobre a área de não rejeição de H0!

4.5.1.1. Teste de Durbin-Watson no R

Realizando o mesmo exemplo anterior, mas agora no R, pode-se proceder com o script
como no quadro. Primeiro se define o modelo como série temporal, realiza a regressão e
depois realiza o teste de DW.

# Autocorrelação serial dos resíduos


library(datasets); library(graphics);library(lmtest);library(stats)
# definindo o dataset de serie temporal, como a base é anual, faz-se
dados.st<-ts(dados, start=c(1970), end=c(1983))
summary(dados.st)
regressao1<-lm(PNB~M1+M2+M3+L, data=dados.st)
summary(regressao1)
# Teste de Durbin-Watson
dwtest(regressao1)

O resultado foi pela rejeição de H0, ou seja, rejeita-se que não tenha autocorrelação até
1ª ordem.
Econometria – Prof. Adriano M. R. Figueiredo 132

4.5.2. Teste de Breusch-Godfrey ou de LM de Correlação


Serial

Outro procedimento que contorna as deficiências do teste DW e tem sido incorporado


à maioria dos softwares econométricos é o teste de Breusch-Godfrey de autocorrelação
superior, ou de Multiplicador de Lagrange para Correlação Serial (Serial Correlation LM
Test).
Este teste é bastante útil para detectar autocorrelação de ordens maiores que a
primeira, ou seja, para AR(P>1) em que P é a ordem da autocorrelação. A hipótese nula será
– H0: não autocorrelação dos resíduos => todos os 1 ,  2 , 3 , ,  p
são simultaneamente nulos;
– H1: εt = AR(P) ou εt = MA(P) => existe autocorrelação dos resíduos
até ordem p, ou pelo menos um dos coeficientes 1 ,  2 , 3 , ,  p é
diferente de zero.
Por exemplo, suponha o seguinte processo auto-regressivo:
 t  1 t 1   2  t  2   3  t 3     p  t  p   t

A hipótese nula será de que todos os coeficientes de autocorrelação são


simultaneamente nulos, ou seja, todos os ρi = 0 e não há autocorrelação de qualquer ordem.
A estatística de teste será um multiplicador de Lagrange do tipo

 e' X 0 ( X 0' X 0 ) 1 X 0' e 


LM  (n  p) R  (n  p)
2
0
 ~  p2
 e' e 
O procedimento será:

1. estimar o modelo de regressão pelo método usual de MQO e obter resíduos εt;
2. estimar o modelo de εt como função das demais variáveis X do modelo “a” e
também de variáveis εt defasadas (εt-1 εt-2 ... etc) (formando assim a matriz de
regressores X 0 ), utilizando para estas defasagens os resíduos obtidos em “a”;

3. obter o valor de R2 desta regressão “b” ( R02 );


4. A estatística de teste será LMBG = (n-p).R2 ~ χ2p graus de liberdade. P é o número
de defasagens incluídas na regressão “b”.
Econometria – Prof. Adriano M. R. Figueiredo 133
Se a estatística de teste LMBG > valor crítico de χ2p então se rejeita a hipótese nula e
existe autocorrelação serial de ordem P, ou seja, pelo menos um ρi ≠ 0. Neste teste, podem-se
ter variáveis X ou mesmo Y defasadas, o que representa uma vantagem sobre o teste DW.

4.5.2.1. Teste de Breusch-Godfrey ou de LM de Correlação


Serial no R

Seja o exemplo da definição de moeda afetando o PNB, o script para realizar o teste de
LM de correlação serial até ordem p é feito pelo comando ‘bgtest’. No caso, estabeleceram-se
quatro testes, ou seja, procedeu-se o mesmo teste para ordens 1, 2, 3 e até 4.
# Teste de Breusch-Godfrey para ordens superiores
# Também chamado de LM de correlação serial
bgteste1<-bgtest(regressao1, order = 1, type = c("Chisq", "F"), data = dados.st)
bgteste2<-bgtest(regressao1, order = 2, type = c("Chisq", "F"), data = dados.st)
bgteste3<-bgtest(regressao1, order = 3, type = c("Chisq", "F"), data = dados.st)
bgteste4<-bgtest(regressao1, order = 4, type = c("Chisq", "F"), data = dados.st)
bgteste1
bgteste2
bgteste3
bgteste4

Neste caso, as saídas foram todas pela rejeição de não autocorrelação residual nos
quatro casos. Deve-se então corrigir o modelo para tal violação de pressuposto clássico. A
função retorna no “default” a estatística para a distribuição qui-quadrado. Quando se solicita a
saída da estatística “F”, esta tem uma distribuição F para amostra finita.
Econometria – Prof. Adriano M. R. Figueiredo 134

Uma forma é rodar um script dentro de um loop conforme o script abaixo. No


exemplo, o objeto bgorder foi definido de 1 até 12, ou seja, serão realizados bgtest de ordem 1
até ordem 12 e os resultados são armazenados no objeto “d”.

# padrao do teste de BG, com distribuição qui-quadrado


bgorder = 1:12 # definindo até a máxima ordem do bgtest
d=NULL
for (p in bgorder) {
bgtest.chi<-bgtest(reg1,
order = p,type=c("Chisq"), data = tsdata)
print(bgtest.chi)
d = rbind(d,
data.frame(bgtest.chi$statistic,bgtest.chi$p.value))
}
d
Econometria – Prof. Adriano M. R. Figueiredo 135
Manualmente, é interessante fazer a regressão auxiliar do teste BG e assim observar as
significâncias dos termos dos resíduos defasados. Esta regressão, por ser dinâmica, pode ser
estimada com os comandos do pacote (library) “dynlm”.

Exemplo 2: seja o modelo de explicação das importações chinesas de Bário no julgamento de


um processo de acusação de dumping, conforme Wooldridge (2016), exemplos 10.5 e 12.3. A
regressão original fornece:

Script para o exemplo 10.5 de Wooldridge (2016): Ações anti-dumping e importações de


produtos químicos.
#exercicio dos exemples 10.5 e 12.3 do Wooldridge (2016)
#chamando os dados de "barium_WOOLDRIDGE P390.xlsx"
library(readxl); library(foreign);library(dynlm);library(car);library(lmtest)
dados <- read_excel("barium_WOOLDRIDGE P390.xlsx",
sheet = "dados")
# outra opção é
#barium<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/barium.dta")
#View(barium)
View(dados)
attach(dados)
tsdata <- ts(dados, start=c(1978,2), frequency=12)
reg1 <- dynlm(log(chnimp)~log(chempi)+log(gas)+log(rtwex)+
befile6+affile6+afdec6, data=tsdata )
summary(reg1)
# fazendo os criterios de informacao de Akaike e Schwarz
akaike.reg1<-AIC(reg1)
schwarz.reg1<-BIC(reg1)
Econometria – Prof. Adriano M. R. Figueiredo 136

A estimação da regressão auxiliar então será:

#Exemplo Wooldridge 12.3:


# Breusch-Godfrey LM Serial Correlation test:
residual <- resid(reg1)
resreg <- dynlm(residual ~ L(residual)+L(residual,2)+L(residual,3)+
log(chempi)+log(gas)+log(rtwex)+befile6+
affile6+afdec6, data=tsdata )
linearHypothesis(resreg,
c("L(residual)","L(residual, 2)","L(residual, 3)"))
summary(resreg)
bgtest3.chi<-bgtest(reg1,order = 3,type=c("Chisq"), data = tsdata)
bgtest3.chi # padrao do teste de BG, com distribuição qui-quadrado
bgtest3.F<-bgtest(reg1,order = 3,type=c("F"), data = tsdata)
bgtest3.F #alternativa do teste de BG com versão para amostra finita
Econometria – Prof. Adriano M. R. Figueiredo 137
Saída do teste “manual”:
> #Exemplo Wooldridge 12.3:
> # Breusch-Godfrey LM Serial Correlation test:
>
> residual <- resid(reg1)
>
> resreg <- dynlm(residual ~ L(residual)+L(residual,2)+L(residual,3)+
+
+ log(chempi)+log(gas)+log(rtwex)+befile6+
+
+ affile6+afdec6, data=tsdata )
>
> linearHypothesis(resreg,
+
+ c("L(residual)","L(residual, 2)","L(residual, 3)"))
Linear hypothesis test

Hypothesis:
L(residual) = 0
L(residual, 2) = 0
L(residual, 3) = 0
Model 1: restricted model
Model 2: residual ~ L(residual) + L(residual, 2) + L(residual, 3) + log(che
mpi) +
log(gas) + log(rtwex) + befile6 + affile6 + afdec6

Res.Df RSS Df Sum of Sq F Pr(>F)


1 121 43.394
2 118 38.393 3 5.0007 5.1232 0.002289 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Veja que neste caso, F=5.1232 e p-value = 0.002289, levando a rejeição de H0: ausência de
autocorrelação serial até ordem 3. Ou seja, existe evidência de autocorrelação serial AR(3).
Entretanto, náo foi possível observar qual o lag com coeficiente significativo. Isto será
possível fazendo o “summary(resreg)”:
Econometria – Prof. Adriano M. R. Figueiredo 138
> summary(resreg)

Time series regression with "ts" data:


Start = 1978(5), End = 1988(12)

Call:
dynlm(formula = residual ~ L(residual) + L(residual, 2) + L(residual,
3) + log(chempi) + log(gas) + log(rtwex) + befile6 + affile6 +
afdec6, data = tsdata)

Residuals:
Min 1Q Median 3Q Max
-1.88999 -0.32255 0.05904 0.36411 1.19769

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -14.52655 20.76374 -0.700 0.486
L(residual) 0.22198 0.09170 2.421 0.017 *
L(residual, 2) 0.13370 0.09213 1.451 0.149
L(residual, 3) 0.12533 0.09111 1.376 0.172
log(chempi) -0.14257 0.47174 -0.302 0.763
log(gas) 0.63002 0.89053 0.707 0.481
log(rtwex) 0.17880 0.39086 0.457 0.648
befile6 -0.08531 0.25097 -0.340 0.735
affile6 -0.12153 0.25472 -0.477 0.634
afdec6 -0.06730 0.27431 -0.245 0.807
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5704 on 118 degrees of freedom


Multiple R-squared: 0.1159, Adjusted R-squared: 0.04849
F-statistic: 1.719 on 9 and 118 DF, p-value: 0.092

Olhando a saída da estimação da regressão auxiliar, é possível verificar que apenas o


coeficiente de ordem 1 (apenas uma defasagem do resíduo) se mostra significativo. A
estatística do teste BG por qui-quadrado seria n.R²aux = 131*0.1159 = 15,18 (em valores
aproximados). O valor exato da estatística é obtido pelo comando bgtest

> bgtest3.chi<-bgtest(reg1,order = 3,type=c("Chisq"), data = tsdata)


> bgtest3.chi # padrao do teste de BG, com distribuição qui-quadrado

Breusch-Godfrey test for serial correlation of order up to 3

data: reg1
LM test = 14.767, df = 3, p-value = 0.002027

Pela estatística “F”, tem-se o resultado em amostra finita, como demonstrado em


Wooldridge (2016):

> bgtest3.F<-bgtest(reg1,order = 3,type=c("F"), data = tsdata)


> bgtest3.F #alternativa do teste de BG com versão para amostra finita
Breusch-Godfrey test for serial correlation of order up to 3

data: reg1
LM test = 5.1241, df1 = 3, df2 = 121, p-value = 0.002265
Econometria – Prof. Adriano M. R. Figueiredo 139

4.5.2.2. Teste de Breusch-Godfrey ou de LM de Correlação


Serial no Stata

No Stata, o teste vem implantado nas opções após estimação do modelo, e pode ser
acessado pelas janelas do software ou pelo comando <estat bgodfrey, lags (1 2 3 ... p)>, em
que o pesquisador define quais os lags a serem analisados. O programa retornará o teste para
cada um dos lags.

. estat bgodfrey, lags(1 2 3 4 5 6)

Breusch-Godfrey LM test for autocorrelation

lags(p) chi2 df Prob > chi2

1 9.424 1 0.0021
2 9.950 2 0.0069
3 12.242 3 0.0066
4 12.352 4 0.0149
5 12.556 5 0.0279
6 12.707 6 0.0479

H0: no serial correlation

Neste exemplo, observe que a probabilidade menor que 1%, 5% ou 10% levará a
rejeição de H0: não autocorrelação dos resíduos. Aqui se teve rejeição desde a primeira
ordem. O leitor atento gostará olhar a equação de teste, que usualmente não é reportada pelo
software, fazendo a previsão dos resíduos do modelo original e a equação dos resíduos em
Econometria – Prof. Adriano M. R. Figueiredo 140
função das variáveis explicativas originais e dos resíduos defasados, aqui utilizando o
operador de defasagem do Stata, representado por (l.variável). No caso, para 6 defasagens,
pode-se simplificar a notação escrevendo no comando regress a expressão <L(1/6).res>. Isto é
o equivalente a incluir como variáveis os lags L1.res, L2.res, L3.res, ..., L6.res = (εt-1 εt-2 ... εt-
6). Neste exemplo a base de dados apresenta multicolinearidade e, por este motivo, não são
obtidos os valores de erros-padrões.
. predict res, residuals

. regress res m1- l l(1/6).res


note: m1 omitted because of collinearity
note: _delete omitted because of collinearity
note: _delete omitted because of collinearity

Source SS df MS Number of obs = 8


F( 7, 0) = .
Model 34460.1927 7 4922.88467 Prob > F = .
Residual 0 0 . R-squared = 1.0000
Adj R-squared = .
Total 34460.1927 7 4922.88467 Root MSE = 0

res Coef. Std. Err. t P>|t| [95% Conf. Interval]

m1 0 (omitted)
m2 -1.104659 . . . . .
m3 -3.957807 . . . . .
l 4.015903 . . . . .

res
L1. -.0094944 . . . . .
L2. .9671443 . . . . .
L3. -1.506737 . . . . .
L4. 0 (omitted)
L5. 0 (omitted)
L6. -.842507 . . . . .

_cons 374.7052 . . . . .

Exemplo 2: seja o modelo de explicação das importações chinesas de Bário no julgamento de


um processo de acusação de dumping, conforme o arquivo <Barium.dta>. A regressão
original fornece:
Econometria – Prof. Adriano M. R. Figueiredo 141
. regress l_chnimp l_chempi l_gas l_rtwex

Source SS df MS Number of obs = 131


F( 3, 127) = 16.53
Model 17.8780226 3 5.95934086 Prob > F = 0.0000
Residual 45.7742259 127 .360426976 R-squared = 0.2809
Adj R-squared = 0.2639
Total 63.6522485 130 .489632681 Root MSE = .60036

l_chnimp Coef. Std. Err. t P>|t| [95% Conf. Interval]

l_chempi 3.045596 .4787299 6.36 0.000 2.098276 3.992916


l_gas .3441587 .9108141 0.38 0.706 -1.458178 2.146495
l_rtwex .7159855 .349141 2.05 0.042 .0250985 1.406872
_cons -19.63091 21.19183 -0.93 0.356 -61.56571 22.3039

Na sequência, o teste de LM de Correlação Serial para 12 lags:


. estat bgodfrey, lags(1 2 3 4 5 6 7 8 9 10 11 12)

Breusch-Godfrey LM test for autocorrelation

lags(p) chi2 df Prob > chi2

1 11.121 1 0.0009
2 14.781 2 0.0006
3 16.505 3 0.0009
4 19.404 4 0.0007
5 19.447 5 0.0016
6 19.679 6 0.0032
7 21.542 7 0.0030
8 21.606 8 0.0057
9 24.942 9 0.0030
10 24.942 10 0.0055
11 25.346 11 0.0081
12 25.687 12 0.0119

H0: no serial correlation

Desde a primeira ordem existe autocorrelação, não sendo possível saber exatamente
até qual lag é o problema. Faz-se a equação de teste para melhorar a visualização.
Econometria – Prof. Adriano M. R. Figueiredo 142
. regress res l_chempi l_gas l_rtwex l(1/12).res

Source SS df MS Number of obs = 119


F( 15, 103) = 1.65
Model 7.37066877 15 .491377918 Prob > F = 0.0726
Residual 30.6153298 103 .297236212 R-squared = 0.1940
Adj R-squared = 0.0767
Total 37.9859986 118 .321915242 Root MSE = .54519

res Coef. Std. Err. t P>|t| [95% Conf. Interval]

l_chempi -.5981542 .5482505 -1.09 0.278 -1.68548 .4891713


l_gas 1.098273 1.0188 1.08 0.284 -.9222768 3.118823
l_rtwex -.0741444 .3315545 -0.22 0.823 -.7317046 .5834159

res
L1. .2030911 .0981034 2.07 0.041 .0085262 .397656
L2. .1373696 .0996312 1.38 0.171 -.0602253 .3349645
L3. .1555331 .1010439 1.54 0.127 -.0448636 .3559298
L4. -.1545982 .1011423 -1.53 0.129 -.35519 .0459936
L5. -.0514118 .0980085 -0.52 0.601 -.2457887 .142965
L6. .0091389 .0968191 0.09 0.925 -.182879 .2011568
L7. .1483849 .0966711 1.53 0.128 -.0433395 .3401092
L8. .0658224 .0976796 0.67 0.502 -.1279021 .2595469
L9. -.1264921 .0964877 -1.31 0.193 -.3178528 .0648685
L10. .0077911 .0967757 0.08 0.936 -.1841406 .1997229
L11. -.0334636 .0951027 -0.35 0.726 -.2220774 .1551502
L12. -.055116 .0927521 -0.59 0.554 -.2390679 .128836

_cons -21.84891 22.81911 -0.96 0.341 -67.10523 23.40741

Com esta equação de teste, é possível ver que apenas o L1.res teve coeficiente
significativo a 5%. Os demais foram não significativos. Entretanto, deve-se ter cautela, pois a
retirada de lags da equação de teste pode indicar outros resultados significativos. Devem-se
retirar os termos um a um, observar a estabilidade dos resultados a fim de avaliar a inclusão
de um ou outro lag e alguma justificativa do fenômeno para estes períodos de interferência.
Por exemplo, fazendo para apenas 6 lags, agora aparecem os lags L1.res, L2.res e L4.res
como importantes neste caso.
Econometria – Prof. Adriano M. R. Figueiredo 143
. regress res l_chempi l_gas l_rtwex l(1/6).res

Source SS df MS Number of obs = 125


F( 9, 115) = 2.46
Model 7.02070549 9 .780078388 Prob > F = 0.0133
Residual 36.4560597 115 .317009215 R-squared = 0.1615
Adj R-squared = 0.0959
Total 43.4767652 124 .350619074 Root MSE = .56304

res Coef. Std. Err. t P>|t| [95% Conf. Interval]

l_chempi -.2951662 .4852255 -0.61 0.544 -1.256304 .6659722


l_gas .6616174 .9085881 0.73 0.468 -1.138121 2.461356
l_rtwex .0145745 .3352948 0.04 0.965 -.64958 .678729

res
L1. .2368314 .0923923 2.56 0.012 .05382 .4198429
L2. .1934805 .0942596 2.05 0.042 .0067704 .3801906
L3. .1242248 .0940219 1.32 0.189 -.0620146 .3104641
L4. -.1875369 .0947112 -1.98 0.050 -.3751415 .0000677
L5. .0149124 .0935503 0.16 0.874 -.1703928 .2002175
L6. .0581912 .09106 0.64 0.524 -.1221812 .2385635

_cons -13.7571 21.03434 -0.65 0.514 -55.42208 27.90788

Exemplo: seja o estudo da taxa de retorno em função da inflação e do crescimento, conforme


o arquivo <table12_10.dta>. A regressão original fornece os resultados a seguir.
. tsset var1, yearly
time variable: var1, 1954 to 1981
delta: 1 year

. regress rr growth inflation

Source SS df MS Number of obs = 28


F( 2, 25) = 16.73
Model 6749.4506 2 3374.7253 Prob > F = 0.0000
Residual 5042.58207 25 201.703283 R-squared = 0.5724
Adj R-squared = 0.5382
Total 11792.0327 27 436.741951 Root MSE = 14.202

rr Coef. Std. Err. t P>|t| [95% Conf. Interval]

growth 3.943315 1.293445 3.05 0.005 1.279416 6.607214


inflation -2.499426 1.082101 -2.31 0.029 -4.728055 -.2707959
_cons 3.531812 8.111369 0.44 0.667 -13.17387 20.23749

. estat dwatson

Durbin-Watson d-statistic( 3, 28) = 1.896592


Econometria – Prof. Adriano M. R. Figueiredo 144
Fazendo o teste de DW, obtém-se DW=1.89. É possível que não haja autocorrelação
de primeira ordem, mas o teste de Breusch-Godfrey permite olhar outras ordens. Neste caso,
fazendo para 4 lags, não se rejeita que não existe autocorrelação até p=4 pois
Obs*R-squared=chi2=3.903 com probabilidade de 0.42, indicando aceitação de Ho: não-
autocorrelação até quarta ordem.

Exercicio 12.22 Gujarati, p.447-448: Seja uma regressão do preço do cobre explicado por um
índice da indústria, do preço do cobre na bolsa, de um índice da construção e do preço do
alumínio.
No Stata, segue a regressão original.
. regress lpcdom lipi lpcbolsa lconst lpalu

Source SS df MS Number of obs = 30


F( 4, 25) = 91.54
Model 5.42774086 4 1.35693522 Prob > F = 0.0000
Residual .370572783 25 .014822911 R-squared = 0.9361
Adj R-squared = 0.9259
Total 5.79831365 29 .19994185 Root MSE = .12175

lpcdom Coef. Std. Err. t P>|t| [95% Conf. Interval]

lipi .4675086 .1659867 2.82 0.009 .1256526 .8093647


lpcbolsa .2794423 .1147257 2.44 0.022 .0431603 .5157243
lconst -.0051516 .142947 -0.04 0.972 -.2995564 .2892532
lpalu .4414489 .1065083 4.14 0.000 .222091 .6608069
_cons -1.50044 1.00302 -1.50 0.147 -3.566198 .5653191

Os testes de autocorrelação fornecem as estatísticas de DW e de LM de correlação serial para


4 lags.
Econometria – Prof. Adriano M. R. Figueiredo 145
. estat dwatson

Durbin-Watson d-statistic( 5, 30) = .9549405

. estat bgodfrey, lags(1 2 3 4)

Breusch-Godfrey LM test for autocorrelation

lags(p) chi2 df Prob > chi2

1 8.841 1 0.0029
2 13.507 2 0.0012
3 13.707 3 0.0033
4 13.754 4 0.0081

H0: no serial correlation


Existe problema pois rejeita-se Ho a 1% desde o primeiro lag. Rejeitando para p=1 rejeitará
para todos os seguintes! Observe que começa a aumentar a probabilidade após lag=3.
Posso fazer a regressão auxiliar do resíduo em função das variáveis X e dos resíduos
defasados.

4.5.3. Estimação solucionando o problema de autocorrelação -


FGLS:

Estima-se o modelo inicial por M.Q.O. e depois segue um procedimento iterativo até
alcançar a convergência nos parâmetros. Este procedimento é chamado também de Feasible
Generalized Least Squares (FGLS). Abaixo estão os passos da estimação de Cochrane-Orcutt:
1) Estima-se modelo inicial por MQO e obtém DW
2) Calcula-se ρ = 1 – 0,5.DW
3) Estima equação transformada:

Yt  Yt 1   1 1      2 X t  X t 1    t
ou
𝑌 ∗ = 𝛽 ∗ + 𝛽 ∗ . 𝑋 ∗ + µ∗
4) Recalcula-se (2) e verifica-se a convergência para ρ.
5) Repetem-se os passos (2) a (4) até que a convergência seja menor que 0,01.
A implementação no Eviews prevê a inserção de um termo AR(1) na especificação das
variáveis da equação. O programa fará a estimação considerando a correção para o
autoregressivo de primeira ordem.
Econometria – Prof. Adriano M. R. Figueiredo 146

4.5.4. Exemplo de correção por Cochrane-Orcutt no R:

Exemplo baseado na library(orcutt). O procedimento :

4.5.5. Exemplo de correção com inferência robusta no R:

A correção fazendo inferência robusta tem por objetivo contemplar as deficiências do


método de Cochrane-Orcutt, uma vez que este apenas corrige para AR(1). O cálculo dos
erros-padrão por estimativas robustas serão desejáveis para formas mais gerais de correlação
serial (Wooldridge, 2006, p.388).
Desta forma, estima-se o modelo padrão de regressão linear por MQO. Em seguida, a
partir desta regressão de MQO, obtenha os resíduos rˆt de uma regressão auxiliar de x1t em

função dos demais xkt [ x1t  f  x2t ,..., xkt  ], e calcula-se aˆt  rˆt .uˆt . Para uma escolha de g, que

pode variar entre a parte inteira de 4(n/100)2/9 ou n1/4, calcular


n g
 n 
vˆ   aˆt2  2 1  h / ( g  1)   aˆt aˆt  h 
t 1 h 1  t  h1 
e
 
ep ˆ1   SE / ˆ  vˆ .
2

Desta forma obtém-se os erros-padrões robustos dos parâmetros.


Fazendo uso do pacote (library) sandwich, tem-se o script
Econometria – Prof. Adriano M. R. Figueiredo 147

4.5.6. Exemplo de correção por ARIMA no Eviews:

Exercicio 12.22 Gujarati, p.447-448: Seja uma regressão do preço do cobre explicado por um
índice da indústria, do preço do cobre na bolsa, de um índice da construção e do preço do
alumínio.

Similarmente, no Eviews, têm-se os procedimentos:

Dependent Variable: LOG(PCDOM)


Method: Least Squares
Sample: 1951 1980
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) 0.467509 0.165987 2.816541 0.0093
LOG(PCBOLSA) 0.279443 0.114726 2.435745 0.0223
LOG(CONST) -0.005152 0.142947 -0.036038 0.9715
LOG(PALU) 0.441449 0.106508 4.144737 0.0003
C -1.500441 1.003020 -1.495923 0.1472
R-squared 0.936090 Mean dependent var 3.721145
Adjusted R-squared 0.925864 S.D. dependent var 0.447149
S.E. of regression 0.121749 Akaike info criterion -1.222692
Sum squared resid 0.370573 Schwarz criterion -0.989160
Log likelihood 23.34039 F-statistic 91.54312
Econometria – Prof. Adriano M. R. Figueiredo 148
Durbin-Watson stat 0.954940 Prob(F-statistic) 0.000000
Neste caso, DW=0.9549
Para n=30, k’=4, dl=1,143 e du=1,739, portanto, DW<dl => rejeita Ho, tenho indicação de
autocorrelação positiva

Teste LM para AR(1):


Breusch-Godfrey Serial Correlation LM Test:
F-statistic 10.02749 Probability 0.004163
Obs*R-squared 8.840634 Probability 0.002946

Test Equation:
Dependent Variable: RESID
Method: Least Squares
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.104877 0.146079 -0.717946 0.4797
LOG(PCBOLSA) 0.089288 0.102299 0.872811 0.3914
LOG(CONST) 0.045395 0.123362 0.367981 0.7161
LOG(PALU) -0.009785 0.091346 -0.107125 0.9156
C -0.368385 0.867570 -0.424617 0.6749
RESID(-1) 0.567066 0.179076 3.166620 0.0042
R-squared 0.294688 Mean dependent var 8.14E-17
Adjusted R-squared 0.147748 S.D. dependent var 0.113041
S.E. of regression 0.104357 Akaike info criterion -1.505141
Sum squared resid 0.261370 Schwarz criterion -1.224901
Log likelihood 28.57711 F-statistic 2.005497
Durbin-Watson stat 1.521486 Prob(F-statistic) 0.114145

Existe problema pois rejeita-se Ho a 1%. Existe AR(1)

Para AR(2):
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 9.417751 Probability 0.001028
Obs*R-squared 13.50683 Probability 0.001167

Test Equation:
Dependent Variable: RESID
Method: Least Squares
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.036780 0.134421 -0.273620 0.7868
LOG(PCBOLSA) 0.028677 0.095271 0.301008 0.7661
LOG(CONST) 0.082020 0.112179 0.731149 0.4721
LOG(PALU) -0.017166 0.082432 -0.208239 0.8369
C -0.552588 0.785758 -0.703255 0.4890
RESID(-1) 0.795135 0.184599 4.307363 0.0003
RESID(-2) -0.489015 0.191703 -2.550900 0.0179
R-squared 0.450228 Mean dependent var 8.14E-17
Adjusted R-squared 0.306809 S.D. dependent var 0.113041
S.E. of regression 0.094116 Akaike info criterion -1.687610
Sum squared resid 0.203731 Schwarz criterion -1.360664
Log likelihood 32.31415 F-statistic 3.139250
Durbin-Watson stat 1.918606 Prob(F-statistic) 0.021333
Também existe problema para AR(2). Ficou mais expressivo o problema de autocorrelação.
Econometria – Prof. Adriano M. R. Figueiredo 149
Para AR(3):
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 6.169355 Probability 0.003321
Obs*R-squared 13.70695 Probability 0.003332

Test Equation:
Dependent Variable: RESID
Method: Least Squares
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.029746 0.137274 -0.216691 0.8304
LOG(PCBOLSA) 0.025964 0.096960 0.267780 0.7914
LOG(CONST) 0.078075 0.114254 0.683340 0.5015
LOG(PALU) -0.025278 0.085213 -0.296644 0.7695
C -0.512105 0.802317 -0.638283 0.5299
RESID(-1) 0.854409 0.219535 3.891895 0.0008
RESID(-2) -0.592317 0.278293 -2.128395 0.0447
RESID(-3) 0.126950 0.244219 0.519819 0.6084
R-squared 0.456898 Mean dependent var 8.14E-17
Adjusted R-squared 0.284093 S.D. dependent var 0.113041
S.E. of regression 0.095646 Akaike info criterion -1.633151
Sum squared resid 0.201259 Schwarz criterion -1.259498
Log likelihood 32.49727 F-statistic 2.644009
Durbin-Watson stat 2.002055 Prob(F-statistic) 0.038212
Ainda tem, mas menos que para AR(2). Observe que o termo de RESID(-3) já não é
significativo. Optar por corrigir para AR(2).

Estimação corrigindo com AR(1) e AR(2), Eviews:


Econometria – Prof. Adriano M. R. Figueiredo 150

Dependent Variable: LOG(PCDOM)


Method: Least Squares
Sample(adjusted): 1953 1980
Included observations: 28 after adjusting endpoints
Convergence achieved after 9 iterations
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) 0.440700 0.165083 2.669563 0.0143
LOG(PCBOLSA) 0.291534 0.103733 2.810420 0.0105
LOG(CONST) 0.102063 0.175677 0.580969 0.5674
LOG(PALU) 0.429664 0.118912 3.613298 0.0016
C -2.197667 1.211239 -1.814395 0.0839
AR(1) 0.773165 0.187424 4.125212 0.0005
AR(2) -0.531683 0.192075 -2.768097 0.0115
R-squared 0.960153 Mean dependent var 3.765864
Adjusted R-squared 0.948768 S.D. dependent var 0.428531
S.E. of regression 0.096996 Akaike info criterion -1.615986
Sum squared resid 0.197571 Schwarz criterion -1.282935
Log likelihood 29.62381 F-statistic 84.33634
Durbin-Watson stat 1.850840 Prob(F-statistic) 0.000000
Inverted AR Roots .39+.62i .39 -.62i

Comparar com resultados da primeira regressão! Melhores indicadores!

Similarmente, estimando no Stata e corrigindo para p=2, a estimação do modelo com correção
de autocorrelação é feita pela opção <Time Series / ARIMA and ARMAX models>:

Neste caso, especificam-se 2 defasagens de AR, p=2. Observe que os resultados apresentarão
estes termos descritos como AR, L1. e L2.
Econometria – Prof. Adriano M. R. Figueiredo 151

ARIMA regression

Sample: 1951 - 1980 Number of obs = 30


Wald chi2(6) = 388.92
Log likelihood = 31.93108 Prob > chi2 = 0.0000

OPG
lpcdom Coef. Std. Err. z P>|z| [95% Conf. Interval]

lpcdom
lipi .445348 .1958934 2.27 0.023 .0614039 .829292
lpcbolsa .2874183 .1397868 2.06 0.040 .0134412 .5613953
lconst .0951566 .1545352 0.62 0.538 -.2077267 .39804
lpalu .4352074 .0977832 4.45 0.000 .2435558 .6268591
_cons -2.16279 1.090135 -1.98 0.047 -4.299416 -.0261643

ARMA
ar
L1. .7522133 .1970465 3.82 0.000 .3660093 1.138417
L2. -.5081638 .1979488 -2.57 0.010 -.8961363 -.1201914

/sigma .0822441 .0154385 5.33 0.000 .0519853 .112503

Note: The test of the variance against zero is one sided, and the two-sided
confidence interval is truncated at zero.

Observe que a saída do Stata não apresenta R², mas pode-se comparar olhando os
critérios de informação (IC) de Akaike e Schwarz. Também pode-se olhar a significância dos
coeficientes, procurando um modelo com mais coeficientes significativos. Esta informação do
<estat ic> deve ser realizada logo após a estimação, de modo a se ter as estatísticas do
Econometria – Prof. Adriano M. R. Figueiredo 152
modelo, por exemplo, comparando o modelo apenas com AR(1) contra um alternativo
contendo AR(1) e AR(2). Quanto menores os valores de AIC e SIC, melhor o modelo.
Neste exemplo, AIC = -47 para o modelo com duas defasagens, e AIC = -42 quando se
especifica apenas AR(1). Ainda, pode-se observar que nos resultados do modelo contendo
duas defasagens, os coeficientes de ar L1. e L2. foram significativos, ou seja, o termo AR(2)
foi efetivamente importante para melhorar a explicação do modelo.

. estat ic

Akaike's information criterion and Bayesian information criterion

Model Obs ll(null) ll(model) df AIC BIC

. 30 . 31.93108 8 -47.86216 -36.65258

Note: N=Obs used in calculating BIC; see [R] BIC note


Econometria – Prof. Adriano M. R. Figueiredo 153
Anexo
Autocorrelação

Para a equação da taxa de retorno RR em função do crescimento (Growth) e da inflação


(Inflation):

Dependent Variable: RR
Method: Least Squares
Date: 03/07/05 Time: 20:19
Sample: 1954 1981
Included observations: 28
Variable Coefficient Std. Error t-Statistic Prob.
GROWTH 3.943315 1.293445 3.048693 0.0054
INFLATION -2.499426 1.082101 -2.309789 0.0294
C 3.531812 8.111369 0.435415 0.6670
R-squared 0.572374 Mean dependent var 5.875000
Adjusted R-squared 0.538164 S.D. dependent var 20.89837
S.E. of regression 14.20223 Akaike info criterion 8.245632
Sum squared resid 5042.582 Schwarz criterion 8.388368
Log likelihood -112.4388 F-statistic 16.73114
Durbin-Watson stat 1.896592 Prob(F-statistic) 0.000024

DW = 1,8965

. tsset var1, yearly


time variable: var1, 1954 to 1981
delta: 1 year

. regress rr growth inflation

Source SS df MS Number of obs = 28


F( 2, 25) = 16.73
Model 6749.4506 2 3374.7253 Prob > F = 0.0000
Residual 5042.58207 25 201.703283 R-squared = 0.5724
Adj R-squared = 0.5382
Total 11792.0327 27 436.741951 Root MSE = 14.202

rr Coef. Std. Err. t P>|t| [95% Conf. Interval]

growth 3.943315 1.293445 3.05 0.005 1.279416 6.607214


inflation -2.499426 1.082101 -2.31 0.029 -4.728055 -.2707959
_cons 3.531812 8.111369 0.44 0.667 -13.17387 20.23749

. estat dwatson

Durbin-Watson d-statistic( 3, 28) = 1.896592


Econometria – Prof. Adriano M. R. Figueiredo 154
Teste de Breusch-Godfrey: SERIAL CORRELATION LM TEST no Eviews:

Especificar número de variáveis a adicionar em X0, ou seja, se 1 (AR(1)), se 2 (AR(2)):


Econometria – Prof. Adriano M. R. Figueiredo 155

Breusch-Godfrey Serial Correlation LM Test:


F-statistic 0.319962 Probability 0.729357
Obs*R-squared 0.757950 Probability 0.684563

Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 03/07/05 Time: 20:23
Variable Coefficient Std. Error t-Statistic Prob.
GROWTH -0.371429 1.426117 -0.260448 0.7968
INFLATION -0.131592 1.125693 -0.116898 0.9080
C 1.737633 8.657860 0.200700 0.8427
RESID(-1) -0.014931 0.211928 -0.070455 0.9444
RESID(-2) -0.177451 0.222006 -0.799306 0.4323
R-squared 0.027070 Mean dependent var -3.68E-15
Adjusted R-squared -0.142136 S.D. dependent var 13.66610
S.E. of regression 14.60506 Akaike info criterion 8.361046
Sum squared resid 4906.081 Schwarz criterion 8.598940
Log likelihood -112.0546 F-statistic 0.159981
Durbin-Watson stat 1.787912 Prob(F-statistic) 0.956406

Não há evidencias de autocorrelação no modelo, pois Obs*R-squared=0.75 com


Probabilidade de 0.68, indicando aceitação de Ho: não-autocorrelação

. estat bgodfrey, lags(1 2 3 4)

Breusch-Godfrey LM test for autocorrelation

lags(p) chi2 df Prob > chi2

1 0.001 1 0.9721
2 0.758 2 0.6846
3 3.080 3 0.3794
4 3.903 4 0.4193

H0: no serial correlation


Econometria – Prof. Adriano M. R. Figueiredo 156
Anexo: Tabela de Durbin-Watson para 5% de significância, reproduzida a partir de
Gujarati, Damodar. Basic Econometrics. McGraw-Hill, 2004.
Econometria – Prof. Adriano M. R. Figueiredo 157

Exemplo: Se n = 40 e k’ = 4, dL = 1,285 e dU = 1,721. Se o valor de DW calculado é


menor que 1,285, existe evidência de autocorrelação serial de primeira ordem e positiva; se
DW for maior que 1,721 e menor que 4-dU = 2,279, então não existe evidência de
autocorrelação de primeira ordem, mas se DW estiver entre os limites dL e DU, ou entre 4-dU
e 4-dL então existe uma área inconclusiva sobre autocorrelação.
Econometria – Prof. Adriano M. R. Figueiredo 158

4.6. Pressuposição 6: As variáveis explicativas são não


aleatórias (são fixas)
Se as variáveis explicativas e os termos aleatórios forem correlacionados, haverá
inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o estimador
de variáveis instrumentais. O método de Variáveis instrumentais prevê que
β = (Z´X)-1Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.
Não se tem testes formais para investigar esta pressuposição. O que é feito em geral é
investigar as correlações entre as variáveis explicativas e os termos aleatórios via matriz de
correlações entre eles.
Outra alternativa é fazer o Teste de exogeneidade das variáveis utilizando o
procedimento de Hausman, para avaliar a Correlação entre variáveis explanatórias e o termo
de erro (Hill et al., 2003, p.346-348).
Na situação de violação da hipótese de que as variáveis explanatórias sejam fixas, tem-
se uma relação entre estas variáveis, aqui chamadas de X, e os termos de erros. Os
coeficientes estimados serão viesados e deve-se usar o método de variáveis instrumentais, ou
seja, buscar variáveis que sejam correlacionadas com X, mas não correlacionadas com os
erros.
No chamado Teste de Hausmann adaptado, testa-se a hipótese nula:
𝐻 : 𝑐𝑜𝑣(𝑥, 𝑒) = 0
𝐻 : 𝑐𝑜𝑣(𝑥, 𝑒) ≠ 0

Uma forma alternativa de implementar é, para fazer a regressão y = α + βx + e ,


primeiro estimar um modelo de x em função dos instrumentos z (variáveis não
correlacionadas com os erros). Ou seja, estimar x = γ z + γ z + u, gera a série de u e
insere a serie de erros previstos na regressão de y. ou seja, estima
y = α + βx + δu + e

Deve-se avaliar a significância de δ pelo teste t. Se δ for significativo, então existe a


violação do pressuposto, ou seja, neste caso a decisão será:
H : δ = 0 (não há correlação entre x e o residuo, ou seja, cov(x, e) = 0)
H : δ ≠ 0 (há correlação entre x e o residuo, ou seja, cov(x, e) ≠ 0)

Se mais de uma variável é suspeita, deve fazer o teste F para os diferentes resíduos
envolvidos.
Econometria – Prof. Adriano M. R. Figueiredo 159
Assim, para o caso de x1 e x2, fazer regressões para cada um e obter u1 e u2. A
regressão terá como hipótese que H : δ = δ = 0.

Teste de Hausman para Endogeneidade:

Eq reduzida para PM – Tabela 7.10 do livro do Santana


Dependent Variable: PM
Method: Least Squares
Sample: 1980 1996
Included observations: 17
Variable Coefficient Std. Error t-Statistic Prob.
R 0.017172 0.009354 1.835760 0.0913
PF -0.276099 0.293611 -0.940359 0.3656
SR 22.76523 7.523069 3.026057 0.0105
PMI 0.095358 1.410316 0.067615 0.9472
C -54.22740 58.96507 -0.919653 0.3759
R-squared 0.523250 Mean dependent var 111.2829
Adjusted R-squared 0.364333 S.D. dependent var 34.19872
S.E. of regression 27.26619 Akaike info criterion 9.689101
Sum squared resid 8921.344 Schwarz criterion 9.934164
Log likelihood -77.35736 F-statistic 3.292608
Durbin-Watson stat 1.759473 Prob(F-statistic) 0.048606

 Fazer forecast de PM para usar no segundo estágio no modelo estrutural.


 Gerar resíduos da equação e inclui na equação da variável a testar...
 Estimar a equação estrutural da oferta: Q = f(PMF, SR, PMI, C, RESIDPMRED)
 E olhar coeficiente de residpmred (resíduo da equação de PM no modelo reduzido):
H0: não há simultaneidade e beta=0 (não-significativo)
H1: há simultaneidade e beta diferente de zeros (significativo)
 Se mais de um regressor endógeno, temos que aplicar teste F
 Fazer cada equação reduzida e obter valores previstos, colocar na equação estrutural
junto às variáveis endógenas originais (Ver Gujarati, 4ª. Edição, p.607).

 O teste F será para os parâmetros das variáveis explicativas endógenas previstas ( Yˆ2 e

Yˆ3 ao mesmo tempo iguais a zero): usar teste Wald e colocar os coeficientes iguais a
zero ao mesmo tempo.

No eviews: na janela Equation/View/Coefficient tests/Wald – Coefficient Restrictions.


Colocar: c(i)=c(j)=0 i e j indicam os coeficientes das variáveis endógenas em teste... estão
sendo ao mesmo tempo testadas iguais a zero.
Econometria – Prof. Adriano M. R. Figueiredo 160

Exemplo: se a as variaveis testadas tiverem coeficientes c(1) e c(2), digita-se c(1)=c(2)=0 na


janela Wald Test.
Exemplo:
Wald Test:
System: SISTEMA
Null Hypothesis: C(1)=0
C(2)=0
Chi-square 16.00759 Probability 0.000334
Econometria – Prof. Adriano M. R. Figueiredo 161

4.7. Pressuposição 7: Ausência de multicolinearidade entre


as variáveis explicativas

A detecção do problema passa por diversas análises:


1. Ocorrência de R2 alto e “t”´s não-significativos;
2. Altas correlações simples entre as variáveis explicativas, por exemplo, acima de 0,8;
3. Altas correlações parciais entre os X´s: verificar o coeficiente de correlação parcial
quando algumas variáveis são consideradas constantes;
4. Regressões auxiliares: fazer a regressão considerando o Xi como variável
dependente das demais variáveis Xj. Esta alternativa permite identificar quais variáveis estão
mais relacionadas. Se o R2 da regressão auxiliar for alto, então se tem a indicação de
multicolinearidade;
X1 = f(X2, X3, X4, ... , Xn)
X2 = g(X1, X3, X4, ... , Xn)
X3 = h(X1, X2, X4, ... , Xn)
Etc
5. Regra de Klein: a multicolinearidade não é prejudicial se
R2Y∙ X1, X2, ... , Xk > R2 Xi ∙ X1, X2... , Xk
Ou seja, se o R² da regressão principal (modelo em estudo) for maior que o R² da
regressão auxiliar da variável X em análise.
6. Verificar a estabilidade das estimativas dos  de cada variável em cada equação
auxiliar:
Y = f(X1)
Y = f(X1,X2)
Y = f(X1, X2, X3)
7. Verificar os fatores de inflação da variância (FIV) centrados.

As soluções para a presença de multicolinearidade passam pela retirada de variáveis


problemáticas, ou omissão de variáveis, deixando aquela mais relevante para a pesquisa. As
regressões auxiliares auxiliarão na escolha entre as variáveis para decidir qual será retirada do
modelo. O problema com a omissão de variáveis é a inserção de erro de especificação. Outra
opção é aumentar o tamanho da amostra, caso possível. O aumento da amostra é o mesmo que
reduzir a micronumerosidade e com isto se ganha observações que tendem a não estar
observando uma perfeita relação com outras variáveis. Uma terceira opção é transformar as
Econometria – Prof. Adriano M. R. Figueiredo 162
variáveis problemáticas, fazendo razões entre elas (Xi/Xj), como os preços relativos. A
limitação com este procedimento é que se perde a relação direta, ficando apenas com
parâmetros que refletem relações para a razão.
O cálculo das correlações parciais não é direto nem simples quando se tratar de
regressão múltipla. Uma alternativa é usar pacotes que já contêm a rotina como, por exemplo
o Stata, fazendo uso de comandos como a seguir, para o exemplo dado em Greene
(2002:p.22-30), dados de investimento dos Estados Unidos de 1968-1982:

Quadro 4.20. Matriz de correlação simples, Stata.


. correlate p index g interest
(obs=15)

p index g interest

p 1.0000
index 0.6357 1.0000
g 0.6362 0.9786 1.0000
interest 0.7243 0.8043 0.8039 1.0000
Econometria – Prof. Adriano M. R. Figueiredo 163
Quadro 4.21. Matrizes de correlações parciais, Stata.
. pcorr g p index interest
(obs=15)

Partial and semipartial correlations of g with

Partial Semipartial Partial Semipartial Significance


Variable Corr. Corr. Corr.^2 Corr.^2 Value

p 0.0282 0.0057 0.0008 0.0000 0.9271


index 0.9384 0.5533 0.8807 0.3061 0.0000
interest 0.1097 0.0225 0.0120 0.0005 0.7213

. pcorr index g p interest


(obs=15)

Partial and semipartial correlations of index with

Partial Semipartial Partial Semipartial Significance


Variable Corr. Corr. Corr.^2 Corr.^2 Value

g 0.9384 0.5530 0.8807 0.3058 0.0000


p 0.0183 0.0037 0.0003 0.0000 0.9526
interest 0.1189 0.0244 0.0141 0.0006 0.6990

. pcorr p interest index g


(obs=15)

Partial and semipartial correlations of p with

Partial Semipartial Partial Semipartial Significance


Variable Corr. Corr. Corr.^2 Corr.^2 Value

interest 0.4583 0.3524 0.2101 0.1242 0.1152


index 0.0183 0.0125 0.0003 0.0002 0.9526
g 0.0282 0.0193 0.0008 0.0004 0.9271

. pcorr interest index g p


(obs=15)

Partial and semipartial correlations of interest with

Partial Semipartial Partial Semipartial Significance


Variable Corr. Corr. Corr.^2 Corr.^2 Value

index 0.1189 0.0626 0.0141 0.0039 0.6990


g 0.1097 0.0577 0.0120 0.0033 0.7213
p 0.4583 0.2698 0.2101 0.0728 0.1152

Ou seja, retorna as correlações parciais de uma variável com respeito a cada variável
da lista (year, g, interest, p).
Econometria – Prof. Adriano M. R. Figueiredo 164
Outro método é a análise do Fator de variância inflacionária (FVI), ou no inglês
Variance Inflation Factor (VIF), ou ainda, Fator de inflação da Variância (Gujarati, 2006:
p.282), para cada variável explicativa. Neste caso, faz-se a estimação de
𝑥 = 𝑓 𝑥 , 𝑥 , 𝑥 … 𝑥 e obtém-se o 𝑅 para cada variável. O FVI da variável i será:
1
𝐹𝑉𝐼 =
1−𝑅

Se o conjunto de variáveis explicativas for independente, não-correlacionado, o FVI


será igual a um (𝐹𝑉𝐼 = 1). O Gretl estabelece uma comparação de FVI com 10, ou seja,
valores superiores a FVI= 10 indicariam multicolinearidade entre estas variáveis. Já Santana
(2003: p.244) recomenda o valor de FVI = 5. Já Greene (2002: p.58) cita autores os quais
recomendam atenção para valores de FVI maiores que 20. Acredito ser mais prudente ficar
com o valor de FIV = 5, a favor da segurança! Gujarati (2006: p.284) faz uma análise
interessante para averiguar a tolerância implícita no modelo.
A seguir têm-se saídas dos softwares Stata, Gretl, Eviews e R. Na janela da estimação
do modelo, clicando em Testes e em Colinearidade, tem-se a saída do teste de FVI (ou
Factores de Inflaccionamento da Variância – VIF – no Gretl).
Exemplo de Investimento dos Estados Unidos da América em Greene (2002, p.22,
http://people.stern.nyu.edu/wgreene/Text/Edition7/TableF3-1old.txt):

4.7.1. Teste de multicolinearidade no Stata:

4.7.1.1. Teste do Variance Inflation Factor (VIF) no Stata:


Exemplo de Investimento dos Estados Unidos da América em Greene (2002, p.22,
http://people.stern.nyu.edu/wgreene/Text/Edition7/TableF3-1old.txt):
Econometria – Prof. Adriano M. R. Figueiredo 165
Quadro 4.22. Estimativas do modelo original, em Stata
. regress y index g interest p

Source SS df MS Number of obs = 15


F( 4, 10) = 91.83
Model .015861368 4 .003965342 Prob > F = 0.0000
Residual .000431814 10 .000043181 R-squared = 0.9735
Adj R-squared = 0.9629
Total .016293182 14 .001163799 Root MSE = .00657

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

index -.0165896 .0019294 -8.60 0.000 -.0208886 -.0122906


g .6703036 .0537998 12.46 0.000 .5504301 .7901771
interest -.0024281 .0011938 -2.03 0.069 -.005088 .0002318
p .0000639 .0013188 0.05 0.962 -.0028747 .0030024
_cons -.5090685 .0539332 -9.44 0.000 -.6292391 -.3888979

Quadro 4.23. Cálculo de VIF da regressão principal, em Stata.


. estat vif, uncentered

Variable VIF 1/VIF

g 1690.30 0.000592
intercept 1010.43 0.000990
index 106.90 0.009355
interest 31.15 0.032103
p 28.87 0.034636

Mean VIF 573.53

. estat vif

Variable VIF 1/VIF

index 24.14 0.041427


g 24.11 0.041470
interest 3.65 0.273664
p 2.14 0.467007

Mean VIF 13.51


Econometria – Prof. Adriano M. R. Figueiredo 166
Quadro 4.24. Rotina de obtenção do VIF da regressão principal, em Stata.

4.7.1.2. Teste de multicolinearidade no Stata – regra de


Klein:

Para a regra de Klein, é preciso ter regressões auxiliares. Recorde que a regressão
original teve R² = 0.9735. Fazem-se várias regressões de Xi contra Xj, e analisam-se os
diversos R² contra o R² da regressão original, ou seja, se nas regressões auxiliares os R² são
maiores ou menores que 0.9735.
Quadro 4.25. Regressão auxiliar para a regra de Klein: index, em Stata
. regress index g interest p

Source SS df MS Number of obs = 15


F( 3, 11) = 84.84
Model 268.400306 3 89.4667686 Prob > F = 0.0000
Residual 11.5996943 11 1.05451766 R-squared = 0.9586
Adj R-squared = 0.9473
Total 280 14 20 Root MSE = 1.0269

index Coef. Std. Err. t P>|t| [95% Conf. Interval]

g 26.16777 2.904047 9.01 0.000 19.77601 32.55954


interest .0735369 .1852301 0.40 0.699 -.3341518 .4812257
p .0125335 .2060625 0.06 0.953 -.4410071 .466074
_cons -26.31751 2.840748 -9.26 0.000 -32.56995 -20.06507
Econometria – Prof. Adriano M. R. Figueiredo 167
Quadro 4.26. Regressão auxiliar para a regra de Klein: g, em Stata
. regress g interest p index

Source SS df MS Number of obs = 15


F( 3, 11) = 84.75
Model .344829607 3 .114943202 Prob > F = 0.0000
Residual .014918823 11 .001356257 R-squared = 0.9585
Adj R-squared = 0.9472
Total .35974843 14 .025696316 Root MSE = .03683

g Coef. Std. Err. t P>|t| [95% Conf. Interval]

interest .002434 .0066499 0.37 0.721 -.0122024 .0170704


p .0006913 .0073883 0.09 0.927 -.0155702 .0169528
index .0336554 .003735 9.01 0.000 .0254347 .0418761
_cons .9953316 .036028 27.63 0.000 .9160345 1.074629

Quadro 4.27. Regressão auxiliar para a regra de Klein: interest, em Stata


. regress interest p index g

Source SS df MS Number of obs = 15


F( 3, 11) = 9.73
Model 80.4214447 3 26.8071482 Prob > F = 0.0020
Residual 30.300656 11 2.75460509 R-squared = 0.7263
Adj R-squared = 0.6517
Total 110.722101 14 7.90872148 Root MSE = 1.6597

interest Coef. Std. Err. t P>|t| [95% Conf. Interval]

p .5063365 .2960552 1.71 0.115 -.1452766 1.15795


index .1920928 .4838571 0.40 0.699 -.8728695 1.257055
g 4.943506 13.50622 0.37 0.721 -24.78348 34.67049
_cons -3.815768 13.57322 -0.28 0.784 -33.69023 26.05869

Quadro 4.28. Regressão auxiliar para a regra de Klein: p, em Stata


. regress p index g interest

Source SS df MS Number of obs = 15


F( 3, 11) = 4.18
Model 28.3339611 3 9.44465369 Prob > F = 0.0333
Residual 24.8261769 11 2.25692518 R-squared = 0.5330
Adj R-squared = 0.4056
Total 53.160138 14 3.79715271 Root MSE = 1.5023

p Coef. Std. Err. t P>|t| [95% Conf. Interval]

index .0268246 .4410241 0.06 0.953 -.9438628 .9975121


g 1.150325 12.29472 0.09 0.927 -25.91017 28.21082
interest .4148557 .2425664 1.71 0.115 -.1190292 .9487406
_cons 1.864211 12.31728 0.15 0.882 -25.24593 28.97435

Portanto, conforme saídas das regressões auxiliares, em nenhum caso o R² foi superior
a 0.9735. Ou seja,
Econometria – Prof. Adriano M. R. Figueiredo 168
R2Y∙ X1, X2, ... , Xk =0.9735 > R2 Xi ∙ X1, X2... , Xk = 0.9586 (para index em função das
demais)

Neste caso, pela regra de Klein, não se tem uma multicolinearidade preocupante.
Entretanto, pode-se observar que existe um valor de R² expressivo acima de 0,9 na regressão
cuja variável dependente é g e na que é index. Observe que g explica index assim como index
explica g a 1% de significância. Ou seja, existe uma relação entre g e index. Isto foi
observado quando se fez a correlação e obteve valor de 0,9786 entre g e index, e 0,9384 nas
correlações parciais entre g e index. Também a mesma relação se observa nos VIF
anteriormente calculados.

4.7.2. Teste de multicolinearidade no Gretl:


4.7.2.1. Teste do Factor de Inflaccionamiento da Variância
(VIF) no Gretl:
Econometria – Prof. Adriano M. R. Figueiredo 169
Quadro 4.29. Rotina para obtenção do VIF da regressão principal, em Gretl.

Quadro 4.30. Cálculo de VIF da regressão principal, em Gretl.

No exemplo reproduzido acima, as variáveis index e G apresentam multicolinearidade


preocupante, com valores da ordem de 24, bem acima dos 10,0 recomendados pelo Gretl.
Naquele caso, a variável G é o crescimento do PIB e índex é uma variável tendência, que
normalmente apresentam colinearidade.
Econometria – Prof. Adriano M. R. Figueiredo 170

4.7.3. Teste de multicolinearidade no Eviews:


4.7.3.1. Teste do Variance Inflation Factor (VIF) no Eviews:
No Eviews, tem-se a equação principal do modelo e deseja-se testar a
multicolinearidade entre as variáveis explicativas:
Quadro 4.31. Estimativas do modelo original, em Eviews
Dependent Variable: Y
Method: Least Squares
Date: 05/19/14 Time: 21:07
Sample: 1968 1982
Included observations: 15

Variable Coefficient Std. Error t-Statistic Prob.

INDEX -0.016590 0.001929 -8.598289 0.0000


G 0.670302 0.053800 12.45924 0.0000
INTEREST -0.002428 0.001194 -2.034014 0.0693
P 6.39E-05 0.001319 0.048449 0.9623
C -0.509067 0.053933 -9.438890 0.0000

R-squared 0.973497 Mean dependent var 0.203434


Adjusted R-squared 0.962896 S.D. dependent var 0.034114
S.E. of regression 0.006571 Akaike info criterion -6.951026
Sum squared resid 0.000432 Schwarz criterion -6.715010
Log likelihood 57.13270 Hannan-Quinn criter. -6.953540
F-statistic 91.83028 Durbin-Watson stat 1.963575
Prob(F-statistic) 0.000000

Quadro 4.32. Rotina de cálculo de VIF da regressão principal, em Eviews.


Econometria – Prof. Adriano M. R. Figueiredo 171
Quadro 4.33. Cálculo de VIF da regressão principal, em Eviews.
Variance Inflation Factors
Date: 05/19/14 Time: 21:09
Sample: 1968 1982
Included observations: 15

Coefficient Uncentered Centered


Variable Variance VIF VIF

INDEX 3.72E-06 106.8986 24.13840


G 0.002894 1690.295 24.11360
INTEREST 1.43E-06 31.14970 3.654118
P 1.74E-06 28.87195 2.141294
C 0.002909 1010.426 NA

Como nos outros softwares, a interpretação é a mesma.

4.7.4. Teste de multicolinearidade no R:


4.7.4.1. Teste do Variance Inflation Factor (VIF) no R:

Exemplo de Investimento dos Estados Unidos da América em Greene (2002, p.22,


http://people.stern.nyu.edu/wgreene/Text/Edition7/TableF3-1old.txt):
Primeiro, tem-se a equação original:
Quadro 4.34. Estimativas do modelo original, em R
> dados <- read_excel("greenef3_1p22.xlsx",
+ sheet = "dados")
>
> View(dados)
> attach(dados)
> tsdata <- ts(dados, start=c(1968), frequency=1)
> reg1 <- lm(y~index+g+interest+p, data=tsdata )
> summary(reg1)
Call:
lm(formula = y ~ index + g + interest + p, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-0.0100884 -0.0024963 0.0004332 0.0028830 0.0079355
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.5090669 0.0539329 -9.439 2.69e-06 ***
index -0.0165896 0.0019294 -8.598 6.23e-06 ***
g 0.6703021 0.0537996 12.459 2.05e-07 ***
interest -0.0024282 0.0011938 -2.034 0.0693 .
p 0.0000639 0.0013188 0.048 0.9623
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.006571 on 10 degrees of freedom
Multiple R-squared: 0.9735, Adjusted R-squared: 0.9629
F-statistic: 91.83 on 4 and 10 DF, p-value: 7.672e-08
Econometria – Prof. Adriano M. R. Figueiredo 172

É possível verificar que o R² = 0,9735, e que à exceção de p, os demais parâmetros


foram estatisticamente significativos a 10%. A estatística VIF poderá ser obtida fazendo:
Quadro 4.35. Cálculo de VIF da regressão principal, em R.

> reg1.vif<-vif(reg1)
> reg1.vif
index g interest p
24.138403 24.113602 3.654118 2.141294
Da mesma forma que anteriormente, é possível ver valores acima de 5 para as
variáveis index e g, que podem estar com respectivas variâncias dos parâmetros
“inflacionadas”.
Pela regra de Klein, estimam-se as regressões auxiliares alternando as variáveis
explicativas na posição de variável explicada e observam-se os respectivos R² das regressões
auxiliares comparando com o R² = 0,9735 da regressão principal.

Quadro 4.36. Regressão auxiliar para a regra de Klein: index, em R


> # regressões auxiliares para a regra de Klein
> reg1.index <- lm(index~g+interest+p, data=tsdata )
> summary(reg1.index)
Call:
lm(formula = index ~ g + interest + p, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-1.26201 -0.72377 -0.09786 0.46658 1.82371
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -26.31751 2.84076 -9.264 1.58e-06 ***
g 26.16778 2.90406 9.011 2.07e-06 ***
interest 0.07354 0.18523 0.397 0.699
p 0.01253 0.20606 0.061 0.953
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.027 on 11 degrees of freedom
Multiple R-squared: 0.9586, Adjusted R-squared: 0.9473
F-statistic: 84.84 on 3 and 11 DF, p-value: 6.885e-08
Econometria – Prof. Adriano M. R. Figueiredo 173
Quadro 4.37. Regressão auxiliar para a regra de Klein: g, em R
> reg1.g <- lm(g~index+interest+p, data=tsdata )
> summary(reg1.g)
Call:
lm(formula = g ~ index + interest + p, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-0.055715 -0.019970 0.006032 0.017044 0.049755
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.9953314 0.0360281 27.627 1.63e-11 ***
index 0.0336554 0.0037350 9.011 2.07e-06 ***
interest 0.0024341 0.0066499 0.366 0.721
p 0.0006912 0.0073883 0.094 0.927
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.03683 on 11 degrees of freedom
Multiple R-squared: 0.9585, Adjusted R-squared: 0.9472
F-statistic: 84.75 on 3 and 11 DF, p-value: 6.924e-08

Quadro 4.38. Regressão auxiliar para a regra de Klein: interest, em R


> reg1.interest <- lm(interest~index+g+p, data=tsdata )
> summary(reg1.interest)
Call:
lm(formula = interest ~ index + g + p, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-2.36627 -1.03928 -0.00877 1.21104 2.33681
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.8159 13.5732 -0.281 0.784
index 0.1921 0.4839 0.397 0.699
g 4.9437 13.5062 0.366 0.721
p 0.5063 0.2961 1.710 0.115
Residual standard error: 1.66 on 11 degrees of freedom
Multiple R-squared: 0.7263, Adjusted R-squared: 0.6517
F-statistic: 9.732 on 3 and 11 DF, p-value: 0.001986
Econometria – Prof. Adriano M. R. Figueiredo 174
Quadro 4.39. Regressão auxiliar para a regra de Klein: p, em R.
> reg1.p <- lm(p~index+g+interest, data=tsdata )
> summary(reg1.p)
Call:
lm(formula = p ~ index + g + interest, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-2.5409 -0.5644 -0.2925 0.4927 3.2182
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.86426 12.31724 0.151 0.882
index 0.02683 0.44102 0.061 0.953
g 1.15028 12.29468 0.094 0.927
interest 0.41486 0.24257 1.710 0.115
Residual standard error: 1.502 on 11 degrees of freedom
Multiple R-squared: 0.533, Adjusted R-squared: 0.4056
F-statistic: 4.185 on 3 and 11 DF, p-value: 0.03328

Portanto, similarmente aos resultados dos outros softwares, nenhum dos R² das
regressões auxiliares foi acima de R² = 0,9735 da regressão principal e não foi possível
afirmar que existe um problema de multicolinearidade no modelo.

4.7.5. Correção da multicolinearidade no Stata, omitindo a


variável problemática:

Com relação à correção, neste caso, deve-se optar por tirar uma das variáveis (index
ou g), ou alterar o modelo fazendo alguma combinação entre as duas. No exemplo, a variável
index é uma variável tendência, e a variável g é o GNP real (ou PNB real no português). Ou
seja, é uma relação de tendência temporal dentro da g. O mais sensato é retirar a variável
tendência, obtendo (pelo Stata) (reproduz-se abaixo também a equação inicial para facilitar a
comparação):
Econometria – Prof. Adriano M. R. Figueiredo 175
Quadro 4.40. Equação com a variável index, Stata.
. regress y index g interest p

Source SS df MS Number of obs = 15


F( 4, 10) = 91.83
Model .015861368 4 .003965342 Prob > F = 0.0000
Residual .000431814 10 .000043181 R-squared = 0.9735
Adj R-squared = 0.9629
Total .016293182 14 .001163799 Root MSE = .00657

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

index -.0165896 .0019294 -8.60 0.000 -.0208886 -.0122906


g .6703036 .0537998 12.46 0.000 .5504301 .7901771
interest -.0024281 .0011938 -2.03 0.069 -.005088 .0002318
p .0000639 .0013188 0.05 0.962 -.0028747 .0030024
_cons -.5090685 .0539332 -9.44 0.000 -.6292391 -.3888979

Quadro 4.41. Equação sem a variável index, Stata.


. regress y g interest p

Source SS df MS Number of obs = 15


F( 3, 11) = 12.82
Model .01266895 3 .004222983 Prob > F = 0.0007
Residual .003624232 11 .000329476 R-squared = 0.7776
Adj R-squared = 0.7169
Total .016293182 14 .001163799 Root MSE = .01815

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

g .23619 .051332 4.60 0.001 .123209 .349171


interest -.003648 .0032741 -1.11 0.289 -.0108544 .0035583
p -.000144 .0036424 -0.04 0.969 -.0081608 .0078727
_cons -.0724708 .0502131 -1.44 0.177 -.1829892 .0380476

Observe que, como esperado, R² decresce para 0.7776. Ou seja, reduziu bastante o
poder de explicação. Embora houvesse alguma indicação de multicolinearidade entre g e
index, ao retirar a variável tendência, não apenas reduziu bastante o poder de explicação como
também a variável interest perdeu poder de explicação. Existe uma relação importante de y
com a variável index (tendência). Isto é natural, considerando que a variável explicada y é o
investimento real. Ou seja, existe uma relação esperada do investimento no tempo (relação
com a tendência, index) assim como com a taxa de juros (interest) e o GNP real (g). Assim, é
mais plausível deixar o modelo com a variável index. Isto pode estar causando o problema
chamado de regressão espúria devido à “não-estacionariedade” da série.
Econometria – Prof. Adriano M. R. Figueiredo 176
A mesma estimação pelo R será:
Quadro 4.42. Estimativas do modelo sem a variável index, R.
> reg2 <- lm(y~g+interest+p, data=tsdata )
> summary(reg2)
Call:
lm(formula = y ~ g + interest + p, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-0.031352 -0.004970 0.003501 0.009404 0.020617
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.072471 0.050213 -1.443 0.176812
g 0.236190 0.051332 4.601 0.000763 ***
interest -0.003648 0.003274 -1.114 0.288942
p -0.000144 0.003642 -0.040 0.969163
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01815 on 11 degrees of freedom
Multiple R-squared: 0.7776, Adjusted R-squared: 0.7169
F-statistic: 12.82 on 3 and 11 DF, p-value: 0.0006529
Econometria – Prof. Adriano M. R. Figueiredo 177

4.7.6. Correção da multicolinearidade no R, Eviews e Stata

Exemplo de Gujarati (p.354-357): Dados de Longley (1967)10, Tabela 10.8:


Neste exemplo, faz-se a aplicação com R, Eviews e Stata, intercalando as saídas de
cada software, de modo que podem ver as replicações.
Sejam as variáveis: Y (número de pessoas empregadas - Employed); X1 (deflator do
PNB - GNP.deflator), x2 (PNB-GNP), x3 (desempregados - Unemployed), x4 (pessoas nas
forças armadas - Armed.Forces), x5 (população maior de 14anos - Population) e x6 (tendência
- Year)11. Primeiro se estima o modelo. Os dados podem ser obtidos em vários pacotes do R
como o “datasets”, ou o “AER"12.
Quadro 4.43. Resultados da regressão principal pelo R.

> reg1 <- lm(Employed~GNP.deflator + GNP + Unemployed


+ +Armed.Forces + Population+Year, data=tsdata )
> summary(reg1)

Call:
lm(formula = Employed ~ GNP.deflator + GNP + Unemployed +
Armed.Forces +
Population + Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-410.11 -157.67 -28.16 101.55 455.39
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.727e+04 2.251e+04 3.433 0.007470 **
GNP.deflator 1.506e+01 8.491e+01 0.177 0.863141
GNP -3.582e-02 3.349e-02 -1.070 0.312681
Unemployed -2.020e+00 4.884e-01 -4.136 0.002535 **
Armed.Forces -1.033e+00 2.143e-01 -4.822 0.000944 ***
Population -5.110e-02 2.261e-01 -0.226 0.826212
Year 1.829e+03 4.555e+02 4.016 0.003037 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 304.9 on 9 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9925
F-statistic: 330.3 on 6 and 9 DF, p-value: 4.984e-10

10
J. W. Longley (1967) An appraisal of least-squares programs from the point of view of the user. Journal of the
American Statistical Association 62, 819–841.
11
Detalhes em: <https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/longley.html> com sete variáveis.
12
Disponível em <https://artax.karlin.mff.cuni.cz/r-help/library/AER/html/Longley.html> com quatro variáveis.
Econometria – Prof. Adriano M. R. Figueiredo 178

Quadro 4.44. Resultados da regressão principal pelo Eviews.


Dependent Variable: Y
Method: Least Squares
Sample: 1947 1962
Included observations: 16
Variable Coefficient Std. Error t-Statistic Prob.
C 77270.12 22506.71 3.433204 0.0075
X1 1.506187 8.491493 0.177376 0.8631
X2 -0.035819 0.033491 -1.069516 0.3127
X3 -2.020230 0.488400 -4.136427 0.0025
X4 -1.033227 0.214274 -4.821985 0.0009
X5 -0.051104 0.226073 -0.226051 0.8262
X6 1829.151 455.4785 4.015890 0.0030
R-squared 0.995479 Mean dependent var 65317.00
Adjusted R-squared 0.992465 S.D. dependent var 3511.968
S.E. of regression 304.8541 Akaike info criterion 14.57718
Sum squared resid 836424.1 Schwarz criterion 14.91519
Log likelihood -109.6174 F-statistic 330.2853
Durbin-Watson stat 2.559488 Prob(F-statistic) 0.000000

Quadro 4.45. Resultados da regressão principal pelo Stata.

. regress y x1 x2 x3 x4 x5 x6

Source SS df MS Number of obs = 16


F( 6, 9) = 330.29
Model 184172402 6 30695400.3 Prob > F = 0.0000
Residual 836424.129 9 92936.0144 R-squared = 0.9955
Adj R-squared = 0.9925
Total 185008826 15 12333921.7 Root MSE = 304.85

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x1 15.06167 84.91486 0.18 0.863 -177.0291 207.1524


x2 -.0358191 .033491 -1.07 0.313 -.111581 .0399428
x3 -2.020229 .4883995 -4.14 0.003 -3.125065 -.9153928
x4 -1.033227 .2142741 -4.82 0.001 -1.517948 -.5485049
x5 -.0511045 .2260731 -0.23 0.826 -.5625173 .4603083
x6 1829.151 455.4785 4.02 0.003 798.7873 2859.515
_cons 77270.16 22506.69 3.43 0.007 26356.48 128183.8
Econometria – Prof. Adriano M. R. Figueiredo 179
Quadro 4.46. Matriz de Correlação das Variáveis Explicativas, Stata:
. correlate x1-x6
(obs=16)

x1 x2 x3 x4 x5 x6

x1 1.0000
x2 0.9916 1.0000
x3 0.6206 0.6043 1.0000
x4 0.4647 0.4464 -0.1774 1.0000
x5 0.9792 0.9911 0.6866 0.3644 1.0000
x6 0.9911 0.9953 0.6683 0.4172 0.9940 1.0000

Quadro 4.47. Matriz de Correlação das variáveis explicativas pelo R:

> correl<-cor(tsdata)
> correl

GNP.deflator GNP Unemployed Armed.Forces Population Year


GNP.deflator 1.0000 0.9916 0.6206 0.4647 0.9792 0.9911
GNP 0.9916 1.0000 0.6043 0.4464 0.9911 0.9953
Unemployed 0.6206 0.6043 1.0000 -0.1774 0.6866 0.6683
Armed.Forces 0.4647 0.4464 -0.1774 1.0000 0.3644 0.4172
Population 0.9792 0.9911 0.6866 0.3644 1.0000 0.9940
Year 0.9911 0.9953 0.6683 0.4172 0.9940 1.0000
Os valores de correlação simples (par a par) acima de 0,8 são valores preocupantes
para a multicolinearidade. Mas a relação linear pode envolver mais de duas ao mesmo tempo,
o que não é evidenciado na correlação par-a-par.

Regressões Auxiliares pelo R, Eviews e Stata:

O valor para comparação para a regra de Klein é R²=0.9955. Desta forma, a regressão
que acusa o problema é a reg1.GNP, reg1.pop, reg1.year. Olhando essas equações, percebe-
se uma relação significativa estatisticamente entre GNP e pop e tendência (year),
principalmente.

Tabela 4-7. Resultados dos R² das regressões auxiliares:


Regressão R² Regressão R²
reg1.GNPdef 0.9926 reg1.armed 0.7214
reg1.GNP 0.9994 reg1.pop 0.9975
reg1.unemp 0.9703 reg1.year 0.9987
Econometria – Prof. Adriano M. R. Figueiredo 180
Quadro 4.48. Regressão auxiliar do reg1.GNPdef, em R
> #regressoes auxiliares
> reg1.GNPdef <- lm(GNP.deflator ~ GNP + Unemployed
+ +Armed.Forces + Population+Year, data=tsdata )
> summary(reg1.GNPdef)
Call:
lm(formula = GNP.deflator ~ GNP + Unemployed + Armed.Forces +
Population + Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-2.0123 -0.4510 0.1170 0.4191 1.5339
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.045e+02 5.334e+01 3.833 0.0033 **
GNP 2.561e-04 9.484e-05 2.701 0.0223 *
Unemployed 3.192e-03 1.513e-03 2.110 0.0611 .
Armed.Forces 8.802e-04 7.478e-04 1.177 0.2665
Population -1.755e-03 6.331e-04 -2.772 0.0197 *
Year -9.992e-01 1.667e+00 -0.600 0.5621
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.135 on 10 degrees of freedom
Multiple R-squared: 0.9926, Adjusted R-squared: 0.9889
F-statistic: 269.1 on 5 and 10 DF, p-value: 2.541e-10
Quadro 4.49. Regressão auxiliar do reg1.GNP, em R
> reg1.GNP <- lm(GNP~GNP.deflator + Unemployed
+ +Armed.Forces + Population+Year,
data=tsdata )
> summary(reg1.GNP)
Call:
lm(formula = GNP ~ GNP.deflator + Unemployed + Armed.Forces +
Population + Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-3868.5 -1480.9 -362.6 1503.0 4932.3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.810e+05 1.484e+05 -3.241 0.008857 **
GNP.deflator 1.647e+03 6.097e+02 2.701 0.022289 *
Unemployed -1.379e+01 1.500e+00 -9.192 3.42e-06 ***
Armed.Forces -2.998e+00 1.787e+00 -1.677 0.124388
Population 5.624e+00 1.180e+00 4.765 0.000763 ***
Year 1.090e+04 2.571e+03 4.241 0.001713 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2878 on 10 degrees of freedom
Multiple R-squared: 0.9994, Adjusted R-squared: 0.9992
F-statistic: 3575 on 5 and 10 DF, p-value: 6.405e-16
Econometria – Prof. Adriano M. R. Figueiredo 181
Quadro 4.50. Regressão auxiliar do reg1.unemp, em R
> reg1.unemp <- lm(Unemployed~GNP+GNP.deflator +
+ +Armed.Forces + Population+Year, data=tsdata)
> summary(reg1.unemp)
Call:
lm(formula = Unemployed ~ GNP + GNP.deflator + +Armed.Forces +
Population + Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-285.65 -81.26 25.13 100.95 327.75
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.852e+04 1.145e+04 -2.491 0.031916 *
GNP -6.484e-02 7.054e-03 -9.192 3.42e-06 ***
GNP.deflator 9.649e+01 4.574e+01 2.110 0.061060 .
Armed.Forces -2.714e-01 1.090e-01 -2.489 0.032018 *
Population 3.510e-01 9.543e-02 3.678 0.004261 **
Year 7.686e+02 1.671e+02 4.601 0.000979 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 197.4 on 10 degrees of freedom
Multiple R-squared: 0.9703, Adjusted R-squared: 0.9554
F-statistic: 65.24 on 5 and 10 DF, p-value: 2.631e-07
Quadro 4.51. Regressão auxiliar do reg1.armed em R
> reg1.armed <- lm(Armed.Forces~Unemployed+GNP+GNP.deflator
+
+ + Population+Year, data=tsdata )
> summary(reg1.armed)
Call:
lm(formula = Armed.Forces ~ Unemployed + GNP + GNP.deflator +
+Population + Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-604.93 -221.75 20.53 231.16 559.42
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.188e+04 3.300e+04 -0.360 0.7263
Unemployed -1.410e+00 5.663e-01 -2.489 0.0320 *
GNP -7.324e-02 4.366e-02 -1.677 0.1244
GNP.deflator 1.382e+02 1.174e+02 1.177 0.2665
Population 1.993e-01 3.276e-01 0.608 0.5565
Year 1.168e+03 5.617e+02 2.079 0.0643 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 449.9 on 10 degrees of freedom
Multiple R-squared: 0.7214, Adjusted R-squared: 0.582
F-statistic: 5.178 on 5 and 10 DF, p-value: 0.01327
Econometria – Prof. Adriano M. R. Figueiredo 182
Quadro 4.52. Regressão auxiliar do reg1.pop, em R
> reg1.pop <-
lm(Population~Armed.Forces+Unemployed+GNP+GNP.deflator +
+ + Year, data=tsdata )
> summary(reg1.pop)
Call:
lm(formula = Population ~ Armed.Forces + Unemployed + GNP +
GNP.deflator +
+Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-575.24 -185.36 75.39 246.15 586.66
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 95694.3665 8682.0335 11.022 6.47e-07 ***
Armed.Forces 0.1790 0.2943 0.608 0.556517
Unemployed 1.6381 0.4454 3.678 0.004261 **
GNP 0.1234 0.0259 4.765 0.000763 ***
GNP.deflator -247.5927 89.3192 -2.772 0.019720 *
Year -782.0409 587.1614 -1.332 0.212452
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 426.4 on 10 degrees of freedom
Multiple R-squared: 0.9975, Adjusted R-squared: 0.9962
F-statistic: 796.3 on 5 and 10 DF, p-value: 1.154e-12
Quadro 4.53. Regressão auxiliar do reg1.year, em R
> reg1.year <-
lm(Year~Population+Armed.Forces+Unemployed+GNP+GNP.deflator,
data=tsdata )
> summary(reg1.year)
Call:
lm(formula = Year ~ Population + Armed.Forces + Unemployed +
GNP + GNP.deflator, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-0.41955 -0.11015 0.01308 0.07981 0.26143
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.305e+00 1.540e+01 0.539 0.601571
Population -1.927e-04 1.446e-04 -1.332 0.212452
Armed.Forces 2.584e-04 1.243e-04 2.079 0.064295 .
Unemployed 8.837e-04 1.921e-04 4.601 0.000979 ***
GNP 5.895e-05 1.390e-05 4.241 0.001713 **
GNP.deflator -3.473e-02 5.792e-02 -0.600 0.562125
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2117 on 10 degrees of freedom
Multiple R-squared: 0.9987, Adjusted R-squared: 0.998
F-statistic: 1516 on 5 and 10 DF, p-value: 4.65e-14
Econometria – Prof. Adriano M. R. Figueiredo 183

Quadro 4.54. Regressão auxiliar do X1, em Eviews


Dependent Variable: X1
Method: Least Squares
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

X2 0.000256 9.48E-05 2.700628 0.0223


X3 0.003192 0.001513 2.109831 0.0611
X4 0.000880 0.000748 1.176973 0.2665
X5 -0.001755 0.000633 -2.771998 0.0197
X6 -0.999219 1.666535 -0.599579 0.5621
C 204.4583 53.33698 3.833331 0.0033

R-squared 0.992622 Mean dependent var 101.6813


Adjusted R-squared 0.988933 S.D. dependent var 10.79155
S.E. of regression 1.135293 Akaike info criterion 3.371655
Sum squared resid 12.88890 Schwarz criterion 3.661376
Log likelihood -20.97324 Hannan-Quinn criter. 3.386491
F-statistic 269.0649 Durbin-Watson stat 1.870344
Prob(F-statistic) 0.000000

Quadro 4.55. Regressão auxiliar do X1, em Stata


. regress x1 x2 x3 x4 x5 x6

Source SS df MS Number of obs = 16


F( 5, 10) = 269.06
Model 1733.9755 5 346.7951 Prob > F = 0.0000
Residual 12.8889228 10 1.28889228 R-squared = 0.9926
Adj R-squared = 0.9889
Total 1746.86442 15 116.457628 Root MSE = 1.1353

x1 Coef. Std. Err. t P>|t| [95% Conf. Interval]

x2 .0002561 .0000948 2.70 0.022 .0000448 .0004675


x3 .0031922 .001513 2.11 0.061 -.000179 .0065633
x4 .0008802 .0007479 1.18 0.266 -.0007861 .0025465
x5 -.001755 .0006331 -2.77 0.020 -.0031656 -.0003443
x6 -.9992166 1.666537 -0.60 0.562 -4.712492 2.714059
_cons 204.4583 53.33702 3.83 0.003 85.61596 323.3005
Econometria – Prof. Adriano M. R. Figueiredo 184
Quadro 4.56. Regressão auxiliar do X2, em Eviews
Dependent Variable: X2
Method: Least Squares
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

X3 -13.78980 1.500185 -9.192068 0.0000


X4 -2.998116 1.787322 -1.677435 0.1244
X5 5.624360 1.180367 4.764926 0.0008
X6 10902.88 2570.756 4.241117 0.0017
C -480986.0 148413.8 -3.240845 0.0089
X1 1646.571 609.6993 2.700628 0.0223

R-squared 0.999441 Mean dependent var 387698.4


Adjusted R-squared 0.999161 S.D. dependent var 99394.94
S.E. of regression 2878.484 Akaike info criterion 19.04791
Sum squared resid 82856689 Schwarz criterion 19.33763
Log likelihood -146.3833 Hannan-Quinn criter. 19.06275
F-statistic 3575.027 Durbin-Watson stat 1.665549
Prob(F-statistic) 0.000000

Quadro 4.57. Regressão auxiliar do X2, em Stata


. regress x2 x3 x4 x5 x6 x1

Source SS df MS Number of obs = 16


F( 5, 10) = 3575.02
Model 1.4811e+11 5 2.9621e+10 Prob > F = 0.0000
Residual 82856790.7 10 8285679.07 R-squared = 0.9994
Adj R-squared = 0.9992
Total 1.4819e+11 15 9.8794e+09 Root MSE = 2878.5

x2 Coef. Std. Err. t P>|t| [95% Conf. Interval]

x3 -13.7898 1.500186 -9.19 0.000 -17.13242 -10.44718


x4 -2.998116 1.787323 -1.68 0.124 -6.98052 .9842883
x5 5.624359 1.180368 4.76 0.001 2.994336 8.254382
x6 10902.88 2570.757 4.24 0.002 5174.88 16630.89
x1 1646.57 609.6996 2.70 0.022 288.0743 3005.065
_cons -480985.8 148413.9 -3.24 0.009 -811672.4 -150299.1
Econometria – Prof. Adriano M. R. Figueiredo 185
Quadro 4.58. Regressão auxiliar do X3, em Eviews
Dependent Variable: X3
Method: Least Squares
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

X4 -0.271381 0.109011 -2.489492 0.0320


X5 0.350986 0.095432 3.677879 0.0043
X6 768.5517 167.0507 4.600709 0.0010
C -28518.24 11446.89 -2.491354 0.0319
X1 96.49428 45.73555 2.109831 0.0611
X2 -0.064843 0.007054 -9.192068 0.0000

R-squared 0.970255 Mean dependent var 3193.313


Adjusted R-squared 0.955382 S.D. dependent var 934.4642
S.E. of regression 197.3861 Akaike info criterion 13.68820
Sum squared resid 389612.8 Schwarz criterion 13.97792
Log likelihood -103.5056 Hannan-Quinn criter. 13.70303
F-statistic 65.23778 Durbin-Watson stat 1.663054
Prob(F-statistic) 0.000000

Quadro 4.59. Regressão auxiliar do X3, em Stata


. regress x3 x4 x5 x6 x1 x2

Source SS df MS Number of obs = 16


F( 5, 10) = 65.24
Model 12708738.2 5 2541747.65 Prob > F = 0.0000
Residual 389613.21 10 38961.321 R-squared = 0.9703
Adj R-squared = 0.9554
Total 13098351.4 15 873223.429 Root MSE = 197.39

x3 Coef. Std. Err. t P>|t| [95% Conf. Interval]

x4 -.2713815 .1090108 -2.49 0.032 -.5142728 -.0284902


x5 .3509858 .0954317 3.68 0.004 .1383508 .5636208
x6 768.552 167.0508 4.60 0.001 396.3397 1140.764
x1 96.49415 45.73556 2.11 0.061 -5.411022 198.3993
x2 -.0648431 .0070542 -9.19 0.000 -.0805609 -.0491252
_cons -28518.22 11446.89 -2.49 0.032 -54023.47 -3012.957
Econometria – Prof. Adriano M. R. Figueiredo 186
Quadro 4.60. Regressão auxiliar do X4, em Eviews

Dependent Variable: X4
Method: Least Squares
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

X5 0.199317 0.327633 0.608354 0.5565


X6 1167.779 561.6770 2.079094 0.0643
C -11881.24 33002.42 -0.360011 0.7263
X1 138.2322 117.4472 1.176973 0.2665
X2 -0.073243 0.043664 -1.677435 0.1244
X3 -1.409910 0.566344 -2.489492 0.0320

R-squared 0.721365 Mean dependent var 2606.688


Adjusted R-squared 0.582048 S.D. dependent var 695.9196
S.E. of regression 449.9064 Akaike info criterion 15.33595
Sum squared resid 2024158. Schwarz criterion 15.62567
Log likelihood -116.6876 Hannan-Quinn criter. 15.35079
F-statistic 5.177860 Durbin-Watson stat 1.369483
Prob(F-statistic) 0.013267

Quadro 4.61. Regressão auxiliar do X4, em Stata


. regress x4 x5 x6 x1 x2 x3

Source SS df MS Number of obs = 16


F( 5, 10) = 5.18
Model 5240402.92 5 1048080.58 Prob > F = 0.0133
Residual 2024158.52 10 202415.852 R-squared = 0.7214
Adj R-squared = 0.5820
Total 7264561.44 15 484304.096 Root MSE = 449.91

x4 Coef. Std. Err. t P>|t| [95% Conf. Interval]

x5 .1993165 .3276331 0.61 0.557 -.5306955 .9293285


x6 1167.779 561.6771 2.08 0.064 -83.71537 2419.274
x1 138.2319 117.4471 1.18 0.266 -123.4566 399.9205
x2 -.0732428 .0436636 -1.68 0.124 -.1705313 .0240458
x3 -1.409909 .5663443 -2.49 0.032 -2.671803 -.1480152
_cons -11881.18 33002.41 -0.36 0.726 -85415.13 61652.77
Econometria – Prof. Adriano M. R. Figueiredo 187
Quadro 4.62. Regressão auxiliar do X5, em Eviews

Dependent Variable: X5
Method: Least Squares
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

X6 -782.0409 587.1614 -1.331901 0.2125


C 95694.37 8682.033 11.02211 0.0000
X1 -247.5928 89.31925 -2.771998 0.0197
X2 0.123433 0.025905 4.764926 0.0008
X3 1.638107 0.445395 3.677879 0.0043
X4 0.179055 0.294326 0.608354 0.5565

R-squared 0.997495 Mean dependent var 117424.0


Adjusted R-squared 0.996242 S.D. dependent var 6956.102
S.E. of regression 426.4253 Akaike info criterion 15.22875
Sum squared resid 1818385. Schwarz criterion 15.51847
Log likelihood -115.8300 Hannan-Quinn criter. 15.24358
F-statistic 796.3020 Durbin-Watson stat 1.567875
Prob(F-statistic) 0.000000

Quadro 4.63. Regressão auxiliar do X5, em Stata


. regress x5 x6 x1 x2 x3 x4

Source SS df MS Number of obs = 16


F( 5, 10) = 796.30
Model 723991847 5 144798369 Prob > F = 0.0000
Residual 1818387.22 10 181838.722 R-squared = 0.9975
Adj R-squared = 0.9962
Total 725810234 15 48387348.9 Root MSE = 426.43

x5 Coef. Std. Err. t P>|t| [95% Conf. Interval]

x6 -782.0407 587.1618 -1.33 0.212 -2090.319 526.2373


x1 -247.5925 89.31928 -2.77 0.020 -446.6083 -48.57675
x2 .123433 .0259045 4.76 0.001 .0657141 .1811519
x3 1.638107 .4453949 3.68 0.004 .6457053 2.630509
x4 .1790545 .2943267 0.61 0.557 -.4767462 .8348551
_cons 95694.35 8682.039 11.02 0.000 76349.57 115039.1
Econometria – Prof. Adriano M. R. Figueiredo 188
Quadro 4.64. Regressão auxiliar do X6, em Eviews

Dependent Variable: X6
Method: Least Squares
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

C 8.305049 15.40358 0.539164 0.6016


X1 -0.034729 0.057922 -0.599579 0.5621
X2 5.89E-05 1.39E-05 4.241117 0.0017
X3 0.000884 0.000192 4.600709 0.0010
X4 0.000258 0.000124 2.079094 0.0643
X5 -0.000193 0.000145 -1.331901 0.2125

R-squared 0.998682 Mean dependent var 8.500000


Adjusted R-squared 0.998024 S.D. dependent var 4.760952
S.E. of regression 0.211653 Akaike info criterion 0.012258
Sum squared resid 0.447969 Schwarz criterion 0.301979
Log likelihood 5.901938 Hannan-Quinn criter. 0.027094
F-statistic 1515.961 Durbin-Watson stat 1.297174
Prob(F-statistic) 0.000000

Quadro 4.65. Regressão auxiliar do X6, em Stata


. regress x6 x1 x2 x3 x4 x5

Source SS df MS Number of obs = 16


F( 5, 10) = 1515.96
Model 339.552031 5 67.9104061 Prob > F = 0.0000
Residual .447969389 10 .044796939 R-squared = 0.9987
Adj R-squared = 0.9980
Total 340 15 22.6666667 Root MSE = .21165

x6 Coef. Std. Err. t P>|t| [95% Conf. Interval]

x1 -.0347289 .0579224 -0.60 0.562 -.1637881 .0943302


x2 .0000589 .0000139 4.24 0.002 .000028 .0000899
x3 .0008837 .0001921 4.60 0.001 .0004557 .0013116
x4 .0002584 .0001243 2.08 0.064 -.0000185 .0005354
x5 -.0001927 .0001447 -1.33 0.212 -.000515 .0001296
_cons 8.30502 15.40357 0.54 0.602 -26.01628 42.62632

Tabela 4-8. Resumo: R² das regressões auxiliares

Var. Dep. X1 X2 X3 X4 X5 X6
R2 0.992622 0.999441 0.970255 0.721365 0.997495 0.998682
OBS: R² da regressão principal = 0.995479
Econometria – Prof. Adriano M. R. Figueiredo 189
Conclusão: São evidenciados problemas de multicolinearidade entre x2
(PNB), x5 (população maior de 14anos) e x6 (tendência). Para melhorar a análise,
faz-se o cálculo do vif pelos softwares.

Quadro 4.66. Cálculo do VIF pelo R.

> reg1.vif<-vif(reg1)
> reg1.vif
GNP.deflator GNP Unemployed Armed.Forces Population Year
135.53244 1788.51348 33.61889 3.58893 399.15102 758.98060

Quadro 4.67. Cálculo do VIF pelo Stata.


. estat vif

Variable VIF 1/VIF

x2 1788.51 0.000559
x6 758.98 0.001318
x5 399.15 0.002505
x1 135.53 0.007378
x3 33.62 0.029745
x4 3.59 0.278635

Mean VIF 519.90

Também é possível relacionar com x1 e x3, ou fazer a alteração teórica: PNB


nominal / deflator = PNB real. Outra sugestão: retirar X6=tendência, pois a
população aumenta à taxa natural de crescimento populacional (correlação de X5 e
X6 = 0,99). Retirar x3, pois não parece sensato relacionar Y (pessoas empregadas)
com x3 (pessoas desempregadas).
Segue o Modelo Corrigido retirando e transformando variáveis:
Econometria – Prof. Adriano M. R. Figueiredo 190

Quadro 4.68. Resultados da estimação com transformação das variáveis, Eviews.

Dependent Variable: Y
Method: Least Squares
Date: 03/14/17 Time: 09:31
Sample: 1947 1962
Included observations: 16

Variable Coefficient Std. Error t-Statistic Prob.

X2/X1 9.736496 1.791552 5.434671 0.0002


X4 -0.687966 0.322238 -2.134965 0.0541
X5 -0.299537 0.141761 -2.112965 0.0562
C 65720.37 10624.81 6.185558 0.0000

R-squared 0.981404 Mean dependent var 65317.00


Adjusted R-squared 0.976755 S.D. dependent var 3511.968
S.E. of regression 535.4492 Akaike info criterion 15.61641
Sum squared resid 3440470. Schwarz criterion 15.80955
Log likelihood -120.9313 Hannan-Quinn criter. 15.62630
F-statistic 211.0972 Durbin-Watson stat 1.654069
Prob(F-statistic) 0.000000

Quadro 4.69. Resultados da estimação com transformação das variáveis, Stata.


. gen z=x2/x1

. label variable z "x2/x1"

. regress y z x4 x5

Source SS df MS Number of obs = 16


F( 3, 12) = 211.10
Model 181568352 3 60522784 Prob > F = 0.0000
Residual 3440474.03 12 286706.169 R-squared = 0.9814
Adj R-squared = 0.9768
Total 185008826 15 12333921.7 Root MSE = 535.45

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

z 9.736497 1.791554 5.43 0.000 5.833036 13.63996


x4 -.687966 .3222378 -2.13 0.054 -1.390062 .01413
x5 -.2995366 .1417614 -2.11 0.056 -.6084081 .009335
_cons 65720.36 10624.82 6.19 0.000 42570.88 88869.85
Econometria – Prof. Adriano M. R. Figueiredo 191
Da mesma forma, utilizando a transformação z=GNP/GNP.deflator, equivalente ao
PNB real e retirando a variável tendência (Year), e retirando Unemployed, tem-se os
resultados em R.

Quadro 4.70. Resultados da estimação com transformação das variáveis, R.

> reg2<-lm(Employed~I(GNP/GNP.deflator)+Armed.Forces
+ + Population, data=tsdata )
> summary(reg2)
Call:
lm(formula = Employed ~ I(GNP/GNP.deflator) + Armed.Forces +
Population, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-1131.8 -139.5 13.6 306.3 681.7
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65720.3663 10624.8077 6.186 4.69e-05 ***
I(GNP/GNP.deflator) 9.7365 1.7916 5.435 0.000151 ***
Armed.Forces -0.6880 0.3222 -2.135 0.054074 .
Population -0.2995 0.1418 -2.113 0.056234 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 535.4 on 12 degrees of freedom
Multiple R-squared: 0.9814, Adjusted R-squared: 0.9768
F-statistic: 211.1 on 3 and 12 DF, p-value: 1.203e-10
Econometria – Prof. Adriano M. R. Figueiredo 192
Quadro 4.71. Resumo das violações de pressupostos do modelo de regressão linear clássico.

PRESSUPOSIÇÃO TESTE HIPÓTESE NULA: H0 PROBLEMA

RESET de Ramsey
1. Relação Linear / especificação H0: Não há erro de especificação Se rejeitar H0
(linktest, ovtest)

2 . Média do erro é zero Teste de hipótese simples (t) H0: média igual a zero Se rejeitar H0

H0: β1=0 => variável de β1 não causa


Glejser Se rejeitar H0
heterocedasticidade
3. Variância do erro é constante White H0:β=0 => não há heterocedasticidade Se rejeitar H0

Breusch-Pagan LM Test H0: não há heterocedasticidade Se rejeitar H0

Durbin-Watson (DW) H0: erros não autocorrelacionados Se rejeitar H0

4. Erros independentes h-Durbin H0: erros não autocorrelacionados Se rejeitar H0

LM de Breusch-Godfrey H0: erros não autocorrelacionados Se rejeitar H0

5. Variáveis explicativas são não-estocásticas ou


Matriz de correlação entre ε e X H0: Não há correlação entre ε e X Se rejeitar H0
fixas

H0: não colinearidade de X’s


Equações auxiliares / regra de Klein / Se rejeitar H0
6. Independência linear entre as variáveis explicativas 2 2
FIV R Y∙ X1, X2, ... , Xk > R Xi ∙ X2, ... , Xk

7. Erro tem distribuição normal Bera-Jarque H0: erros são normais Se rejeitar H0
* Em que Y = [Yi] é um vetor nX1 das observações da variável dependente; X = [Xij] é uma matriz nXp das observações das variáveis independentes; ε = [εi] é um vetor nX1
dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de
ordem mXn; k é o número de variáveis independentes; p = K + 1 é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.
Fonte: elaboração própria.
Econometria – Prof. Adriano M. R. Figueiredo 193

5. Referências Bibliográficas
DEBENEDICTIS, L. F.; GILES D. E. A. Diagnostic Testing in Econometrics: Variable
Addition, RESET and Fourier Approximations. In: ULLAH, Aman; GILES, D. E. A. (Eds.),
Handbook of Applied Economic Statistics. Marcel Dekker, New York; 1998. pp.383-417.

DIAZ, M.D.M. Problemas econométricos no modelo linear geral. In: VASCONCELLOS,


M.A.S.; ALVES, D. (Coords.) Manual de econometria. São Paulo:Atlas, 2000. p.105-137.

GREENE, William H. Econometric analysis. 7th.ed. Boston: Prentice Hall/Pearson


Education, 2012.

GUJARATI, D.N. Econometria Básica. 4.ed. São Paulo: Campus, 2006.

GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica. 5.ed. Porto Alegre:
AMGH/Bookman/McGraw-Hill do Brasil, 2011.

HEISS, Florian. Using R for Introductory Econometrics. Dusseldorf, Germany, 2016.


Disponível em: <http://www.urfie.net/>. Acesso em: 05.03.2017.

HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. São Paulo: Saraiva, 1999.

KENNEDY, P. Manual de Econometria. São Paulo: Elsevier Campus, 2012. 624p.

MATOS, O.C. Econometria Básica: teoria e aplicações. São Paulo: Atlas, 1995.

PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria: modelos e previsões. 4.ed.


Rio de Janeiro: Elsevier/Campus, 2004.

PREGIBON, D. Goodness of link tests for generalized linear models. Applied Statistics,
vol.29, pp. 15–24. 1980.

RAMSEY, J. B. Tests for Specification Errors in Classical Linear Least Squares Regression
Analysis. Journal of the Royal Statistical Society, Series B, v.31. 1969. pp.350–371.

ROMERO, Luis Quintana; GONZÁLEZ, Miguel Ángel Mendoza (coords.). Econometría


aplicada utilizando R. Mexico, Universidad Nacional Autónoma de México/Facultad de
Econometria – Prof. Adriano M. R. Figueiredo 194
Estudios Superiores Acatlán. Primera edición, marzo 2016. Disponible en:
http://saree.com.mx/econometriaR/.

SANTANA, Antônio Cordeiro. Métodos Quantitativos em Economia: elementos e


aplicações. Belém: UFRA, 2003.

VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo:


Atlas, 2000.

WHITE, Halbert. A Heteroskedasticity-Consistent Covariance Matrix and a Direct Test for


Heteroskedasticity. Econometrica, 48, 817–838. 1980.

WOOLDRIDGE, J.M. Introdução a Econometria: uma abordagem moderna. São Paulo:


Pioneira Thomson Learning, 2006.

WOOLDRIDGE, J.M. Introdução à econometria. São Paulo: CENGAGE, 4.ed. 2011.

WOOLDRIDGE, J. M. Introductory Econometrics: a modern approach. 6th ed. Boston:


Cengage Learning, 2015.
Econometria – Prof. Adriano M. R. Figueiredo 195

6. Programas Recomendados

EVIEWS - http://www.eviews.com/
GRETL - http://gretl.sourceforge.net/gretl_portugues.html
LIMDEP - http://www.limdep.com/
R - https://cran.r-project.org/bin/windows/base/
RSTUDIO - https://www.rstudio.com/products/rstudio/download3/
STATA - http://www.stata.com/