Вы находитесь на странице: 1из 61

CIC 052– Métodos Quantitativos

Aplicados à Contabilidade e Finanças


Prof a. Valéria Gama Fully Bressan
vfully@face.ufmg.br
3409-7056
Sala 2041
O MODELO CLÁSSICO DE
REGRESSÃO LINEAR (MCRL)

2
Regressão – Origem do termo
 Famoso ensaio de Francis Galton (1886)*
 Constatou que, embora houvesse uma tendência de
pais altos terem filhos altos e de pais baixos terem
filhos baixos, a altura média dos filhos de pais de
uma dada altura tendia a se deslocar ou “regredir”
até a altura média da população como um todo.
 Ou seja, tanto os filhos altos como baixos
“regrediram” em direção à altura média de todos os
homens.

 *GALTON, Francis. Family Likeness in Stature. Proccedings of Royal Society. London, vol. 40, p.
42-72, 1886. 3
Análise de Regressão
Def.: Análise de regressão é o ramo da estatística que se
relaciona ao estudo da dependência de uma variável
(chamada de variável explicada), em relação a outras
variáveis (chamadas de variáveis explicativas).

Busca-se com esse tipo de análise estimar e/ou prever o


comportamento médio dos valores populacionais da
variável explicada a partir de valores dados para as
variáveis explicativas.
4
Relações Estatísticas Vs. Relações Determinísticas
Uma relação determinística envolve uma relação
funcional exata entre variáveis, do tipo Y  f ( X ) .

Y = a + bX
Y’

X’ X
5
• Todavia, na estatística (e na análise de
regressão particularmente), estamos
interessados nas relações entre variáveis
aleatórias (estocásticas) que tem seus
comportamentos definidos por distribuições de
probabilidade, como a distribuição normal, por
exemplo.

6
Tipos de Dados
Basicamente, na pesquisa empírica estaremos lidando
com três tipos básicos de dados na análise de
regressão:

i. Séries Temporais

ii. Cortes Transversais

iii. Dados em Painel

7
ASPECTOS BÁSICOS DA
REGRESSÃO LINEAR

8
A Função de Regressão Populacional (PRF)
A função de regressão populacional estabelece que o valor
esperado (ou média condicional) da variável dependente
E (Y | X i ) irá depender das variáveis explicativas por meio de

uma função f ( X i ) .

Geralmente, assume-se a forma linear para a PRF:

E (Y | X i )   0  1 X i (1)

Nessa equação, o parâmetro desconhecido  0 será o intercepto

e 1 será o coeficiente angular da função de regressão.


9
Especificação Estocástica da PRF
Uma vez que as relações entre as variáveis aleatórias
não são exatas (determinísticas), existirão desvios (ou
erros) entre os valores esperados para y dados por
E (Y | X i ) e os valores (Yi ) efetivamente observados

empiricamente para a variável explicada por um


modelo de regressão:

Yi  E (Y | X i )   i (2)

Yi   0  1 X i   i
10
O Termo de Erro
 i  Yi  E (Y | X i )   i  Yi  ( 0  1 X i ) (3)

O termo definido por (3) é chamado de termo de erro


estocástico, ou simplesmente de termo de erro.

Ele deve ser incorporado à equação de regressão por


diversos motivos, tais como:

11
i. Imprecisão das teorias subjacentes;

ii. Indisponibilidade de dados;

iii. Variáveis centrais Vs. Variáveis periféricas;

iv. Aleatoriedade do comportamento humano;

v. Variáveis proxy fracas;

vi. Princípio da parcimônia;

vii. Forma funcional errada.


12
O Termo de Erro
Ou seja, o termo de erro entra na equação
de regressão como uma proxy para captar
o efeito de todas as variáveis e aspectos
que influem no comportamento de Y e
que não foram incorporados no modelo.

13
A Função de Regressão Amostral (SRF)
Uma vez que para, praticamente, todas as situações de
análise empírica, estaremos analisando amostras dos
dados e não as populações inteiras, o que teremos
serão estimativas dos verdadeiros valores
populacionais dos parâmetros (  ' s) e dos erros
(chamados de resíduos), simbolizadas em econometria
por “ ^ ” acima das variáveis e parâmetros.

14
A Função de Regressão Amostral (SRF)

Assim, a função de regressão amostral (SRF)


será dada na forma:

Yi  ˆ0  ˆ1 X i  ˆi (4)

Yi  Yˆi  ˆi (5)

Pode-se utilizar também 0 como  e chamar 1 de , e tb “” de “u” para o MRL

15
O MODELO CLÁSSICO DE
REGRESSÃO LINEAR
SIMPLES

16
O Método dos Mínimos Quadrados
Ordinários (MQO)
O método mais amplamente utilizado para estimar os
parâmetros da PRF é o Método dos Mínimos
Quadrados Ordinários (MQO), que como o próprio

nome sugere define uma função S ( ˆ0 , ˆ1 ) , chamada

de Função Soma de Quadrados dos Resíduos, que


deverá ser minimizada, a fim de se obter as melhores
estimativas para  0 e 1 .
Pode-se utilizar também 0 como  e chamar 1 de  para o MRL
17
Graficamente:
• Reta de Regressão Populacional, pontos amostrais e termos de erro
associados

A idéia básica da regressão é estimar os parâmetros


18 populacionais a partir de uma amostra.
O Método de MQO
A principal vantagem do método de MQO diz respeito ao fato
de que ele dá peso maior aos desvios mais significativos do que
aos pequenos desvios.

Assim, para o exemplo da figura, um critério que buscasse


minimizar apenas a soma dos resíduos ( ˆi ) ou tb ( uˆi )

poderia gerar uma soma muito baixa (ou mesmo igual a zero)
pelo cancelamento dos resíduos positivos com os negativos e
mesmo assim o ajustamento da linha aos dados poderia ser
fraco. 19
O Método de MQO
 Para cada valor de x poderemos ter um ou mais valores de y
observados diferentes de estimado.
 Esta diferença é denominada de erro (u) ou ().

 Os erros são dados por:

20
O Método de MQO
 O símbolo “^” acima das variáveis e parâmetros indica que
essas são estimadas.
 O objetivo da análise de regressão simples é o de obter a reta
que melhor ajuste aos dados observados.
 Existem diversos métodos utilizados para essa finalidade.
 O mais usual deles é o MQO.
 Intuitivamente, MQO equivale ao ajuste de uma reta através
dos pontos da amostra tal que a soma dos quadrados dos
resíduos seja a menor possível, daí o nome “Mínimos
Quadrados”
21
O Método de MQO
 O nome mínimos quadrados é devido ao fato de que

será nula, pois os valores positivos


cancelam-se com os negativos.

 Assim sendo, uma opção seria minimizar o quadrado desses


erros (daí o nome do método), ou seja, queremos minimizar
a expressão:

 
n n n

 uˆi     yi  yˆ i    yi  ˆ  ˆxi
2 2 2

i 1 i 1 i 1

22
O Método de MQO
 Para encontrar os valores de e recorremos ao Cálculo
Diferencial:

 u 2


  y  yˆ  2


  ˆ
y  ˆ  x2

0
  
 
 2 y  ˆ  ˆx  1  0

  y  ˆ  ˆx  0 
 y  nˆ  ˆ  x  0
 nˆ   y  ˆ  x ˆ   y ˆ x
 ˆ  y  ˆ x
n n
23
O Método de MQO
 u 2   y  yˆ 2  y  ˆ  ˆx 
2

  0
  
 2  
y  ˆ  ˆx  x   0
 y ˆ  x
  xy     x  ˆ
  x 2
0
 n n 

  xy 
 x y ˆ

 x
2

 ˆ  x 2  0
n n

  xy 
 x y 

 ˆ  x 2
 x 2

0
n  n 
 

  x y
ˆ
xy 
n n xy    x  y
  
  
  
 x 2  n  
2 2
x n x 2
 x

24
O Método de MQO
 RESUMO DO COEFICIENTE ANGULAR :
no MRL Simples.
 O coeficiente angular é a covariância amostral entre x e y
dividido pela variância amostral de x.
 Se x e y são positivamente correlacionados, o coeficiente
será positivo.
 Se x e y são negativamente correlacionados, o coeficiente
será negativo.
 Vejamos:

25
O Método de MQO
É fácil verificar que :

cov xy 
 x  x  y  y    xy  xy  xy  xy 
n n

cov xy 
 xy  y  x  x  y  nxy   xy  ynx  xny  nxy
n n

cov xy 
 xy  2nx y  nx y  xy  nx y  xy  n n n
 
x y
  
n n n
n xy   x  y 
cov xy  .
n
De modo similar,

varx 
 x  x  2


 x 2
 2 xx  x 2 

 x 2
 2 x  x  nx 2
n n n

varx 
 x  2 xnx  nx
2 2


 x  nx
2 2


 x 2
n x
n    n x   x
2
2 2

n n n n
logo,
cov  x, y 
ˆ 
var  x 
26
O Modelo de Regressão Linear
 Comportamento do intercepto e do coeficiente angular .

ˆ  0
ˆ  0
ˆ  0
ˆ  0

ˆ  0
ˆ  0

27
Exemplo: MRL Simples
Empresa Calcebem

 A empresa Calcebem fabricante de calçados femininos,


deseja projetar o aumento do seu faturamento no próximo
ano. Seus gestores entendem que os gastos com propaganda
podem explicar o seu faturamento.
 Vamos definir um MRL simples:
 Faturamento = f (gastos com propaganda).
 Faturamento = y
 Gastos com propaganda = x

 y = a + bx

28
Exemplo: MRL Simples
Empresa Calcebem
obs Mês y x y2 x2 y*x
1 jan/08 24500 1200 600250000 1440000 29400000
2 fev/08 27890 1500 777852100 2250000 41835000
3 mar/08 28900 1900 835210000 3610000 54910000
4 abr/08 26700 1200 712890000 1440000 32040000
5 mai/08 24300 1200 590490000 1440000 29160000
6 jun/08 20890 2000 436392100 4000000 41780000
7 jul/08 18700 2000 349690000 4000000 37400000
8 ago/08 20150 1300 406022500 1690000 26195000
9 set/08 25600 1800 655360000 3240000 46080000
10 out/08 21890 1800 479172100 3240000 39402000
11 nov/08 26700 1700 712890000 2890000 45390000
12 dez/08 37120 1800 1377894400 3240000 66816000
13 jan/09 26500 1200 702250000 1440000 31800000
14 fev/09 30100 2500 906010000 6250000 75250000
15 mar/09 32500 2500 1056250000 6250000 81250000
16 abr/09 33400 2500 1115560000 6250000 83500000
17 mai/09 27600 2000 761760000 4000000 55200000
18 jun/09 23100 2000 533610000 4000000 46200000
19 jul/09 20800 2000 432640000 4000000 41600000
20 ago/09 17500 1500 306250000 2250000 26250000
21 set/09 29300 1500 858490000 2250000 43950000
22 out/09 25600 1500 655360000 2250000 38400000
23 nov/09 29600 2500 876160000 6250000 74000000
24 dez/09 43000 2500 1849000000 6250000 107500000
Total 642340 43600 17987453200 83920000 1195308000
Exemplo: MRL Simples
Empresa Calcebem

 Utilizando as fórmulas:

ˆ n xy    x y
 
 
n  x   x 
2 2

ˆ 241.195.308.000,00  (43.600,00) * (642.340,00)


  6,0234
2483.920.000,00  43.600,00
2

ˆ   y ˆ x
 
n n
642.340,00 (43.600,00)

ˆ  (6,0234)  15.821,64
24 24

30
Exemplo: MRL Simples
 Interpretação:
 Intercepto: ˆ  15.821,64
 Indica que quando o gasto com propaganda for zero o faturamento
esperado da empresa é de R$ 15.821,64.

 Coeficiente angular: ˆ  6,0234


 Indica que um aumento de um real com os gastos com propaganda,
em média, tende a aumentar a quantidade o faturamento em R$
6,02.

 Projeção do faturamento para janeiro de 2010 considerando


o gasto com propaganda de R$ 3.000,00, então espera-se :
 y = 15.821,64 + 6,0234 (3000) = 33.891,84

31
Análise de Variância do Modelo
 Além de obter estimativas para os parâmetros (ˆ e ˆ )
da equação de regressão, precisamos de medidas de
confiabilidade para o modelo em geral e para os
parâmetros.

32
Decomposição da variância de y

Podemos pensar cada observação como composta


por uma parte explicada, e uma parte não explicada,
yi  yˆ i  uˆi Onde definimos que :
  y  y  é a soma dos quadrados totais (SST)
2
i

  yˆ  y  é a soma dos quadrados explicados (SSE)


2
i

 uˆ é a soma dos quadrados dos resíduos (SSR)


2
i

Logo, SST  SSE  SSR

33
Medida de ajuste do modelo
 Como podemos determinar o grau de ajuste de nossa reta
de regressão aos dados amostrais?
 Através do cálculo da fração do SST que é explicada pelo
modelo, a qual chamamos de Coeficiente de
Determinação (“R-dois”) da regressão:
 R2 = SSE/SST= 1 – SSR/SST

34
Medida de ajuste do modelo

 Interpretação do R2

 Por exemplo, um R2 = 0,83 indica que 83% da variação


em y é explicada pela equação de regressão.

35
Medida de ajuste do modelo

 Importante destacar que nos Modelos de Regressão Linear


Múltipla:

 O R2 nunca decresce quando mais uma variável


independente é adicionada à regressão, na verdade,
tende a crescer.

 Pelo fato de R2 tender a crescer juntamente com o


número de variáveis explicativas, não é um bom critério
para comparar modelos.

36
Medida de ajuste do modelo
 Nos Modelos de Regressão Linear Múltipla tem-se o R 2 (R2
ajustado):
n 1
R  1
2

nk

1 R2 
 n = número de observações
 k = número de variáveis explicativas
 Visto que, quando variáveis explicativas são adicionadas ao
modelo, o R2 nunca decresce.
 De modo a penalizar modelos com alto k, desenvolveu-se o R2
ajustado para graus de liberdade, o qual penaliza a inclusão de
variáveis não significativas no modelo.
 A análise do R2 ajustado é similar a análise do R2

37
Teste de hipóteses dos parâmetros
Antes de interpretar o significado empírico dos
^ ^
valores estimados para  e  , deve-se
avaliar se esses os mesmos são
estatisticamente significativos. Ou seja, deve-
se testar as hipóteses (para o caso de β):
^
H 0    0 (hipótese nula)
^
H1    0 (hipótese alternativa)
^
Se   0 , x i não será útil para explicar o
^ ^
comportamento de y, pois yi     xi .
38
Teste de hipótese dos parâmetros
^ ^
O teste “t” para  e  constitui-se em um
teste estatístico que (para um dado número
de observações) calcula o parâmetro.
^

tCalculado 
^
 P  
 
2
  ^
  i 
y  y

^ n2
Em que: P   
   x
2

x
2
i  i

n 39
Teste de hipótese dos parâmetros
 O valor t calculado deve ser comparado a um par de
valores tabelados (tabela “t” de Student), chamados
de valores críticos a um dado nível de significância
(geralmente = 10%).

 Testes mais rigorosos usam níveis de significâncias


menores (5% ou 1%).

 Não se deve usar nível de significância maior que


10%.
40
O valor de probabilidade (valor p) para o
teste t
 A análise do valor P facilita a interpretação do
resultado pois nos dá o nível exato de significância
do modelo.
 Assim, tem-se para o nível de significância adotado
pelo pesquisador de 10%, as seguintes regras de
decisão para o teste:

41
Teste da significância conjunta dos
parâmetros – Teste F
 Teste F é aplicado a MRLM.
 Queremos saber se um grupo de parâmetros é igual a zero.
 H0= 1= 2= ...= k =0 (todos os coeficientes angulares são iguais a zero)
 Ha= nem todos os coeficientes angulares são
simultaneamente iguais a zero
SQE gl SQE k  1
F 
SQR gl SQR n  k 
 Estatística F:
 SQE = Soma dos quadrados explicados
 SQR = Soma dos quadrados dos resíduos
 gl = graus de liberdade

42
Pressupostos do Modelo Clássico de Regressão
Linear (MCRL)
Quando o matemático alemão Carl Friedrich Gauss
desenvolveu o método dos mínimos quadrados em 1821 ele
estabeleceu 10 pressuposições sobre o modelo de
regressão.

Essas pressuposições definem o que seria uma norma, um


padrão ou um ideal que deveriam ser testados e atendidos
pelos modelos de regressão estimados. Nesse sentido, o
MCRL de Gauss parte dos seguintes pressupostos:
43
Pressuposto I: Linearidade.

O modelo de regressão é linear nos


parâmetros (  s ) .

Yi   0  1 X i   i

44
Pressuposto II: Os valores de X são fixos (não
estocásticos) em amostragens repetidas.

Teoricamente, esse pressuposto implicaria que as


regressões foram obtidas a partir de “experimentos
controlados”, em que o pesquisador define valores
fixos para as variáveis explicativas e observa as
respostas da variável explicada.

45
Pressuposto III: O Valor médio dos resíduos é zero.

Esse pressuposto diz que os fatores não explicitamente


incluídos no modelo não afetam de maneira
sistemática o valor médio de Y. Ou seja, o efeito médio
de  , dado um valor para X, sobre Y é nulo.

E ( i | X i )  0  E (Yi | X i )   0  1 X i

46
Pressuposto IV: Homocedasticidade dos resíduos.

Esse pressuposto diz que a variância dos resíduos é


igual (constante) para todas as observações.

Var( i | X i )  E[ i  E ( i | X i )]2  E[ i  0]2  E[ i ]2   2

47
Pressuposto V: Resíduos não autocorrelacionados.

Dados dois valores quaisquer para uma variável explicativa, Xi


e Xj por exemplo, a correlação entre  i e  j i  j será nula.

Cov( i ,  j | X i , X j )  E{[ i  E ( i )] | X i }{[ j  E ( j )] | X j } 


Cov( i ,  j | X i , X j )  E[( i | X i )( j | X j )] 
Cov( i ,  j | X i , X j )  E ( i | X i ) E ( j | X j )  0

48
Pressuposto VI: Covariância nula entre os resíduos e as
variáveis explicativas.

Esse pressuposto estabelece que o termo de erro é livre de


influência das variáveis explicativas. Formalmente, tem-se:

Cov( i , X i )  E{[ i  E ( i )][ X i  E ( X i )]} 


Cov( i , X i )  E{ i [ X i  E ( X i )]}  E ( i X i )  E ( i ) E ( X i ) 
Cov( i , X i )  E ( i X i )  Dado que se assume independên cia :
Cov( i , X i )  E ( i ) E ( X i )  0

49
Pressuposto VII: Não há micronumerosidade.

Esse pressuposto estabelece que o número de


observações (N ou T) utilizado na regressão deve ser
maior que o número de parâmetros que serão
estimados.

Ou seja, deve-se ter mais observações que variáveis


explicativas. Caso isso não ocorra o sistema será
indeterminado.

50
Pressuposto VIII: Variabilidade nas variáveis
explicativas.

Os valores para X em uma dada amostra não


podem ser todos iguais. Ou seja, não se pode
explicar a variação de Y a partir de uma variável X
que não varia. Tecnicamente:

Var ( X i )  0
51
Pressuposto IX: Correta especificação do modelo.

A especificação de um modelo é o processo de análise e


escolha das variáveis, da forma funcional e das
pressuposições probabilísticas feitas sobre Yi, Xi e  i que

entrarão no modelo de regressão.

Nesse sentido, esse pressuposto implica que todas estas


escolhas e definições foram feitas da forma mais
acertada possível e que nenhuma outra especificação
seria mais apropriada. Ou seja, ele implica na ausência
do viés de especificação. 52
Pressuposto X: Não há Multicolinearidade perfeita.

Esse pressuposto se aplica aos modelos de regressão


linear múltipla e estabelece que não há nenhuma
relação linear exata entre duas (ou mais) das
variáveis explicativas do modelo.

53
Pressuposto XI (Adicional):
Normalidade dos Resíduos
• O MCRL, conforme foi estabelecido não faz
nenhuma suposição sobre a natureza
probabilística do termo de erro.
• Todavia, o termo de erro representa a
influência da soma de um grande número de
variáveis aleatórias independentes sobre Y.

54
A Hipótese de Normalidade dos
Resíduos
Nesse sentido, existe um teorema da
estatística, chamado Teorema Central do
Limite que estabelece que a soma de um
grande número de variáveis aleatórias
seguirá uma distribuição normal de
probabilidades.
55
Normalidade dos Estimadores de
MQO
Existe uma propriedade da distribuição normal que
estabelece que qualquer função linear de variáveis
distribuídas normalmente também será distribuída
normalmente.

Assim sendo, conclui-se que se  i são distribuídos

normalmente, os estimadores ˆ ' s também o serão.

56
O Teorema de Gauss-Markov
Dadas as pressuposições do MCRL, o importante
Teorema de Gauss-Markov estabelece que os
estimadores de MQO possuem as seguintes
propriedades ideais:

I. São estimadores lineares; ou seja, os  s do


modelo de regressão são funções lineares de Y.
57
II. São não-viesados. Assim, a média (valor esperado)
dos estimadores é igual ao verdadeiro parâmetro

populacional. Ou seja, E ( ˆ ) =  .

Prof. Wagner58
M. Lamounier
III. São estimadores eficientes. Isso significa que dentre todos os
estimadores lineares e não-viesados, os estimadores de MQO são os
que apresentam a menor variância.

Prof. Wagner59
M. Lamounier
O Teorema de Gauss-Markov
Ou seja, o Teorema de Gauss-Markov estabelece
que os estimadores de MQO são BLUE (Best
Linear Unbiased Estimators).

Obs. Este teorema é demonstrado


matematicamente.
60
Bibliografia Básica
 GUJARATI, D. N.; PORTER, D.C. Econometria Básica.
5ª ed. Porto Alegre: AMGH Editora, 2011.
(Introdução, Capítulos: 1, 2, 3, 4 e 5)

61

Вам также может понравиться