Академический Документы
Профессиональный Документы
Культура Документы
2
Regressão – Origem do termo
Famoso ensaio de Francis Galton (1886)*
Constatou que, embora houvesse uma tendência de
pais altos terem filhos altos e de pais baixos terem
filhos baixos, a altura média dos filhos de pais de
uma dada altura tendia a se deslocar ou “regredir”
até a altura média da população como um todo.
Ou seja, tanto os filhos altos como baixos
“regrediram” em direção à altura média de todos os
homens.
*GALTON, Francis. Family Likeness in Stature. Proccedings of Royal Society. London, vol. 40, p.
42-72, 1886. 3
Análise de Regressão
Def.: Análise de regressão é o ramo da estatística que se
relaciona ao estudo da dependência de uma variável
(chamada de variável explicada), em relação a outras
variáveis (chamadas de variáveis explicativas).
Y = a + bX
Y’
X’ X
5
• Todavia, na estatística (e na análise de
regressão particularmente), estamos
interessados nas relações entre variáveis
aleatórias (estocásticas) que tem seus
comportamentos definidos por distribuições de
probabilidade, como a distribuição normal, por
exemplo.
6
Tipos de Dados
Basicamente, na pesquisa empírica estaremos lidando
com três tipos básicos de dados na análise de
regressão:
i. Séries Temporais
7
ASPECTOS BÁSICOS DA
REGRESSÃO LINEAR
8
A Função de Regressão Populacional (PRF)
A função de regressão populacional estabelece que o valor
esperado (ou média condicional) da variável dependente
E (Y | X i ) irá depender das variáveis explicativas por meio de
uma função f ( X i ) .
E (Y | X i ) 0 1 X i (1)
Yi E (Y | X i ) i (2)
Yi 0 1 X i i
10
O Termo de Erro
i Yi E (Y | X i ) i Yi ( 0 1 X i ) (3)
11
i. Imprecisão das teorias subjacentes;
13
A Função de Regressão Amostral (SRF)
Uma vez que para, praticamente, todas as situações de
análise empírica, estaremos analisando amostras dos
dados e não as populações inteiras, o que teremos
serão estimativas dos verdadeiros valores
populacionais dos parâmetros ( ' s) e dos erros
(chamados de resíduos), simbolizadas em econometria
por “ ^ ” acima das variáveis e parâmetros.
14
A Função de Regressão Amostral (SRF)
15
O MODELO CLÁSSICO DE
REGRESSÃO LINEAR
SIMPLES
16
O Método dos Mínimos Quadrados
Ordinários (MQO)
O método mais amplamente utilizado para estimar os
parâmetros da PRF é o Método dos Mínimos
Quadrados Ordinários (MQO), que como o próprio
poderia gerar uma soma muito baixa (ou mesmo igual a zero)
pelo cancelamento dos resíduos positivos com os negativos e
mesmo assim o ajustamento da linha aos dados poderia ser
fraco. 19
O Método de MQO
Para cada valor de x poderemos ter um ou mais valores de y
observados diferentes de estimado.
Esta diferença é denominada de erro (u) ou ().
20
O Método de MQO
O símbolo “^” acima das variáveis e parâmetros indica que
essas são estimadas.
O objetivo da análise de regressão simples é o de obter a reta
que melhor ajuste aos dados observados.
Existem diversos métodos utilizados para essa finalidade.
O mais usual deles é o MQO.
Intuitivamente, MQO equivale ao ajuste de uma reta através
dos pontos da amostra tal que a soma dos quadrados dos
resíduos seja a menor possível, daí o nome “Mínimos
Quadrados”
21
O Método de MQO
O nome mínimos quadrados é devido ao fato de que
n n n
uˆi yi yˆ i yi ˆ ˆxi
2 2 2
i 1 i 1 i 1
22
O Método de MQO
Para encontrar os valores de e recorremos ao Cálculo
Diferencial:
u 2
y yˆ 2
ˆ
y ˆ x2
0
2 y ˆ ˆx 1 0
y ˆ ˆx 0
y nˆ ˆ x 0
nˆ y ˆ x ˆ y ˆ x
ˆ y ˆ x
n n
23
O Método de MQO
u 2 y yˆ 2 y ˆ ˆx
2
0
2
y ˆ ˆx x 0
y ˆ x
xy x ˆ
x 2
0
n n
xy
x y ˆ
x
2
ˆ x 2 0
n n
xy
x y
ˆ x 2
x 2
0
n n
x y
ˆ
xy
n n xy x y
x 2 n
2 2
x n x 2
x
24
O Método de MQO
RESUMO DO COEFICIENTE ANGULAR :
no MRL Simples.
O coeficiente angular é a covariância amostral entre x e y
dividido pela variância amostral de x.
Se x e y são positivamente correlacionados, o coeficiente
será positivo.
Se x e y são negativamente correlacionados, o coeficiente
será negativo.
Vejamos:
25
O Método de MQO
É fácil verificar que :
cov xy
x x y y xy xy xy xy
n n
cov xy
xy y x x y nxy xy ynx xny nxy
n n
cov xy
xy 2nx y nx y xy nx y xy n n n
x y
n n n
n xy x y
cov xy .
n
De modo similar,
varx
x x 2
x 2
2 xx x 2
x 2
2 x x nx 2
n n n
varx
x 2 xnx nx
2 2
x nx
2 2
x 2
n x
n n x x
2
2 2
n n n n
logo,
cov x, y
ˆ
var x
26
O Modelo de Regressão Linear
Comportamento do intercepto e do coeficiente angular .
ˆ 0
ˆ 0
ˆ 0
ˆ 0
ˆ 0
ˆ 0
27
Exemplo: MRL Simples
Empresa Calcebem
y = a + bx
28
Exemplo: MRL Simples
Empresa Calcebem
obs Mês y x y2 x2 y*x
1 jan/08 24500 1200 600250000 1440000 29400000
2 fev/08 27890 1500 777852100 2250000 41835000
3 mar/08 28900 1900 835210000 3610000 54910000
4 abr/08 26700 1200 712890000 1440000 32040000
5 mai/08 24300 1200 590490000 1440000 29160000
6 jun/08 20890 2000 436392100 4000000 41780000
7 jul/08 18700 2000 349690000 4000000 37400000
8 ago/08 20150 1300 406022500 1690000 26195000
9 set/08 25600 1800 655360000 3240000 46080000
10 out/08 21890 1800 479172100 3240000 39402000
11 nov/08 26700 1700 712890000 2890000 45390000
12 dez/08 37120 1800 1377894400 3240000 66816000
13 jan/09 26500 1200 702250000 1440000 31800000
14 fev/09 30100 2500 906010000 6250000 75250000
15 mar/09 32500 2500 1056250000 6250000 81250000
16 abr/09 33400 2500 1115560000 6250000 83500000
17 mai/09 27600 2000 761760000 4000000 55200000
18 jun/09 23100 2000 533610000 4000000 46200000
19 jul/09 20800 2000 432640000 4000000 41600000
20 ago/09 17500 1500 306250000 2250000 26250000
21 set/09 29300 1500 858490000 2250000 43950000
22 out/09 25600 1500 655360000 2250000 38400000
23 nov/09 29600 2500 876160000 6250000 74000000
24 dez/09 43000 2500 1849000000 6250000 107500000
Total 642340 43600 17987453200 83920000 1195308000
Exemplo: MRL Simples
Empresa Calcebem
Utilizando as fórmulas:
ˆ n xy x y
n x x
2 2
ˆ y ˆ x
n n
642.340,00 (43.600,00)
ˆ (6,0234) 15.821,64
24 24
30
Exemplo: MRL Simples
Interpretação:
Intercepto: ˆ 15.821,64
Indica que quando o gasto com propaganda for zero o faturamento
esperado da empresa é de R$ 15.821,64.
31
Análise de Variância do Modelo
Além de obter estimativas para os parâmetros (ˆ e ˆ )
da equação de regressão, precisamos de medidas de
confiabilidade para o modelo em geral e para os
parâmetros.
32
Decomposição da variância de y
33
Medida de ajuste do modelo
Como podemos determinar o grau de ajuste de nossa reta
de regressão aos dados amostrais?
Através do cálculo da fração do SST que é explicada pelo
modelo, a qual chamamos de Coeficiente de
Determinação (“R-dois”) da regressão:
R2 = SSE/SST= 1 – SSR/SST
34
Medida de ajuste do modelo
Interpretação do R2
35
Medida de ajuste do modelo
36
Medida de ajuste do modelo
Nos Modelos de Regressão Linear Múltipla tem-se o R 2 (R2
ajustado):
n 1
R 1
2
nk
1 R2
n = número de observações
k = número de variáveis explicativas
Visto que, quando variáveis explicativas são adicionadas ao
modelo, o R2 nunca decresce.
De modo a penalizar modelos com alto k, desenvolveu-se o R2
ajustado para graus de liberdade, o qual penaliza a inclusão de
variáveis não significativas no modelo.
A análise do R2 ajustado é similar a análise do R2
37
Teste de hipóteses dos parâmetros
Antes de interpretar o significado empírico dos
^ ^
valores estimados para e , deve-se
avaliar se esses os mesmos são
estatisticamente significativos. Ou seja, deve-
se testar as hipóteses (para o caso de β):
^
H 0 0 (hipótese nula)
^
H1 0 (hipótese alternativa)
^
Se 0 , x i não será útil para explicar o
^ ^
comportamento de y, pois yi xi .
38
Teste de hipótese dos parâmetros
^ ^
O teste “t” para e constitui-se em um
teste estatístico que (para um dado número
de observações) calcula o parâmetro.
^
tCalculado
^
P
2
^
i
y y
^ n2
Em que: P
x
2
x
2
i i
n 39
Teste de hipótese dos parâmetros
O valor t calculado deve ser comparado a um par de
valores tabelados (tabela “t” de Student), chamados
de valores críticos a um dado nível de significância
(geralmente = 10%).
41
Teste da significância conjunta dos
parâmetros – Teste F
Teste F é aplicado a MRLM.
Queremos saber se um grupo de parâmetros é igual a zero.
H0= 1= 2= ...= k =0 (todos os coeficientes angulares são iguais a zero)
Ha= nem todos os coeficientes angulares são
simultaneamente iguais a zero
SQE gl SQE k 1
F
SQR gl SQR n k
Estatística F:
SQE = Soma dos quadrados explicados
SQR = Soma dos quadrados dos resíduos
gl = graus de liberdade
42
Pressupostos do Modelo Clássico de Regressão
Linear (MCRL)
Quando o matemático alemão Carl Friedrich Gauss
desenvolveu o método dos mínimos quadrados em 1821 ele
estabeleceu 10 pressuposições sobre o modelo de
regressão.
Yi 0 1 X i i
44
Pressuposto II: Os valores de X são fixos (não
estocásticos) em amostragens repetidas.
45
Pressuposto III: O Valor médio dos resíduos é zero.
E ( i | X i ) 0 E (Yi | X i ) 0 1 X i
46
Pressuposto IV: Homocedasticidade dos resíduos.
47
Pressuposto V: Resíduos não autocorrelacionados.
48
Pressuposto VI: Covariância nula entre os resíduos e as
variáveis explicativas.
49
Pressuposto VII: Não há micronumerosidade.
50
Pressuposto VIII: Variabilidade nas variáveis
explicativas.
Var ( X i ) 0
51
Pressuposto IX: Correta especificação do modelo.
53
Pressuposto XI (Adicional):
Normalidade dos Resíduos
• O MCRL, conforme foi estabelecido não faz
nenhuma suposição sobre a natureza
probabilística do termo de erro.
• Todavia, o termo de erro representa a
influência da soma de um grande número de
variáveis aleatórias independentes sobre Y.
54
A Hipótese de Normalidade dos
Resíduos
Nesse sentido, existe um teorema da
estatística, chamado Teorema Central do
Limite que estabelece que a soma de um
grande número de variáveis aleatórias
seguirá uma distribuição normal de
probabilidades.
55
Normalidade dos Estimadores de
MQO
Existe uma propriedade da distribuição normal que
estabelece que qualquer função linear de variáveis
distribuídas normalmente também será distribuída
normalmente.
56
O Teorema de Gauss-Markov
Dadas as pressuposições do MCRL, o importante
Teorema de Gauss-Markov estabelece que os
estimadores de MQO possuem as seguintes
propriedades ideais:
populacional. Ou seja, E ( ˆ ) = .
Prof. Wagner58
M. Lamounier
III. São estimadores eficientes. Isso significa que dentre todos os
estimadores lineares e não-viesados, os estimadores de MQO são os
que apresentam a menor variância.
Prof. Wagner59
M. Lamounier
O Teorema de Gauss-Markov
Ou seja, o Teorema de Gauss-Markov estabelece
que os estimadores de MQO são BLUE (Best
Linear Unbiased Estimators).
61