Академический Документы
Профессиональный Документы
Культура Документы
Econometria I
Prof. Hélio Radke Bittencourt
Março de 2017
Ementa e cronograma previsto
Ementa
Mínimos quadrados ordinários (modelos de regressão simples, modelos de
regressão múltipla); estimação e inferência estatística; escolha de formas
funcionais; interpretação e comparação de modelos de regressão; problemas em
regressão (multicolinearidade e heterocedasticidade); variáveis dummy;
variáveis-resposta binárias (logit, probit).
APÊNDICE A.................................................................................................... 60
1. Conceitos básicos em Econometria
Y = α + βX + u
Suposição acerca de u: u ~ Normal (μ=0;σ2 constate)
Se desejarmos testar a hipótese de que o aumento no preço diminui a
quantidade demandada, podemos testar a hipótese de que β<0.
1ª) Não se conhece um particular valor do experimento antes dele ser executado, porém
podemos descrever todos os possíveis resultados - as possibilidades;
Nos seis exemplos anteriores não somos capazes de precisar o resultado, entretanto
conseguimos listar os possíveis resultados.
S1 =
S2 =
S3 =
S4 =
S5 =
S6 =
S1 = {1,2,3,4,5,6}
n( A)
P( A) n(A) é o número de resultados favoráveis ao evento A
Total( S )
Total (s) é o número total de resultados em S
Conceito freqüentista
Neste conceito a probabilidade é tratada como um limite. Aqui é possível fazer uma
relação entre probabilidade (teórica) e estatística (empírica). Para casos assim a
probabilidade de ocorrência do evento A é obtida por:
n( A)
fr(A) = , onde n(A) é o nº de vezes em que ocorre o resultado A em n realizações
n
do experimento.
3º) Probabilidade como limite. A medida que n aumenta, a fr(A) converge para a real
probabilidade P(A).
Conceito Axiomático
Axioma 1: 0 P(A) 1
Axioma 2: P(S) = 1
Axioma 3: Para eventos Ai excludentes, P(A1 A2) = P(A1) + P(A2)
Graficamente:
P(A|B) = P(B|A) =
Exemplo – Fornecedor X Devoluções
Devolução
Fornecedor Sim Não Total
A 30 50 80
B 60 40 100
C 50 50 100
Total 140 140 280
=> Independência
P( Ai B ) P( Ai ) P( B | Ai )
P( Ai | B ) ...
P( B ) P( B )
Uma variável aleatória discreta X é uma função que associa números aos resultados do
Espaço Amostral.
Exemplo – Prova
Para exemplificar vamos admitir uma prova composta de n=4 questões com cinco
alternativas cada onde apenas uma está correta.
Q1) a) b) c) d) e)
Q2) a) b) c) d) e)
Q3) a) b) c) d) e)
Q4) a) b) c) d) e)
Escreva o espaço amostral S considerando apenas questão certa (C) ou errada (E).
Neste caso:
x 0 1 2 3 4
P(X=x)
2a) P( X x ) 1
x
Características da F(X) ou P( X x ) :
1a) Ela é contínua à direita;
2a) F ( ) 0 e F ( ) 1
3a) F ( x ) é sempre não decrescente.
Graficamente:
Esperança e Variância de uma Variável Aleatória Discreta
E( X ) x P( X x )
x
Exemplo – Prova
Var( X ) E X E( X ) E X 2 E( X )
2 2
DP( X ) Var( X )
Exemplo - Prova
x 0 1 2 3 4
P(X=x) 0,35 0,30 0,20 k 0,05
Distribuição Binomial
Um caso como o da prova de quatro questões pode ser resolvido pela Distribuição
Binomial. Sempre que um experimento que assume apenas dois possíveis resultados
em cada repetição for repetido n vezes e que a probabilidade de sucesso for constante
em cada repetição, podemos modelar o número de sucessos pela distribuição Binomial.
X ~ Binomial (n ; p)
x=0,1,...,n
n!
P( X x) p x (1 p) n x
x!n x !
Exemplo – Prova
1) Se lançarmos uma moeda honesta 100 vezes, qual o número esperado de caras?
n n
E(X) = P( X x ) C nx p x ( 1 p )n x = np
x 0 x 0
Var(X) = np(1-p)
Prova: E(X)
Var(X)
Peças: E(X)
Var(X)
Loteria: E(X)
Var(X)
A distribuição de Poisson
X ~ Poisson ()
e x
P X x , x = 0,1,2,... >0
x!
e x
x 0 x!
=1
e x
E(X) = xP( X x ) x
x 0 x 0 x!
Var(X) =
A medida que ninfinito e p0 a distribuição Binomial pode ser aproximada pela
Poisson.
n e np np
x
P( X x ) p x ( 1 p ) n x
n p 0
x x!
Binomial Poisson
0,4000 0,4000
0,3500 0,3500
0,3000 0,3000
0,2500 0,2500
0,2000 0,2000
0,1500 0,1500
0,1000 0,1000
0,0500 0,0500
- -
0 3 6 9 12 15 18 21 24 27 30 0 3 6 9 12 15 18 21 24 27 30
1.2.3 Variáveis aleatórias contínuas
Definições Básicas
As variáveis contínuas podem, ao menos teoricamente, assumir qualquer valor num
intervalo numérico. Sendo assim fica impossível representarmos variáveis contínuas da
mesma forma que as variáveis discretas. Diferenciando um caso discreto de um
contínuo:
P(X=x)
0,25 0,30
0,20 0,25
0,20
0,15
0,15
0,10
0,10
0,05 0,05
- -
0 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 13
Importante
As variáveis contínuas são representadas por “curvas”, chamadas de função
densidade de probabilidade. A área sob essa função representa a probabilidade de
ocorrência. No caso contínuo não existe a probabilidade de ocorrência de um valor
exato, mas sim de intervalos.
f ( x )dx 1
A área sob a curva fx(x) nos informa a probabilidade de ocorrência de valores da variável
X.
Supondo que o gráfico acima represente a função de probabilidade de uma variável
aleatória X. Como sabermos a probabilidade de ocorrência de valores entre a e b ?
b
P( a X b ) f ( x )dx
a
x
F ( x ) P( X x ) f ( x )dx
Propriedades da F(x):
d
4o) f ( x ) F( x )
dx
Exercício – Fixação do conteúdo
2 x;0 x 1
f(x)
0; c.c.
O cálculo da esperança e da variância no caso contínuo pode ser feito de forma análoga
E( X ) xf ( x )dx
Em geral:
E( g( x )) g( x ) f ( x )dx
Uma v.a.c X tem distribuição Uniforme se a sua função densidade f(x) descreve um
retângulo que dá sempre a mesma probabilidade de ocorrência para intervalos de
mesmo tamanho.
X ~ Uniforme [a , b]
a xb
1
; axb
f ( x) b a
0 ; caso contrário
f(x)
1/(b-a)
a b
x
xa
Provar que F ( x) para a x b .
ba
ba (b a) 2
E( X ) Var ( X )
2 12
Uma v.a.c. X tem distribuição normal com parâmetros e se sua função densidade
de probabilidade é dada por:
( x )2
f x
1
e 2 2
, x ,
2
onde e são parâmetros ,
- < < + ; 0
Notação
X N(,)
f ( x )dx 1
E( X ) xf ( x )dx
x f ( x )dx 2
2
DP(X) =
Vejamos exemplos:
f(x)
f(x)
f(x)
-10 -5 0 5 10 -10 0 10 -10 -5 0 5 10
Valores de X Valores de X Valores de X
Seja X uma variável aleatória normalmente distribuída com quaisquer parâmetros média
e desvio-padrão . Se realizarmos a seguinte transformação obteremos uma nova
variável Z com média 0 e desvio-padrão 1:
X
X N(,) Z Z (0,1)
Qualquer variável com distribuição Normal pode ser padronizada para a Normal.
A distribuição Normal padronizada (Z) é tabelada.
1.3 Background de Estatística
(aleatória) selecionada.
Exemplo:
E( X ) =
Exemplo:
Var( X )=
Importante:
O desvio-padrão de um estimador também é chamado de Erro-padrão.
n
( ) f x1 , f x2 , f xn , f xi ,
i 1
P( A B ) P( A ) P( B )
P( A B C ) P( A ) P( B ) P( C )
n n
P( Ai ) P( Ai )
i 1 i 1
Exemplo – PRÊMIOS OCULTOS
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
-
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Encontar o estimador MáxVer para sabendo que X ~ Poisson (). Neste caso
é muito mais simples maximizar o logaritmo natural da função de
verossimilhança.
2o) Método dos Momentos: Este método foi proposto pelo inglês Pearson
em 1894 e consiste em igualar os momentos amostrais aos momentos da
distribuição populacional.
Na distribuição Normal:
E(X) = e Var(X) = 2
Portanto X pode ser usado para estimar e ˆ 2 para estimar 2. Sabemos,
x X
n
2
Exemplo – Poisson
Sabendo que X ~ Poisson (), encontrar pelo método dos momentos um
estimador para .
N n
padrão =
n N 1
2. Regressão Linear Simples
Antes de iniciar este capítulo faremos um exemplo motivador.
Exemplo motivador:
( Yˆ ) Yˆ ) Yˆ )2
(Y)
(Y (Y
1 36
2 39
3 44
4 38
5 42
6 41
Y 40
n
Qual deve ser o valor de Yˆ para minimizar ( y
i 1
i ŷ )2 ???
yi a bxi ei
3o) Agora admita que ŷi é uma estimativa do valor de yi para um dado xi e que
ŷi a bxi .
i 1
n n n
e y ŷ y a bx
2 2 2
i i i i i
i 1 i 1 i 1
n
a yi a bxi 0
2
i 1
n
b
yi a bxi 2 0
i 1
( Yˆ ) Yˆ )
experiência (X) quadrado
(Y
(Y Yˆ )2
1 36 2
2 39 7
3 44 10
4 38 6
5 42 9
6 41 8
Y 40 X 7
x y
x y
i i
i i
b n
a Y bX
xi 2
x
2
i
n
Suposições em Análise de Regressão Linear Simples
Além de admitir que o modelo linear seja razoável para representar o relacionamento
entre X e Y, também temos que admitir que a variância de Y seja constante,
independentemente do valor de X.
~ Normal( 0; e )
yi y yˆ i y yi yˆ i
2 2 2
i 1 i 1 i 1
2o) Fazer um gráfico de dispersão entre X e Y, clicar com o botão direito sobre os pontos
e solicitar “Adicionar linha de tendência”, marcando as opções para mostrar o coeficiente
de determinação (R2) e a equação da reta.
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,952
R-Quadrado 0,905
R-quadrado ajustado 0,882
Erro padrão 0,997
Observações 6
ANOVA
gl SQ MQ F F de significação
Regressão 1 38,03 38,03 38,26 0,003
Resíduo 4 3,97 0,99
Total 5 42,00
𝑆𝑄𝐸𝑟𝑟𝑜
𝐸𝑃(𝑏) = √
(𝑛 − 2) × ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )²
Assim, para testarmos a hipótese Ho: β= β0, podemos recorrer ao famoso teste de Wald:
b 0
t ~ t n2
EP(b )
Também é importante lembrar que as predições só podem ser feitas dentro do intervalo
da variável independente. Em nosso exemplo, essa equação de regressão só poderia ser
utilizada em predições para funcionários com tempo de experiência entre 2 e 10 anos
ou na vizinhança próxima. Se afastando deste intervalo podem haver absurdos. De
qualquer forma, há como construirmos intervalos de confiança para valores preditos.
Esses intervalos tem amplitude mínima quando 𝑥0 = 𝑥̅ e vão ampliando à medida que
nos afastamos de 𝑥̅ .
1 (𝑥0 − 𝑥̅ )²
𝐼𝐶 𝑌0 (1 − 𝑎𝑙𝑝ℎ𝑎) = [𝑌̂0 ± 𝑡𝛼;𝑛−2 × √𝑄𝑀𝐸 (1 + + 𝑛 )]
2 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )²
a) Modelo Exponencial
𝑌 = 𝛼 ∗ 𝑒𝑥𝑝{𝛽𝑋} + 𝜀, logo temos que
𝑌̂ = 𝑎 ∗ 𝑒𝑥𝑝{𝑏𝑋}
Aplicando propriedades dos logaritmos, temos:
𝑙𝑛(𝑌̂) = 𝑙𝑛(𝑎) + 𝑏𝑋 (modelo log-linear)
b) Modelo Potência
𝑌 = 𝛼 ∗ 𝑋𝛽 , logo temos que
𝑌̂ = 𝑎 ∗ 𝑋 𝑏
Aplicando propriedades dos logaritmos, temos:
𝑙𝑛(𝑌̂) = 𝑙𝑛(𝑎) + 𝑏 ∗ 𝑙𝑛(𝑋) (modelo logaritmo)
3o) Agora admita que ŷi é uma estimativa do valor de yi para um dado conjunto
xi e que yˆ i ai b1 x1i b p x pi .
y1 a b1 x11 b p x p1 e1
y a b x b x e
n 1 1n p pn n
Colocando na forma matricial, temos:
Y1 a 1 X 11 X p1 e1
b 1 X
Y 1 X p 2 e
Y 2 X ε 2
12
B b2
n1 ( p 1)1
n ( p 1) n1
Yn 1 X 1n X pn en
bp
Y XB ε
ˆ XBˆ
Y
onde ˆ 2 QM Erro
Em notação matricial
ˆ ) ˆ 2 (X' X) 1
Var(B
S .E.(b j ) Var (b j )
A correlação parcial entre Y e X1, excluindo o efeito de X2 pode ser obtida por:
t12
R y.2
t12 n p 1
2
𝑅 2 − 𝑅𝑋21
𝑅𝑦.2 =
1 − 𝑅𝑋21
1
VIFj
1 R 2j
2º) Heterocedasticidade
O diagnóstico pode ser feito de modo gráfico ou por meio de testes. O teste de
Goldfeld-Quandt pode ser utilizado para testar a homoscedasticidade dos
resíduos, desde que haja amostra suficiente grande, já que esse teste exige que
a amostra seja dividida em três partes.
se
se
se
se
se
ˆ X`V 1X 1 X`V 1Y
B
Quando V é a matriz identidade, temos o caso tradicional (MQO).
No caso dos mínimos quadrados ponderados atribuímos pesos diferentes às
observações. Vamos fazer o exemplo do livro do Maddala, pg. 214, seguindo os
seguintes passos:
a) Obter as estimativas a e b por MQO; b) Realizar uma regressão do módulo
dos resíduos da regressão anterior em função de x e salvar os valores preditos.
c) Esses valores preditos são os pesos wi. d) Realizar uma regressão entre y e
x ponderada por 1/wi.
As estimativas encontradas por esse método estão supostamente corrigidas pelo
problema da variância não constante dos resíduos.
3º) A existência de autocorrelação indica que o modelo não está bom. Pode ser
sinal de que a forma funcional é inadequada ou variáveis importantes foram
omitidas do modelo. A solução podem ser testar outros modelos (modelos de
séries temporais, por exemplo) ou mudar o conjunto de variáveis.
3.6 Variáveis dummies
Agora vamos admitir que o período do ano possa estar relacionado à variável
dependente Y.
𝐷𝑒𝑧 − 𝐹𝑒𝑣, 𝑉𝑒𝑟ã𝑜
𝑃𝑒𝑟í𝑜𝑑𝑜 𝑑𝑜 𝑎𝑛𝑜 {
𝑀𝑎𝑟 − 𝑁𝑜𝑣, 𝐼𝑛𝑣𝑒𝑟𝑛𝑜
yˆVi aV bV xVi
yˆ Ii a I bI x Ii
Depois de estimados, poderíamos comparar as estimativas. O problema desta
abordagem é que dividimos a amostra.
Utilizando variáveis dummies podemos utilizar toda a amostra.
10
0
0 1 2 3 4 5 6
Inverno Verão xi
yi 25
20
15
10
0
0 1 2 3 4 5 6
Inverno Verão xi
yi 25
20
15
10
0
0 1 2 3 4 5 6
Inverno Verão xi
P(Y 1)
exp 0 1 x1 p x p
1 exp 0 1 x1 p x p
e, conseqüentemente,
1
P(Y 0) 1 P(Y 1)
1 exp 0 1 x1 p x p
.
P(Y 1)
logit ( x) g ( x) ln 0 1x1 p x p
1 P(Y 1)
Há pelo menos duas razões para utilização do modelo logístico na análise de
variáveis-resposta dicotômicas:
1) de um ponto de vista matemático, é extremamente flexível e fácil de ser
utilizada;
2) permite uma interpretação de resultados bastante rica e direta.
A figura a seguir apresenta a função logística com o seu característico formato
em ‘S’ e a relação linear entre uma única variável x e o logit g(x).
Função logística Logit (função linear)
1,0
0,8
logit(x)=g(x)
P(Y=1)
0,6
0,4
0,2
-
X X
computacional:
n
ln (β) y i g ( xi ) ln 1 exp g ( xi )
i 1
(β 0 )
D 2 ln 2 ln ( 0 ) 2 ln (x, ) ~ (2k 1) p
(x, β)
onde,
( 0 ) é o valor da função de verossimilhança apenas com os interceptos
Além dos testes de significância, outras medidas podem ser calculadas para
avaliarmos o modelo. Os valores Pseudo R-Square são uma espécie de
coeficiente de determinação (R2), mas com uma interpretação mais complexa,
entretanto segue a regra básica: quanto maior, melhor é o ajuste do modelo.
Dentre as três medidas apresentadas dá-se preferência a de Nagelkerke, visto
ser uma medida no intervalo [0;1].
De acordo com Norusis e SPSS Inc. (1999, p.45) a medida de Cox and
Snell é obtida pela seguinte relação:
2
( 0 ) n
R 2
1
( x, )
CoxSnell
n
ln (β) y i g ( xi ) ln 1 exp g ( xi )
i 1
Renda
i
(X)
Ni ni 𝑃̂𝑖 𝐼𝑖= 𝐹 −1 (𝑃̂𝑖 ) *
1 6,000 40 8 0,20 - 0,84
2 8,000 50 12 0,24 - 0,71
3
10,000 60 18 0,30
- 0,52
4 13,000 80 28 0,35 - 0,39
5 15,000 100 45 0,45 - 0,13
6 20,000 70 36 0,51 0,04
7 25,000 65 39 0,60 0,25
8 30,000 50 33 0,66 0,41
9 35,000 40 30 0,75 0,67
10 40,000 25 20 0,80 0,84
* Inverso da distribuição acumulada da Normal padrão
O modelo assume a existência de uma função de utilidade I(X), a qual é linear
nos parâmetros bo, b1, ..., bp. No exemplo, como só temos uma variável
teremos um conjunto de dados com a seguinte apresentação:
Renda
i
(X) 𝐼̂𝑖 (𝑋) 𝑃̂𝑖 𝐼𝑖= 𝐹 −1 (𝑃̂𝑖 ) *
1 6,000 bo + b1×6 0,20 - 0,84
... ... ... ... ...
10 40,000 bo + b1×40 0,80 0,84
Parameter Estimates
SOMA: C = A + B
Operação de soma termo-a-termo. A e B devem ter as mesmas dimensões.
PRODUTO: C = A * B
O produto deve ser dimensionalmente compatível. Traduzindo: o número de
colunas de A deve ser igual ao número de linhas de B. Geralmente A * B B
*A
MATRIZ IDENTIDADE
A matriz identidade I equivale ao “1” na multiplicação ordinária. É formada por
termos “1” na diagonal e zero nos demais.
MATRIZ SIMÉTRICA
Numa matriz quadrada, os termos aij=aji.
MATRIZ DIAGONAL
Os termos fora da diagonal são nulos, ou seja aij=0 para ij.