Вы находитесь на странице: 1из 61

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL

PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO


FACULDADE DE ADMINISTRAÇÃO, CONTABILIDADE E ECONOMIA
PROGRAMA DE PÓS-GRADUAÇÃO EM ECONOMIA

Econometria I
Prof. Hélio Radke Bittencourt

Março de 2017
Ementa e cronograma previsto

Ementa
Mínimos quadrados ordinários (modelos de regressão simples, modelos de
regressão múltipla); estimação e inferência estatística; escolha de formas
funcionais; interpretação e comparação de modelos de regressão; problemas em
regressão (multicolinearidade e heterocedasticidade); variáveis dummy;
variáveis-resposta binárias (logit, probit).

Cronograma previsto 2017/1

Aula Data Conteúdo


1 15/03 Apresentação da disciplina. Revisão de Probabilidade e Estatística.
2 22/03 Regressão simples. Escolha de formas funcionais. 
3 29/03 Regressão linear múltipla. Métodos de estimação e inferência. 
4 05/04 Regressão linear múltipla. Métodos de estimação e inferência. 
12/04 Não teremos aula.
5 19/04 Regressão linear múltipla. Métodos de estimação e inferência. 
6 26/04 Problemas em regressão. 
7 03/05 Problemas em regressão
8 10/05 Prova P1
9 17/05 Variáveis dummies. 
10 24/05 Variáveis-resposta binárias. 
11 31/05 Variáveis-resposta binárias. 
12 07/06 Variáveis-resposta binárias. 
13 14/06 Trabalho prático.  (apenas JK)
14 21/06 Trabalho prático. 
15 28/06 Prova P2
Sumário

1. Conceitos básicos em Econometria ............................................................ 5

1.1 Modelos Econômicos e Econométricos .................................................... 5

1.2 Background de Probabilidade ................................................................... 6

1.3 Background de Estatística ...................................................................... 27

1.3.1 Estatística descritiva e inferencial .................................................... 27

1.3.2 Propriedades dos Estimadores ........................................................ 28

1.3.3 Métodos de Estimação ..................................................................... 30

2. Regressão Linear Simples ........................................................................... 33

2.1 Outras formas funcionais linearizáveis ................................................... 39

3. Regressão Linear Múltipla ............................................................................ 40

3.1 Estimação por MQO e pressupostos ...................................................... 40

3.2 Coeficientes de Correlação Parcial ......................................................... 44

3.3 Coeficientes de determinação ajustado .................................................. 45

3.4 Problemas em regressão múltipla .......................................................... 45

3.5 Solução de problemas em regressão ..................................................... 49

3.6 Variáveis dummies ................................................................................. 51

3.6.1 Dummy no intercepto ....................................................................... 51

3.6.2 Dummy na declividade ..................................................................... 52

3.6.3 Dummy na declividade e no intercepto ............................................ 52

4. Modelos para variáveis-resposta binárias .................................................... 54

4.1 Regressão Logística ............................................................................... 54

APÊNDICE A.................................................................................................... 60
1. Conceitos básicos em Econometria

Econometria significa, de maneira literal, mensurar em Economia.

Na prática, a Econometria se dá pelas aplicações de métodos estatísticos e


matemáticos na análise de dados econômicos. Deve-se preservar a coerência
entre a teoria econômica e a parte empírica. É isso que diferencia a Econometria
da Estatística e da Matemática.

A Econometria ganhou força com o estabelecimento da Econometric Society em


1930 e o periódico Econometrica em 1933. Bem mais tarde, em 2007, a
sociedade lançou dois periódicos: Theoretical Economics e Quantitative
Economics.

1.1 Modelos Econômicos e Econométricos

Um modelo econômico é um conjunto de suposições que procura descrever


satisfatoriamente o comportamento de uma economia. Em um modelo
econométrico temos equações, variáveis observadas, a presença do erro (ou
perturbação), suposição sobre o comportamento probabilístico da(s) perturbação
(ões).

Um modelo é uma representação simplificada da realidade. Por esse motivo há


diversas críticas sobre isso. As duas principais são: i) modelo pode ser
excessivamente simplificado; ii) as suposições necessárias não são verdadeiras.

O processo de modelagem pode seguir duas linhas:


Simples  Complexo: inicia-se com um modelo simples e o nível de
complexidade vais aumentando progressivamente;

Complexo  Simples: inicia-se com o modelo mais geral possível e simplifica-


se progressivamente.
Exemplo: Demanda (Y) e Preço (X)

Y = α + βX + u
Suposição acerca de u: u ~ Normal (μ=0;σ2 constate)
Se desejarmos testar a hipótese de que o aumento no preço diminui a
quantidade demandada, podemos testar a hipótese de que β<0.

O exercício da Econometria necessita de aspectos de Probabilidade e


Estatística. Probabilidade é o ramo da Matemática que trata de fenômenos
aleatórios. Na Estatística, estaremos especialmente interessados em Estatística
Inferencial.
[Comentário: Probabilidade vs Estatística; Teoria vs Prática.]

1.2 Background de Probabilidade

Probabilidade é o ramo da matemática que trata de fenômenos aleatórios. A


observação de um fenômeno aleatório por parte do homem é chamada de experimento
aleatório.

Características de um experimento aleatório:

1ª) Não se conhece um particular valor do experimento antes dele ser executado, porém
podemos descrever todos os possíveis resultados - as possibilidades;

2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de uma


forma aparentemente acidental. Mas quando o número de repetições aumenta, uma
regularidade aparecerá. E esta regularidade que torna possível construir um modelo
matemático útil para análise do experimento.

Exemplos de fenômenos aleatórios:


1) Condições meteorológicas
2) Produção de arroz anual numa cidade
3) Mercado Financeiro
4) Lançamento de uma moeda
5) Resultados de loterias
Exemplos de experimentos aleatórios:
E1: Jogue um dado e observe o n.º na face de cima.
E2: Jogue uma moeda 3 vezes e observe o número de caras obtido.
E3: Jogue uma moeda 3 vezes e observe a seqüência de caras e coroas obtida.
E4: O estado (conforme, não-conforme) de três peças produzidas é verificado.
E5: O número de peças produzidas até a obtenção de uma defeituosa é anotado.
E6: A temperatura de uma máquina é verificada por um supervisor.

Nos seis exemplos anteriores não somos capazes de precisar o resultado, entretanto
conseguimos listar os possíveis resultados.

Espaço amostral de um experimento aleatório é o conjunto de todos os resultados


possíveis do experimento. É denotado por S ou . A cardinalidade do espaço amostral
é denotada por #.

Exercício - Espaços amostrais relacionados aos experimentos anteriores.

S1 =

S2 =

S3 =

S4 =

S5 =

S6 =

Um evento é um subconjunto de S. Em particular, S e  (conjunto vazio) são eventos;


S é dito o evento certo e  o evento impossível.
Exemplo de eventos no lançamento de um dado

S1 = {1,2,3,4,5,6}

A: ocorre um n.º par A = {2,4,6}


B: ocorre a face 6 B = {6}
C: ocorre um n.º maior que 6 C=
D: ocorre nº 6 ou nº par D = {2,4,6}
E: ocorre nº par ou nº ímpar E = {1,2,3,4,5,6} = S

Operações com eventos


É possível realizar operações com eventos que nada mais são do que as operações
com conjuntos já estudadas no Ensino Fundamental.

Sejam A e B dois eventos associados a um espaço amostral S.

1) União: AB  A ocorre ou B ocorre ou ambos ocorrem

2) Interseção: AB  A ocorre e B ocorre

3) Complementar: Ac ou A  não ocorre A

Duas definições importantes:

1) Dois eventos A e B são excludentes ou mutuamente exclusivos se a ocorrência de


um impedir a ocorrência de outro. Em outras palavras, não podem ocorrer
simultaneamentee, logo, P(AB)=0.

2) Eventos ou resultados equiprováveis têm a mesma probabilidade de ocorrência. Se


A e B são equiprováveis, então P(A)=P(B).
Exemplo – Lançamento de um dado e uma moeda, ambos honestos

Escreva o espaço amostral. Os resultados são todos equiprováveis? Qual a


probabilidade de um particular par (x,y) ser selecionado. Assinale os seguintes eventos:

1.2.1 Conceitos de Probabilidade


Os conceitos de probabilidade podem ser enunciados de três formas distintas. O
conceito clássico - simples e antigo; o conceito frequentista - baseado na
observação e o conceito moderno ou axiomático introduzido pelo russo Andrei
Kolmogorov em 1933.

Considere P(A) = probabilidade de ocorrência do evento A.

 Conceito clássico (Cardano, aproximadamente 1500)


Esse conceito só é válido se todos resultados de S forem equiprováveis. Para casos
assim a probabilidade de ocorrência do evento A é obtida por:

n( A)
P( A)  n(A) é o número de resultados favoráveis ao evento A
Total( S )
Total (s) é o número total de resultados em S

 Conceito freqüentista
Neste conceito a probabilidade é tratada como um limite. Aqui é possível fazer uma
relação entre probabilidade (teórica) e estatística (empírica). Para casos assim a
probabilidade de ocorrência do evento A é obtida por:

1º) O experimento é repetido n vezes.

2º) Observa-se a freqüência relativa de ocorrência de um certo resultado A:

n( A)
fr(A) = , onde n(A) é o nº de vezes em que ocorre o resultado A em n realizações
n
do experimento.
3º) Probabilidade como limite. A medida que n aumenta, a fr(A) converge para a real
probabilidade P(A).

lim n fr( A )  P( A )

 Conceito Axiomático

Os Axiomas da Probabilidade devem-se ao russo Kolmogorov. Seja A um evento


de S. A probabilidade de ocorrência de A, denotada por P(A), deverá satisfazer
os seguintes axiomas (propriedades fundamentais).

Axioma 1: 0  P(A)  1
Axioma 2: P(S) = 1
Axioma 3: Para eventos Ai excludentes, P(A1  A2) = P(A1) + P(A2)

Probabilidade Condicional e Independência


A probabilidade de ocorrência de um evento pode ser influenciada pela ocorrência de
um evento paralelo. Considere que A e B são eventos de um mesmo espaço amostral
S. Chamaremos de P(A|B) a probabilidade de ocorrência do evento A dado que o evento
B já ocorreu.

Graficamente:

Olhando para o desenho podemos estabelecer as seguintes relações:

P(A|B) = P(B|A) =
Exemplo – Fornecedor X Devoluções

Devolução
Fornecedor Sim Não Total
A 30 50 80
B 60 40 100
C 50 50 100
Total 140 140 280

=> Independência

Dois eventos A e B são considerados independentes se a ocorrência de um não interfere


na probabilidade de ocorrência do outro:

P(A|B) = P(A) e P(B|A) = P(B)

Isolando a intersecção na expressão de probabilidade condicional obtemos:

P(AB) = P(A) x P(B)

Esse conceito é fundamental para aplicações em Estatística.


Teorema de Bayes

Considere um espaço amostral formado por n eventos Ai excludentes de forma que


A1A2...An = S. Suponha que as probabilidades dos Ai´s sejam conhecidas bem
como todas as condicionais P(B|Ai). Será possível determinar a probabilidade P(Ai|B)?

Dedução da “Regra de Bayes”:

P( Ai  B ) P( Ai )  P( B | Ai )
P( Ai | B )    ...
P( B ) P( B )

Exemplo – Máquinas e não-conformidade

Uma empresa possui três máquinas (A,B,C) com as seguintes probabilidades de


produção de uma peça não-conforme (NC): 1%, 2% e 5%. A máquina A é
responsável por 40% da produção; a máquina B por 50% e a máquina C é
responsável pelo restante.

a) Se uma peça não-conforme é encontrada, qual a probabilidade dela ter sido


produzida pela máquina A? Encontre as probabilidades para as máquinas B e C
também.

b) Qual a probabilidade de uma peça não-conforme ser encontrada na produção


conjunta?
1.2.2 Variáveis aleatórias discretas

Uma variável aleatória discreta X é uma função que associa números aos resultados do
Espaço Amostral.

Exemplo – Prova
Para exemplificar vamos admitir uma prova composta de n=4 questões com cinco
alternativas cada onde apenas uma está correta.

Q1) a) b) c) d) e)
Q2) a) b) c) d) e)
Q3) a) b) c) d) e)
Q4) a) b) c) d) e)

Escreva o espaço amostral S considerando apenas questão certa (C) ou errada (E).

S = { EEEE; CEEE; CCEE; CCCE; CCCC } onde temos 24 = 16


ECEE; CECE; CCEC;
EECE; CEEC; CECC;
EEEC; ECCE; ECCC;
ECEC
EECC

Agora considere X=número de acertos em cada ponto amostral de S. Logo, os valores


possíveis para X são 0,1,2,3 ou 4. O resultado EEEE implica em X=0; os resultados
CEEE, ECEE, EECE, EEEC implicam num X=1, etc.

A função de probabilidade de X, denotada por P(X=x) ou f(x), indica o


comportamento probabilístico de X.

Neste caso:
x 0 1 2 3 4

P(X=x)

Características da função de probabilidade:


1a) 0  P(X  x)  1

2a)  P( X  x )  1
x

A função de probabilidade pode ser representada graficamente.

A Função de probabilidade acumulada de X, denotada por F(X) ou P( X  x ) , indica


a probabilidade de ocorrerem valores menores ou iguais a x.

Características da F(X) ou P( X  x ) :
1a) Ela é contínua à direita;
2a) F (  )  0 e F (  )  1
3a) F ( x ) é sempre não decrescente.

Graficamente:
Esperança e Variância de uma Variável Aleatória Discreta

O valor esperado ou esperança de uma variável discreta é o seu “centro de equilíbrio”.


É uma média da variável X, mas do ponto de vista teórica, sem coleta de dados
empíricos. A esperança de uma variável discreta é calculada por:

E( X )   x  P( X  x )
x

Exemplo – Prova

Calcular o número esperado de acertos no caso da prova.

A variância de uma variável aleatória discreta indica a variabilidade em torno de sua


média. A expressão da variância pode ser melhor entendida se comparada a expressão
da variância que aprendemos em Estatística Descritiva:

   
Var( X )  E  X  E( X )    E X 2  E( X )
2 2

O desvio-padrão, conseqüentemente é encontrado extraindo-se a raiz quadrada


positiva da variância:

DP( X )  Var( X )

Exemplo - Prova

Encontrar a variância e o desvio-padrão para o número de acertos na prova.


Exercício completo – Para a função de probabilidade a segui, encontre o valor de k,
construa a distribuição acumulada, encontre a Esperança e a Variância de X.

x 0 1 2 3 4
P(X=x) 0,35 0,30 0,20 k 0,05

Principais modelos discretos

A partir de agora veremos modelo (fórmulas, expressões) que retratam o


comportamento probabilístico de variáveis discretas. Veremos apenas dois: Binomial e
Poisson.

Distribuição Binomial

Um caso como o da prova de quatro questões pode ser resolvido pela Distribuição
Binomial. Sempre que um experimento que assume apenas dois possíveis resultados
em cada repetição for repetido n vezes e que a probabilidade de sucesso for constante
em cada repetição, podemos modelar o número de sucessos pela distribuição Binomial.

X = número de sucessos, variando de 1 até n


p = probabilidade de sucesso em cada repetição
1-p = probabilidade de fracasso em cada repetição
n = número de repetições

X ~ Binomial (n ; p)

x=0,1,...,n

n!
P( X  x)   p x  (1  p) n x
x!n  x !
Exemplo – Prova

No exemplo da prova, encontre os parâmetros da Binomial e calcule P(X=2).

Esperança e Variância na Binomial

O número esperado ou esperança de sucessos na distribuição Binomial é facilmente


encontrado. Intuitivamente, responda as perguntas a seguir:

1) Se lançarmos uma moeda honesta 100 vezes, qual o número esperado de caras?

2) Se lançarmos um dado 600 vezes, qual o número esperado de faces “5”.

3) No exemplo da prole de 6 filhos, qual o número esperado de meninos?

n n
E(X) =  P( X  x )  C nx p x ( 1  p )n x = np
x 0 x 0

Var(X) = np(1-p)

Exemplos – Nos exemplos anteriores encontre a esperança

Prova: E(X)
Var(X)

Peças: E(X)
Var(X)

Loteria: E(X)
Var(X)
A distribuição de Poisson

A distribuição de Poisson é conhecida com a distribuição de um só parâmetro. Uma


variável aleatória discreta X segue uma distribuição de Poisson se a sua função de
probabilidade é dada por:

X ~ Poisson ()

e  x
P X  x   , x = 0,1,2,... >0
x!

Geralmente X representa o número de ocorrências num determinado espaço de tempo


e o parâmetro  é a média de ocorrências neste intervalo. Conhecidamente, o número
de chamadas telefônicas recebidas numa central, a chegada de navios a um porto, pode
ser modelada pela distribuição de Poisson.

Atenção: o parâmetro  deve estar em sintonia com a variável X.

Provando que P(X=x) é função de probabilidade:


e  x

x 0 x!
=1

Esperança e Variância na Poisson


e  x

E(X) =  xP( X  x )  x 
x 0 x 0 x!

Var(X) = 

Exemplo – Erros em um livro


Um revisor aponta que encontrou 100 erros em um livro de 200 páginas. Considere
X=número de erros por página, podendo ser modelada pela distribuição de Poisson.

a) Qual a probabilidade de encontrar, em uma página escolhida ao acaso, dois erros?


b) Qual a probabilidade de encontrar, em uma página escolhida ao acaso, ao menos um
erro?

Aproximação entre Binomial e Poisson

A medida que ninfinito e p0 a distribuição Binomial pode ser aproximada pela
Poisson.

 n e  np np 
x
P( X  x )    p x ( 1  p ) n  x 
n  p 0
 x x!

Para np  7 já temos uma boa aproximação.

Exemplo – X ~ Binomial (n=30 ; p=1/20)

Comparar a probabilidade P(X=0) e P(X=1) pela Binomial e Poisson.

Binomial Poisson
0,4000 0,4000
0,3500 0,3500
0,3000 0,3000
0,2500 0,2500
0,2000 0,2000
0,1500 0,1500
0,1000 0,1000
0,0500 0,0500
- -
0 3 6 9 12 15 18 21 24 27 30 0 3 6 9 12 15 18 21 24 27 30
1.2.3 Variáveis aleatórias contínuas

Definições Básicas
As variáveis contínuas podem, ao menos teoricamente, assumir qualquer valor num
intervalo numérico. Sendo assim fica impossível representarmos variáveis contínuas da
mesma forma que as variáveis discretas. Diferenciando um caso discreto de um
contínuo:

Caso discreto Caso contínuo


0,30
P(X=x)

P(X=x)
0,25 0,30

0,20 0,25
0,20
0,15
0,15
0,10
0,10
0,05 0,05
- -
0 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 13

Importante
As variáveis contínuas são representadas por “curvas”, chamadas de função
densidade de probabilidade. A área sob essa função representa a probabilidade de
ocorrência. No caso contínuo não existe a probabilidade de ocorrência de um valor
exato, mas sim de intervalos.

A função densidade de probabilidade, denotada por fx(x), é a função que indica o


comportamento probabilístico da variável aleatória contínua X. A função densidade de
probabilidade deverá satisfazer as seguintes condições:

f(x)  0, para todo x  R.

 f ( x )dx  1

A área sob a curva fx(x) nos informa a probabilidade de ocorrência de valores da variável
X.
Supondo que o gráfico acima represente a função de probabilidade de uma variável
aleatória X. Como sabermos a probabilidade de ocorrência de valores entre a e b ?

b
P( a  X  b )   f ( x )dx
a

A função de distribuição acumulada de X, denotada por F(x), indica a a probabilidade


acumulada até o valor x.

x
F ( x )  P( X  x )   f ( x )dx


Propriedades da F(x):

1o) F(x) é contínua e não decrescente

2o) F(-  )=0 F(  ) = 1

3o) P(a < X < b) = F(b) – F(a)

d
4o) f ( x )  F( x )
dx
Exercício – Fixação do conteúdo

Esboce graficamente a f(x). Verifique se f(x) é função densidade, encontre a F(x) e


calcule P(X<0,5).

2 x;0  x  1
f(x) 
0; c.c.

Esperança e Variância de uma variável aleatória contínua

O cálculo da esperança e da variância no caso contínuo pode ser feito de forma análoga

ao caso discreto. Agora o  será substituído pela  :

E( X )   xf ( x )dx

Var( X )  E( X 2 )  E( X ) onde E( X 2 )   x 2 f ( x )dx


2

Em geral:

E( g( x ))   g( x ) f ( x )dx

Principais Modelos Contínuos

Existe uma gama de modelos contínuos bastante utilizados. Eles já se


encontram descritos na literatura e suas principais características são
conhecidas.

Distribuição Uniforme ou Retangular

Uma v.a.c X tem distribuição Uniforme se a sua função densidade f(x) descreve um
retângulo que dá sempre a mesma probabilidade de ocorrência para intervalos de
mesmo tamanho.
X ~ Uniforme [a , b]
a xb

 1
 ; axb
f ( x)   b  a

 0 ; caso contrário

f(x)

1/(b-a)

a b
x

xa
Provar que F ( x)  para a  x  b .
ba

Esperança e Variância na Uniforme

ba (b  a) 2
E( X )  Var ( X ) 
2 12

Exemplo - O gerador de números pseudo-aleatórios do EXCEL

O gerador de números pseudo-aleatórios do Excel deveria seguir uma Uniforme [0;1].

a) Calcule a esperança e a variância de X e a probabilidade P(X>0,7).


b) Realize uma simulação com 1000 números no Excel e verifique se os resultados
coincidem.
Distribuição Normal, Gaussiana ou Curva de Gauss

A distribuição normal ou curva de Gauss é, sem dúvida, o principal modelo probabilístico


contínuo, pois serve de base para a principal área da Estatística: a Estatística
Inferencial.

Uma v.a.c. X tem distribuição normal com parâmetros  e  se sua função densidade
de probabilidade é dada por:

( x )2

f x  
1
e 2 2
, x  ,
 2
onde  e  são parâmetros ,
-  <  < + ;   0

Notação

X  N(,)

X tem distribuição Normal com média  e desvio-padrão .


Os parâmetros da Normal são a média e o desvio-padrão, que permitem infinitas
normais distintas com diferentes formatos (mas sempre simétricas). O gráfico da fX é
apresentado a seguir:
Características da Normal

 f ( x )dx  1

E( X )   xf ( x )dx  

x f ( x )dx   2  
2
DP(X) =

Outra característica importante da Normal é que, independentemente dos valores dos


parâmetros, a seguinte relação é sempre válida:
Entendendo os parâmetros da curva Normal:

 (média) é uma parâmetro de locação

 (desvio-padrão) é um parâmetro de forma

Vejamos exemplos:
f(x)

f(x)

f(x)
-10 -5 0 5 10 -10 0 10 -10 -5 0 5 10
Valores de X Valores de X Valores de X

Os cálculos integrais envolvendo a distribuição Normal podem ser bastante


complicados. Felizmente, veremos a seguir uma relação que facilita muito nossa vida.

Distribuição Normal-padrão ou Normal reduzida

Seja X uma variável aleatória normalmente distribuída com quaisquer parâmetros média
 e desvio-padrão . Se realizarmos a seguinte transformação obteremos uma nova
variável Z com média 0 e desvio-padrão 1:

X 
X  N(,)  Z  Z (0,1)

Qualquer variável com distribuição Normal pode ser padronizada para a Normal.
A distribuição Normal padronizada (Z) é tabelada.
1.3 Background de Estatística

A Estatística pode ser definida como o conjunto de ferramentas para coleta,


organização, análise e interpretação de dados experimentais. O objeto de
estudo em Estatística é um conjunto de dados que pode constituir uma
população ou uma amostra.

População é um conjunto finito ou infinito de elementos.

Amostra é um subconjunto da população. Geralmente buscamos amostras


representativas. Uma amostra representativa é aquela que mantém as
características da população.

Uma característica do elemento que forma o conjunto de dados é uma


variável. As variáveis podem ser:

QUALITATIVAS ou Categóricas: expressam uma divisão em categorias. As


variáveis qualitativas subdividem-se conforme o nível de mensuração em
nominais (rótulos que diferenciam categoriais) e ordinais (categorias
hierarquizadas).

QUANTITATIVAS ou MÈTRICAS: indicam quantidades numéricas e se dividem


em discretas e contínuas.

1.3.1 Estatística descritiva e inferencial

A estatística é um conjunto de ferramentas utilizadas para a coleta,


tabulação, análise e interpretação de um conjunto de dados experimentais.
A Estatística pode ser dividida em duas grandes áreas: Descritiva e
Inferencial.

A estatística descritiva é aquela que se preocupa em resumir e organizar


informação, sem a pretensão de transcender o conjunto de dados que
dispomos.

A estatística inferencial consiste na obtenção de resultados que possam


ser projetados para toda população a partir de uma amostra da mesma. Ela
fundamenta-se na teoria da amostragem e no cálculo de Probabilidades. Essa
é a área mais importante da Estatística.
> Parâmetros e Estimadores
Um parâmetro é um valor que descreve uma característica da população.
Um estimador é uma função de dados amostrais que gera estimativas para
um parâmetro. A palavra estatística pode ser utilizada como um sinônimo
de estimador.

Considere x1 , x2 , ... , xn uma amostra aleatória de n elementos de uma


população. Denotaremos por  um parâmetro qualquer e por ˆ x  ou

simplesmente ˆ um estimador de . Os parâmetros geralmente são denotados


por letras gregas e é bastante comum utilizar o “chapéu” para diferenciar os
estimadores dos parâmetros.

1.3.2 Propriedades dos Estimadores

Considere x1 , x2 , ... , xn uma amostra de n elementos de uma população


com média  e desvio-padrão  , sendo os xi independentes e identicamente
distribuídos. Um estimador ˆ x  será considerado uma variável aleatória pois,

cada uma das possíveis amostras de tamanho n da população provavelmente


gerará uma diferente estimativa.

Um estimador ˆ x  é uma variável aleatória porque depende da amostra

(aleatória) selecionada.

Um bom estimador do parâmetro  deverá apresentar algumas propriedades


desejáveis. Iremos discutir quatro propriedades dos estimadores:

1a) Não tendenciosidade: um estimador é não-tendencioso se a sua


esperança coincide com o valor do parâmetro. Em outras palavras, uma
estimador é não-tendencioso se as suas estimativas, em média, são corretas,
orbitando em torno de .

Exemplo:
E( X ) =

2a) Consistência: um estimador é consistente se a sua variabilidade diminui


a medida que o tamanho amostral aumenta. Esta é uma propriedade
altamente desejável quando aliada a não-tendenciosidade.

Se ˆ x  é consistente, então lim Var (ˆ)  0 .


n

Exemplo:

Var( X )=

Importante:
O desvio-padrão de um estimador também é chamado de Erro-padrão.

DP( ˆ )  Var( ˆ )  Erro  padrão

3a) Eficiência: um estimador ˆ1 é mais eficiente que ˆ2 se

Var( ˆ1 ) < Var( ˆ2 ) para um mesmo tamanho amostral n.

4a) Suficiência: um estimador ˆ é suficiente se utilizar o máximo de


informação disponível na amostra para estimar o parâmetro .
1.3.3 Métodos de Estimação

Neste texto discutiremos dois diferentes métodos de estimação de


parâmetros. Um terceiro método, chamado de mínimos quadrados, será
trabalhado no item 5.4.

1o) Método da Máxima Verossimilhança (MáxVer) ou Maximum


Likelihood (ML): é o método computacionalmente mais empregado para
estimação de parâmetros, consistindo na maximização da função de
verossimilhança ( ) ou de seu logaritmo ln  ( ).

A função de verossimilhança retrata a probabilidade de uma particular


amostra x1,x2,...,xn ter sido selecionada em função do(s) parâmetro(s) que
regem a função de probabilidade do fenômeno. Assim sendo, a estimativa de
máxima verossimilhança para  será aquela que tornar máxima a função. De
acordo com Meyer (1969), as estimativas de MáxVer podem ser
tendenciosas, mas são consistentes, assintoticamente eficientes e, à medida
que n aumenta, os estimadores de MáxVer seguem distribuição
aproximadamente normal.

n
( )  f x1 ,  f x2 ,  f xn ,    f xi , 
i 1

Para entender melhor a função de verossimilhança, tente lembrar da regra


da independência:

P( A  B )  P( A )  P( B )

P( A  B  C )  P( A )  P( B )  P( C )
n n
P(  Ai )   P( Ai )
i 1 i 1
Exemplo – PRÊMIOS OCULTOS

Uma promoção distribui picolés gratuitos dentre aqueles que encontrarem o


vale-brinde no palito. Suponha que você deseja estimar a taxa de premiação,
ou seja, qual a proporção p de picolés vendidos que têm prêmio e, no 3º
picolé encontra um premiado.

Perceba que, embora tenhamos outro problema que envolva variáveis


discretas, neste caso não podemos enumerar todas as possibilidades para p
visto que não sabemos o total de picolés produzidos. De qualquer forma,
obviamente, 0<p<1.

Figura – Função de verossimilhança para o exemplo do Prêmio Oculto


L(p)

0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
-
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Exemplo – Estimador de MáxVer para  na Poisson

Encontar o estimador MáxVer para  sabendo que X ~ Poisson (). Neste caso
é muito mais simples maximizar o logaritmo natural da função de
verossimilhança.
2o) Método dos Momentos: Este método foi proposto pelo inglês Pearson
em 1894 e consiste em igualar os momentos amostrais aos momentos da
distribuição populacional.

Exemplo – Distribuição Normal

Média amostral (1o momento amostral) = X

Variância amostral (2o momento amostral) = ˆ 2

Na distribuição Normal:

E(X) =  e Var(X) = 2

Portanto X pode ser usado para estimar  e ˆ 2 para estimar 2. Sabemos,

 x X
n
2

entretanto, que ˆ 2  é um estimador viciado para 2.


i
i 1

Exemplo – Poisson
Sabendo que X ~ Poisson (), encontrar pelo método dos momentos um
estimador para .

1.3.4 Teorema do Limite Central


Para populações infinitas:
O estimador X , à medida que ninfinito, tem distribuição Normal com

Média= e Desvio-padrão =
n
Quando N é finito:
X , à medida que nN, tem distribuição Normal com Média= e Desvio-

 N n
padrão =
n N 1
2. Regressão Linear Simples
Antes de iniciar este capítulo faremos um exemplo motivador.

Exemplo motivador:

Considere uma amostra de n=6 funcionários e suas respectivas cargas horárias.


Suponha que você precisa escolher “um único número” para representar esta
amostra de funcionários de forma que seja o mais correto possível. Chamaremos
o valor estimado de Yˆ .

Exemplo – Cargas horárias

Funcionário Cargas horárias Estimativa Erro Erro ao quadrado

( Yˆ )  Yˆ )  Yˆ )2
(Y)
(Y (Y

1 36
2 39
3 44
4 38
5 42
6 41
Y  40

n
Qual deve ser o valor de Yˆ para minimizar ( y
i 1
i  ŷ )2 ???

A técnica de Regressão Linear Simples estabelece uma relação de dependência


entre uma variável dependente Y e uma única variável independente X, supondo
que o relacionamento seja da forma linear:

Y =  + X (clássica equação da reta, relacionamento matemático)

Os termos  e  são os parâmetros do modelo linear.


Agora suponha que tenhamos um conjunto de pontos real, onde a relação linear
entre X e Y não é perfeita. Neste caso, precisamos introduzir um termo que
considere a presença do erro, resíduo ou perturbação.

Y =  + X +  (relacionamento estatístico, presença do erro)

Como escolheremos os melhores estimadores para  e  de forma a minimizar


o erro?

O procedimento será demonstrado a seguir:

1o) Considere uma amostra de n pares de observação (xi,yi).


i xi yi
1 x1 y1
2 x2 y2
... ... ...
n xn yn

2o) Agora admita a seguinte estrutura do modelo sugerido, onde a e b são os


estimadores de  e .

yi  a  bxi  ei

3o) Agora admita que ŷi é uma estimativa do valor de yi para um dado xi e que
ŷi  a  bxi .

4o) Encontraremos os estimadores a e b pelo método dos mínimos quadrados


(MMQ). O método dos mínimos quadrado consiste em encontrar qual os valores
n
dos estimadores a e b que tornam o resultado de  ei  mínimo.
2

i 1

n n n

 e    y  ŷ    y  a  bx 
2 2 2
i i i i i
i 1 i 1 i 1
 n
 a   yi  a  bxi   0
2

 i 1


n

 b 
 yi  a  bxi 2  0
i 1

Exemplo – Carga horária e o Tempo de experiência (anos)

Funcionário Carga horária (Y) Tempo de Estimativa Erro Erro ao

( Yˆ )  Yˆ )
experiência (X) quadrado
(Y
(Y  Yˆ )2
1 36 2
2 39 7
3 44 10
4 38 6
5 42 9
6 41 8
Y  40 X 7

Percebe-se que incorporando a informação do tempo de experiência, o


somatório dos erros de predição ao quadrado – a melhor medida para a
habilidade preditiva do modelo – baixa de ___ para ___.

As fórmulas para as estimativas dos parâmetros, obtidas pelo MMQ, são as


seguintes:

x y
x y 
i i
i i
b  n
a  Y  bX
 xi 2
x 
2
i
n
Suposições em Análise de Regressão Linear Simples

Além de admitir que o modelo linear seja razoável para representar o relacionamento
entre X e Y, também temos que admitir que a variância de Y seja constante,
independentemente do valor de X.

A parte inferencial da análise de regressão exige algumas suposições extras:

 ~ Normal(   0; e )

A medida mais utilizada para determinar a habilidade preditiva de um modelo de


regressão estimado é o coeficiente de determinação (R2). Esse coeficiente é uma medida
da proporção da variância da variável dependente que está sendo explicada pela variável
independente. O coeficiente varia entre 0 e 1, sendo que o valor 1 significa que a
predição foi perfeita. Valores muito pequenos de R2 indicarão que o modelo estimado é
inútil. Na regressão linear simples, o coeficiente de determinação (R2) é o quadrado do
coeficiente de correlação de Pearson (R) entre X e Y.

O cálculo do R2 é feito da seguinte forma:


e2i
n
 
2
Y
i 1 n
SQRe g
R2  
 Y2 SQTotal

Podemos fazer mais inferências sobre o modelo ajustado. A saída completa de um


software estatístico para a técnica de regressão apresenta uma tabela de Análise de
Variância, por meio da qual testamos a hipótese de que o parâmetro =0.
Tabela de ANOVA para a Regressão Linear Simples

Causa de variação Graus Soma de Quadrado F Valor de p


de quadrados médio Significância
liberdade
Modelo de regressão 1 SQReg SQReg QMReg/QMErro
Erro ou resíduo n-2 SQErro SQErro / n-2

Total n-1 SQtotal

SQtotal  SQRe g  SQErro


n n n

  yi  y    yˆ i  y    yi  yˆ i 
2 2 2

i 1 i 1 i 1

Também há testes específicos para  e . No caso da regressão simples, o teste de 


equivale ao teste F, pois:
t n 2 2  F1;n 2
No que se refere a interpretação dos parâmetros:

 a estimativa “a”: o limiar de audição esperado para um funcionário que jamais


se expôs ao ruído (X=0) é de “a” dB.

 O coeficiente “b” indica que a cada aumento de um ano, espera-se um aumento


de “b” dB no limiar de audição dos funcionários.

No EXCEL podemos utilizar dois comandos:

1o) Ferramentas  Análise de Dados  Regressão (Saída completa)

2o) Fazer um gráfico de dispersão entre X e Y, clicar com o botão direito sobre os pontos
e solicitar “Adicionar linha de tendência”, marcando as opções para mostrar o coeficiente
de determinação (R2) e a equação da reta.
RESUMO DOS RESULTADOS

Estatística de regressão
R múltiplo 0,952
R-Quadrado 0,905
R-quadrado ajustado 0,882
Erro padrão 0,997
Observações 6

ANOVA
gl SQ MQ F F de significação
Regressão 1 38,03 38,03 38,26 0,003
Resíduo 4 3,97 0,99
Total 5 42,00

Coeficientes Erro padrão Stat t valor-P


Interseção 33,175 1,176 28,210 0,000
Tempo (X) 0,975 0,158 6,186 0,003

O erro-padrão do coeficiente “b” pode ser estimado por:

𝑆𝑄𝐸𝑟𝑟𝑜
𝐸𝑃(𝑏) = √
(𝑛 − 2) × ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )²

Assim, para testarmos a hipótese Ho: β= β0, podemos recorrer ao famoso teste de Wald:
b  0
t ~ t n2
EP(b )

Também é importante lembrar que as predições só podem ser feitas dentro do intervalo
da variável independente. Em nosso exemplo, essa equação de regressão só poderia ser
utilizada em predições para funcionários com tempo de experiência entre 2 e 10 anos
ou na vizinhança próxima. Se afastando deste intervalo podem haver absurdos. De
qualquer forma, há como construirmos intervalos de confiança para valores preditos.
Esses intervalos tem amplitude mínima quando 𝑥0 = 𝑥̅ e vão ampliando à medida que
nos afastamos de 𝑥̅ .
1 (𝑥0 − 𝑥̅ )²
𝐼𝐶 𝑌0 (1 − 𝑎𝑙𝑝ℎ𝑎) = [𝑌̂0 ± 𝑡𝛼;𝑛−2 × √𝑄𝑀𝐸 (1 + + 𝑛 )]
2 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )²

Exemplo – DENATRAN: rodar uma regressão completa e calcular tudo “manualmente”

2.1 Outras formas funcionais linearizáveis

O modelo linear pode não representar de maneira satisfatória uma grande


quantidade de fenômenos, contudo ele pode continuar sendo útil mesmo quando
a relação a variável dependente e a independente for não-linear. Nesta seção
veremos alguns modelos linearizáveis.

a) Modelo Exponencial
𝑌 = 𝛼 ∗ 𝑒𝑥𝑝{𝛽𝑋} + 𝜀, logo temos que
𝑌̂ = 𝑎 ∗ 𝑒𝑥𝑝{𝑏𝑋}
Aplicando propriedades dos logaritmos, temos:
𝑙𝑛(𝑌̂) = 𝑙𝑛(𝑎) + 𝑏𝑋 (modelo log-linear)

Para estimar os parâmetros do modelo exponencial não linear, devemos rodar a


regressão entre ln(Y) e X.

b) Modelo Potência
𝑌 = 𝛼 ∗ 𝑋𝛽 , logo temos que
𝑌̂ = 𝑎 ∗ 𝑋 𝑏
Aplicando propriedades dos logaritmos, temos:
𝑙𝑛(𝑌̂) = 𝑙𝑛(𝑎) + 𝑏 ∗ 𝑙𝑛(𝑋) (modelo logaritmo)

Para estimar os parâmetros do modelo potência não linear, devemos rodar a


regressão entre ln(Y) e ln(X).
3. Regressão Linear Múltipla

3.1 Estimação por MQO e pressupostos

Em regressão linear múltipla, admitimos que uma única variável dependente Y


pode ser explicada por um conjunto de variáveis independentes X1, X2, ..., Xp.

1o) Considere uma amostra de n observações.


i X1i … Xpi yi
1 x11 … xp1 y1
2 x12 … xp2 y2
... ... … ... ...
n x1n ... xpn yn

2o) Agora admita a seguinte estrutura do modelo sugerido, onde a e bj são os


estimadores de  e j.
yi  a  b1x1i    bp x pi  ei

3o) Agora admita que ŷi é uma estimativa do valor de yi para um dado conjunto

xi e que yˆ i  ai  b1 x1i    b p x pi .

Colocando na forma matricial, temos que:

 y1  a  b1 x11    b p x p1  e1


y  a  b x  b x  e
 n 1 1n p pn n
Colocando na forma matricial, temos:

Y1  a  1 X 11  X p1   e1 
b  1 X
Y   1  X p 2  e 
Y   2 X  ε   2
12
B   b2 
n1  ( p 1)1
 n ( p 1)      n1 
       
Yn  1 X 1n  X pn  en 
bp 

Perceba que, quando a constante a faz parte do modelo, precisamos acrescentar


uma coluna de uns na matriz X.

Y  XB  ε
ˆ  XBˆ
Y

Se minimizarmos a soma dos quadrados dos resíduos pelo MMQ, chegaremos


a seguinte solução:
ˆ  X`X 1 X`Y
B

Exemplo numérico – Notação matricial


Y= Constante X1 = idade X2 = km (mil
Preço do carro km)
(anos)
53 1 4 0
42 1 5 16
39 1 5 37
31 1 6 55
36 1 6 26
33 1 5 62
46 1 4 14
Pressupostos em regressão múltipla:
0 
0 
1º) Os resíduos têm média zero. E (ε )   

 
0 
2º) Os resíduos apresentam variância constante para i=1, 2, 3, ..., n
1  0
Var ( )  E (ε)   0  0
2

0  1

3º) As variáveis independentes X são não correlacionadas


4º) O número de observações deve ser maior do que o número de variáveis n >
p.
5º) Os resíduos se distribuem normalmente, com média zero e variância
constante: 𝑒𝑖 ~𝑁𝑜𝑚𝑎𝑙

Comentários sobre algumas hipóteses:


 A hipótese 2 tem por trás dela a suposição de que não há autocorrelação
entre os resíduos, ou seja, os resíduos não apresentam um
comportamento sistemática e se distribuem de maneira errática. Ainda
nesta hipótese: a suposição de que a variância seja constante é
conhecida como homocedasticidade.
 Na hipótese 4, há uma exigência matemática de que a matriz X’X tenha
inversa.
 Na hipótese 5 consideramos que os erros têm distribuição Normal. Como
consequência, os coeficientes bj também têm distribuição Normal.
 Os estimadores obtidos por Mínimos Quadrados são BLUEs (best linear
unbiased estimators)
Tabela de ANOVA para a Regressão Linear Múltipla

Causa de variação Graus Soma de Quadrado F Valor p


de liberdade quadrados médio

Modelo de regressão p SQReg QMReg= SQReg / p QMReg/QMErro


Erro ou resíduo n-p-1 SQErro QMErro=
SQErro / (n-p-1)
Total n-1 SQtotal

Na Regressão múltipla, temos testes de hipóteses específicos para cada


coeficiente, além do teste F global, onde Ho: 1=2=...=P=0

A variância dos coeficientes bj pode ser estimada utilizando a estimativa da


variância do erro e aos elementos da diagonal principal da matriz X’X.

Var(b j )  ˆ 2  a j 1, j 1 onde a.. é o elemento da diagonal da matriz X’X

onde ˆ 2  QM Erro

Em notação matricial
ˆ )  ˆ 2 (X' X) 1
Var(B 

S .E.(b j )  Var (b j )

Na regressão múltipla, cada coeficiente Beta pode ser testado individualmente


por meio de um teste específico onde Ho: i = 0.
bj
Sabe-se que t  ~ t n  p 1
S .E.(b j )
3.2 Coeficientes de Correlação Parcial

Na regressão Múltipla é importante conhecer o efeito de uma variável


independente Xi sobre Y, excluindo o efeito das demais variáveis Xj. Vamos
admitir um modelo com apenas duas variáveis explicativas X1 e X2.
yi  a  b1 x1i  b2 x2i  ei

A correlação parcial entre Y e X1, excluindo o efeito de X2 pode ser obtida por:

t12
R y.2 
t12  n  p  1

Uma maneira mais didática de obtermos este valor é seguindo um algoritmo de


três estágios:
1) Regredir Y em função de X2 e calcular os resíduos;
2) Regredir X1 em função de X2 e calcular os resíduos;
3) Calcular a correlação simples entre os dois resíduos.
Assim, temos o efeito de X1 sobre Y (Ry.2), limpando o efeito de X2.

Uma terceira – e última maneira – de visualizarmos o efeito de X1 sobre Y


2
“limpando” o efeito de X2 é através do 𝑅𝑦.2 :

2
𝑅 2 − 𝑅𝑋21
𝑅𝑦.2 =
1 − 𝑅𝑋21

A correlação de Pearson direta entre as variáveis independentes Xj e a variável


Y é chamada de zero-order correlation.

ATENÇÃO AO SINAL: A correlação parcial deve ter o mesmo sinal da correlação


de ordem zero.
3.3 Coeficientes de determinação ajustado

O coeficiente de determinação R2 não baixa com a inclusão de novas variáveis


explicativas, mesmo que elas pouco contribuam para a explicação de Y. Por esse
motivo, quando desejamos comparar modelos com diferentes números de
variáveis explicativas devemos recorrer ao R2Adj, o qual é corrigido pelos graus
de liberdade:
2
𝑛−1
𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅 2 )
𝑛−𝑝−1

3.4 Problemas em regressão múltipla

1º) Colinearidade ou Multicolinearidade


A colinearidade entre variáveis independentes pode ser detectada de diferentes
formas. Normalmente, a presença de colinearidade gera uma erros-padrão
“inflados” para os coeficientes Beta. Além disso, esse problema pode gerar
resultados aparentemente contraditórios, como coeficientes com sinais
contrários ao esperado. A presença de multicolinearidade causa problemas
de estimação dos parâmetros.

Uma das formas de diagnosticar colinearidade é o cálculo do fator de inflação de


variância (VIF, Variance Inflation Factor).

1
VIFj 
1  R 2j

em que R 2j é o R 2 da regressão de Xj sobre as outras variáveis explicativas.

O VIF mostra o quanto da variância do coeficiente é inflacionada por sua


colinearidade. Geralmente, um VIF>10 é tido com um indicativo de problemas
de multicolinearidade.

Pergunta: O que acontece se procurarmos identificar a existência de


multicolinearidade sobre a matriz de correlação entre os Xi’ s?
Quando as variáveis Xi são ortogonais, a regressão múltipla se transforma na
soma de regressões simples. Ortogonalidade é a dissociação perfeita entre
variáveis.

2º) Heterocedasticidade

Homoscedasticidade é o termo para designar variância constante dos resíduos


para diferentes valores de Xi. Portanto, heterocedasticidade significa a quebra
da suposição de variância constante nos erros. O problema da
heterocedasticidade é de ordem estatística.

O diagnóstico pode ser feito de modo gráfico ou por meio de testes. O teste de
Goldfeld-Quandt pode ser utilizado para testar a homoscedasticidade dos
resíduos, desde que haja amostra suficiente grande, já que esse teste exige que
a amostra seja dividida em três partes.

O teste consiste em ordenar as observações de acordo com a variável explicativa


(Xj) que se acredita a responsável pela heteroscedasticidade. Após isso, divide-
se a amostra ordenada em 3 partes de tal forma que a parte do meio tenha
aproximadamente 20% dos dados e que as partes 1 e 3 tenham quantidade de
dados semelhantes. Então, ajusta-se um modelo de regressão com os dados da
parte 1 (contendo os menores valores da variável explicativa utilizada na
ordenação) e outro modelo de regressão com os dados da parte 3 (contendo os
maiores valores da variável explicativa utilizada na ordenação). Por fim, testa-se
a hipótese de que as variâncias dos erros em ambas regressões são iguais
contra a hipótese de que a variância dos erros na parte 3 é maior do que a
variância dos erros na parte 1, utilizando o teste F.

A estatística de teste neste caso é dada por

em que e são as somas de quadrados dos resíduos da regressão


para o grupo inferior (parte a) e para o grupo superior (parte b), respectivamente,
é o número de observações da parte 1 e é o número de observações da
parte 3. Chamamos de d o número de observações omitidas (parte 2). Essa
estatística tem distribuição . Desta forma, para um
determinado nível de significância , rejeitaremos a hipótese nula, ou seja, a
hipótese de que as variâncias são iguais, se .
3º) Autocorrelação
A verificação da hipótese de não existência de autocorrelação nos resíduos pode
ser realizada por meio de análise gráfica ou de testes de hipóteses. Com essas
técnicas pretende-se diagnosticar a independência dos resíduos.

Graficamente os resíduos podem ser plotados conforme a ordem de coleta. Uma


distribuição com comportamento errático é esperada se os resíduos forem não
autocorrelacionados.

O teste de Durbin-Watson é a prova mais comumente utilizada para esse fim.


Este teste é baseado na suposição de que os erros no modelo de regressão são
gerados por um processo autoregressivo de primeira ordem:
ei  ei1  ai
onde ei é o termo do erro do modelo na i-ésima observação e ai é um termo que
simboliza a parcela do ruído não explicada pela parcela autoregressiva. O  é o
parâmetro de autocorrelação: -1<<1. A presença de autocorrelação é testada
pelas seguintes hipóteses:

A estatística do teste de Durbin-Watson é dada por

em que A distribuição de depende da matriz X. Entretanto, pode-


se tomar a decisão comparando o valor de com os valores críticos e da
Tabela de Durbin-Watson:

 se
 se
 se
 se
 se

Quando temos evidência de uma correlação positiva. Já quando


, a correlação é negativa. No caso em que aceitamos ,
temos que não existe autocorrelação, ou seja, os resíduos são independentes.
Podemos também tomar a decisão pelo p-valor.

Tabela – Valores críticos do teste de Durbin-Watson para p=1,2,3,4 e 5 variáveis.


=0,05 e 0,01

Na prática, é mais fácil realizarmos um teste de correlação entre ei e ei-1 do que


realizarmos o teste de Durbin Watson. Além disso, temos a vantagem de não
cairmos na região do “inconclusivo”.

A presença de autocorrelação nos resíduos é sinal de que há problemas de


especificação no modelo.
3.5 Solução de problemas em regressão

1º) O problema da colinearidade pode ser resolvido com a exclusão de variáveis


altamente correlacionadas com as demais.

2º) O problema da heterocedasticidade pode ser solucionado com a utilização


do método de estimação dos Mínimos Quadrados Ponderados (MQP), um caso
especial do Método dos Mínimos Quadrados Generalizados (MQG).

Exemplo – Solutions to the heteroskedasticity problem (Maddala, 1992. Pg. 212-214)

Family y=Consumption Expenditures x=Income


1 19,9 22,3
2 31,2 32,3
3 31,8 36,6
4 12,1 12,1
5 40,7 42,3
6 6,1 6,2
7 38,6 44,7
8 25,5 26,1
9 10,3 10,3
10 38,8 40,2
11 8 8,1
12 33,1 34,5
13 33,5 38
14 13,1 14,1
15 14,8 16,4
16 21,6 24,1
17 29,3 30,1
18 25 28,3
19 17,9 18,2
20 19,8 20,1

No método de MQG, o vetor de coeficientes Beta é obtidos por uma expressão


semelhante ao caso dos MQO, mas com a inclusão de uma matriz V:

 
ˆ  X`V 1X 1 X`V 1Y
B
Quando V é a matriz identidade, temos o caso tradicional (MQO).
No caso dos mínimos quadrados ponderados atribuímos pesos diferentes às
observações. Vamos fazer o exemplo do livro do Maddala, pg. 214, seguindo os
seguintes passos:
a) Obter as estimativas a e b por MQO; b) Realizar uma regressão do módulo
dos resíduos da regressão anterior em função de x e salvar os valores preditos.
c) Esses valores preditos são os pesos wi. d) Realizar uma regressão entre y e
x ponderada por 1/wi.
As estimativas encontradas por esse método estão supostamente corrigidas pelo
problema da variância não constante dos resíduos.

3º) A existência de autocorrelação indica que o modelo não está bom. Pode ser
sinal de que a forma funcional é inadequada ou variáveis importantes foram
omitidas do modelo. A solução podem ser testar outros modelos (modelos de
séries temporais, por exemplo) ou mudar o conjunto de variáveis.
3.6 Variáveis dummies

Variáveis dummies possibilitam a inclusão de informação qualitativa em modelos


econométricos.
Para exemplificar, vamos admitir um modelo de regressão linear simples:

yˆ i  a  bxi onde yi = despesa com recreação da família i


xi = renda da família i

Agora vamos admitir que o período do ano possa estar relacionado à variável
dependente Y.
𝐷𝑒𝑧 − 𝐹𝑒𝑣, 𝑉𝑒𝑟ã𝑜
𝑃𝑒𝑟í𝑜𝑑𝑜 𝑑𝑜 𝑎𝑛𝑜 {
𝑀𝑎𝑟 − 𝑁𝑜𝑣, 𝐼𝑛𝑣𝑒𝑟𝑛𝑜

Poderíamos estimar dois modelos separados, um para o Verão e outro para o


Inverno:

yˆVi  aV  bV xVi

yˆ Ii  a I  bI x Ii
Depois de estimados, poderíamos comparar as estimativas. O problema desta
abordagem é que dividimos a amostra.
Utilizando variáveis dummies podemos utilizar toda a amostra.

3.6.1 Dummy no intercepto

Definimos uma variável binária para identificar o período do ano:


1, 𝑉𝑒𝑟ã𝑜
𝑧={
0, 𝐼𝑛𝑣𝑒𝑟𝑛𝑜

Agora estimamos: yˆ i  a  bxi  czi

Assim temos, para o Inverno: yˆi  a  bxi

Para o Verão: yˆi  (a  c)  bxi


14
yi
12

10

0
0 1 2 3 4 5 6
Inverno Verão xi

3.6.2 Dummy na declividade

Definimos uma variável binária para identificar o período do ano:


𝑥, 𝑉𝑒𝑟ã𝑜
𝑡 = 𝑧𝑥 = {
0, 𝐼𝑛𝑣𝑒𝑟𝑛𝑜

Agora estimamos: yˆi  a  bxi  dti

Assim temos, para o Inverno: yˆi  a  bxi

Para o Verão: yˆi  a  (b  d ) xi

yi 25

20

15

10

0
0 1 2 3 4 5 6

Inverno Verão xi

3.6.3 Dummy na declividade e no intercepto

Definimos uma variável binária para identificar o período do ano:


1, 𝑉𝑒𝑟ã𝑜 𝑥, 𝑉𝑒𝑟ã𝑜
𝑧={ 𝑡 = 𝑧𝑥 = { Agora estimamos:
0, 𝐼𝑛𝑣𝑒𝑟𝑛𝑜 0, 𝐼𝑛𝑣𝑒𝑟𝑛𝑜

yˆi  a  bxi  czi  dti

Assim temos, para o Inverno: yˆi  a  bxi

Para o Verão: yˆi  (a  c)  (b  d ) xi

yi 25

20

15

10

0
0 1 2 3 4 5 6

Inverno Verão xi

Se tivéssemos mais de duas categorias para diferenciar, digamos k, teríamos


que criar k-1 variáveis dummy.
Estação Z1 Z2 Z3
Verão 1 0 0
Inverno 0 1 0
Primavera 0 0 1
Outono 0 0 0

Se criarmos k dummies para k categorias teremos um problema de


multicolinearidade que irá impossibilitar o cálculo do vetor de estimativas dos
coeficientes.
4. Modelos para variáveis-resposta binárias

4.1 Regressão Logística

A regressão logística, em sua forma tradicional, consiste de um modelo que


relaciona um conjunto de p variáveis independentes X1 , X2, ... , Xp a uma variável
dependente Y que assume apenas dois possíveis estados, digamos 0 ou 1. O
modelo logístico permite a estimação direta da probabilidade de ocorrência de
um evento (Y=1):

P(Y  1) 

exp  0  1 x1     p x p 

1  exp  0  1 x1     p x p 
e, conseqüentemente,

1
P(Y  0)  1  P(Y  1) 

1  exp  0  1 x1     p x p
.

onde  i são os parâmetros do modelo.

A transformação que está por trás do modelo logístico é a chamada


transformação logit, denotada por g(x). É uma função linear nos parâmetros
 j , contínua e que pode variar de -  a +  :

 P(Y  1) 
logit ( x)  g ( x)  ln     0  1x1     p x p
1  P(Y  1) 
Há pelo menos duas razões para utilização do modelo logístico na análise de
variáveis-resposta dicotômicas:
1) de um ponto de vista matemático, é extremamente flexível e fácil de ser
utilizada;
2) permite uma interpretação de resultados bastante rica e direta.
A figura a seguir apresenta a função logística com o seu característico formato
em ‘S’ e a relação linear entre uma única variável x e o logit g(x).
Função logística Logit (função linear)

1,0

0,8

logit(x)=g(x)
P(Y=1)

0,6

0,4

0,2

-
X X

Os coeficientes da regressão logística são estimados por métodos


numéricos e se baseiam no método da máxima verossimilhança. O
software SPSS, o Minitab e até o MATLAB podem ser utilizados para
esta finalidade. A função de verossimilhança está baseada no Teorema
de Independência. Considerando um conjunto de variáveis
independentes e identicamente distribuídas, a probabilidade de um
particular conjunto de dados ter sido observado pode ser determinada
pelo produtório das probabilidades em separado. Quanto maior o valor
da função de verossimilhança, maior a probabilidade do particular
conjunto de dados ter sido observado. O que realizamos na Regressão
Logística é verificar qual vetor de parâmetros B maximiza essa função.

Usualmente é utilizado o logaritmo da função de verossimilhança (  )

, denotado por ln (  ) , por razões de simplicidade matemática e

computacional:
n
ln (β)   y i g ( xi )  ln 1  exp g ( xi ) 
i 1

A regressão logística pode ser aplicada a uma grande variedade de


famílias de distribuições, pois a suposição de linearidade do logit é
válida numa grande quantidade de funções de distribuição de
probabilidade, como por exemplo, a distribuição normal multivariada
com igual matriz covariância.
A regressão logística é frequentemente chamada de um
procedimento de classificação soft/suave, visto que atribui a cada
observação uma probabilidade de Y=1. Já um procedimento hard/duro
aloca diretamente a observação a uma classe.

O primeiro teste de significância importante em regressão logística


é o teste da razão de verossimilhança, onde testamos a hipótese de
que pelo menos um dos parâmetros  j é diferente de zero (exceto os
interceptos – parâmetros  0 ). Esse teste faz uma comparação entre o
valor da função de verossimilhança para o modelo contendo apenas os
interceptos e a verossimilhança do modelo final com todos os
parâmetros estimados. A estatística de teste D, chamada de deviance,
tem uma distribuição qui-quadrado e é calculada da seguinte forma:

 (β 0 ) 
D  2 ln    2 ln ( 0 )  2 ln (x, ) ~  (2k 1) p
 (x, β) 

onde,
( 0 ) é o valor da função de verossimilhança apenas com os interceptos

(x , ) é o valor da função de verossimilhança para o modelo final


k é o número de classes
p é o número de variáveis incluídas no modelo

Para a realização de testes de significância individuais para os parâmetros


 0 e  j , é bastante comum a utilização da bem-conhecida estatística de Wald,
onde a hipótese nula é a de que o particular coeficiente  j é igual a zero. A
estatística W de Wald é definida como o quadrado da razão entre a estimativa
de máxima verossimilhança para o coeficiente e seu respectivo erro-padrão
(EP). Essa estatística tem uma distribuição assintoticamente qui-quadrado com
um único grau de liberdade:
2
 ˆ j 
W   ~ 12
 EP ˆ
  
j

Além dos testes de significância, outras medidas podem ser calculadas para
avaliarmos o modelo. Os valores Pseudo R-Square são uma espécie de
coeficiente de determinação (R2), mas com uma interpretação mais complexa,
entretanto segue a regra básica: quanto maior, melhor é o ajuste do modelo.
Dentre as três medidas apresentadas dá-se preferência a de Nagelkerke, visto
ser uma medida no intervalo [0;1].

De acordo com Norusis e SPSS Inc. (1999, p.45) a medida de Cox and
Snell é obtida pela seguinte relação:
2
 (  0 )  n
R 2
1  
  ( x,  ) 
CoxSnell

A modificação proposta por Nakelkerke foi a seguinte:


2
RCoxSnell
ker ke 
2
R Nagel
1  (  0 )
2/n

O resultado da classificação proveniente de uma regressão logística


geralmente é apresentado na forma de uma tabela de classificação
acompanhada da taxa de acerto geral. Pode-se também calcular a taxa de falsos
positivos e falsos negativos.

Exemplo de tabela de classificação


Realidade Predito
Predito Percentage
Y=1 Y=0 Correct
Y Y=1 66 10 86,8
Y=0 19 100 84,0
Overall Percentage 85,1
Y=1, se P(Y=1) > 50%

Exemplo – Coletar a distância em km que o aluno percorre para chegar à


PUCRS e predizer a probabilidade dele vir de carro particular.
Exemplo – ARQUIVO SEGURO.SAV

a) Realizar a regressão logística com o objetivo de predizer a


probabilidade de utilizar o seguro durante a vigência da apólice.

Exemplo – Estimação por Máxima VEROSSIMILHANÇA


a) Na aba “Reg_Log_Verossimilhança” verificar como funciona o proceoo
de estimação de parâmetros. Lembre-se que:

n
ln (β)   y i g ( xi )  ln 1  exp g ( xi ) 
i 1

4.2 Modelo Probit

Assim como o modelo de regressão logística, que utiliza a transformação logit, o


modelo Probit também é indicado para casos onde a variável dependente é
binária. O modelo Probit, contudo, utiliza a função acumulada da Distribuição
Normal das variáveis independentes X1, X2, ..., Xp.

Para melhor entendimento do modelo Probit, vamos recorrer a um exemplo


extraído de Gujarati (2000, pp. 562-575):
Considere os seguintes dados hipotéticos de X1=renda, Ni = número de família
naquela faixa de renda e ni = número de famílias que possuem casa própria.

Renda
i
(X)
Ni ni 𝑃̂𝑖 𝐼𝑖= 𝐹 −1 (𝑃̂𝑖 ) *
1 6,000 40 8 0,20 - 0,84
2 8,000 50 12 0,24 - 0,71
3
10,000 60 18 0,30
- 0,52
4 13,000 80 28 0,35 - 0,39
5 15,000 100 45 0,45 - 0,13
6 20,000 70 36 0,51 0,04
7 25,000 65 39 0,60 0,25
8 30,000 50 33 0,66 0,41
9 35,000 40 30 0,75 0,67
10 40,000 25 20 0,80 0,84
* Inverso da distribuição acumulada da Normal padrão
O modelo assume a existência de uma função de utilidade I(X), a qual é linear
nos parâmetros bo, b1, ..., bp. No exemplo, como só temos uma variável
teremos um conjunto de dados com a seguinte apresentação:

Renda
i
(X) 𝐼̂𝑖 (𝑋) 𝑃̂𝑖 𝐼𝑖= 𝐹 −1 (𝑃̂𝑖 ) *
1 6,000 bo + b1×6 0,20 - 0,84
... ... ... ... ...
10 40,000 bo + b1×40 0,80 0,84

Os parâmetros são estimados por meio de um software estatístico. Se


realizarmos a estimação no SPSS, os resultados serão:

Parameter Estimates

95% Confidence Interval

Parameter Estimate Std. Error Z Sig. Lower Bound Upper Bound

PROBITa Renda ,049 ,006 8,117 ,000 ,037 ,060

Intercept -,988 ,122 -8,077 ,000 -1,110 -,866

a. PROBIT model: PROBIT(p) = Intercept + BX

Na prática, a regressão logística e o modelo Probit produzem resultados muito


semelhantes. Como os dados de entrada do modelo Probit exigem a
construção de uma tabela de frequências, a qual, geralmente, implica em
perda de informação, sugiro a utilização da Regressão Logística.

Exemplo – Comparar os resultados do PROBIT com a REGRESSÃO LOGÍSTICA


APÊNDICE A

Operações com vetores e matrizes


O uso de vetores e matrizes é necessário em Análise Estatística Multivariada,
por isso a familiaridade com operações matriciais torna-se necessária.
Começaremos com algumas operações essenciais:

Sejam A e B duas matrizes com n linhas e p colunas.


n p n p

SOMA: C = A + B
Operação de soma termo-a-termo. A e B devem ter as mesmas dimensões.

TRANSPOSIÇÃO: a transposta de A, indicada por A’ ou At, é a matriz que se


obtém trocando-se ordenadamente as linhas pelas colunas de A.

PRODUTO: C = A * B
O produto deve ser dimensionalmente compatível. Traduzindo: o número de
colunas de A deve ser igual ao número de linhas de B. Geralmente A * B  B
*A

MULTIPLICAÇÃO POR UMA CONSTANTE: C = kA


Cada termo de A fica multiplicado pela constante.

INVERSA DE UMA MATRIZ: Inv(A) ou A-1


Somente matrizes quadradas e não singulares (linhas / colunas linearmente
independentes) podem ter matriz inversa. Se C é quadrada e não-singular, então
C*C-1=I.
Funções escalares associadas com matrizes

TRAÇO: Tr(A) ou Traço(A)


O traço de A é a soma dos elementos diagonais de uma matriz quadrada.

DETERMINANTE: Det(A) ou |A|


É uma função matricial que associa a cada matriz quadrada um escalar. Esta
função permite saber se a matriz tem ou não inversa. Quando o determinante for
nulo, significa que a mesma não tem inversa.

Alguns casos especiais de matrizes

MATRIZ IDENTIDADE
A matriz identidade I equivale ao “1” na multiplicação ordinária. É formada por
termos “1” na diagonal e zero nos demais.

MATRIZ SIMÉTRICA
Numa matriz quadrada, os termos aij=aji.

MATRIZ DIAGONAL
Os termos fora da diagonal são nulos, ou seja aij=0 para ij.