Академический Документы
Профессиональный Документы
Культура Документы
João Nicolau
ISEG/UTL e CEMAPRE
Abril 2011
(Versão preliminar e incompleta)
2
Notas Prévias
Notação e Convenções
Escreve-se f (x) para designar a função densidade de probabilidade (fdp) de uma variável
aleatória X. Quando estão em causa duas variáveis aleatórias X e Y; escreve-se, geralmente,
fx e fy para designar, respectivamente, as fdp de X e Y (f (x) e f (y) é, em princípio,
incorrecto). O uso simultâneo das notações f (x) (fdp de X) e f (x; y) (fdp conjunta de
(X; Y )) é conflituoso, pois f ou é uma aplicação de R em R+ ou é uma aplicação de R2
em R+ (e, portanto, f não poderá designar simultaneamente ambas as aplicações). A rigor
deverá escrever-se fx e fx;y : No entanto, se não existir perigo de confusão, opta-se pela
notação mais simples e habitual f (x) e f (x; y). Escreve-se também f (yj x) ou fyjx para
designar a fdp condicionada de Y dado X = x: Em suma, nesta versão do documento,
adoptam-se as notações que se entendem necessárias e convenientes de forma a não causar
confusão. Por exemplo, num certo contexto, pode escrever-se f (x; y) e, noutro diferente,
pode escrever-se fy;x :
O processo estocástico fyt ; t = 1; 2; :::g escreve-se indiferentemente como fyt g ou y:
a := b significa, a é igual a b por definição. Por exemplo, se quisermos identificar a letra
como a média de X; escrevemos := E (X). Para este tipo de relações, certos autores
usam E (X) :
Em séries temporais usamos os termos “amostra grande” (ou “amostra pequena”) para
identificar séries temporais longas (ou curtas).
3
Acrónimos e Siglas Frequentemente Usados
a d
An N - An tem distribuição aproximadamente normal (usamos ! para a convergên-
cia em distribuição).
EE - Estritamente estacionário.
EDF - Equação às diferenças Finitas.
EQM - Erro Quadrático Médio.
ESO - Estacionário de segunda ordem ou Estacionaridade de Segunda Ordem.
FAC - Função de Autocorrelação.
FACP - Função de Autocorrelação Parcial.
fdp - Função Densidade de Probabilidade.
HC- Heterocedasticidade Condicional.
IC - Intervalo de Confiânça (ou de previsão, consoante o contexto).
i.i.d. - Independente e Identicamente Distribuído.
RB - Ruído Branco.
v.a. - Variável Aleatória.
4
Conteúdo
I Introdução 13
2 Preços e Retornos 17
2.1 Retornos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Retorno Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Retornos de Portfolios . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.4 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 22
2.1.5 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 22
2.1.6 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Retornos Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.2 Retornos de Portfolio . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.3 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 27
2.2.4 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 27
2.2.5 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Retornos Contínuos vs. Retornos Discretos . . . . . . . . . . . . . . . . . 30
2.A Outra Interpretação de rt . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.B Notas Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples . . . . 32
2.B.2 r e R: Série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . 32
5
3.1.2 Desvios Padrão Diferentes Consoante os Activos . . . . . . . . . . 35
3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria
Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.4 Retornos Apresentam Distribuições Leptocúrticas . . . . . . . . . . 37
3.1.5 Aumento da Frequência das Observações Acentua a Não Normali-
dade das Distribuições . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.6 Efeitos de Calendário . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.7 Distribuições Teóricas para os Retornos . . . . . . . . . . . . . . . 47
3.1.8 Estimação Não Paramétrica da Função Densidade de Probabilidade 54
3.2 Regularidade Empíricas relacionadas com a Distribuição Condicional . . . 55
3.2.1 Autocorrelações Lineares Baixas entre os Retornos . . . . . . . . . 55
3.2.2 Volatility Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.3 Forte Dependência Temporal da Volatilidade . . . . . . . . . . . . 60
3.2.4 Efeito Assimétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.5 Aumento da Frequência das Observações Acentua a Não Linearidade 64
3.2.6 Co-Movimentos de Rendibilidade e Volatilidade . . . . . . . . . . 64
6
II Modelos 109
7
6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no modelo
ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.6.5 Previsão de (muito) Longo Prazo . . . . . . . . . . . . . . . . . . 177
6.6.6 Qualidade da Previsão . . . . . . . . . . . . . . . . . . . . . . . . 180
6.6.7 Outros Métodos de Previsão Lineares . . . . . . . . . . . . . . . . 188
6.A Método para Obter a FACP . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.B Transformação de um Processo MA(1) Não Invertível num Invertível . . . 191
6.C Invertibilidade de Processos MA (exemplos) . . . . . . . . . . . . . . . . . 192
6.D Estacionaridade de 2a Ordem do Processo AR(1) . . . . . . . . . . . . . . 195
6.E Estacionaridade de 2a Ordem do Processo AR(p) . . . . . . . . . . . . . . 198
6.F Processos ARMA Sazonais . . . . . . . . . . . . . . . . . . . . . . . . . . 199
6.G Demonstração da Proposição 6.5.1 . . . . . . . . . . . . . . . . . . . . . . 203
6.H Uma Nota sobre Intervalos de Confiança . . . . . . . . . . . . . . . . . . . 204
6.I UE + UV + UC = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8
7.4.4 Função densidade de probabilidade de y . . . . . . . . . . . . . . . 255
7.4.5 Probabilidades Associadas aos Regimes . . . . . . . . . . . . . . . 256
7.4.6 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
7.4.7 Estimação e Inferência . . . . . . . . . . . . . . . . . . . . . . . . 263
7.4.8 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
7.4.9 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
9
8.8 Modelo de Heterocedasticidade Condicionada com Variáveis Explicativas . 301
8.9 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
8.9.1 Estimador de Máxima Verosimilhança . . . . . . . . . . . . . . . . 304
8.9.2 Estimador de Pseudo Máxima Verosimilhança . . . . . . . . . . . . 309
8.9.3 Método da Máxima Verosimilhança com Distribuições Não Normais 310
8.10 Ensaios Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
8.10.1 Ensaios Pré-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 313
8.10.2 Ensaios Pós-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 316
8.11 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
8.11.1 Previsão da Variância Condicional . . . . . . . . . . . . . . . . . . 321
8.11.2 A Previsão da Variável Dependente y . . . . . . . . . . . . . . . . 324
8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados em
Boostrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
8.12 Problema dos Erros de Especificação na Média Condicional . . . . . . . . 329
8.13 Modelos Não Lineares na Média combinados com o GARCH . . . . . . . . 331
8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condicionada331
8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada 333
8.A Estabilidade de EDF e a Estacionaridade (Caso modelo ARCH) . . . . . . 335
10
9.10 Testes de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
11
13.3.3 Modelo ARMA-GARCH . . . . . . . . . . . . . . . . . . . . . . . 426
13.4 Generalização: Portfolio com m Activos . . . . . . . . . . . . . . . . . . . 431
13.5 Abordagem pela Teoria dos valores Extremos . . . . . . . . . . . . . . . . 432
13.5.1 Introdução à Teoria e Estimação. VaR Marginal . . . . . . . . . . . 433
13.5.2 VaR Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
13.6 Avaliação do VaR (Backtesting) . . . . . . . . . . . . . . . . . . . . . . . 438
12
Parte I
Introdução
13
Página em branco
14
Capítulo 1
previsão da volatilidade;
gestão de portfolios;
15
É conveniente distinguir séries temporais de natureza macroeconómica das de natureza
financeira. As principais diferenças são as seguintes:
os dados macroeconómicos são menos fiáveis, i.e., estão mais sujeitos a erros de
medição. Com efeito, os valores apurados não resultam de valores efectivamente ob-
servados no mercado, como sucede com a generalidade das séries financeiras, mas
antes de valores apurados de acordo com certa metodologia e decorrentes de inquéri-
tos preliminares;
todavia, a principal diferença qualitativa decorre das propriedades estatísticas dos dois
tipos de séries. Ao contrário das séries macroeconómicas, as séries financeiras exibem
habitualmente fortes efeitos não lineares e distribuições não normais. As propriedades
estatísticas das séries financeiras serão estudadas no capítulo 3.
16
Capítulo 2
Preços e Retornos
O ponto de partida para a análise estatística é normalmente uma série de preços (por
exemplo, a série das cotações de fecho do Banco XYZ num certo intervalo de tempo). De
uma forma geral, o preço pode ser, por exemplo, o valor a que um intermediário financeiro
informa estar disposto a pagar pela compra de um determinado activo, opção ou futuro (bid
price), o valor a que um intermediário financeiro informa estar disposto a receber pela venda
de um determinado activo, opção ou futuro (ask price), o valor final da transacção, o valor
definido num mercado de futuros, entre outros.
O intervalo de tempo entre dois preços consecutivos é uma variável aleatória com valores
em R+ . Isto significa que se poderia considerar uma sucessão de preços fPt1 ; Pt2 ; :::; Ptn g
com i = ti ti 1 não constante. Não obstante, prefere-se normalmente trabalhar com
uma periodicidade fixa. Por exemplo, se análise empírica de certo fenómeno aconselha o
tratamento diário dos preços, a sucessão pertinente passará a ser fP1 ; P2 ; :::; Pn g onde Pt
representa habitualmente o valor de fecho no dia t: O tratamento estatístico do caso em que
i = ti ti 1 é encarado como uma variável aleatória, é um pouco mais delicada, e insere-se
na área dos modelos de muita alta-frequência.
Depois de coligidos os preços, calculam-se os retornos associados (veremos nos pon-
tos seguintes duas fórmulas alternativas de cálculo). Na figura 2-1 apresentam-se preços e
retornos da Microsoft no período Janeiro de 1988 a Fevereiro de 2006.
Prefere-se geralmente a sucessão dos retornos ou das rendibilidades à sucessão dos preços.
Por um lado, a sucessão dos retornos fornece tanta informação sobre a oportunidades de in-
vestimento quanto a sucessão dos preços. Deste ponto de vista é indiferente trabalhar-se
17
60 Preços Microsoft
50
40
30
20
10
Jan-88
Jan-90
Jan-92
Jan-94
Jan-96
Jan-98
Jan-00
Jan-02
Jan-04
Jan-06
0.2 Retornos Microsoft
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
Jan-88
Jan-90
Jan-92
Jan-94
Jan-96
Jan-98
Jan-00
Jan-02
Jan-04
Jan-06
Figura 2-1: Preços e Retornos diários da Microsoft no período Jan 88 a Fev 06
com qualquer das sequências. Há, todavia, uma razão de peso para se preferir a sucessão
dos retornos: esta é mais fácil de modelar. Veremos adiante, com mais pormenor, que a
sucessão dos preços é quase sempre não estacionária, ao passo que a sucessão dos retornos
é tendencialmente estacionária (facilitando, por isso, a aplicação de resultados essenciais,
como sejam, a lei dos grande números e o teorema do limite central)1 .
Há duas formas de obtermos o retorno associado ao preço que descreveremos a seguir.
1
Taxas de câmbio real e taxas de juro podem ser analisadas nos níveis e não nas primeiras diferenças, se
existir evidência de estacionaridade.
18
2.1.1 Retorno Simples
Pt Pt 1 Pt
Rt = = 1 (2.1)
Pt 1 Pt 1
(na literatura anglo-saxónica Rt é designado por simple net return e 1 + Rt = Pt =Pt 1 como
simple gross return). Naturalmente, também se tem
P t = Pt 1 (1 + Rt ) :
Suponha-se que fP1 ; P2 ; :::; Pn g é a sucessão de preços diários. Podemos estar interessados,
por exemplo, no retorno semanal e, para o efeito, basta considerar
Pt Pt 5
Rt (5) =
Pt 5
(admitindo que se observam cinco preços por semana). De uma forma geral,
Pt Pt m Pt
Rt (m) = = 1: (2.2)
Pt m Pt m
Para calcular Rt (m) basta atender à expressão (2.2). Suponhamos, no entanto, que Pt e
Pt m não são conhecidos. A questão é, como calcular Rt (m) a partir dos retornos simples
em t = 1; 2; ...? Pode-se provar (ver apêndice 2.B.1)
Pt Pt m
Y
t
Rt (m) = = (1 + Rj ) 1:
Pt m j=t m+1
19
2.1.3 Retornos de Portfolios
K (! A (1 + RA;t ) + ! B (1 + RB;t ))
e o retorno do portfolio é
K (! A (1 + RA;t ) + ! B (1 + RB;t )) K
Rp;t =
K
= ! A (1 + RA;t ) + ! B (1 + RB;t ) 1
= ! A RA;t + ! B RB;t :
Conclui-se portanto que o retorno de um portfolio é igual a uma média ponderada dos vários
retornos do portfolio.
A variância do retorno de um portfolio tende a ser inferior à variância dos retornos do
portfolio. Para analisar esta questão, considere-se
!
X
m X
m X1
m X
m
Var (Rp;t ) = Var ! i Ri;t = Var (! i Ri;t ) + 2 Cov (! i Ri;t ; ! i j Ri j;t )
i=1 i=1 j=1 i=j+1
X
m X1
m X
m
= ! 2i Var (Ri;t ) + 2 !i!i j Cov (Ri;t ; Ri j;t ) :
i=1 j=1 i=j+1
Simplifique-se esta expressão. Admita-se que os retornos têm variância igual, Var (Ri;t ) =
2
e que os pesos são iguais, ! i = 1=m (estas hipóteses significam que se tomam títulos com
idêntica variabilidade e com o mesmo peso na carteira). Seja
Pm 1 Pm
j=1 i=j+1 Cov (Ri;t ; Ri j;t )
^= m(m 1)
2
20
a “covariância média”, isto é, a média aritmética dos valores de todas as covariâncias distintas
(que são em número de m (m 1) =2). Sob estas hipóteses, vem
2 2
1 ^ N (m 1) ^ (m 1)
Var (Rp;t ) = +2 = + :
m m2 2 m m
2
Nestas circunstâncias, é fácil verificar que Var (Rp;t ) < Var (Ri;t ) é equivalente a > ^.
Assim, se a variabilidade dos activos (tomados isoladamente) for superior à média aritmética
dos valores de todas as covariâncias distintas, o retorno do portfolio apresenta menor variân-
2
cia do que a dos activos que a constituem. A desigualdade > ^ verifica-se trivialmente
se os retornos forem independentes (^ = 0) ou se as covariâncias forem negativas (^ < 0).
2
A desigualdade > ^ tende a verificar-se quando as covariâncias são baixas e/ou existem
várias covariâncias negativas. Deve notar-se que a hipótese de independência é inverosímil,
pois os activos partilham aspectos comuns relacionados com o comportamento geral do mer-
cado (risco de mercado).
Uma forma mais convincente de sugerir Var (Rp;t ) < Var (Ri;t ) é a seguinte. Assuma-
2
se: (i) os retornos têm variância igual, Var (Ri;t ) = ; (ii) os pesos são iguais, ! i = 1=m e
(iii) as covariâncias são iguais. Resulta por construção que a Var (Rp;t ) < Var (Ri;t ) : Com
2
efeito, comece-se por observar que Cov (Ri;t ; Ri j;t ) = ( é o coeficiente de correlação).
P 1 Pm
Nestas condições vem m j=1 i=j+1
2
= 2 m (m 1) =2 e, portanto,
2 2
1 m (m 1)
Var (Rp;t ) = +2 :
m m2 2
Verifica-se agora que Var (Rp;t ) < Var (Ri;t ) é equivalente a < 1: Como, por definição é
menor do que 1, a desigualdade Var (Rp;t ) < Var (Ri;t ) verifica-se sempre, sob as hipóteses
assumidas. Claro que, na prática, nenhuma das hipóteses (i), (ii) e (iii) se verifica de forma
exacta, mas é seguro dizer-se que, em condições gerais, a diversificação (i.e. m > 1) baixa a
variabilidade do portfolio.
21
2.1.4 Retornos Ajustados aos Dividendos
Pt + Dt Pt 1
Rt =
Pt 1
P t Pt 1 Dt
= +
Pt 1 Pt 1
onde (Pt Pt 1 ) =Pt 1 é, por vezes, referido como capital gain e Dt =Pt 1 como dividend
yield.
Até agora considerámos retornos nominais. Em certos estudos, sobretudo de carácter macro-
económico, tem interesse analisar o retorno real. Para obtermos este retorno, é necessário
expurgar do ganho de capital o “efeito do crescimento geral de preços”. Suponhamos que
a inflação foi de 4% e o retorno (anualizado) foi de 3%. Houve ganho real no investimento
realizado? Se atendermos ao efeito “crescimento geral de preços” a resposta é negativa. É
tentador dizer que a perda real é de 1%. Efectivamente é quase 1%, mas não chega, como
se mostra a seguir. Para obtermos o retorno real, Rtreal (ajustado, portanto, da inflação),
considera-se
Ptreal Ptreal1 Pt
Rtreal = ; Ptreal =
Ptreal1 IP Ct
sendo IP Ct o índice de preços ao consumidor (índice construído pelo INE, Instituto Na-
cional de Estatística). Observe-se que Ptreal é o preço deflacionado ou simplesmente o preço
real do activo. Simples álgebra, permite concluir que
Ptreal Ptreal1 Pt IP Ct 1 Rt t
Rtreal = real
= 1=
Pt 1 Pt 1 IP Ct t +1
22
válida a aproximação,
Rtreal ' Rt t:
Como o IPC está, no máximo, disponível mensalmente, não é possível calcular-se retornos
reais diários.
Para compararmos, por exemplo, o retorno diário do investimento A com o retorno mensal
do investimento B, é necessário converter as diferentes taxas de rendibilidades a um mesmo
período. Toma-se normalmente como período de referência o ano pelo que, as taxas de
rendibilidade depois de convertidas em rendibilidades anuais dizem-se anualizadas. Supon-
hamos que um certo investimento de valor P0 foi realizado no momento 0. Ao fim de T anos
(T pode ser por exemplo 0.5, isto é, 6 meses) o mesmo investimento vale Pn : A questão que
deveremos colocar é a seguinte: qual é a taxa de rendibilidade anual, RA ; tal que, aplicada
a um investimento P0 permite ao fim de T anos obter o investimento Pn ? Ou seja, qual é o
valor RA que resolve a equação
P0 (1 + RA )T = Pn ?
1
Pn T
RA = 1: (2.4)
P0
Se os preços P0 ; P1 ; :::Pn são diários e se admitirmos que num ano se observam 250 preços,
então T = n=250 (por exemplo, com n = 500 observações diárias, o período de investimento
corresponde a dois anos, T = 500=250 = 2). Nestas condições, a fórmula (2.4) pode-se
reescrever na forma 250
Pn n
RA = 1:
P0
Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-
vações são mensais) e dispomos de n observações sobre os preços, então T = n=N e
N
Pn n
RA = 1: (2.5)
P0
23
Exemplo 2.1.1 Queremos comparar os seguintes investimentos:
O investimento 1 foi adquirido ao preço 1.5. Ao fim de 800 dias (isto é, 800=250 = 3:2
anos) valia 1.9.
O investimento 2 foi adquirido ao preço 105. Ao fim de 50 meses (isto é, 50=12 = 4:17
anos) valia 121.
250
1:9 800
RA;1 = 1 = 0:0766
1:5
e,
12
121 50
RA;2 = 1 = 0:034;
105
ou seja de 7.66% para o investimento 1 e 3.4% para o investimento 2. O investimento 1 foi,
portanto, preferível.
2
Rs Rs Rs
P1 = P 0 1 + 1+ = P0 1 +
2 2 2
24
0.4
0.3
0.2
0.1 R
0 r
-0.1
-0.2
-0.3
Jul-00
Jul-01
Jul-02
Jul-03
Jul-04
Jul-05
Jan-00
Jan-01
Jan-02
Jan-03
Jan-04
Jan-05
Figura 2-2: Retornos mensais da IBM
r n
P1 = lim P0 1 + :
n!1 n
r n
Como limn!1 1 + n
= er ; a taxa de rendibilidade instantânea r resulta da resolução da
equação P1 = P0 er em ordem a r (pode-se obter P1 = P0 er resolvendo a equação diferencial
Pt0 = rPt - veja-se o apêndice 2.A). Logaritmizando a equação e resolvendo em ordem a r;
obtém-se
r = log P1 log P0 :
Considere-se agora uma sucessão de preços fP1 ; P2 ; :::; Pn g : Define-se a taxa de rendibili-
dade instantânea ou simplesmente o retorno contínuo de um certo investimento no momento
t como
rt = log Pt log Pt 1 :
Pt Pt
rt = log Pt log Pt 1 = log = log 1 + 1 = log (1 + Rt ) :
Pt 1 Pt 1
Para dados diários, semanais ou mensais pode assumir-se rt ' Rt (ver apêndice 2.B.2). Na
figura 2-2 as diferenças entre Rt e rt são relativamente pequenas. Se os dados fossem diários
as diferenças seriam ainda mais pequenas.
25
2.2.1 Retorno Multi-Períodos
Suponha-se que fP1 ; P2 ; :::; Pn g é a sucessão de preços diários. Podemos estar interessados,
por exemplo, no retorno semanal e, para o efeito, basta considerar
Pt
rt (5) = log
Pt 5
(admitindo que se observam cinco preços por semana). De uma forma geral,
Pt
rt (m) = log = log (Pt ) log (Pt m) :
Pt m
não são conhecidos. A questão é, como calcular rt (m) a partir dos retornos contínuos em
t = 1; 2; ...? Para exemplificar, suponha-se que se têm retornos diários e procura-se o retorno
semanal, i.e., admita-se o seguinte:
A tabela anterior sugere que o retorno da semana é igual à soma dos retornos da semana.
Com efeito,
(observe-se que no lado direito da expressão anterior, apenas os termos log P5 e P0 não
cancelam). Em termos gerais,
26
2.2.2 Retornos de Portfolio
Pode imaginar-se o retorno contínuo do portfolio como sendo o valor rp;t tal que, aplicado
ao capital inicial K (i.e., Kerp;t ) permite obter o valor do portfolio calculado através dos m
P P
retornos (i.e., K m i=1 ! i e
ri;t
). Assim, rp;t é tal que K mi=1 ! i e
ri;t
= Kerp;t : Resolvendo
P
esta equação em função de rp;t obtém-se rp;t = log ( m i=1 ! i e
ri;t
) : Tendo em conta que
P
ri;t = log (1 + Ri;t ) e m i=1 ! i = 1; podemos ainda escrever
! ! !
X
m X
m X
m
rp;t = log ! i eri;t = log ! i (1 + Ri;t ) = log 1 + ! i Ri;t = log (1 + Rp;t ) :
i=1 i=1 i=1
Ao contrário dos retornos discretos, o retorno contínuo do portfolio não é igual à soma
Pn
ponderada dos retornos contínuos dos vários activos, i.e., rp;t 6= i=1 ! i ri;t : Este facto
constitui uma desvantagem da versão contínua dos retornos. No entanto, quando Rp;t não é
muito alto, rp;t Rp;t :
Pt + Dt
rt = log = log (Pt + Dt ) log (Pt 1 ) :
Pt 1
Note-se também:
Pt + Dt Pt 1
rt = log (1 + Rt ) ; Rt = :
Pt 1
Pt =IP Ct Pt IP Ct
rtreal = log = log log = rt t
Pt 1 =IP Ct 1 Pt 1 IP Ct 1
onde agora a taxa de inflação t é definida como t = log (IP Ct =IP Ct 1 ). Note-se também:
27
2.2.5 Retornos Anualizados
Tal como no caso dos retornos discretos, também no caso dos retornos contínuos é possível
obter uma taxa de rendibilidade (agora instantânea) anualizada ou simplesmente retorno an-
ualizado, rA . Pode começar-se por perguntar: qual é a taxa de rendibilidade anual, rA ; tal
que, aplicada a um investimento P0 permite ao fim de T anos (de valorização contínua) obter
o investimento Pn ? Ou seja, qual é o valor rA que resolve a equação
P0 erA T = Pn ?
1 Pn
rA = log : (2.6)
T P0
1
! 1
!
Pn T Pn T 1 Pn
rA = log (1 + RA ) = log 1 + 1 = log = log
P0 P0 T P0
N Pn
rA = log :
n P0
1X
n
r= ri :
n i=1
28
Uma questão interessante consiste em obter rA como função de r: Tendo em conta que
P
log (Pn =P0 ) = ni=1 ri tem-se
NX
n
N Pn
rA = log = ri = N r:
n P0 n i=1
X
N
X = log PN log P0 = rt :
t=1
Supondo E (r1 ) = E (r2 ) = ::: = E (rN ) ; tem-se que o retorno médio anual é dado por
E (X) = N E (rt ) :
Logo, uma estimativa de E (X) é, precisamente, rA = N r : Por outro lado, suponha-se que
2
a sucessão frt g é não autocorrelacionada e que Var (rt ) = : Nestas condições, a variância
anual (i.e., a variância associada a rt (N )) é dada por
!
X
N
2
Var (X) = Var rt =N : (2.7)
t=1
Resulta da equação (2.7) a famosa square root of time rule segundo a qual, a volatilidade
p
anual de um activo, obtém-se a partir da regra N onde é o desvio padrão associado
a um medida intra anual (assume-se o desvio padrão como medida da volatilidade). Por
p
exemplo, se os dados são diários, a regra estabelece 250 d ( d é o desvio padrão associado
p
aos dados diários); se os dados são mensais, vem 12 m ( m é o desvio padrão associado
aos dados mensais). A informação anualizada pode ser dada em percentagem:
p
Nr 100%; N 100%:
Com efeito o retorno anual em percentagem é X 100 pelo que E (X 100) = N E (rt )
p p
100 e Var (X 100) = N 2 1002 ) Var (X 100) = N 100:
Note-se, finalmente, que o retorno anualizado na versão discreta é uma função do retorno
29
anualizado na versão contínua, dada pela expressão RA = erA 1 (veja a equação (2.5)).
Como vimos, os retornos contínuos multi-períodos são aditivos (por exemplo, o re-
torno contínuo entre o período 5 e 0 é igual à soma dos retornos contínuos entre o
período 5 e 0). Já os retornos discretos multi-períodos não são. Em certas aplicações é
necessário modelar retornos multi-períodos a partir do conhecimento das distribuições
de r ou R: Neste caso, prefere-se interpretar o retorno na sua versão contínua, pois a
modelação de uma soma
X
t
log Pt log P0 = ri
i=1
Pt P0 Y
t
= (1 + Rj ) 1:
P0 j=1
Pt
Além disso, a soma i=1 ri preserva propriedades que podem ser interessantes. Por
exemplo, se fri g é uma sucessão de v.a. i.i.d. com distribuição N ( ; 2 ), segue-se
P
imediatamente que log Pt log P0 = ti=1 ri tem ainda distribuição normal N (t ; t 2 ) :
Já no caso discreto, se fRi g é uma sucessão de v.a. i.i.d. com distribuição normal, a
Yt
v.a. (Pt P0 ) =P0 = (1 + Rj ) 1 não tem distribuição normal.
j=1
O facto dos retornos discretos não ser aditivos pode conduzir a conclusões erradas.
Considere-se o seguinte exemplo (veja-se a tabela 2.1). No momento t = 0 um certo
activo vale 100, depois em t = 1 vale 110 e, finalmente, em t = 2 volta a valer 100.
Obviamente que o retorno de t = 0 para t = 2 é zero, quer se considere a fórmula
(P2 P0 )=P0 ou log P2 log P0 : No entanto, a média empírica dos retornos discretos
é positiva, podendo sugerir, incorrectamente, que o activo se valorizou entre o período
t = 0 e t = 2: Já a média empírica dos retornos contínuos traduz correctamente a
valorização do activo.
30
Pt Pt 1
t Pt Rt = Pt 1
rt = log Pt log Pt 1
0 100
1 110 0.10 (10%) 0.0953
2 100 -0.0909 (-9.09%) -0.0953
media >0 =0
Tabela 2.1: Retornos discretos não são aditivos - mais um exemplo
31
que estabelece a forma como Pt evolui em tempo contínuo. Pode-se provar que a solução
geral de (2.8) é
Pt = cert ; c2R
Como calcular Rt (m) a partir dos retornos simples em t = 1; 2; ...? Basta considerar
Pt Pt m
Rt (m) =
Pt m
Pt Pt 1 Pt m+1
= ::: 1
Pt 1 Pt 2 Pt m
Pt Pt 1 Pt m+1
= 1+ 1 1+ 1 ::: 1 + 1 1
Pt 1 Pt 2 Pt m
= (1 + Rt ) (1 + Rt 1 ) ::: (1 + Rt m+1 ) 1
Y t
= (1 + Rj ) 1:
j=t m+1
1 2 1 3 Rtn
rt = log (1 + Rt ) = Rt R + R ::: ( 1)n 1
+ :::
2 t 3 t n
Este desenvolvimento em série de potência de Rt é válido para todo o Rt tal que jRt j <
1. Quando Rt é relativamente pequeno, os termos Rt2 ; Rt3 ; etc., são ainda mais pequenos
(por exemplo, Rt = 0:005 implica Rt2 = 2:5 10 5 , Rt3 = 1:25 10 7 ; etc.) pelo que,
nestas circunstâncias, Rt2 ' 0; Rt3 ' 0; etc., e, assim, rt ' Rt : Se os dados são diários,
semanais ou mensais as rendibilidades R são geralmente pequenas (quando comparadas com
as rendibilidades anuais). Assim, para este tipo de rendibilidades, pode assumir-se rt ' Rt :
32
Capítulo 3
p E (r )3 E (r )4
= E (r) ; = Var (r); sk = 3
; k= 4
1
Para simplificar, admite-se que f é homogénea com respeito ao tempo, i.e., não depende de t. Desta forma,
f (rt ) = f (rt 1 ) = ::: = f (r1 ). Como consequência é indiferente escrever f (rt ) ou simplesmente f (r) (e,
por um raciocínio similar, é indiferente escrever E (rt ) ou simplesmente E (r)).
33
podem ser estimados de forma consistente (sob certas condições de regularidade), respecti-
vamente, pelos estimadores
s
Pn Pn
t=1 rt t=1 (rt r)2
r = ; ^= ;
n n
Pn 3 Pn
c = n 1
(r t r) n 1
t=1 (rt r)4
sk t=1
3 ; k^ = :
^ ^4
34
c P^ (jrt rj>3^ )
rA % ^A% sk k^ P (jZj>3)
Cotações de Acções
Microsoft (01-88 a 7-05) 23.9% 36.3% -.097 6.8 3.85
Coca-Cola (11-86 a 12-05) 7.2% 33.2% -0.97 18.1 4.53
PT (6-95 a 12-05) 12.3% 33.2% -0.06 6.39 5.02
Índices Bolsistas
Dax (11-90 a 11-05) 8.4% 22.1% -0.196 6.66 5.79
CAC40 (03-90 a 11-05) 5.7% 20.5% -0.101 5.77 5.61
Nikkei225 (01-84 a 11-05) 1.6% 20.5% -0.116 10.77 3.71
FTSE100 (04-84 a 11-05) 7.3% 15.8% -0.545 11.12 2.44
PSI20 (01-93 a 03-06) 8.6% 15.8% -0.61 10.9 5.99
Taxas de Câmbio
USD/EUR(12-98 a 11-05) 0.1% 7.9% -0.05 4.86 4.55
YEN/USD (1-71 a 7-05) -3.4% 9.4% -0.78 p 14.2 1.67
Na última coluna assume-se que Z N (0; 1) ; ^ A % = 250^ 100%
Tabela 3.1: Estatísticas Descritas de Algumas Acções, índices e Taxas de Câmbio
petrolíferos, etc.), enquanto os bilhetes de tesouro seriam vendidos por 119 dólares. Os
retornos anualizados (usando a fórmula RA ) seriam de 10.1% para as acções, i.e.
1
RA 100% = (16797) 101 1 100% = 10:1%
e de 4.8% para os bilhetes do tesouro (valores nominais, i.e. não descontando a inflação).
Ver Taylor (2005) para mais detalhes sobre o prémio de risco.
A tabela 3.1 mostra que os activos com maior variabilidade (e, portanto com maior risco
associado) são os títulos de empresas, seguidos dos índices bolsistas e taxas de câmbio (bil-
hetes do tesouro - resultados não apresentados - apresentam a menor variabilidade). No
âmbito dos títulos de acções, vários estudos indicam (ver por exemplo, Taylor, 2005) que a
variabilidade dos retornos tende a diminuir à medida que a dimensão das empresas aumenta
(títulos de empresas pequenas apresentam maior variabilidade).
35
sk < 0 (> 0). Se sk = 0 a distribuição é simétrica (em relação à média populacional).
c negativa se as variações negativas fortes forem mais
Podemos ter uma estimativa sk
acentuadas do que as variações positivas fortes. Quando assim sucede, os desvios negativos
P
(rt r)3 < 0 tendem a dominar os desvios positivos (rt r)3 > 0 na soma (rt r)3 e,
c é negativa. Observe-se ainda que os desvios cúbicos são divididos
por isso, a estimativa sk
por ^ 3 ; desta forma, elimina-se a possibilidade do coeficiente depender das unidades em que
a variável é observada (por exemplo, se multiplicarmos r por 100, para termos uma medida
c não sofre alteração).
em percentagem, sk
A tabela 3.1 mostra que as distribuições empíricas das rendibilidades de acções e índice
bolsistas em análise são assimétricas negativas. Existe, portanto, evidência empírica de que
as fortes variações dos preços são maioritariamente de sinal negativo. Estas variações são
obviamente crashes bolsistas. Sublinhe-se, no entanto, que alguns retornos de títulos, por
registarem episódios de fortes variações positivas, apresentam distribuições assimétricas pos-
itiva. A assimetria negativa não é, portanto, uma característica universal das distribuições de
retornos, embora, geralmente, tendam a apresentar assimetria negativa.
Sob certas hipóteses, incluindo frt g é uma sucessão de v.a. homocedásticas com dis-
tribuição normal, a estatística de teste
c
p sk
Z1 = np
6
tem distribuição assimptótica N (0; 1) : A hipótese nula H0 : sk = 0 pode ser testada a par-
tir deste resultado2 . Mas as hipóteses de partida, normalidade e homocedasticidade, são
relativamente severas. Na prática, isto significa que a rejeição de H0 pode dever-se à ausên-
cia de normalidade e/ou homocedasticidade e não necessariamente à falha de simetria da
distribuição. Desta forma, é necessário ter algum cuidado na interpretação dos resultados
quando H0 é rejeitada.
c é por vezes criticado por não ser robusto face à presença de valores
O estimador sk
extremos. Na verdade, em certos casos, a ocorrência de apenas uma única variação negativa
c (os títulos que incluem na
excepcionalmente forte pode resultar num valor negativo para sk
sua amostra o crash do dia 19 de Outubro de 1987 tendem a apresentar um valor estimado
para sk negativo). Por esta razão, é aconselhável usar-se medidas de assimetria robustas
2
A única hipótese nula possível é H0 : sk = 0: Por exemplo, não faria sentido testar H0 : sk = 1 porque
a estatística de teste é obtida sob a hipótese de normalidade e sk = 1 é claramente incompatível com essa
hipótese.
36
contra a presença de outliers. Uma medida nestas condições é proposta por Groeneveld and
Meeden (1984)
E (r) q0:5
skGM =
E (jr q0:5 j)
onde q0:5 é o quantil de ordem 0.5, o que significa que q0:5 é a mediana. O parâmetro
E (jr q0:5 j) fornece uma medida de dispersão dos dados. Esta medida tem a vantagem
de variar entre -1 e 1, i.e. 1 < skGM < 1: Sob certas condições, skGM pode ser estimado
de forma consistente através da estatística
[ r m
skGM = P
n 1 nt=1 jrt mj
E (r) q0:5
skP = :
Note-se, finalmente, que para as taxas de câmbio não há razão especial para esperar
sk > 0 ou sk < 0: Com efeito, suponha-se que St é a taxa de câmbio do Dólar/Euro e
rt = log (St =St 1 ) : Se a distribuição de rt é assimétrica negativa então a distribuição dos
retornos associados à taxa de câmbio do Euro/Dólar, 1=St (seja r~t esse retorno) é assimétrica
positiva, pois
1=St St
r~t = log = log = rt
1=St 1 St 1
(note-se: se x tem distribuição com assimetria negativa, x tem distribuição com assimetria
positiva). Assim a assimetria positiva ou negativa nas taxas de câmbio depende da forma
como a taxa de câmbio está definida (não podendo, portanto, inferir-se qualquer regularidade
empírica).
37
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
1 2 3 4 5 6 7 8 9
Y1 Y2
Figura 3-1: Qual das duas séries tem kurtosis estimada mais alta?
que os desvios (rt r)4 são muito sensíveis aos valores extremos da amostra. Por exemplo,
^ Para ilustrar o impacto dos outliers no
a existência de outliers faz aumentar a estatística k:
^ considere-se a figura 3-1. Pode-se observar que variância da série y1
valor da estatística k;
é menor do que a da série y2 . No entanto, o valor k^ da série y2 é de apenas 1.5, ao passo
que o da série y1 é de 5.5. Os valores da série y2 não se encontram, em termos relativos,
muitos afastados da sua média. Já na série y1 há um valor que se destaca dos demais e que
^ Para compararmos graficamente duas séries é necessário
é responsável pelo valor alto de k.
estandardizá-las (isto é transformá-las em séries de média zero e variância 1). Continuando
o exemplo, considere-se agora as mesmas variáveis estandardizadas:
y1 y1 y2 y2
z1 = ; z2 = :
^ y1 ^ y2
Na figura 3-2 ambas as séries possuem a mesma variância, mas agora é claro o valor extremo
da série y1
Observa-se para a generalidade das séries financeiras que os retornos muitos altos e muito
baixos ocorrem com maior frequência do que seria de esperar se os retornos seguissem uma
distribuição normal. Uma forma de confirmar esta ideia consiste em comparar a estimativa
do coeficiente de kurtosis (curtose) dos retornos com o valor 3, que é o valor de kurtosis da
distribuição normal.
Na generalidade dos casos o coeficiente k estimado vem quase sempre (bastante) acima
de 3, o que sugere que a distribuição dos retornos (de cotações, índice, taxas de câmbio e
mesmo taxas de juro) é leptocúrtica. Nas figuras 3-3 e 3-4 (esta última é uma ampliação
da figura 3-3) mostra-se a diferença entre uma distribuição mesocúrtica (k = 3) e uma
38
3
-1
-2
1 2 3 4 5 6 7 8 9
Z1 Z2
distribuição leptocúrtica (k > 3). A figura 3-4 mostra claramente por que razão a distribuição
leptocúrtica é também designada de “distribuição de caudas pesadas”. O ensaio H0 : k =
3 [y N ormal & y é i:i:d] pode ser conduzido pela estatística de teste
^
p k 3 d
Z1 = n p ! N (0; 1) :
24
Por exemplo, para a Microsoft (tabela 3.1) e sabendo que no período considerado se obser-
0.5
0.4
0.3 Normal
0.2 Leptoc.
0.1
0
-7 -4.5 -2 0.5 3 5.5
p (6:8 3)
z1 = 4415 p = 51:54:
24
39
0.01
0.008
0.006 Normal
0.004 Leptoc.
0.002
0
-7 -4.5 -2 0.5 3 5.5
P^ (jrt rj > 3^ )
: (3.1)
P (jZj > 3)
(observe-se que (rt r) =^ são os retornos estandardizados) e, portanto, o rácio (3.1) deveria
ser aproximadamente igual a um. No entanto, a tabela 3.1 mostra que esse rácio tende a ser
significativamente superior a um. Isto sugere que os retornos muitos altos e muito baixos
tendem a ocorrer com maior frequência do que seria de esperar se a variável seguisse uma
distribuição normal.
Observação 3.1.1 Como estimar a probabilidade P (jrt E (rt )j = > 3)? Primeiro sub-
p
stituímos E (rt ) e = Var (rt ) pelas respectivas estimativas consistentes, r e : Depois,
calculamos a proporção de vezes (na amostra) em que ocorre jrt rj = > 3. Obtém-se
assim uma estimativa para P (jrt E (rt )j = > 3) : Em termos analíticos:
1X
n
P^ (jrt rj = > 3) = Ifjrt rj= >3g
n t=1
onde Ifjrt rj= >3g = 1 se ocorre jrt rj = > 3 e zero no caso contrário.
40
R Z
.2 20
.1 10 Bandas (-3,3)
.0 0
-.1 -10
-.2 -20
-.3 -30
30 40 50 60 70 80 90 00 10 30 40 50 60 70 80 90 00 10
Figura 3-5: Painel Esquerdo: retornos diários do Dow Jones no período 02/10/1928 a
3/02/2011 (20678 observações). Painel direito retornos estandardizados, zt = (rt r) =^
Gráfico QQ-Plot
Outra forma de compararmos a distribuição normal com a distribuição dos retornos consiste
em analisar o gráfico QQ-plot. O gráfico QQ-plot é o gráfico dos pares ordenados
41
8
Quantis Normal
0
-4
-8
-12
-12 -8 -4 0 4 8
Quantis retornos PSI20
rt r
xt = ;
isto é
q : P (Z < q ) = ; Z N (0; 1)
q~ : P~ (xt < q~ ) = ; xt :
42
r ^ c
sk k^
Retornos Diários
Frankfurt 0.00035 0.0123 -0.946 15.0
Hong Kong 0.00057 0.0169 -5.0 119.24
Londres 0.00041 0.0092 -1.59 27.4
Nova York 0.00049 0.0099 -4.30 99.68
Paris 0.00026 0.0120 -0.53 10.56
Tóquio 0.00005 0.0136 -0.213 14.798
Retornos Semanais
Frankfurt 0.00169 0.0264 -1.06 8.09
Hong Kong 0.00283 0.0370 -2.19 18.25
Londres 0.00207 0.0215 -1.478 15.54
Nova York 0.00246 0.0206 -1.37 11.25
Paris 0.0028 0.0284 -0.995 9.16
Tóquio 0.00025 0.0288 -0.398 4.897
Diz-se que a frequência das observações aumenta quando, se passa, por exemplo, de obser-
vações mensais para observações semanais ou destas para diárias. A tabela 3.2 mostra que o
coeficiente de kurtosis aumenta quando se passa de observações semanais para observações
diárias. Assim, a distribuição marginal dos retornos diários apresenta um maior afastamento
face à distribuição normal. É possível fazer um raciocínio inverso: a diminuição da frequên-
cia das observações (por exemplo, quando se passa de observações diárias para observações
semanais ou mensais) atenua o afastamento da distribuição dos retornos relativamente à dis-
tribuição normal. Uma possível explicação teórica para este facto é descrita a seguir.
Sejam P0 ; P1 ; P2 ; ::: os preços diários. Se a frequência de observações baixa, passamos
a observar P0 ; Ph ; P2h ; ::: sendo h um inteiro maior do que 1. Por exemplo, se passarmos
para dados semanais (h = 5) passamos a observar P0 ; P5 ; P10 ; ::: (imagine-se que t = 0 é
uma segunda-feira; passados 5 dias observa-se a segunda-feira seguinte que corresponde a
t = 5). Neste caso, os retornos semanais são:
Para h geral, o primeiro retorno observado é r~1 = log Ph log P0 : Como os retornos contín-
43
uos são time-additive, resulta
X
h
r~1 (h) = log Ph log P0 = r1 + r2 + ::: + rh = ri
i=1
(ri são os retornos diários). Mesmo que ri não tenha distribuição normal, o retorno associa-
dos a uma frequência de observação mais baixa, r~ (h) ; tenderá a ter distribuição normal pelo
teorema do limite central. Com efeito, sob certas condições (relacionadas com a variância
de ri e a memória temporal de r) tem-se
Ph Ph
i=1 ri E i=1 ri d
r ! N (0; 1)
Ph
Var i=1 ri
Assim, espera-se que a diminuição da frequência amostral atenue a não normalidade obser-
vada nas séries de retornos de alta frequência.
3
Ph Ph 2
Se for possível garantir que E i=1 ri = n E (ri ) e Var i=1 ri =h então este resultado pode
p d
escrever-se na forma habitual h (r E (ri )) = ! N (0; 1) (quando h ! 1):
4 d
Observe-se: zn ! N (0; 1) se no limite, quando n ! 1; z1 tem distribuição N (0; 1) : Assim, para n
a
razoavelmente alto, zn tem distribuição aproximadamente normal, i.e. zn N (0; 1) :
44
detectem essa anomalia vendem o título da empresa ABC às terças-feiras às 14h. Como
resultado o preço da empresa ABC tenderia a cair por volta dessa hora e a anomalia desa-
parecia. De uma forma geral, se os investidores são racionais e dispõem de toda a informação
passada sobre o mercado, as anomalias relacionadas com as rendibilidades dependentes do
calendário, tendem a desaparecer, logo que sejam detectadas. Na prática, subsistem certas
anomalias que não desaparecem mas que, em geral, não permitem obter rendibilidades anor-
mais, depois de deduzidos os custos de informação e transacção. Podem assim permanecer
no mercado “anomalias” ou “ineficiências” para as quais o benefício de explorar essas inefi-
ciências não compensa os custos adicionais associados.
Dia da Semana
À partida espera-se que os retornos à segunda-feira sejam um pouco mais altos face aos
demais dias da semana, pois a posse de títulos à segunda-feira representa um investimento
de 72 horas face à última sexta-feira, tendo em conta que o mercado fecha aos fins-de-
semana. Analiticamente observe-se que se o retorno diário rt tem média então, para um
investimento de 3 dias (de sexta a segunda-feira) o retorno associado, rt + rt+1 + rt+2 ;
deverá ter média 3 : Assim, o retorno à segunda feira deveria ser, em média, três vezes
superior ao retorno dos demais dias da semana. Taylor (2005) reporta vários estudos com
conclusões contraditórias (para certos títulos e para determinados períodos é possível que o
retorno à segunda-feira seja mais elevado, mas não se pode concluir em geral que o retorno
às segundas seja necessariamente superior ao dos demais dias da semana).
Por outro lado, um investimento a 3 dias deve ser mais volátil do que um investimento
2
a um dia. Se rt tem variância e frt g é uma sucessão de v.a. não autocorrelacionadas,
rt + rt+1 + rt+2 ; tem variância igual a 3 2 : Portanto, espera-se que às segundas feiras o
retorno apresente maior variabilidade. No entanto, argumenta-se que a (verdadeira) variância
2
associada aos retornos de segunda-feira não pode ser tão alta como o valor 3 sugere, pois
durante o fim-de-semana as notícias que movimentam o mercado (e produzem volatilidade)
são, em geral, escassas e pouco relevantes. De todo o modo, regista-se, para um número
considerável de activos, um aumento de volatilidade à segunda-feira.
A melhor forma de testar estes efeitos passa pela modelação ARCH (cap. 8). Uma forma
menos eficiente de testar estes efeitos consiste em calcular a média e a variância dos retornos
nos vários dias da semana. Por exemplo, para analisar se as médias dos retornos são iguais
45
nos vários dias da semana, faz-se a regressão,
onde ter; qua; etc. são variáveis dummy que assumem o valor um se t corresponde, respec-
tivamente, a uma terça-feira, quarta-feira, etc. (note-se que o “grupo base” é a segunda-
feira). Sendo o “grupo base” a segunda-feira, é a média do retorno à segunda feira
(E (rt j segt = 1) = ). Por outro lado, i, para i = 1; :::; 4 representam as diferenças da
média do retorno dos outros dias face à segunda-feira (por exemplo, se 3 = 0:01 então o
retorno médio à quinta-feira é igual a 0:01 e 3 representa a diferença face à segunda-
feira).
O ensaio H0 : 1 = 2 = ::: = 4 = 0 corresponde a testar a não existência de diferenças
nas médias dos retornos dos vários dias da semana. A estatística habitual para o caso em
análise (em que H0 estabelece a nulidade de todos os parâmetros com excepção do termo
constante) é
R2 = (k 1)
F =
(1 R2 ) =(n k)
onde k é o número de regressores (incluindo o termo constante) e R2 é o coeficiente de de-
terminação. Sob H0 (homocedasticidade e ausência de autocorrelação) a estatística F tem
distribuição F (k 1; n k). Na presença de heterocedasticidade, os teste t e F habitu-
ais são inválidos. Uma solução para este problema consiste na estimação da equação (3.2)
através dos modelos da família ARCH (veremos este aspecto no capítulo 8). Outra solução
passa pela utilização de erros padrão robustos (ou da estatística F robusta) contra a presença
de heterocedasticidade5 .
Em Taylor (2005) descrevem-se outras “anomalias” associadas ao calendário.
5 d ^
Erros padrão (de White) robustos contra heterocedasticidade obtêm-se a partir da matrix Var =
1 1
(X0 X) X0 WX (X0 X) ^21 ; :::; u
onde W é uma matriz diagonal com elementos u ^2n : A estatística ro-
0 1
busta, na versão do teste de Wald, para ensaiar H0 : R = r; é R ^ r d ^ R0
RVar R^ r ;e
2
tem distribuição assimptótica onde q é o numero de restrições. Nota sobre o programa EVIEWS (versão 6
(q)
e 7): a opção “White” em “Heteroskedasticity consistent coefficient covariance” que aparece depois de se se-
leccionar Quick/Estimate/Options fornece no output erros padrão robustos, mas não, infelizmente, a estatística
F robusta. É possível obter esta estatística robusta fazendo o seguinte: escolhe-se a opção “White” em “Het-
eroskedasticity consistent coefficient covariance” e estima-se o modelo. Em seguida realiza-se o teste Wald
seleccionando View/Coefficient Tests/Wald, introduzindo-se depois as restrições a ensaiar.
46
3.1.7 Distribuições Teóricas para os Retornos
Distribuição t-Student
v+1
v+1
2 x2 2
f (x) = p v
1+ :
v 2
v
p
"=X (v 2) =v:
6
É fácil constatar que Var (") = 1; k" = kx = 3 + v 4
: Note-se que a fdp de " é
v+1
v+1
1 2 x2 2
g (x) = p v
1+ :
(v 2) 2
v 2
Quando mais baixo for o número de graus de liberdade mais pesadas são as caudas. No
caso v = 4 o momento de ordem 4 não existe e, portanto, também não existe o coeficiente
R
de kurtosis (quer dizer, neste caso, o integral impróprio R x4 g (x) dx não é finito porque a
expressão x4 g (x) não tende para zero com suficiente rapidez).
Mistura de Normais
2
Considere-se uma distribuição mistura de normais: 100% de N ( 1 ; 1) e (1 ) % de
2
N ( 2; 2) : Por exemplo, imagine-se que se faz uma extracção de números aleatórios da
seguinte forma: atira-se uma moeda ao ar. Se cair caras simula-se uma variável X1 com
2 2
distribuição N ( 1 ; 1) ; se cair coroas, simula-se X2 com distribuição N ( 2 ; 2) : De uma
forma geral, a variável X; que representa a mistura de normais, pode escrever-se da seguinte
forma:
X = U X1 + (1 U ) X2 ;
47
0.010
f(x)
0.009
0.008
0.007
0.006
0.005
0.004
0.003
0.002
0.001
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
x
P1
de X usa-se a expressão bem conhecida da estatística: f (x) = u=0 fxju (xju) fu (u). A
distribuição de X dado U = u é imediata, tendo em conta que uma soma de normais é ainda
uma normal:
XjU = u N (E (XjU = u) ; Var (XjU = u)) ;
onde
E (XjU = u) = u 1 + (1 u) 2
Var (XjU = u) = u2 2
1 + (1 u)2 2
1 + 2u (1 u) Cov (X1 ; X2 )
2 2
sendo fxju (xj0) a fdp da distribuição N ( 1 ; 1) e fxju (xj1) a fdp da distribuição N ( 2 ; 2 ).
No exemplo da “moeda ao ar”, é 0.5. É interessante observar que uma mistura de normais
conduz a uma distribuição não normal. Em particular a mistura pode ser assimétrica e lep-
tocúrtica. Com efeito, pode-se mostrar que,
E (X) = 1 + (1 ) 2;
2 2 2
Var (X) = 1 + (1 ) 2 + (1 )( 1 2) ;
48
f(x) 1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
-5 -4 -3 -2 -1 0 1 2 3 4 5
x
3 2 2 2
E (X E (X)) = (1 )( 1 2) (1 2 )( 1 2) + 3( 1 + 2) ;
)( 2 2
3 (1 2
1 2 )
k =3+ 2 2
> 3 supondo, para simplificar, que 1 = 2 = 0:
( 2 +(1
1 ) 2 )
A fdp de Pareto é
( +1)
g (y) = c y ; y > c:
À primeira vista pode parecer que esta distribuição não serve pois o nosso objectivo é mod-
elar os retornos e o espaço de estados desta variável é claramente R (os retornos podem as-
sumir qualquer valor em R). Ora, sucede que g apenas está definida para y > c (e, portanto,
não atribui probabilidades quando y < c). No entanto, o que procuramos neste momento
é caracterizar probabilisticamente os eventos extremos, i.e. os eventos que se encontram
bem afastados da média. Estamos, portanto, concentrados nas abas da distribuição e, para o
efeito, o que é relevante é o que se passa para y > c:
Diz-se que uma fdp f (y) tem distribuição com caudas de Pareto (mesmo que não seja
uma distribuição de Pareto) se
( +1)
f (y) Cy ; >0
49
0.07
fdp
0.06
0.05
0.04
0.03
0.02
0.01
0.00
2.0 2.5 3.0 3.5 4.0 4.5 5.0
y
( +1)
lim f (y) =Cy = 1:
y!1
Esta última equação diz-nos que para valores grandes de y, f (y) é “praticamente igual” a
( +1)
Cy (no limite é igual). Para valores “pequenos” de y, f (y) pode ser completamente
( +1)
diferente de Cy : A similaridade está nas caudas, quando y ! 1 (existem definições
mais gerais, baseadas em funções slowly varying at 1). Pode-se concluir que f (y) tem um
decaimento polinomial para zero (decaimento lento para zero) e, portanto, caudas pesadas. Já
a distribuição normal tem um decaimento exponencial (recorde-se que no caso Gaussiano,
f (y) = C exp f y 2 =2g) e a fdp tende para zero muito rapidamente quando y tende para
1. A figura 3-9 compara uma cauda Gaussiana com uma cauda de Pareto.
( +1)
Uma vez que a fdp com caudas pesadas do tipo f (y) Cy não tende rapidamente
para zero, certos valores esperados podem não existir. De facto, se < k então os momentos
de ordem igual ou superior a k não existem. Com efeito, seja D o espaço de estados de yt
50
(valores que y pode assumir). Para um certo c 2 D e c > 0; vem:
Z
k
E jyt j = jyjk f (y) dy
ZD1
jyjk f (y) dy
Zc 1
= jyjk Cy ( +1)
dy
c
Z 1
1+k
= C jyj dy = 1
c
se 1+k > 1; ou seja, se < k: Por exemplo, Var (yt ) não existe se < 2:
( +1)
Estimador de Hill Suponha-se f (y) Cy : Como estimar ? Antes de propormos
um estimador para ; admita-se um cenário mais simples: f (y) tem distribuição (exacta) de
Pareto, y P areto (c; ) ; ou seja
c
f (y) = +1
; y > c:
y
Assuma-se que fyt ; t = 1; 2; :::; ng é uma sucessão de v.a. i.i.d. com distribuição de P areto ( ; c) :
A função de log-verosimilhança corresponde à expressão
X
n X
n
log L ( ; c) = log f (yt ) = n log ( ) + n log (c) ( + 1) log (yt ) :
t=1 t=1
n
^ = Pn : (3.3)
t=1 log (yt =c)
p d
^ n é maximizante, pois @ 2 log L=@ 2 = n= 2
< 0: Tem-se ainda n (^ n ) !
1
N 0; I ( ) onde
@ 2 log f (yt ) 1
I( 0) = E = :
@ 2 2
6
Embora a derivada da função log L (c; ) com respeito a c não se anule (verifique), pode-se concluir que no
intervalo de valores admissíveis de c, isto é, c mint=1;:::;n fyt g ; a função log L (fixado ) atinge o máximo
em c^ = mint=1;:::;n fyt g :
51
ser utilizado. Nestas circunstâncias, se estamos apenas interessados em estimar o índice
de cauda (supondo que y tem distribuição com caudas de Pareto, mas não segue essa dis-
tribuição), devemos aparar a amostra fyt ; t = 1; 2; :::; ng ; por exemplo, considerando apenas
os dados yt tais que yt > q (onde q pode ser interpretado como um quantil de y; geralmente
um quantil de ordem superior a 0.95). Analisa-se, portanto, o comportamento de y apenas
para os valores muitos altos (ou muito baixos) de y.
O estimador de ; designado por estimador de Hill, para a aba direita da distribuição é
n (q) X
n
^ (q) = Pn ; n (q) = Ifyt >qg (3.4)
t=1 log (yt =q) Ifyt >qg t=1
onde Ifyt >qg = 1 se yt > q e Ifyt >qg = 0 no caso contrário. Pode-se pensar neste estimador
como se fosse o estimador (3.3), mas aplicado apenas aos valores da amostra que verificam
yt > q:
O estimador de para a aba esquerda da distribuição é o que resulta da equação (3.4) de-
pois de se substituir Ifyt >qg por Ifyt <qg , sendo q agora um quantil de ordem 0.05 ou inferior.
Pode-se mostrar
p d 2
n (q) (^ (q) (q)) ! N 0; ;
2
quando n ! 1, n (q) ! 1 e n (q) =n ! 0: Observe-se Var (^ (q)) = =n (q) : Como
é desconhecido podemos tomar como estimador de Var (^ (q)) a expressão ^ 2 =n (q) : Estes
resultados assimptóticos são obtidos num contexto i.i.d. Kearns e Pagan (1997) mostram
todavia que a variância assimptótica de ^ aumenta consideravelmente na presença de de-
pendência.
-0.110 0 0
0.090 1 2.197
0.100 1 2.303
-0.100 0 0
0.020 1 0.693
0.005 0 0
P
3 5.193
52
versus variância:
( +1)
se q é baixo, perde-se a hipótese f (y) Cy e, como consequência, o estimador
^ (q) é enviesado e mesmo inconsistente (recorde-se que ^ (q) é baseado na hipótese
( +1)
f (y) Cy ).
Os índices de cauda estimados são relativamente baixos o que sugere que existe uma
massa de probabilidade considerável associada a valores extremos na amostra.
53
Figura 3-10: Estimativa da fdp dos retornos do DowJones no período Out/1988-Jan/2010 e
fdp normal de média e variância estimadas a partir dos retornos
A forma mais simples de estimar f (x) consiste em obter o histograma das frequências relati-
vas. Existem, no entanto, estimadores preferíveis. Uma estimativa não paramétrica de f (x)
pode ser dada por
1 X
n
x xi
f^ (x) = K
nh i=1 h
onde K (u) é uma fdp (ver detalhes no ponto 10.2). Sob certas condições, incluindo h !
p
0; n ! 1; nh ! 1 pode-se provar f^ (x) ! f (x) : Na figura 3-10 apresenta-se uma es-
timativa não paramétrica da fdp marginal dos retornos do Dow Jones no período Out/1988-
Jan/2010 (na verdade, estão representadas várias estimativas: f (x1 ) ; f (x2 ) ; :::; f (xk ) ;
sendo fxk g uma sucessão de valores igualmente espaçado no intervalo ( 0:07; 0:06) - veja-
se o eixo das abcissas da figura 3-10). Na figura representa-se também a fdp da N r; ^ 2
onde r e ^ 2 são as estimativas dos dois primeiros momentos dos retornos do Dow Jones no
período considerado.
Comparando f^ com a densidade normal, conclui-se que f^ atribui maior massa de prob-
abilidade na vizinhança da média empírica e nos intervalos associados aos valores extremos
da amostra, e atribui reduzida massa de probabilidade no intervalo dos valores moderados da
54
amostra, digamos no intervalo ( 0:03; 0:01) e (0:01; 0:03).
Cov (X; Y )
=p ; 1 1:
Var (X) Var (Y )
O coeficiente mede o grau de associação linear entre Y e X. Quanto mais alto for j j maior
é a relação entre X e Y: Podemos também medir a associação linear entre yt e yt 1 ou entre
yt e yt 2 etc.
Cov (yt ; yt s )
s =p
Var (yt ) Var (yt s )
Como s pode ser visto como uma função de s; s é designado por função de autocorrelação
(FAC) (ou ACF em inglês). Se assumirmos Var (yt ) = Var (yt s ) vem
1
Pn
n s t=s+1 (yt y) (yt s y)
^s = Pn .
1
n t=1 (yt y)2
yt = c + s yt s + ut
55
Figura 3-11: Funções de autocorrelação dos retornos diários (Microsoft 1986-2006)
onde se admite que fut g é uma sucessão de v.a. independentes e E (ut j yt s ) = 0. O rácio-t
associado à estimativa de s permite ensaiar H0 : s = 0: Em alternativa temos os seguintes
testes standard válidos sob a hipótese i.i.d.
Teste Kendal e Stuart H0 : k =0
p d 1 1
n (^k + 1=n) ! N (0; 1) ; ^k N ;p
n n
p
Rejeita-se H0 ao n.s. de (aprox.) 5% se j^k j > 2= n (supondo 1=n 0).
Teste Ljung-Box H0 : 1 = ::: = m =0
X
m
1 d
Qm = n (n + 2) ^2k ! 2
(m)
k=1
n k
56
hoje e compra-se amanhã. Existe, portanto, uma forte possibilidade de ganho (arbitragem)
com base na observação passada dos preços. Se outros participantes do mercado compram
e vendem com base neste padrão de autocorrelação, o processo de arbitragem reduzirá rapi-
damente a correlação (se o retorno hoje é alto e positivo muitos participantes vendem hoje e
compram amanhã; como consequência o preço tenderá a diminuir hoje e aumentar amanhã
e a correlação tenderá a esbater-se). Portanto, não é credível, supor-se 1 = 0:9:
Retome-se a figura 3-11. A coluna Q-Stat fornece os valores de Qm para m = 1; :::; 20:
Fixe-se por exemplo, m = 20: Tem-se Q20 = 36:613: O valor-p associado é zero, isto é,
P (Q20 > 36:613) = 0:013: Logo existe evidência contra a hipótese nula H0 : 1 = ::: =
em amostras muito grandes, como é aquela que analisamos, qualquer pequeno desvio
face à hipótese nula implica a sua rejeição;
os testes foram utilizados sob a hipótese irrealista de os retornos serem i.i.d. Esta su-
posição não é válida sobretudo devido à presença de heterocedasticidade condicionada.
^ 2t = (1 ) rt2 1 + ^ 2t 1 ; = 0:96
57
Figura 3-12: Funções de autocorrelação dos retornos diários estandardizados (Microsoft
1986-2006)
Já vimos que valores muitos altos e muito baixos ocorrem frequentemente (com maior fre-
quência do que seria de esperar se as variáveis seguissem uma distribuição normal). Este
valores extremos não ocorrem isoladamente: tendem a ocorrer de forma seguida (volatility
clustering). Na figura 3-14 representam-se os retornos diários associados ao índice Dow
Jones (1926-2006). Na figura 3-15 apresentam-se os mesmos retornos mas agora dispostos
por ordem aleatória no tempo. Algumas estatísticas destas duas sucessões são obviamente
iguais (média, desvio padrão, coeficientes de assimetria e de achatamento). No entanto ex-
istem diferenças significativas. Só no verdadeiro cronograma (figura 3-14) aparece uma
das propriedades mais importantes dos retornos: fortes (baixas) variações são normalmente
seguidas de fortes (baixas) variações em ambos os sentidos (volatility clustering)
Se fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em
58
Figura 3-13: Funções de autocorrelação de yt = log (GN Pt =GN Pt 1 ) onde GNP é o PIB
dos EUA (dados trimestrais de 1947 a 2003).
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
Oct-28
Dec-35
Jul-39
Nov-53
Jun-57
Jan-61
Mar-68
Oct-71
Dec-78
Jul-82
Nov-96
Jun-00
Jan-04
May-32
Feb-43
May-75
Feb-86
Sep-46
Sep-89
Apr-50
Apr-93
Aug-64
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
Figura 3-15: Retornos diários do Dow Jones dispostos por ordem aleatória
59
Figura 3-16: Funções de autocorrelação dos quadrados dos retornos (Dow JOnes)
ambos os sentidos, então rt2 deve estar correlacionado7 com rt2 i (i = 1; 2; :::).
A figura 3-16, onde se apresentam as funções de autocorrelação de rt2 ; onde r é o retorno
associado ao índice Dow Jones, confirma esta ideia.
Nesta secção identifica-se o quadrado do retorno com a volatilidade. Não é inteiramente
correcta esta analogia, embora seja admissível associar-se momentos de grande (baixa) volatil-
idade a valores altos (baixos) de rt2 : De qualquer forma, a principal conclusão mantém-se:
fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em ambos
os sentidos e identificamos este fenómeno como volatility clustering.
Nos pontos precedentes observámos o seguinte: (1) valores muitos altos e muito baixos
ocorrem frequentemente e (2) estes valores extremos aparecem de forma seguida (volatility
clustering). Neste ponto reforça-se a ideia de volatility clustering: não só os valores extremos
tendem a aparecer de forma seguida como também há alguma persistência neste fenómeno.
7
Esta correlação poderia, em princípio, dever-se à presença de uma média condicional não constante. Por
exemplo, se rt seguisse um MA(1), rt = rt 1 + ut ; onde ut é um ruído branco, então, por construção,
ter-se-ia Corr rt2 ; rt2 1 > 0: Se fosse este o caso, a melhor forma de continuarmos com o nosso argumento
seria centrar rt ; usando a média condicional, i.e. tomaríamos r~t = rt ~t2 ; r~t2 1 = 0 se
t : Viria agora Corr r
2 2
rt fosse genuinamente um MA(1); no caso contrário, se Corr r~t ; r~t 1 > 0; teríamos evidência em favor do
nosso argumento. Todavia, a centragem r~t = rt t é desnecessária, pois em séries financeiras de acções ou
de índices de acções a média condicional é, geralmente, aproximadamente igual a uma constante.
60
0.2
0.15
0.1
0.05
-0.05
-0.1
-0.15
Oct-28
Oct-33
Oct-38
Oct-43
Oct-48
Oct-53
Oct-58
Oct-63
Oct-68
Oct-73
Oct-78
Oct-83
Oct-88
Oct-93
Oct-98
Oct-03
Apr-31
Apr-36
Apr-41
Apr-46
Apr-51
Apr-56
Apr-61
Apr-66
Apr-71
Apr-76
Apr-81
Apr-86
Apr-91
Apr-96
Apr-01
Figura 3-17: Retornos diários do Dow Jones (Jan-1928 a Fev-2006)
Isto é, se a volatilidade é alta (baixa), então é razoável esperar que a volatilidade se mantenha
alta (baixa) durante bastante tempo. Na figura 3-17 apresentam-se os retornos diários do Dow
Jones no período Janeiro de 1928 a Fevereiro de 2006. Estão identificados alguns períodos
de grande volatilidade. Estes períodos prolongam-se por vários anos!
Para confirmarmos a ideia de forte dependência temporal da volatilidade deveríamos
calcular a FAC da volatilidade. Como a estimação da volatilidade cabe num capítulo poste-
rior, tomamos agora como proxy da volatilidade o valor absoluto dos retornos jrt j (também
poderíamos considerar rt2 ; como fizemos no ponto precedente). Calcule-se, assim, a FAC
associado aos valores absolutos dos retornos do Dow Jones no período acima considerado.
A figura 3-18 mostra que a FAC de jrt j apresenta um decaimento lento para zero, sugerindo
forte dependência temporal da volatilidade. É interessante observar que a autocorrelação en-
tre, por exemplo, jrt j e jrt 500 j se situe ainda próximo de 0.1 (observe-se que o desfasamento
corresponde aproximadamente a dois anos).
Para processos ARMA e processos de Markov em geral, o decaimento da FAC é do tipo
8
Pode parecer estranho dizer-se que a função Cak apresenta um decaimento exponencial para 0 < C < 1 e
k
0 < a < 1: Mas observe-se, para C = 1 (simplificando), que ak = elog a = ek log a e tem-se assim um
decaimento exponencial, em função de k; dado que log a < 0:
61
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1 76 151 226 301 376 451 526 601 676 751 826 901 976
Figura 3-18: FAC de jrt j onde rt é o retorno diário do Dow Jones (Jan. 1928 a Fev. 2006)
1.0
Rho
0.8
0.6
0.4
0.2
0.0
0 10 20 30 40 50 60 70 80 90 100
k
j kj C jkj ; >0
62
Índices Bolsistas d (rt 1 ; rt2 )
Corr
Amesterdão -0.049
Frankfurt -0.095
Hong Kong -0.081
Nova York -0.199
Taxas de Câmbio
Libra Britânica 0.074
Dólar Canadiano 0.041
Yen -0.008
Franco Suíço 0.014
Tabela 3.3: Efeito Assimétrico
esperar que Corr (rt 1 ; jrt j) < 0 ou Corr (rt 1 ; rt2 ) < 0: A tabela 3.3 parece confirmar a
existência de um efeito assimétrico apenas para índices bolsistas (e, por extensão, também
para cotações de acções) mas não para taxas de câmbio (a justificação pode ver-se no ponto
3.1.3).
Veremos no capítulo 8 uma forma bastante mais eficiente de estimar o efeito assimétrico
e de testar se os coeficientes são ou não estatisticamente significativos. Não obstante, uma
forma expedita de verificar se os coeficientes são estatisticamente significativos consiste em
fazer a regressão de rt2 sobre rt 1 ,
rt2 = 0 + 1 rt 1 + ut (3.5)
representa 1 = Cov (rt 1 ; rt2 ) = Var (rt 1 ) : Desta forma, 1 < 0 implica Corr (rt 1 ; rt2 ) <
0.
Como a heterocedasticidade está invariavelmente presente nas séries temporais finan-
ceiras, convém empregar erros padrão robustos contra heterocedasticidade (uma possibili-
dade neste sentido é a utilização da matriz de White). Recorda-se que, sob condições gerais,
a heterocedasticidade não afecta a consistência do estimador OLS (afecta sim, como vimos,
os erros padrão).
O efeito assimétrico é, por vezes identificado como leverage effect depois de Black em
1976 ter notado que a volatilidade aumenta quando o mercado cai e o rácio de endividamento
(leverage ratio) aumenta. No entanto, vários autores têm salientado que o leverage é muito
reduzido quando comparado com o efeito assimétrico. Várias explicações têm sido propostas
para o efeito assimétrico.
63
Uma explicação designada por volatility feedback effect baseia-se na seguinte ideia.
Quando a volatilidade de uma activo aumenta, o risco agrava-se, e a rendibilidade
exigida para esse activo aumenta. Isto significa que o activo é menos atractivo e,
portanto, a sua procura diminui, fazendo cair o respectivo preço. Esta explicação pres-
supõe que o aumento da volatilidade precede a queda do preço (isto é, esquematica-
2
mente, " t 1 )# Pt , podendo t aqui ter uma interpretação intra-diária). Contudo, o
2
facto estilizado envolve a implicação contrária, # Pt 1 )" t (a diminuição do preço
é que precede o aumento da volatilidade).
Vários estudos indicam que os coeficientes de autocorrelações de rt2 e de jrt j tendem a au-
mentar com o aumento da frequência das observações.
64
CAC DAX
7000 9000
8000
6000
7000
5000
6000
4000 5000
4000
3000
3000
2000
2000
1000 1000
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
5000 6000
4000 5000
3000 4000
2000 3000
1000 2000
0 1000
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
14000 1400
12000 1200
10000 1000
8000 800
6000 600
4000 400
2000 200
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
65
CAC DAX
.08 .08
.04
.04
.00
.00
-.04
-.04
-.08
-.08 -.12
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
.04
.04
.02
.00 .00
-.02
-.04
-.04
-.08 -.06
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
.04
.04
.02
.00
.00
-.02
-.04
-.04
-.08
-.06
-.12 -.08
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
66
Capítulo 4
67
falar de um ”passado”, ”presente” e ”futuro”. Um observador do fenómeno, pode falar da
”história” do processo, daquilo que observa no presente e daquilo que poderá observar no
futuro. Com vista, a caracterizar o quanto se sabe sobre o processo, é usual, equipar o
espaço ( ; F; P ) com uma filtração, i.e., uma família fFt ; t = 0g de sub -álgebras de F:
Fs Ft F para 0 5 s < t < 1:
Ft = (ys ; s t) pode ser identificado como a “história” do processo y até ao momento
t: Certos autores, para simplificar, escrevem
Proposição 4.2.1 Suponha-se que Y é uma v.a. tal que E (jY j) < 1; Z é uma v.a. mensu-
rável com respeito a G e E (jZY j) < 1 então com probabilidade um tem-se
E (ZY j G) = Z E (Y j G) :
Exemplo 4.2.1 Considere-se yt = xt yt 1 +ut ; onde fut g é uma sucessão v.a. i.i.d. de média
nula. Suponha-se Ft = (xs ; ys ; s t) : Então
E (XY j X = x) = x E (Y j X = x) .
1
Em termos técnicos, o evento (ou cenário de mercado) ! 2 que determinou yt é que pertence a Ft .
Para simplificar, assume-se Ft = fyt ; yt 1 ; :::; y1 g ou Ft = fyt ; yt 1 ; :::g e, neste caso, já pode-se dizer “yt
pertence a Ft ”:
68
Com efeito,
Z Z
E (XY j X = x) = xyfyjx (yj x) dy = x yfyjx (yj x) dy = x E (Y j X = x) :
Proposição 4.2.2 Seja g : R ! R uma função convexa num intervalo B R e Y uma v.a.
tal que P (Y 2 B) = 1: Se E (jY j) < 1 e E (jg (Y )j) < 1 então
Se g é côncava então
E (g (Y )j G) g (E (Y j G)) : (4.1)
g (x) g (E (Y )) + g 0 (E (Y )) (x E (Y ))
ou
g (Y ) g (E (Y )) + g 0 (E (Y )) (Y E (Y )) :
0
E (g (Y )) E (g (E (Y )) + g (E (Y )) (Y E (Y ))) = g (E (Y )) :
69
g (x) Conc./Conv. Desigualdade
x2 convexa E (Y 2 ) (E (Y ))2
1 1 1
x
,x>0 convexa E Y E(Y )
Proposição 4.2.3 (Lei do Valor Esperado Iterado I) Suponha-se E (jY j) < 1. Então
E (Y ) = E (E (Y j G)) :
Também se tem
E (Y ) = E (E (Y j X)) .
= E (Y ) .
Exemplo 4.2.4 Suponha-se que Y dado X tem distribuição condicional de Poisson de parâmetro
= X: Suponha-se ainda que X tem distribuição do Qui-Quadrado com um grau de liber-
dade. Logo, pela proposição 4.2.3, vem
E (Y ) = E (E (Y j X)) = E ( X) = :
70
se E ut j FtX = 0. Como se sabe E yt j FtX = xt : Logo
E (yt ) = E E xt + ut j FtX
= E E xt j FtX + E E ut j FtX
= E (xt ) :
E (yt ) = E (E (yt j Ft 1 ))
= E (E (a + xt yt 1 + ut j Ft 1 ))
= E (a + E (xt yt 1 j Ft 1 ) + E (ut j Ft 1 ))
= E (a + yt 1 E (xt j Ft 1 ) + 0)
= E (a + yt 1 x)
= a+ x E (yt 1 ) = a + x E (yt )
Proposição 4.2.4 (Lei do Valor Esperado Iterado II) Suponha-se E (jY j) < 1 e G H.
Então
E (Y j G) = E ( E (Y j H)j G) :
71
i.i.d. de média nula. Obtenha-se E (yt j Ft 2 ) : Como Ft 2 Ft 1 ; tem-se
E (yt j Ft 2 ) = E ( E (yt j Ft 1 )j Ft 2 )
= E (a + yt 1 j Ft 2 )
= a + E (yt 1 j Ft 2 ) (note-se agora yt 1 = a + yt 2 + ut 1 )
= a + E (a + yt 2 + ut 1 j Ft 2 )
= a + (a + E (yt 2 j Ft 2 ))
= a + (a + yt 2 )
2
= a+ a+ yt 2 .
E (yt j Ft 3 ) = E ( E (yt j Ft 2 )j Ft 3 )
= E ( E ( E (yt j Ft 1 )j Ft 2 )j Ft 3 )
2
Certos autores identificam f ( yt j Ft 1) como f ( yt j yt 1 ; yt 2 ; :::; y1 ).
72
f (y 6 F5 )
8
6 f (y 2 F1 )
4
2
0
-2 1 2 3 4 5 6
-4
-6
figura 4-1. Esta função atribui probabilidades associadas à variável y2 dado F1 : Perante a
observação y1 (e ainda sem se conhecer a realização y2 ), a fdp f (y2 j F1 ) tem moda aprox-
imadamente igual a y1 : é natural esperar que o valor de y2 venha “próximo” de y1 - dada
a hipótese (1); a fdp f (y6 j F5 ) usa a informação disponível no momento t = 5: Como,
y5 > 0; a densidade desloca-se um pouco na direcção de y5 ; pois y6 tenderá a estar “próx-
imo” de y5 : Todavia, como y reverte para zero, é mais provável o evento fy6 < y5 j y5 g do
que fy6 > y5 j y5 g ; i.e., y6 deverá em princípio aproximar-se do valor para o qual y reverte,
E (yt ) = 0: Nestas condições, a fdp f (y6 j F5 ) embora se desloque na direcção de y5 ; con-
tinua a atribuir massa de probabilidade significativa a intervalos próximos de zero.
Dois parâmetros fundamentais de f (yt j Ft 1 ) são
Z
t = E (yt j Ft 1 ) = yt f (yt j Ft 1 ) dyt
Z
2 2
t = Var ( yt j Ft 1 ) = (yt t ) f (yt j Ft 1 ) dyt :
Proposição 4.3.1 A melhor previsão de yn+1 dado Fn ; de acordo com Erro Quadrático
Médio, é E (yn+1 j Fn ) ; i.e.
2
E (yn E (yn+1 j Fn )) E (yn g (Fn ))2
onde g (Fn ) é um qualquer outro previsor Fn mensurável (i.e. que usa também toda a
informação disponível até ao momento n).
73
Dem. Tem-se
Como o terceiro termo é zero (deixa-se como exercício essa demonstração) vem
O valor E (yn+1 ) é também um previsor não enviesado de yn+1 mas, como não usa a infor-
mação disponível Ft 1 ; pode demonstrar-se que é bastante menos preciso do que o previsor
E (yn+1 j Fn ).
Pode-se também provar
2 2
E (yn+h E (yn+h j G)) E (yn+h E (yn+h j H)) ; H G.
Esta desigualdade resulta do facto de em G existir mais informação. É natural esperar que
um previsor que use mais informação face a um outro, tenha um EQM inferior. Têm-se ainda
os seguintes casos limites quando o previsor é um valor esperado condicionado.
2
G = F = F 1 ) E (yn+h E (yn+h j G)) = E (yn+h yn+h )2 = 0
2 2
H =? ) E (yn+h E (yn+h j H)) = E (yn+h E (yn+h )) :
Exemplo 4.3.1 Considere: A) Tem-se uma sucessão de retornos do PSI20 e retira-se aleato-
riamente um elemento da sucessão. Suponha-se que a média e a variância desse retorno são
conhecidas. B) Suponha que os retornos do PSI20 registaram “hoje” uma forte quebra e
uma forte volatilidade. Q1: Qual é a informação mais relevante se o objectivo é prever os
retornos do PSI20 e a volatilidade para o dia de amanhã? A ou B? Q2: Neste caso, qual é
a fdp que interessa estudar? f (yt j Ft 1 ) ou f (yt )? Q3: Qual é a informação relevante se o
objectivo é conhecer as características gerais da série dos retornos (ou prever os retornos e
74
a volatilidade para um horizonte de vários anos)? Q4: Neste caso, qual é a fdp que interessa
estudar? f (yt j Ft 1 ) ou f (yt )?
yt = c + yt 1 + ut ; j j<1
2
onde fut g é uma sucessão de v.a. i.i.d. com distribuição N (0; ) : Determine-se a dis-
tribuição de yt j Ft 1 : Dado Ft 1 ; yt 1 pode ser tratado como uma constante. Logo yt j Ft 1
yt j Ft 1 N (E (yt j Ft 1 ) ; Var ( yt j Ft 1 ))
onde
E (yt j Ft 1 ) = c + yt 1
2
Var (yt j Ft 1 ) = E (yt E (yt j Ft 1 )) Ft 1 = E u2t Ft 1 = 2
:
Assim,
2
yt j Ft 1 N c + yt 1 ; : (4.2)
2
Var (yt ) = 2:
1
c 2
yt = + ut + ut 1 + ut 2 + :::
1
imediatamente se conclui que y tem distribuição marginal normal (uma soma de v.a. nor-
mais tem distribuição normal). Também se conclui, a partir da representação MA(1), que
3
A forma mais intuitiva de obter este resultado, consiste em aplicar o método recursivo (iterando yt ad
infinitum). Por exemplo, yt = c + yt 1 + ut = c + (c + yt 2 + ut 1 ) + ut ; e assim sucessivamente.
75
2 2
E (yt ) = c= (1 ) e Var (yt ) = = 1 : Assim, a distribuição marginal de y é
2
c
yt N ; 2 : (4.3)
1 1
yt N (0; 5:26)
yt j Ft 1 N ( 1:8; 1) :
Exemplo 4.3.3 Retome-se o exemplo 4.3.2 e suponha-se que se têm n observações e se pre-
tende obter uma previsão para o período n + 1: Podemos usar uma infinidade de previsores,
mas analisem-se apenas os seguintes:
E (yn+1 j Fn ) = 0:9yn
E (yn+1 ) = 0:
2
2 2 2
E (yn+1 E (yn+1 j Fn )) = = 1 < E (yn+1 E (yn+1 )) = 2 = 5:263
1
76
A B
40 5
30
20 3
10
1
0
-10
-1
-20
-30 -3
-40
-50 -5
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
C D
30 15
25 10
20
5
15
0
10
5 -5
0 -10
-5 -15
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
E (ut ) = 0
Var (ut ) = E u2t = 2
E (ut us ) = 0; 8s 6= t
4
Recorde-se a notação u = fut g = fut ; t = 1; 2; :::g :
77
Definição 4.4.2 u é um processo ruído branco independente se
E (ut ) = 0;
2 2
E ut = ;
ut e us são independentes 8s 6= t
2
Se adicionalmente ut N (0; ) então ut um ruído branco Gaussiano.
E (jut j) < 1;
E (ut j Ft 1 ) = 0:
Dem. Deixa-se como exercício concluir que E (ut ) = 0: Suponha-se, sem perda de
generalidade que s < t: Tem-se
= E (us E (0j Fs )) = 0:
yt = yt 1 + ut
e ut é um RB. yt diz-se um processo passeio aleatório com deriva (random walk with drift)
78
120 1200
100
1000
80
800
60
RW
40 600
Var
20
400
0
1 101 201 301 401 501 601 701 801 901 200
-20
-40 0
d (yt ) = Pt (yi
Figura 4-3: Processo RW e Var yt )2 =t
i=1
se
yt = yt 1 + + ut ; 6= 0:
E (yt j Ft 1 ) = yt 1 ;
2 2 2 2
E (yt ) = E (y0 ) ; E yt = E y0 + t; E (yt yt k ) = (t k) :
d (yt ) = Pt (yi
Na figura 4-3 apresenta-se um processo RW e Var yt )2 =t:
i=1
4.4.2 Estacionaridade
Na definição de processo ESO está implícito não só que os momentos não dependem de
t como também são finitos. Por exemplo, se Var (yt ) = 1; então yt não é ESO. Um RB,
RB independente ou um RB Gaussiano são processos estacionários de segunda ordem. Uma
diferença de martingala pode ser ou não um processo ESO. É um processo ESO se o segundo
momento for finito e não depender de t: Identifique na figura 4-2 as trajectórias de processos
79
f(x) 0.3
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
x
1
f (x) = .
(1 + x2 )
não converge e, portanto, E (jut j) não está definido (i.e. não existe). Na figura 4-4 traça-se
a função f (x) : Como a fdp tem abas muitos pesadas atribui uma massa de probabilidade
considerável para valores muito afastados da média. Isto significa que embora o centro de
gravidade da fdp seja zero, valores muito afastados de zero podem ocorrer com probabilidade
não nula (veja-se a figura 4-5).
80
800
600
400
200
0
-200
-400
-600
-800
-1000
-1200
-1400
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401
Figura 4-5: Uma trajectória simulada do processo yt = 10 + ut , onde fut g é uma sucessão
de v.a. i.i.d. com distribuição de Chauchy
(as densidade marginais de y1 ; y2 ,..., yn são iguais para todo o t). Esta condição decorre da
aplicação da definição anterior para s = 1. Resulta de (4.4) que se E (jg (yt )j) < 1; então
E (jg (yt )j) é constante e não depende de t; pois
Z Z
E (jg (yt )j) = jg (x)j fyt (x) dx = jg (x)j f (x) dx; 8t:
onde 8
< se t 2000
t
ut = q (4.6)
: k 2
se t > 2000
k t
81
iid iid
sendo t e s independentes para todo o t e s e t N (0; 1) e s t(k) . Para t 2000
tem-se
E (ut ) = E ( t ) = 0;
Var (ut ) = Var ( t ) = 1
Como a autocovariância de ut não depende de t (na verdade é zero, para qualquer t) e E (ut )
e Var (ut ) são constantes, para todo o t; conclui-se que fut g é um processo ESO. No entanto,
não é EE, pois a distribuição marginal de ut para t 2000 não coincide com a distribuição
marginal de ut para t > 2000 (no primeiro caso é normal; no segundo é t-Student). Não se
cumpre assim a condição (4.4). A mesma conclusão se aplica a y: é ESO mas não EE. Na
figura 4-6 representa-se uma trajectória simulada a partir das equações (4.5) e (4.6), com
k = 3 (graus de liberdade). Observe-se que a partir de t = 2000 começam a aparecem
valores muito altos e muitos baixos (“outliers”) já que os erros passam a ter distribuição
t-Student com 3 graus de liberdade (embora a variância dos erros se mantenha sempre igual
a 1). Observa-se, portanto, uma alteração da estrutura probabilística do processo a partir
de t > 2000 que implica a não estacionaridade estrita do processo.
Alguns factos:
Por outro lado, fyt ;yt+h (x; y) = fys ;ys+h (x; y) ; 8t; s (por hipótese) e, portanto, a ex-
82
Figura 4-6: Uma trajectória simulada a partir de um processo estacionário de segunda
ordem mas não estritamente estacionário - confiram-se as equações (4.5) e (4.6)
pressão
Z Z
E (yt yt+h ) = xyfyt ;yt+h (x; y) dxdy
Z Z
= xyfys ;ys+h (x; y) dxdy = E (ys ys+h ) :
A estacionaridade estrita é geralmente uma condição mais forte do que a ESO, mas
não implica necessariamente ESO. Por exemplo, se yt = 10 + ut onde fut g é uma
sucessão de v.a. com distribuição de Cauchy, y não é, como vimos, ESO; no entanto,
pode-se provar que y é EE: a estrutura probabilística mantém-se imutável ao longo do
tempo.
A propriedade “fraca dependência” é crucial para se invocar resultados limites como sejam
a lei dos grandes números e o teorema do limite central. Considere-se, por exemplo, a média
P
empírica yn = n 1 nt=1 yt : Sob certas condições, a lei fraca dos grandes números estabelece
p
yn ! E (y) : Este resultado pode ser provado da seguinte forma: se limn E (yn ) = E (y) e
83
p
limn Var (yn ) = 0 então yn ! E (y) : Exigir que a variância de yn convirja para zero (no
limite yn reduz-se a uma constante) envolve a suposição de que a sucessão fyt g é fracamente
dependente num sentido que precisaremos a seguir. Com efeito,
!
1 Xn
Var (yn ) = Var yt
n2 t=1
!
1 X
n X
n 1 X
n
= Var (yt ) + 2 Cov (yi ; yi j ) :
n2 t=1 j=1 i=j+1
Sem hipóteses adicionais não é garantido que estas duas somas convirjam. Comece-se por
assumir que fyt g é ESO. Nestas condições a covariância Cov (yi ; yi j ) só depende de j =
i (i j) e não de i (veja a definição 4.4.5). Assim, pode-se escrever, Cov (yi ; yi j ) = (j).
Vem,
!
1 X
n 1 X
n
2
Var (yn ) = n +2 (j)
n2 j=1 i=j+1
2 X X
2 n 1 n
= + (j) 1 ( (j) não depende de i)
n n2 j=1 i=j+1
2 X
2 n 1
= + 2 (j) (n j)
n n j=1
2X
2 n 1
j
= + (j) 1 :
n n j=1 n
2
O primeiro termo =n converge para zero, mas o segundo termo pode convergir ou não. É
necessário não só que (j) convirja para zero, mas também que essa convergência seja rela-
tivamente rápida. Note-se de passagem que a estacionaridade não garante fraca dependência.
As condições de aplicação do teorema do limite central são ainda mais exigentes. Sob
p d
certas condições tem-se, como se sabe, n (yn E (y)) ! N (0; 2 ) ; onde 2 uma con-
p p
stante finita, definida como 2 = limn Var ( n (yn E (y))) = limn Var ( nyn ) : Se fyt g
é estacionário, tem-se
p X
n 1
j
2
Var nyn = +2 (j) 1
j=1
n
e, agora, comparativamente ao caso anterior, (j) tem de convergir ainda mais rapidamente
P
para zero para que a soma Sn = nj=11 (j) 1 nj convirja. Por exemplo, uma função de
84
autocorrelação do tipo (j) = 1=j resulta numa soma Sn divergente. A soma converge se a
função de autocorrelação for, por exemplo, do tipo (j) = aj ; com jaj < 1.
Existem várias definições de processos fracamente dependentes envolvendo os chama-
dos mixing coefficients ( -mixing, -mixing, -mixing entre outros) que permitem avaliar
e medir o grau de dependência recorrendo a diferentes interpretações do conceito de in-
dependência. Vamos adoptar uma definição alternativa para caracterizarmos um processo
fracamente dependente baseada na definição de Wooldridge (1994):
p
Definição 4.4.7 y é um processo fracamente dependente se limn Var ( nyn ) = c > 0:
A aplicação do teorema central e a lei dos grandes números são dois pilares da infer-
ência estatística. Considere-se, por exemplo,
1X
n
yn = yt :
n t=1
Sob certas condições, a aplicação da lei dos grandes números e do teorema do limite
central, permite obter, respectivamente
p y E (y) d
yn ! E (y) , pn ! N (0; 1) :
Var (yn )
85
A estacionaridade também é relevante no âmbito da previsão: processos estacionários
são limitados em probabilidade e a amplitude dos intervalos de previsão não diverge
quando o horizonte de previsão tende para mais infinito. Pelo contrário, processos não
estacionários, por exemplo, I (1) ; são extremamente difíceis de prever no longo prazo,
dado que a amplitude dos intervalos de previsão aumenta com o horizonte de previsão.
Convém sublinhar o seguinte. Embora muitas séries temporais sejam não estacionárias,
é possível, na maior parte dos casos, estacionarizá-las, mediante transformações apropriadas
do processo.
***
Para terminar esta secção, tecem-se algumas considerações críticas aos modelos de séries
temporais baseados em pressupostos estacionários.
Serão as séries temporais financeiras e económicas verdadeiramente estacionárias? Como
já argumentámos, a estacionaridade envolve uma determinada hipótese de estabilidade da
estrutura probabilística do processo. Esta estrutura depende de uma miríade de factores,
como por exemplo, dos agentes económicos (privados e públicos) e das suas relações, da
tecnologia, da informação, do puro acaso (entre outros factores). Apenas o puro acaso
pode ser considerado imutável ao longo do tempo; tudo o resto evolui ao longo do tempo,
pelo que é um mito supor-se que a estrutura probabilística de uma série temporal finan-
ceira ou económica permanece constante ou aproximadamente constante ao longo do(s)
tempo(s). Suponha-se que se estuda a taxa de variação relativa anual do PIB português
(yt = log (P IBt ) log (P IBt 1 )). Aparentemente, y é estacionário se o período de referên-
cia forem alguns dezenas de anos (isto é, praticamente todos os testes estatísticos disponíveis,
apontariam nessa direcção). Mas, se alargarmos a amostra para várias centenas de anos
(supondo que tal era possível), é extremamente implausível y ser estacionário (a história
86
diz-nos que as condições e os factores de produção evoluem ou sofrem rupturas ao longo
do tempo). Sob esta perspectiva, não existem processos de natureza económica e financeira
estacionários. Poderemos então concluir que a análise da estacionaridade acaba por ser in-
útil? Embora, em termos rigorosos, o conceito de estacionaridade envolva o passado e o
futuro distante (o “ 1” e o “+1”), normalmente limitamos o período de análise. Para esse
período, assume-se que a série apresenta características estacionárias e a previsão relevante
que estabelecemos aplica-se, supostamente, a um futuro próximo, governado, no essencial,
pelas mesmas leis que determinaram o processo no período amostral. Com esta ressalva, a
estacionaridade é importante, porque assegura uma forma de estabilidade probabilística que
é essencial na inferência estatística.
4.5.1 Definições
5
Considere-se, por exemplo, uma partícula suspensa num meio homogéneo. Se no momento s, a posição
e a velocidade da partícula forem conhecidas, torna-se desnecessário considerar toda a trajectória anterior da
partícula com vista a estabelecer a sua evolução provável a partir do momento s. Observe-se que não basta
conhecer só a posição ou só a velocidade. Por vezes sucede que determinado processo não é de Markov, mas
esse processo juntamente com outro pode definir um processo de Markov. O exemplo que se apresenta a seguir
(AR(2)) também mostra que é possível obter a propriedade Markoviana através da “expansão” do espaço de
estados.
87
(O caso multivariado y adapta-se facilmente). O processo AR(2), yt = 1 yt 1 + 2 yt 2 +
Assim,
y2;t = y1;t 1
ou ainda
0 1 0 10 1 0 1
y1;t 1 2 y1;t 1 ut
@ A = @ A@ A+@ A;
y2;t 1 0 y2;t 1 0
| {z } | {z }| {z } | {z }
yt yt 1 ut
yt = yt 1 + ut :
yt = g (yt 1 ; yt 2 ; :::; yt p ) + ut
onde fut g é uma sucessão de v.a. i.i.d. e independentes de yt k ; k 1; admite uma repre-
sentação Markoviana. Com efeito, defina-se
0
yt = (yt ; yt 1 ; :::; yt p+1 ) ; ut = (ut ; 0; :::; 0)0
e
x = (x1 ; x2 ; :::; xp )0 ; g (x) = (g (x) ; x1 ; :::; xp 1 )0 :
88
Segue-se que fyg é um processo de Markov definido por
yt = g (yt 1 ) + ut :
Tem-se 0 1 0 1
yt y1;t
yt = @ A := @ A
yt 1 y2;t
e 0 1 0 1 0 1
y1;t cos (y1;t 1 ) + sen (y2;t 1 ) ut
@ A=@ A+@ A:
y2;t y1;t 1 0
| {z } | {z } | {z }
yt g(yt 1) ut
Para simplificar, na discussão que se segue trabalha-se com processos estocásticos uni-
variados Markovianos; contudo, está subjacente que se o processo y não de Markov será
sempre possível representá-lo na forma multivariada como um processo de Markov.
A função de distribuição condicional a n passos de um processo de Markov é
P (yn+k < yj yk )
@P (yn+k < yj yk )
fn (yj x) = :
@y
para todo o k e s 2 Z:
89
informação do momento k) e dizem respeito ao intervalo de valores que y pode assumir no
momento n + k: Se y é homogéneo, o momento ou instante k é irrelevante; apenas interessa
conhecer o hiato de tempo n + k k = n (para processos estacionários de segunda ordem,
exige-se a mesma propriedade para a covariância: Cov (yn+k ; yk ) = (n) apenas deverá
depender de n = n + k k). Nestas circunstâncias, tem-se por exemplo,
yt = yt 1 + ut ; j j<1
2
onde ut é um ruído branco N (0; ) : Vamos obter ft (yj x) (função de densidade condi-
cional a t passos) e Ft (yj x) (função de distribuição condicional a t passos). Comece-se
por obter f1 (yj x) (esta função é habitualmente escrita simplesmente na forma f (yj x)) e
F1 (yj x). Tem-se,
E (yt j yt 1 ) = E ( yt 1 + ut j yt 1 ) = yt 1
2
Como yt j yt 1 N ( yt 1 ; ) resulta
1 1
f1 (yj yt 1 ) = p exp (y yt 1 )2 ;
2 2 2 2
Z y
F1 (yj yt 1 ) = f1 (uj yt 1 ) du:
1
6
A notação usada para Fn ( yj x) ; sublinha que se tem uma função de transição a n passo (daí o índice n),
que a condição inicial apenas depende de x; e que o processo é homogéneo (caso contrário Fn ( yj x) deveria
depender também do momento em que é calculada).
90
Para obter E (yt j y0 ) ; Var (yt j y0 ) e ft (yj y0 ) é necessário representar yt como função de
y0 . Tem-se
yt = yt 1 + ut
2
= ( yt 2 + ut 1 ) + ut = yt 2 + ut 1 + ut
= :::
t t 1 t 2
= y0 + u1 + u2 + ::: + ut 1 + ut :
t
E (yt j y0 ) = y0
t 2
Var (yt j y0 ) = E yt y0 y0
t 1 t 2 2
= E u1 + u2 + ::: + ut 1 + ut y0
2 2 2(t 1)
= 1+ + ::: + (soma geométrica)
2t
2 1
= 2 .
1
Isto é,
2t
t 2 1
yt j y0 N y0 ; 2 ,
1
1 1 2
ft (yj y0 ) = p exp (y E (yt j y0 )) ;
2 Var ( yt j y0 ) 2 Var (yt j y0 )
Z y
Ft (yj y0 ) = ft (uj y0 ) du:
1
Para processos não lineares, conhece-se geralmente f1 (yj y0 ) (uma vez especificada a
distribuição dos erros), mas não ft (yj y0 ), para t > 1:
91
Exemplo 4.5.2 Retome-se o exemplo 4.5.1. Facilmente se constata que
2n
n 2 1
yn+k j yk = x N x; 2
1
2n
n 2 1
yn+s j ys = x N x; 2
1
2
Exemplo 4.5.3 Seja yt = yt 1 + ut ; onde ut é um ruído branco N (0; ) : Tem-se,
X
n+k
2
yn+k = yk + ui yk = x N x; n
i=k+1
X
n+s
2
yt+s = ys + ui y s = x N x; n :
i=s+1
Logo o processo passeio aleatório é homogéneo. No entanto, sabe-se que não é estacionário.
Caso exista a fdp condicionada, a equação de Chapman-Kolmogorov pode também ser es-
crita na forma Z
fn (yj x) = f1 (yj u) fn 1 (uj x) du: (4.7)
7
A definição de ergodicidade varia bastante na literatura. Usaremos a definição que se designa por “ergodi-
cidade à Harris”. Veja-se, por exemplo, Fan e Yao (2005).
92
Exemplo 4.5.4 Seja g a fdp associada à distribuição N (0; 1) e hn a fdp associada à dis-
tribuição t (n) (t-Student, com n graus de liberdade). Para n fixo, a variação total kHn Gk
é positiva, mas kHn Gk ! 0 quando n ! 1: A demonstração é a seguinte. Em primeiro
lugar, faça-se
Como hn (x) converge uniformemente em R para g (x), i.e., limn!1 supx2R n (x) = 0 (este
resultado é bem conhecido da estatística e, normalmente, é apresentado numa forma mais
fraca, limn!1 hn (x) = g (x) ; para cada x 2 R), então n (x) converge uniformemente
em R para zero, pelo que, o operador de limite pode trocar com o operador de integração.
Assim,
Z
lim kH Gn k = lim jhn (x) g (x)j dx
n!1 n!1
Z
lim sup jhn (x) g (x)j dx
n!1 x
Z
= lim sup jhn (x) g (x)j dx
n!1 x
= 0:
Definição 4.5.3 Se existir uma função de distribuição F e uma constante 2 (0; 1) tal que
n
kFn (yj x) F (y)k ! 0 (4.8)
Se a densidade fn (yj x) existe, a definição acima pode ser apresentada da seguinte forma:
se existir uma função de densidade f e uma constante 2 (0; 1) tal que
Z
n
jfn (yj x) f (y)j dy ! 0 (4.9)
93
A definição adoptada de ergodicidade à Harris, permite efectivamente relacionar a ergod-
icidade com estacionaridade estrita (Chan 1990, 1993), tal como consta da
Proposição 4.5.1 Suponha-se que y é ergódico. Então existe uma distribuição estacionária
F tal que o processo y; inicializado com a distribuição F; é EE.
Proposição 4.5.2 Suponha-se E (jh (y)j) < 1: Nas condições da proposição 4.5.1 verifica-
se
1X
n
qc
h (yt ) ! E (h (y)) ;
n t=1
(qc: convergência quase certa ou com probabilidade 1) qualquer que seja o valor inicial do
processo y.
1 X yt qc
n
e ! E (ey )
n t=1
Proposição 4.5.3 Seja g uma função com domínio no espaço de estados de y: Se fyt g é EE
então fzt g ; definido por zt = g (yt ; yt 1 ; :::) ; é também EE.
A proposição anterior permite concluir, por exemplo, que se fyt g é EE, então os proces-
sos fyt2 g ; fyt + eyt 1 g ; etc., são também estritamente estacionários. A proposição ante-
rior não se aplica naturalmente a processos estacionários de segunda ordem. Para ilustrar,
suponha-se que y é um processo ESO sem 4o momento. Resulta que fzt g ; onde z é definido
por zt = yt2 ; não é um processo ESO, pois Var (zt ) não existe.
Em geral, é difícil verificar directamente as equações (4.8) e (4.9), a não ser para casos
relativamente simples, como o do exemplo que se apresenta a seguir. Iremos ver, no entanto,
94
que é possível, em certas circunstâncias, provar-se (4.8) ou (4.9) de forma indirecta, através
de resultados auxiliares. Antes de entramos nesta questão no ponto seguinte, veja-se um caso
em que a aplicação directa de (4.9) é relativamente simples.
Exemplo 4.5.5 Retome-se o exemplo 4.5.1, mas use-se agora a densidade condicional a n
passos (poderia ser também a t passos). Concluímos que
2n
n 2 1
yn j y0 = x N x; 2
1
( )
2
1 (yn E (yn j x))
fn (yj x) = p exp :
2 Var (yn j x) 2 Var (yn j x)
Note-se que
n
lim E (yn j x) = lim x = 0;
n!1 n!1
2n 2
2 1
lim Var ( yn j x) = lim 2 = 2;
n!1 n!1 1 1
8 9
1 < y 2 =
lim fn (yj x) = r exp = f (y) :
n!1 2 : 2 2 ;
2 1 2 1 2
n
R
É razoável admitir que f (y) verifica o limite jfn (yj x) f (y)j dy ! 0: Efectiva-
mente, pode mostrar-se esse resultado e, nessas condições, y é um processo EE, com dis-
tribuição estacionária dada por f (y) e momentos estacionários E (y) = 0 e Var (y) =
2 2
= 1 :
2
Para exemplificar, considere-se x = 2; = 0:7 e = 0:8: A distribuição estacionária é
dada por
0:7
y N 0; = N (0; 1:944) :
1 0:82
Se o processo for inicializado no valor x = 2, ao fim de alguns períodos (digamos n = 10),
yt comporta-se como um processo y N (0; 1:944) : Por outras palavras, um elemento re-
tirado ao acaso da sucessão fy10 ; y11 ; :::g ; por exemplo y100 ; tem distribuição estacionária
N (0; 1:944) : Naturalmente, se o valor anterior y99 for observado e usarmos essa infor-
mação para prever y100 ; a distribuição pertinente passa a ser a distribuição condicional
habitual (a um passo). Na figura 4-7 mostra-se a convergência da sucessão de funções
ffn (yj x = 2) ; n = 1; 2; 3; 8g para a distribuição estacionária f (y) : A distribuição esta-
cionária, que coincide com a distribuição marginal do processo, é relevante porque mostra
95
0.6
0.5
0.4
0.3
0.2
0.1
0
-5.0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0
Termina-se esta secção notando que a densidade estacionária (caso exista) coincide com
a densidade marginal (quando o processo é inicializado em condições estacionárias).
yt = g (yt 1 ; :::; yt p ) + ut
96
(b) Existe uma constante 2 (0; 1) e c tal que
yt = 1 yt 1 + 2 yt 2 + ut
g (x1 ; x2 ) = 1 x1 + 2 x2 :
yt2 1
yt = + ut
1 + yt2 1
x2
g (x) =
1 + x2
Como g (x) é uma função limitada em R; mais concretamente, jg (x)j < ~ < 1;
conclui-se
jg (x)j jxj + ~
97
Exemplo 4.5.8 Considere-se o processo
8
< 0:5yt + ut se yt <0
1 1
yt =
: 0:5y + ut se yt 0:
t 1 1
onde u é um ruído branco Gaussiano. Este modelo pode ser reescrito na forma:
yt = t yt 1 + "t ;
jxj
com = 0:5 2 (0; 1) : Assim, y é um processo ergódico. Neste caso muito particular, y
pode também escreve-se na forma yt = 0:5 jyt 1 j + "t e a aplicação da proposição 4.5.4 é
imediata.
Assim,
1 + 0:5 jxj
e a proposição 4.5.4 aplica-se imediatamente com c = 1 e = 0:5 (ou = 0:5), pelo que y
é um processo ergódico.
98
4.5.3 Estabilidade em EDF
Chamamos equação às diferenças finitas (não estocásticas) EDF (de primeira ordem, para
simplificar) à equação
A solução desta equação não tem componente aleatória e a sua dinâmica é completamente
determinada pela condição inicial e pela função g: Tong (1990) chama a g o esqueleto do
processo estocástico. O estudo qualitativo da EDF envolve, por exemplo, a análise do com-
portamento assimptótico de yt :
Seja
g (t) (x) = g(:::g(g (x)))
| {z }
t vezes
(por exemplo, g (2) (x) = g (g (x))). O estudo da função g (t) (x) é essencial na análise quali-
tativa das soluções. Concretamente, yt = g (t) (y0 ) fornece o valor de y no momento t como
função do valor inicial y0 : Sabendo g (t) podemos, por exemplo, estudar a sensibilidade da
solução face aos valores iniciais; permite também estudar o comportamento assimptótico
da solução quando t ! 1: Em certos casos, a estacionaridade e ergodicidade podem ser
deduzidas a partir da análise qualitativa das equações às diferenças finitas determinísticas
(EDFs). Por exemplo, considere-se a proposição 4.5.4 condição (c), no caso univariado
(g : R ! R), posta na forma jg (x)j < jxj (com c = 0). Resulta,
jg (y0 )j jy0 j
:::
g (t) (y0 ) t
jy0 j
8
Na verdade, a definição é menos exigente: o valor zero é um ponto fixo assimptoticamente estável se existir
(t)
um 0 > 0 tal que a desigualdade jy0 j 0 implica g (y0 ) ! 0 quando t ! +1:
99
ponto 7.2).
yt = ( t ) yt 1 + ut (4.11)
Definição 4.5.4 Uma equação vectorial autoregressiva de dimensão d com coeficientes aleatórios
i.i.d. não negativos é uma equação da forma
y t = At y t 1 + Bt (4.12)
d
onde f(At ; Bt ) ; t 2 Zg é uma sucessão i.i.d. com valores em M+
d d (R+ ) :
Observe-se que M+
d d é o espaço das matrizes quadradas de ordem d de elementos todos
positivos.
Inúmeros processos não lineares podem ser representados na forma (4.12), como mostra
o
ut = t "t
2 2 2 2 2
t = !+ 1 ut 1 + 2 ut 2 + 1 t 1 + 2 t 2; !; i; i > 0:
Procure-se representar este processo na forma (4.12). Para o efeito, observe-se que
2 2 2 2 2 2 2
t = !+ 1 t 1 "t 1 + 2 t 2 "t 2 + 1 t 1 + 2 t 2
2 2 2 2
= !+ 1 "t 1 + 1 t 1 + 2 ut 2 + 2 t 2:
100
Tem-se 0 1 0 10 1 0 1
2 2 2
t 1 "t 1 + 1 2 2 t 1 !
B C B CB C B C
B C B CB C B C
B 2
t 1 C=B 1 0 0 CB 2t 2 C + B 0 C:
@ A @ A@ A @ A
u2t 1 "2t 1 0 0 u2t 2 0
| {z } | {z }| {z } | {z }
yt At yt 1 Bt
Proposição 4.5.5 Assuma-se, no âmbito da definição 4.5.4, E (log kA1 k) < 0 e E log+ kB1 k <
1 (log+ x = max (log x; 0)). Então o processo definido por (4.12) converge (com probabil-
idade um) e a sua solução é estritamente estacionária.
yt = At yt 1 + Bt ;
+
assuma-se 1 E (log jA1 j) < 0 e E log jB1 j < 1: Então y converge (com probabili-
dade um) e a sua solução é estritamente estacionária.
yt = j j yt 1 + jut j ;
At = j j ; Bt = jut j :
101
A condição E log+ jB1 j < 1 verifica-se imediatamente, tendo em conta a distribuição
assumida para u:9 Relativamente à outra condição, vem
+et
yt = e yt 1 + jut j (4.13)
onde é uma constante e et e ut são ruídos brancos Gaussianos com variância igual a 1, e
independentes entre si. No contexto do corolário 4.5.1 tem-se
+et
At = e ; Bt = jut j :
Como fAt g é uma sucessão positiva de v.a. i.i.d., a equação (4.13) respeita a definição
4.5.4 (e, assim, o corolário 4.5.1 é aplicável). A condição E log+ jB1 j < 1 verifica-
se imediatamente, tendo em conta a distribuição assumida para u: Relativamente à outra
condição, vem
+e1
E (log jA1 j) = E log e = E ( + e1 ) = :
ut = t "t
2 2 2
t = !+ 1 ut 1 + 1 t 1 !; 1; 1 > 0:
2
onde " é um ruído branco EE e independente de ut k ; k 2 N. O processo t pode escrever-se
na forma
2 2 2 2 2 2
t =!+ 1 t 1 "t 1 + 1 t 1 =!+ 1 "t 1 + 1 t 1:
9
Se u N (0; 1) ; então E (log juj) = 0:635: Pode mostrar-se que log juj função densidade de probabil-
e2y
+y
p
idade 2e 2 = 2 :
102
Tem-se assim
2
At = 1 "t 1 + 1 ; Bt B = !:
2
Verifica-se que (At ; B) é uma sucessão de v.a. positivas i.i.d. Para que t admita uma
solução estritamente estacionária é suficiente (pode mostrar-se que é também necessário)
+
que se verifiquem as condições do corolário 4.5.1, 1 E (log jA1 j) < 0 e E log jB1 j <
1: A segunda condição verifica-se imediatamente; a primeira estabelece
2
E (log jA1 j) = E log 1 "0 + 1 < 0: (4.14)
Nelson (1990) obteve esta condição10 , mas sem recorrer à proposição 4.5.5. Tem-se assim
2
que t é um processo EE. E quanto a ut ? Felizmente, não é necessário estudar directamente
ut ; pois sabe-se que se o processo f( 1t ; 2t )g é EE, uma qualquer função (mensurável) de
Exemplo 4.5.14 Retome-se o exemplo 4.5.10. Suponha-se que " é um ruído branco com
distribuição N (0; 1) : Considerando a norma
!
X
n
kAk = max jaij j ;
1 i n
j=1
tem-se
0 0 1 1
2
1 "0 + 1 2 2
B B C C
B B C C
log kA1 k = log B B 1 0 0 C C
@ @ A A
"20 0 0
1
2 2
= log max 1 "0 + 1 +j 2j +j 2 j ; 1; j"0 j
= max log 2
1 "0 + 1 +j 2j +j 2j ; 0; log j"0 j2 :
10
O valor esperado E log 1 "20 + 1 tem expressão conhecida, por exemplo, quando "0 N (0; 1) : O
programa Mathematica permite obter
r !
2
E log 1 "0 + 1 = er + log EulerGamma
2 2
3
HypergeometricPFQ f1; 1g ; 2; 2 ;2
:
103
Como E log j"0 j2 = 1:27036 < 0 e todos os parâmetros são positivos, a condição
E (log kA1 k) < 0 resume-se a
2
E log 1 "0 + 2 + 1 + 2 < 0:
Proposição 4.5.6 Suponha-se que para qualquer conjunto A RN com medida de Lebesgue
não nulo e qualquer conjunto compacto B; existe um inteiro t > 0 tal que
1
Defina-se kyt kq := E (kyt kq ) q :
yt = g (yt 1 ; ut )
onde fut g é uma sucessão de vectores i.i.d.. Suponha-se que y é um processo aperiódico e
irredutível. Suponha que existem escalares K > 0, 2 (0; 1) e q > 0 tal que g está bem
104
definida e é contínua com respeito ao primeiro argumento e
2 2 2
t =!+ 1 "t 1 + 1 t 1
supondo " é um ruído branco Gaussiano com variância igual a 1. A proposição 4.5.5 é
a mais adequada para tratar este caso. No entanto, também 4.5.7 pode ser invocada. O
processo é obviamente aperiódico, tendo em conta a distribuição de ": Não é fácil verificar-
se (4.15), pois as probabilidades de transição a n passos não são conhecidas. É no entanto
2
pacífico assumir-se que t; para algum t > 0; pode atingir qualquer conjunto A; qualquer
2
que seja a condição inicial. Assuma-se, assim, que t é irredutível. Tem-se,
2
g (x; u1 ) = ! + 1 "1 + 1 x
2
kg (x;"1 )k1 = E ! + 1 "1 + 1 x :
2
E !+ 1 "1 + 1 x < jxj ; jxj > K ?
Para jxj suficientemente grande, tal que jxj > K; o valor de ! é irrelevante11 . Assuma-se
assim ! = 0: Vem
2 2
E 1 "1 + 1 x =E 1 "1 + 1 x < jxj ; jxj > K
2
se e só se E (j 1 "1 + 1 j) < 2 (0; 1) : A condição de estacionaridade estrita está encon-
11
Considere-se, por exemplo, j! + 0:98xj < 0:99 jxj : Esta desigualdade não se verifica para todo o x 2 R.
No entanto, para qualquer valor de !; existe certamente um K tal que jxj > K ) j! + 0:98xj < 0:99 jxj :
105
trada:
2
E 1 "1 + 1 < 1:
2
Atendendo a 1 "1 + 1 > 0 e E ("21 ) = 1; a condição pode reescrever-se na forma
2
E 1 "1 + 1 = 1 + 1 < 1: (4.16)
2
Esta condição não é equivalente à obtida no exemplo 4.5.13, E (log ( 1 "0 + 1 )) < 0 (as
proposições 4.5.5 e 4.5.7, em geral, conduzem a condições suficientes, mas não necessárias).
Estas duas condições são discutidas no ponto 8.4.
4.A Demonstrações
Demonstração da proposição 4.5.1
@
Para simplificar, suponha-se que existe a densidade fn (yj x) = F
@y n
(yj x) : Considere-
se n ! 1 em ambos os lados da equação (4.7). Como fn (yj x) f (y) converge para zero
na norma kk, a equação (4.7) com n ! 1 é
Z
f (y) = f1 (yj u) f (u) du: (4.17)
Por hipótese, y0 (valor inicial) tem densidade estacionária fy0 = f: Resulta de (4.17) que y1
também tem densidade estacionária f; pois
Z Z
fy1 (y) = f1 (yj u) fy0 (u) du = f1 (yj u) f (u) du = f (y) :
Por indução, conclui-se que fyt (y) = f (y) qualquer que seja t. Por outro lado, devido à
homogeneidade e à propriedade de Markov, a densidade conjunta de (yn ; yn 1 ; :::; y1 ; y0 )
fyn ;yn 1 ;:::;y1 ;y0 (xn ; xn 1 ; :::; x1 ; x0 ) = f1 (xt j xt 1 ) f1 (xt 1 j xt 2 ) :::fy0 (x0 )
pois f1 (yj x) não depende do momento em que é calculada (apenas depende dos argumentos
106
y e x) e fy0 (x0 ) = fyk (x0 ) = f (x0 ).
107
Página em branco
108
Parte II
Modelos
109
Página em branco
110
Capítulo 5
O Problema da Especificação
111
Com efeito (usando a propriedade P (A \ B) = P (Aj B) P (B));
ft0 (yt ; yt 1 ; :::) = ft0 (yt j yt 1 ; :::) ft0 1 (yt 1 ; yt 2 :::) (5.1)
= ...
= ft0 (yt j yt 1 ; :::) ft0 1 (yt 1 j yt 2 ; :::) :::f10 (y1 j y0 ; :::) :::
Logo a sucessão fft0 (yt j Ft 1 )g fornece a mesma informação que f 0 (yt ; yt 1 ; :::). Por ex-
emplo, suponha-se que se simula o seguinte modelo:
y1 N (0; 1)
M (yt ; yt 1 ; :::; dt ; )
onde é um vector de parâmetros e dt inclui variáveis não aleatórias que procuram modelar
alterações no DGP ao longo do tempo (como por exemplo, variáveis artificiais determinísti-
cas, tendências, etc.).
Este modelo encerra uma hipótese quanto à fdp condicional, ft (yt j dt ; Ft 1 ; ) e, por-
tanto, quanto aos momentos condicionais, como por exemplo E (yt j dt ; Ft 1 ; ) e Var (yt j dt ; Ft 1 ; ) :
O axioma da correcta especificação do modelo M traduz-se da seguinte forma: existe um 0
112
tal que
ft (yt j dt ; Ft 1 ; 0) = ft0 (yt j Ft 1 ) :
sendo ut é o termo de erro. É importante sublinhar que nada de relevante é dito sobre
o modelo se não adiantarmos uma hipótese sobre o comportamento de ut : Se dissermos
que E (ut ) = 0 apenas podemos concluir que E (yt ) = 1 + 1 E (xt ) + E (yt 1 ) : Se
adicionalmente dissermos que Cov (ut ; xt ) = Cov (ut ; yt 1 ) = 0 então (pode-se provar que)
113
condicional de yt :
Seja xt o vector das variáveis explicativas. No exemplo anterior tem-se xt = (xt ; yt 1 ) ;
e pode-se verificar que E (yt j xt ) = E (yt j It ) : De uma forma geral, quando é válida a
igualdade E (yt j xt ) = E (yt j It ) diz-se que o modelo é dinamicamente completo. Veja um
caso onde o modelo não é dinamicamente completo. Considere-se,
yt = 1 + 2 xt + 3 yt 1 + ut ; ut = 2 ut 2 + "t (5.2)
E (yt j It ) = 1 + 2 xt + 3 yt 1 + ut 2
E (yt j xt ) = E (yt j xt ; yt 1 ) = 1 + 2 xt + 3 yt 1 :
ut = yt ( 1 + 2 xt + 3 yt 1 ) )
ut 2 = yt 2 ( 1 + 2 xt 2 + 3 yt 3 )
yt = 1 + 2 xt + 3 yt 1 + ut
= 1 + 2 xt + 3 yt 1 + 2 ut 2 + "t
= 1 + 2 xt + 3 yt 1 + 2 (yt 2 ( 1 + 2 xt 2 + 3 yt 3 )) + "t
= 1 1 2 + 2 xt + 3 yt 1 + 2 yt 2 2 2 xt 2 3 2 yt 3 + "t :
yt = 1 + 2 xt + 3 yt 1 + 4 yt 2 + 5 xt 2 + 6 yt 3 + "t : (5.3)
114
mente completo pois
E (yt j It ) = E (yt j xt ) = 1 + 2 xt + 3 yt 1 + 4 yt 2 + 5 xt 2 + 6 yt 3 :
Num modelo dinamicamente completo, o conjunto das variáveis explicativas xt capta toda
a dinâmica do processo, de tal forma que os erros não são autocorrelacionados (vale a pena
acrescentar que um modelo dinamicamente completo não pode ter erros autocorrelaciona-
dos).
Que diferenças existem entre os modelos (5.2) e (5.3)? O estimador OLS aplicado a
(5.3) é consistente; mas aplicado a (5.2) é inconsistente, pois o regressor yt 1 está correla-
cionado com os erros ut (E (ut j xt ) 6= 0). Claro que no modelo (5.2) deve usar-se um
método de estimação consistente, como por exemplo, o método FGLS ou o método da máx-
ima verosimilhança. Quando são usados métodos de estimação apropriados, do ponto de
vista estatístico - por exemplo, previsão ou ajustamento - os modelos acima discutidos são
(quase) equivalentes (e, portanto, é indiferente usar-se um ou o outro). Do ponto de vista da
interpretação económica o modelo (5.3) pode ser preferível, pois identifica claramente todos
os regressores “influentes” na explicação das variações de y: Mas, também pode suceder
o contrário! Suponha-se que a teoria económica postula para certo fenómeno a relação
yt = 1 + 2 xt + ut : É esta a relação que queremos estimar, mesmo que ut possa exibir
autocorrelação.
115
tem-se um modelo não linear na média, pois, E (yt j Ft 1 ) = yt 1 + log 1 + yt2 1 é uma
função não linear de yt 1 : Também
y t = u t 1 ut 2 + ut ; E (ut j Ft 1 ) = 0
é um modelo não linear, pois E (yt j Ft 1 ) = ut 1 ut 2 é não linear nos valores passados de
ut : Outro exemplo é Modelo Threshold
8
<
1 yt 1 + ut se yt 1 >k
yt =
:
2 yt 1 + ut se yt 1 k:
com E (ut j Ft 1 ) = 0: Desenvolveremos modelos não lineares com algum detalhe no ponto
7.
2
Var (yt j Ft 1 ) = Var (ut j Ft 1 ) = Var ( t "t j Ft 1 ) = t:
2
A tarefa do investigador é a de definir uma função adequada para t: No ponto 8 aborda-se
de forma detalhada esta questão.
116
com ut = t "t ; especificar uma distribuição para "t : Por exemplo, se a proposta do investi-
gador é "t N (0; 1) ; resulta que distribuição condicional de yt é
yt j Ft 1 N (E (yt j Ft 1 ) ; Var ( yt j Ft 1 )) ;
e toda a estrutura probabilística fica definida. No contexto do ponto 5.1, a densidade definida
para yt j Ft 1 representa a função ft (yt j dt ; Ft 1 ; ).
117
Página em branco
118
Capítulo 6
yt = t + ut (6.1)
119
6.1 Definições Preliminares
Suponha-se que y é um processo ESO. Para medir a associação linear entre yt e yt s já vimos
que se toma o coeficiente de autocorrelação de ordem s;
Cov(yt ; yt s )
s =p
Var (yt ) Var (yt s )
onde
Convencione-se chamar s a Cov (yt ; yt s ) e 0 a Var (yt ) 1 : Como Var (yt ) = Var (yt s )
vem
Cov(yt ; yt s )
s =p = ps 2 = s
:
Var (yt ) Var (yt s ) 0 0
j sj 1.
Quando se calcula a correlação entre, por exemplo, yt e yt 2 ; por vezes sucede que a cor-
relação detectada se deve ao facto de yt estar correlacionado com yt 1 ; e yt 1 ; por sua vez,
estar correlacionado com yt 2 : Com a autocorrelação parcial procura-se medir a correlação
entre yt e yt s eliminando o efeito das variáveis intermédias, yt 1 ; :::; yt s+1 : A análise desta
forma de autocorrelação é importante na medida em que permite, juntamente com a FAC,
identificar o processo linear subjacente.
No âmbito do modelo de regressão linear, sabe-se que uma forma de medir a associação
parcial ceteris paribus entre, por exemplo, y e x1 consiste em considerar a regressão y =
1
Na verdade, adoptando a convenção s = E ((yt E (yt )) (yt s E (yt s ))) resulta, por definição, 0 =
E ((yt E (yt )) (yt E (yt ))) = Var (yt ) :
1=2 1=2
2 2 2 2 2
Suponha-se que E jXj < 1 e E jY j < 1: Então E (jXY j) E jXj E jY j :
120
de uma variação unitária de x1 sobre y: Mede-se, portanto, o impacto de x1 sobre y depois
do efeito das variáveis x2 ; :::; xk ter sido removido ou fixo. Para obtermos as autocorrelações
parciais seguimos um procedimento similar.
Considere-se:
yt = c + 11 yt 1 + t
yt = c + 21 yt 1 + 22 yt 2 + t
yt = c + 31 yt 1 + 32 yt 2 + 33 yt 3 + t
:::
yt = c + s1 yt 1 + s2 yt 2 + ::: + ss yt s + t
yt = c + 21 yt 1 + 22 yt 2 + t: (6.2)
Podemos usar o OLS para obter ^ 22 : Este coeficiente mede a relação entre yt e yt 2 depois
do efeito de yt 1 ter sido removido. kk também pode ser estimado através da expressão
P
^ kk = Pt rt;k yt
2
t rt;k
onde rt;k é o resíduo da regressão linear de yt k sobre um termo constante e (yt 1 ; :::; yt k+1 ) :
Os resíduos rt;k podem ser interpretados como a variável yt k depois dos efeitos das variáveis
(yt 1 ; :::; yt k+1 ) terem sido removidos. Donde ^ kk mede o efeito entre yt e yt k depois do
efeito das variáveis intermédias ter sido removido.
Uma outra forma alternativa de obter ii (como função dos 0 s) está descrita no apêndice
6.A. Sob H0 : kk =0
p d
Z= n ^ kk ! N (0; 1) :
121
6.1.3 Operador de Diferença e de Atraso
yt = yt yt 1 ;
2
yt = ( yt ) = (yt yt 1 ) = yt yt 1
= yt yt 1 (yt 1 yt 2 ) = yt 2yt 1 + yt 2 :
Lyt = yt 1 :
Resulta da definição,
L2 y t = L (Lyt ) = Lyt 1 = yt 2 ;
Lp yt = yt p ;
Lp ut = ut p :
L yt = L (yt yt 1 ) = yt 1 yt 2 :
yt 1 yt 1 2 yt 2 = + 1 ut 1 + ut
na forma,
2
yt 1 Lyt 2 L yt = + 1 Lut + ut
2
1 1L 2L yt = + (1 + 1 L) ut
2 (L) yt = + 1 (L) ut :
2
Obs.: 2 (L) = 1 1L 2L e 1 (L) = 1 + 1L são polinómios em L: Certos autores,
sobretudo da área das sucessões cronológicas, preferem a letra B (backshift) para designar o
mesmo operador de atraso.
122
6.2 Processos Lineares Estacionários
A decomposição de Wold fornece uma motivação para os modelos de médias móveis (ver a
seguir). Wold mostrou que um processo y ESO pode escrever-se na forma
yt = Vt + ut + 1 ut 1 + 2 ut 2 + ::: (6.3)
P1 2
onde ut é um RB, Vt é um processo determinístico e i=1 i < 1:
A decomposição destaca que qualquer processo ESO (linear ou não linear) tem uma
representação linear nos erros de regressão (podemos também dizer, nos erros de previsão)
ocorridos no passado. No entanto, o modelo (6.3) não pode ser implementado porque exis-
tem infinitos parâmetros para estimar.
Vamos procurar representações lineares parcimoniosas, inspiradas em (6.3).
Exemplos:
y t = ut + 1 ut 1 ( 1 = 1; 2 = 3 = ::: = 0)
y t = ut + 1 ut 1 + 2 ut 2 ( 1 = 1; 2 = 2; 3 = 4 = ::: = 0)
yt = c + yt 1 + ut
podem também escrever-se na forma (6.3) (com restrições sobre os i ). Veremos tam-
bém que a melhor aproximação linear parcimoniosa que podemos efectuar à estrutura (6.3),
supondo Vt = 0; baseia-se no chamado modelo ARMA.
Processo M A (1)
yt = + ut 1 + ut = + (1 + L) ut
onde ut é um ruído branco. Este modelo representa yt como uma combinação linear de
choques aleatórios (ut 1 e ut ). Outra forma de interpretarmos o modelo consiste em imaginar
123
que yt resulta de um mecanismo de correcção: podemos utilizar o erro cometido no período
anterior, ut 1 ; como regressor (i.e., como variável explicativa) do modelo (por exemplo,
veremos que a previsão de y baseia-se, em parte, no erro de previsão cometido no período
anterior). Este modelo é indicado para modelar fenómenos de memória muito curta pois a
autocorrelação de y extingue-se muito rapidamente, como veremos a seguir.
Momentos Marginais
Os primeiros momentos marginais (ou não condicionais) são
E (yt ) = E ( + ut 1 + ut ) =
2 2 2
Var (yt ) = Var ( + ut 1 + ut ) = + :
Covariâncias e Autocorrelações
= E (( ut 1 + ut ) ( u t 2 + ut 1 ))
2
= E ut 1 ut 2 + u2t 1 + u t ut 2 + ut ut 1
2
= 0+ +0+0
Pode-se provar
s = 0 para s > 1:
O processo yt é ESO pois E (yt ) e Var (yt ) são constantes e s não depende de t. Conclui-
se agora que as autocorrelações são dadas por
2
1
1 = = 2 2 2
= 2 .
0 + +1
s = 0 para s > 1:
11 = 1 = 2 ,
+1
e (pode-se provar)
s 2
1
ss = 2(s+1)
:
1
Momentos Condicionais
124
Os momentos condicionais são imediatos:
E (yt j Ft 1 ) = E ( + ut 1 + ut j Ft 1 ) = + ut 1 :
2
Var (yt j Ft 1 ) = E (yt E (yt j Ft 1 )) Ft 1 = E u2t Ft 1 = 2
:
2
yt j Ft 1 N + ut 1 ; :
Invertibilidade
Considere-se um processo MA(1) (sem perda de generalidade) de média nula, yt =
ut 1 + ut ; onde ut é um ruído branco. Naturalmente, y pode escrever-se na forma
1
yt = (1 + L) ut ou yt (1 + L) = ut
1 2
=1 L+ L2 :::; j j<1
1+ L
1
yt (1 + L) = ut
2
yt 1 L+ L2 ::: = ut
2
yt = yt 1 yt 2 + ::: + ut : (6.4)
Diz-se neste caso, com j j < 1 que yt é invertível, isto é, tem representação autoregressiva3 .
O facto do processo MA(1) (e, mais geralmente, o processo MA(q)) ter representação do
tipo (6.4) explica por que razão a função de autocorrelação parcial ii é não nula para todo o
i (porquê?).
A invertibilidade é uma propriedade exigível na previsão: garante que a informação re-
mota sobre o processo é irrelevante. Imagine-se o caso contrário, i.e. o processo não in-
vertível. Isto significa que j j > 1 e, pela equação (6.4), a informação mais atrasada tem
mais peso na previsão y (a rigor a representação (6.4) não está bem definida no caso j j > 1;
3 2
No caso yt = + ut 1 +ut , j j < 1; a representação autoregressiva é yt = 1+ + yt 1 yt 2 +:::+ut :
125
no entanto, a ideia essencial mantém-se).
Um processo não invertível pode transformar-se num processo invertível com funções de
autocorrelação e autocorrelações parciais iguais (ver apêndice 6.B).
Processo M A (q)
O processo MA(q) é dado por
yt = + 1 ut 1 + 2 ut 2 + ::: + q ut q + ut ;
q
= + (1 + 1L + ::: + q L ) ut
= + q (L) ut .
E (yt ) =
2 2 2
Var (yt ) = 1+ 1 + ::: + q
8
< =
6 0 se k = 1; 2; :::; q
k =
: 0 se k = q + 1; q + 2; :::
kk 6= 0, mas kk ! 0; quando k ! 1:
No caso MA(1) a proposição 6.2.1 é equivalente a exigir j 1 j < 1 (ou j1= 1 j > 1).
Observe-se que 1= 1 é solução de 1 + 1L = 0: No caso MA(2)
2
yt = + 1 ut 1 + 2 ut 2 + ut = + 1+ 1L + 2L ut
126
a proposição 6.2.1 traduz-se da seguinte forma: yt é invertível se
Processo AR(1)
O processo AR(1) é dado por
yt = c + yt 1 + ut (6.5)
onde ut é ruído branco independente de yt 1 . Este modelo é muito importante porque repro-
duz razoavelmente a dinâmica de muitas séries económicas e financeiras.
Momentos Marginais
Comece-se por calcular a média marginal
E (yt ) = E (c + yt 1 + ut ) = c + E (yt 1 ) :
(temos uma equação recorrente em E (yt ): este valor esperado depende de E (yt 1 ) que, por
sua vez, depende de E (yt 2 ) e assim sucessivamente). Se assumirmos à partida a condição
de ESO (implicando E (yt ) = E (yt 1 ) = E (y)) vem
c
E (y) = c + E (y) ) E (y) =
1
2
Var (yt ) = Var (c + yt 1 + ut ) = Var (yt 1 ) + Var (ut )
2 2
= Var (yt 1 ) +
Sob a hipótese de ESO, tem-se Var (yt ) = Var (yt 1 ) = Var (y) e, portanto,
2
2 2
Var (yt ) = Var (y) + ) Var (y) = 2:
1
127
Covariâncias e Autocorrelações
Calcule-se agora as covariâncias. Como estas não dependem da média de yt , simplifique-
se fazendo c = 0: Suponha-se j j < 1: A covariância 1 é dada por
A covariância de ordem k é
Para desenvolvermos a expressão precisamos de calcular primeiro E (yt jFt k): Ora
yt = yt 1 + ut
= ( yt 2 + ut 1 ) + ut
2
= yt 2 + ut 1 + ut
k k 1 k 2
= ::: = yt k + ut k+1 + ut k+2 + ::: + ut 1 + ut
pelo que
k
E (yt j Ft 1 ) = yt k
2
k k 2 k k
k = E yt k yt k = E yt k = 2 = 0:
1
Uma forma alternativa de obter este valor é a seguinte. Multiplique-se ambos os termos da
equação (6.5) por yt k (sem perda de generalidade, considere-se c = 0). Resulta
yt yt k = yt 1 yt k + ut yt k :
128
Tomando o valor esperado e tendo em conta que E (ut yt k ) = 0; obtém-se
k = k 1:
Logo,
1 = 0;
2
2 = 1 = 0
:::
k
k = 0:
Finalmente,
k
k 0 k
k = = = .
0 0
yt = c + 11 yt 1 + t ) 11 = 1
yt = c + 21 yt 1 + 22 yt 2 + t ) 22 =0
Assim, 8
< se k = 1
1
kk =
: 0 se k > 1
E (yt j Ft 1 ) = E (yt j yt 1 ) = E ( yt 1 + ut j yt 1 ) = yt 1 ,
2
yt j Ft 1 N yt 1 ; .
129
Invertibilidade
O processo AR é sempre invertível (por definição já tem representação autoregressiva).
Reversão para a Média
Processos estacionários com média finita são, por vezes, designados por processos com
reversão para a média. Exemplifique-se com o processo AR(1)
yt = c + yt 1 + ut ; j j < 1.
c
Como = 1
)c= (1 ) (note-se que é a média de y; E (yt )) podemos reescrever
o AR(1) na seguinte forma:
yt = (1 ) + yt 1 + ut
yt = (1 )+( 1) yt 1 + ut
= ( 1) (yt 1 ) + ut
Por exemplo, se num certo período (digamos t 1) o valor de y está acima da sua média
de longo prazo (i.e. y está relativamente alto) no período seguinte y tenderá a diminuir de
valor pois E ( yt j Ft 1 ) < 0. Quando é positivo (esta é a situação habitual em aplicações),
é possível concluir que quanto mais alto for (sem, contudo ultrapassar o valor 1) mais
lenta é a velocidade de ajustamento de y em direcção à sua média de longo prazo. Suponha
que o processo y sofre um choque aleatório considerável (ou que é inicializado num valor
afastado da sua média de longo prazo). Como é que y evolui nos períodos seguintes? Tende a
aproximar-se rapidamente ou lentamente de ? (pode mesmo suceder que não haja qualquer
efeito de reversão para uma medida de tendência central se, no limite, = 1). Na figura 6-1
estão representados quatro processos AR(1) simulados de acordo com o modelo
2
yt = 100 (1 ) + yt 1 + ut ; ut ruído branco Gaussiano =1
130
120
100
80
fhi=0.1
60
y fhi=0.8
40
fhi=0.98
20 fhi=1
0
-20
1 26 51 76 101 126 151 176
Figura 6-1: Simulação de quatro processos AR(1) (choques aleatórios ut iguais e valor de
inicialização y0 = 0)
mais alto é o valor mais lento é o ajustamento de y face à média de longo prazo y: No caso
= 1 não existe reversão para ; embora o processo possa cruzar = 100 (assim como
qualquer outro valor do espaço de estado de y) algures no tempo.
Representação MA(1)
Um processo AR(1) (ou mais geralmente um AR(p)) estacionário pode representar-se
como um MA(1). Já vimos
yt = yt 1 + ut
t t 1 t 2
= y0 + u1 + u2 + ::: + ut 1 + ut
t t 1 t 2
yt = ( y 1 + u0 ) + u1 + u2 + ::: + ut 1 + ut
t+1 t t 1 t 2
= y 1 + u0 + u1 + u2 + ::: + ut 1 + ut
= ::: 2 ut 2 + ut 1 + ut :
1
yt = yt 1 + ut , yt (1 L) = ut , yt = ut .
1 L
131
Supondo j j < 1 tem-se
1 2
=1+ L+ L2 + :::
1 L
Logo
1
yt = ut = 1 + L + 2 L2 + ::: ut
1 L
= ut + ut 1 + 2 ut 2 + :::
Processo AR(p)
Um processo AR(p) é uma simples generalização do AR(1):
yt = c + 1 yt 1 + ::: + p yt p + ut :
p
1 1L ::: pL yt = c + ut ; ou
p (L) yt = c + ut :
c
E (y) = c + 1 E (y) + ::: + p E (y) ) E (y) = .
1 1 ::: p
yt = 1 yt 1 + ::: + p yt p + ut
yt2 = 1 yt 1 yt + ::: + p yt p yt + ut yt
2
E yt = 1 E (yt 1 yt ) + ::: + p E (yt p yt ) + E (ut yt )
2 2
E yt = 1 1 + ::: + p p +
2
0 = 1 1 + ::: + p p + :
132
As covariâncias são obtidas de forma similar (sem perda de generalidade faça-se c = 0 )
E (y) = 0):
yt = 1 yt 1 + ::: + p yt p + ut
yt yt k = 1 yt 1 yt k + ::: + p yt p yt k + ut yt k
k = 1 k 1 + ::: + p k p
k k 1 k p
= 1 + ::: + p
0 0 0
k = 1 k 1 + ::: + p k p k 1:
onde ci constante arbitrárias e ri = 1=zi e zi são raízes do polinómio p (L). Pode-se provar
que sob a condição de ESO os coeficientes de autocorrelação k não se anulam mas tendem
para zero quando k ! 0:
Estacionaridade
Proposição 6.2.2 O processo AR(p) é estacionário sse as raízes da equação p (L) = 0 são
em módulo superiores a um (ou fora do circulo unitário no plano complexo) (apêndice 6.E).
1
(1 L) = 0 ) L =
Devemos exigir
1
> 1 ) j j < 1:
4
Quase diríamos que esta equação é um processo AR(p) não fosse o facto de não possuir termo aleatório.
De forma rigorosa, podemos dizer que é uma equação (linear) às diferenças finitas, de ordem p (de coeficientes
constantes). Esta terminologia é usada na área dos sistemas dinâmicos em tempo discreto.
133
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
Figura 6-2: FAC e FACP teóricas associadas aos seguintes cenários (de cima para baixo): (a)
1 > 0; 2 > 0; (b) 1 < 0; 2 > 0; (c) 1 > 0; 2 < 0; (d) 1 < 0; 2 < 0:
k = 1 k 1 + 2 k 2 + ::: + p k p; k 1
yt = 1 yt 1 + ::: + p yt p + 0yt p 1 + ut
134
6.2.3 Processos ARMA
Por que não combinar os dois processos AR e MA? É isso que se propõe com o modelo
ARMA. No caso geral ARMA(p,q) (i.e. AR(p) + MA(q)) o modelo representa-se em qual-
quer uma das seguintes formas alternativas:
yt = 1 yt 1 + ::: + p yt p + 1 ut 1 + ::: + q ut q + ut
yt 1 yt 1 ::: p yt p = ut + 1 ut 1 + ::: + q ut q
p q
1 1L ::: pL yt = (1 + 1L + ::: + qL ) ut
p (L) yt = q (L) ut
q (L)
yt = ut :
p (L)
yt = ut + 1 ut 1 + 2 ut 2 + :::
0
Esta expressão não corresponde à decomposição de Wold (porque estes s estão sujeitos
a restrições), mas constitui a melhor aproximação linear à decomposição, baseada numa
estrutura linear (a qualidade da aproximação aumenta quando p e q aumentam).
A estacionaridade depende da estrutura AR. Concretamente, o processo ARMA(p,q) é
estacionário sse as raízes da equação p (L) = 0 estão todas fora do círculo unitário no plano
complexo. A invertibilidade depende da estrutura MA. Concretamente, o processo ARMA é
invertível sse as raízes de q (L) estão todas fora do circulo unitário no plano complexo. Na
tabela 6.1 apresenta-se um quadro resumo das principais propriedades do modelos AR, MA
e ARMA.
Nas figuras 6-3 e 6-4 encontram-se as FAC e FACP de vários processos lineares simula-
dos (n = 50000). Procure identificá-los5 .
A tabela 6.2 identifica os processos simulados nas figuras 6-3 e 6-4.
5
Observe que as FAC e FACP são obtidas a partir dos processos simulados e, portanto, não correspondem
às funções teóricas; por esta razão, embora alguns coeficientes populacionais sejam zero, os respectivos coe-
ficientes estimados podem não ser iguais a zero (de facto, é uma impossibilidade virem exactamente iguais a
zero). Assuma que os coeficientes estimados muito baixos não são estatisticamente significativos.
135
AR(p) MA(q) ARMA(p,q)
1 1
Modelo p (L) yt = ut p (L) yt = ut p (L) p (L) yt = ut
em yt Série finita em yt Série infinita em yt Série infinita em yt
Modelo yt = p 1 (L) ut yt = p (L) ut yt = p 1 (L) p (L) ut
em ut Série infinita em ut Série finita em ut Série infinita em ut
Estac. Raízes p (L) = 0 Sempre Raízes p (L) = 0
fora do círc. unitár. estacionários fora do círc. unitár.
Invertib. Sempre Raízes p (L) = 0 Raízes p (L) = 0
invertíveis fora do círc. unitár. fora do círc. unitár.
FAC Decaimento expo- Decaimento brusco Decaimento expo-
nencial e/ou sinu- para zero a partir de nencial e/ou sinu-
soidal para zero k =q+1 soidal para zero
FACP Decaimento brusco Decaimento expo- Decaimento expo-
para zero a partir de nencial e/ou sinu- nencial e/ou sinu-
k =p+1 soidal para zero soidal para zero
Fonte: Murteira et al. (1993), pág. 69
Tabela 6.1: Resumo das principais propriedades dos modelos AR, MA e ARMA
MA AR
1 2 3 4 1 2 3 4 Modelo
Figura 6-3
1 :4 :4 :1 0 0 0 0 0 MA(3)
2 0 0 0 0 :4 :2 0 0 AR(2)
3 :4 0 :4 0 0 0 0 0 MA(3)
4 0 0 0 0 :4 :2 :2 0 AR(3)
5 0 0 0 0 1 0 0 0 AR(1)
6 1 0 0 0 0 0 0 0 MA(1)
7 0 0 :5 0 0 0 0 0 MA(3)
Figura 6-4
1 0 0 0 0 0 0 0 :9 AR(4)
2 :8 0 0 0 :8 0 0 0 ARMA(1,1)
3 0 0 0 :8 0 0 0 :8 ARMA(4,4)
4 0 0 0 0 :4 :2 :1 :1 AR(4)
5 0 0 0 0 0 0 0 0 RBranco
6 :5 0 0 0 :5 0 0 0 RBranco
Tabela 6.2: Soluções das questões colocadas nas duas figuras anteriores
136
0.1 0.1
FAC FACP
0 0
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10 -0.1
-0.1
-0.2
-0.2
-0.3
-0.3 -0.4
0.6 0.6
FAC FACP
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
1 2 3 4 5 6 7 8 9 10 -0.1 1 2 3 4 5 6 7 8 9 10
0.2 0.1
FAC FACP
0.1 0
0 1 2 3 4 5 6 7 8 9 10
-0.1
1 2 3 4 5 6 7 8 9 10
-0.1
-0.2
-0.2
-0.3 -0.3
-0.4 -0.4
0.5 0.6
FAC FACP
0.4 0.4
0.3
0.2
0.2
0
0.1
1 2 3 4 5 6 7 8 9 10
0 -0.2
-0.1 1 2 3 4 5 6 7 8 9 10
-0.4
1 1.2
FAC FACP
0.9998 1
0.9996 0.8
0.9994 0.6
0.9992 0.4
0.999 0.2
0.9988 0
1 2 3 4 5 6 7 8 9 10 -0.2 1 2 3 4 5 6 7 8 9 10
0.6 0.6
FAC FACP
0.5
0.4
0.4
0.3 0.2
0.2 0
0.1 1 2 3 4 5 6 7 8 9 10
-0.2
0
-0.1 1 2 3 4 5 6 7 8 9 10 -0.4
0.5 0.5
FAC 0.4
FACP
0.4
0.3
0.3
0.2
0.2 0.1
0.1 0
-0.1 1 2 3 4 5 6 7 8 9 10
0
-0.2
-0.1 1 2 3 4 5 6 7 8 9 10 -0.3
Figura 6-3: FAC e FACP de 7 processos simulados a partir de n = 50000 observações. Qual
é a ordem p e q dos processos? (A resposta a esta questão encontra-se na tabela 6.2)
137
1 1
FAC FACP
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
-0.2 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
-0.2
1 1
FAC FACP
0.8
0.5
0.6
0.4 0
0.2 1 2 3 4 5 6 7 8 9 10
-0.5
0
1 2 3 4 5 6 7 8 9 10 -1
1 1
FAC FACP
0.8
0.5
0.6
0.4 0
0.2 1 2 3 4 5 6 7 8 9 10
-0.5
0
1 2 3 4 5 6 7 8 9 10 -1
0.7 0.8
0.6
FAC FACP
0.6
0.5
0.4 0.4
0.3
0.2 0.2
0.1
0
0
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10 -0.2
0.4 0.4
FAC FACP
0.2 0.2
0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
-0.2 -0.2
-0.4 -0.4
0.4 0.4
FAC FACP
0.2 0.2
0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
-0.2 -0.2
-0.4 -0.4
138
6.3 Processos Lineares Não Estacionários
No âmbito dos processos lineares é usual identificar dois tipos de não estacionaridade:
se o logaritmo do PIB não é estacionário (na média) então a taxa de variação do PIB
(d = 1) poderá ser estacionária;
d
p (L) yt = c + q (L) ut
d
yt ARM A (p; q) :
139
A letra I em “ARIMA” designa integrated. Diz-se que um processo y é integrado de ordem
d se o polinómio autoregressivo de y possui d raízes (múltiplas) iguais a um. Por exemplo, o
polinómio autoregressivo associado ao processo passeio aleatório, yt = yt 1 + ut ; (L) =
1 L; possui uma raiz unitária, pois a solução de 1 L = 0 é obviamente L = 1:
yt = (1 + ) yt 1 yt 2 + ut
1 = 1+ ; 2 = ; 0< <1
Não se tem um processo ESO pois uma das condições seguintes não é satisfeita
Considere-se yt = yt yt 1 : Tem-se
yt = (1 + ) yt 1 yt 2 + ut
yt yt 1 = yt 1 yt 2 + ut
yt = yt 1 + ut :
Este exemplo indica o caminho a seguir quando y é não estacionário. Em lugar de se anal-
isar y; analisa-se yt . Esta transformação envolve a perda de uma observação na amostra,
mas vários resultados para y (como por exemplo a previsão) podem ser facilmente recuper-
ados a partir da especificação e estimação do modelo para yt .
yt = 2yt 1 yt 2 + ut ; ut RB
yt = yt 1 + ut :
140
Logo yt é um processo AR(1) com = 1: Assim d = 1 não é suficiente para estacionarizar
o processo. Uma nova diferenciação produz:
yt yt 1 = ut
2
yt = ut :
2 2
Assim yt é um processo estacionário (neste caso é um RB). (Recorde-se: yt = yt
2yt 1 + yt 2 ). De forma equivalente, yt é um ARIMA(0,2,0).
(1 L) (1 L)yt = c + (1 + L) ut
| {z }
(1 L) (yt y t 1 ) = c + ut + u t 1
yt yt 1 yt 1 + yt 2 = c + ut + ut 1
yt = yt 1 + yt 1 yt 2 + c + ut + u t 1 :
yt = + t + ut ; ut ruído branco.
yt = + t + ut ( + (t 1) + ut 1 ) = + ut ut 1 .
Esta transformação envolve um custo: cria-se artificialmente um erro MA(1) não invertível.
A solução preferível foi já sugerida no parágrafo anterior: basta remover a tendência e, para
o efeito, estima-se o modelo pelo método dos mínimos quadrados. Claro que a estimação
não é feita no quadro clássico (porque falha a hipótese de estacionaridade) mas, neste caso
141
20
10
-10
-20
-30
-40
500 1000 1500 2000
muito concreto, pode-se provar que o estimador dos mínimos quadrados é consistente6 .
Na prática, como detectamos a existência de um processo não estacionário na média?7
k
t;k =1 ' 1:
t
Assim, se FAC (estimada) de um certo processo, apresentar, nos primeiros lags, val-
6
Na verdade é mais do que isso: o estimador é superconsistente (converge para o verdadeiro parâmetro a
uma taxa mais alta do que o habitual). Por exemplo, o estimador OLS para verifica
p d
n ^ ! 0; n3=2 ^ ! N ormal:
Enquanto a variância do estimador OLS habitual é proporcional a 1=n a do estimador superconsistente acima
referido, é proporcional a 1=n3 :
7
Por que não estimar logo o modelo e verificar depois se as raízes do polinómio (L) = 0 satisfazem a
proposição 6.2.2? Este procedimento não é aconselhável. Como as raízes são estimativas, devemos ensaiar a
hipótese subjacente à proposição 6.2.2 (as raízes devem ser em modulo maiores do que um para o processo
ser estacionário). Todavia, sob H0 o processo é não estacionário e as distribuições assimptóticas habituais não
são válidas. Felizmente, existem testes adequados como, por exemplo, o teste Dickey-Fuller. Para concluir:
é preferível, na fase da estimação, termos um processo já estacionário (ou, por outras palavras, a análise da
estacionaridade precede a estimação do modelo).
142
Figura 6-6: FAC (e FACP) estimada do processo passeio aleatório representado na figura
6-5.
ores muito altos (próximos de um), poderemos suspeitar que o processo não é esta-
cionário. A figura 6-20 ilustra a ideia: apresenta-se a FAC estimada associada ao
passeio aleatório representado na figura 6-5
143
Parece óbvio a construção do teste estatístico: calcula-se o rácio-t ^ =^ e depois consulta-
se a tabela da t-Student. Este procedimento é incorrecto. Com efeito, sob H0, y não é
estacionário pelo que o rácio-t ^ =^ não tem distribuição t-Student nem mesmo distribuição
assimptoticamente normal. A hipótese de estacionaridade é aqui crucial. Se o processo não
é estacionário as distribuições assimptóticas habituais não são válidas8 .
Como devemos proceder? Temos de consultar os valores críticos nas tabelas apropriadas
(são construídas a partir da distribuição da estatística de teste sob H0 que, por ser descon-
hecida para n finito, tem de ser obtida através de simulações de Monte Carlo9 ). A maioria das
tabelas está preparada para fornecer o valor crítico da distribuição de ^ =^ (daí trabalhar-se
sobretudo com a especificação yt = y t 1 + ut e não com yt = yt 1 + ut ). A maioria
dos programas de estatística calcula o valor-p aproximado associado à hipótese nula (y não
é estacionário). Assim, se o valor-p for superior ao nível de significância previamente estab-
elecido (normalmente 0.05) não se rejeita H0 e conclui-se que o processo é não estacionário.
Existem outras variantes:
(2) Teste DF for random walk with drift H0 : =0
yt = + yt 1 + ut :
yt = + t + yt 1 + ut :
yt = y t 1 + 1 yt 1 + ::: + p yt p + ut :
8
De facto, pode-se provar que, sob H0 ; n^ tem distribuição assimptótica igual à distribuição da variável
2
(1=2) W (1) 1
R1 2
;
0
W (u) du
144
(2) Teste ADF for random walk with drift H0 : =0
yt = + yt 1 + 1 yt 1 + ::: + p yt p + ut :
(3) Teste ADF for random walk with drift and trend H0 : =0
yt = + t + yt 1 + 1 yt 1 + ::: + p yt p + ut :
H0 : = 0 vs. H1 : < 0. Uma tabela apropriada deverá fornecer como valor crítico ao
n.s. de 5% aproximadamente o valor -2.92. Como ^ =^ = 0:01=0:004 = 2:5 > vc =
2:92 não se rejeita H0 ao n.s. de 5%.
Exemplo 6.3.5 Seja lnp = log P onde P é o índice PSI20. Neste exemplo recorre-se ao
programa EVIEWS (versão 5) para analisar a estacionaridade de lnp. Os resultados estão
apresentados na figura 6-7. Tendo em conta a regressão efectuada
pode-se concluir que se escolheu a opção “(2) Teste ADF for random walk with drift H0 :
= 0”
yt = + yt 1 + 1 yt 1 + ut ; (p = 1)
rt = log Pt log Pt 1 :
145
Null Hypothesis: LNP has a unit root
Exogenous: Constant
Lag Length: 1 (Automatic based on SIC, MAXLAG=27)
t-Statistic Prob.*
146
h (x) T (x)
R 1 p
Var (yt ) _ t x p dx = 2 x
R 1x
Var (yt ) _ 2
t x2 R x1dx = log 1x
Var (yt ) _ 4
t x4 x2
dx = x
Tabela 6.3: Algumas transformações habituais
O objectivo consiste em encontrar uma transformação sobre yt ; T (yt ) tal que Var (T (yt ))
seja constante. Pode-se provar que a transformação apropriada10 é
Z
1
T (x) = p dx.
h (x)
10
Pela fórmula de Taylor, tem-se T (yt ) T ( t ) + T 0 ( t ) (yt t ). Assim,
T (yt ) T ( t) T 0 ( t ) (yt t)
2 0 2 2
(T (yt ) T ( t )) (T ( t )) (yt t)
2 2
Var (T (yt )) (T 0 ( t )) Var (yt ) = (T 0 ( t )) h ( t )
2
Imponha-se Var (T (yt )) = c, i.e, (T 0 ( t )) h ( t ) = c ou
c
T 0 ( t) = p :
h ( t)
147
14005 P (preços)
12005
10005
8005
6005
4005
2005
5
Sep-69 Sep-74 Sep-79 Sep-84 Sep-89 Sep-94 Sep-99 Sep-04
400
200
-200
-400
-600
-800
Jan-69 May-73 Sep-77 Jan-82 May-86 Sep-90 Jan-95 May-99 Sep-03
148
4000 1.40E+07
3500 1.20E+07
3000
1.00E+07
2500
8.00E+06 media(t)
2000
6.00E+06 var(t)
1500
4.00E+06
1000
500 2.00E+06
0 0.00E+00
Sep-69 Aug-77 Jul-85 Jun-93 May-01
Figura 6-10: Média e Variância estimada ao longo do tempo da séries diária do Dow Jones
(1969 a 2004)
10 log(P)
9.5
9
8.5
8
7.5
7
6.5
6
5.5
5
Sep-69 Sep-74 Sep-79 Sep-84 Sep-89 Sep-94 Sep-99 Sep-04
1X X
t t
b (yt ) =
E d (yt ) = 1
Pi ; Var Pi b (yt )
E
2
t i=1 t i=1
cuja representação gráfica é dada na figura 6-12. É interessante verificar que a série dos
retornos deve ser estudada não só devido às razões invocadas no ponto 2.3 mas também
149
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
Sep-69 Sep-74 Sep-79 Sep-84 Sep-89 Sep-94 Sep-99 Sep-04
Escolha de um
Etapa 1: Identificação modelo
NÃO
Utilização do Modelo
SIM
modelo satisfatório
150
Etapa 1: Identificação
Estacionarização da série;
Etapa 2: Estimação
Uma vez seleccionado, na primeira etapa, o modelo ARMA(p,q), é necessário estimar os
parâmetros desconhecidos (pelo método da máxima verosimilhança11 ).
ambos os polinómio possuem a mesma raiz (1/0.8). Observe-se que os polinómios cancelam
um com o outro:
(1 0:8L) yt = (1 0:8L) ut , yt = ut
11
Veja-se, no ponto 8.9, a aplicação do método a um modelo mais geral.
151
e, portanto, o processo y definido por (6.6) é, de facto, um ruído branco e não um ARMA(1,1),
como se poderia pensar. Na presença de redundância pode provar-se que a matriz de infor-
mação de Fisher é singular. Em aplicações, é uma impossibilidade as raízes dos polinómios
AR e MA estimados (respectivamente, ^ (L) e ^ (L)) virem exactamente iguais. De qualquer
forma, se existirem raízes do polinómio AR aproximadamente iguais às do polinómio MA,
surge um problema de quase redundância, e a matriz de Fisher embora invertível, apresenta
um determinante próximo de zero. Como consequência, os erros padrão das estimativas
vêm muitos baixos, as estatísticas-t muito altas e o determinante da matriz de variâncias-
covariâncias (estimada) aproximadamente de zero. É fácil cair-se em problemas de (quase)
redundância que, naturalmente, devem ser evitados.
Veja-se agora a questão do “branqueamento dos resíduos”. Considere-se o ARMA(1,1)
yt = yt 1 + 1 ut 1 + ut :
yt = yt 1 + t
onde t representa o erro da equação anterior. Como detectar o erro de especificação? Como
p d 1 1
u) + 1=n) ! N (0; 1) ;
n (^k (^ ^k (^
u) N ;p :
n n
p
Rejeita-se H0 ao n.s. de (aprox.) 5% se j^k (^
u)j > 2= n (supondo 1=n 0)
Teste Ljung-Box H0 : 1 (^
u) = ::: = m (^
u) = 0
X
m
1 d
Q = n (n + 2) ^2k (^
u) ! 2
(m p q) :
k=1
n k
152
Teste Jenkis e Daniels H0 : kk (^
u) = 0
p d 1
n ^ kk (^
u) ! N (0; 1) ; ^
kk (^
u) N 0; p :
n
p
Rejeita-se H0 ao n.s. de (aprox.) 5% se ^ kk (^
u) > 2= n
Finalmente, discuta-se a última questão. Pode suceder que dois ou mais modelos cumpram
as condições anteriores. Como seleccionar o ‘melhor’? Se o objectivo da modelação é
a previsão, pode-se avaliar a qualidade preditiva dos vários modelos concorrentes e de-
pois selecciona-se o que apresentar melhores resultados (discutiremos esta questão no ponto
6.6.6). Outra abordagem consiste em escolher o modelo mais preciso (melhor ajustamento)
com o menor no de parâmetros (parcimónia). Há certamente um trade-off a resolver: maior
precisão implica menor parcimónia.
O coeficiente de determinação ajustado é, provavelmente, o indicador mais utilizado. É
um bom indicador no âmbito do modelo de regressão linear clássico, com distribuição nor-
mal. Mais gerais são os critérios de informação de Akaike e de Schwarz porque se baseiam
no valor da função de verosimilhança.
Seja
X
n
log Ln = log f (yt j Ft 1 )
t
log Ln 2k
AIC = 2 + :
n n
log Ln k
SC = 2 + log n:
n n
Tendo em conta que o modelo é tanto mais preciso quanto mais alto for log Ln ; e tanto
mais parcimonioso quanto menor for o número de parâmetros, k; conclui-se que deve dar-se
preferência ao modelo que minimiza as estatísticas AIC e SC (note que os modelos só são
comparáveis se as variáveis se encontrarem na mesma unidade - por exemplo, não devemos
comparar um modelo em y e outro em log y).
Em certos casos, um modelo pode minimizar apenas um dos critérios (por exemplo, um
153
modelo A minimiza o AIC e o modelo B minimiza o SC). Como proceder nestes casos?
Vários estudos têm revelado o seguinte:
12
Algumas das conclusões que seguem foram-me transmitidas pelo Prof. João Santos Silva em comunicação
privada. Veja-se também Hendry e Santos (2005).
154
6.5.1 Inconsistência do Estimador
Impulse-dummies são VAs que assumem o valor 1 apenas uma vez na amostra. Para ilustrar
a situação considere-se o modelo
yt = + dt + ut ; t = 1; 2; :::; n
i:i:d: 2
onde ut N (0; ) e dt é uma impulse-dummy
8
< 1 t=t
dt =
: 0 t=
6 t:
Seja 2 3
1 0
6 7
6 7
6 1 0 7
6 7
6 .. .. 7
6 . . 7
6 7
6 7 2 3 2 P 3
6 1 0 7
6 7 n 1 n
6 7 t=1 yt 5
X =6 1 1 7; X0 X = 4 5; X0 y = 4
6 7 1 1 yt
6 7
6 1 0 7
6 7
6 .. .. 7
6 . . 7
6 7
6 7
6 1 0 7
4 5
1 0
2 3 2 3 1 2 P 3 2 32 P 3
n 1 1 n
^ n 1 y y
^ = 4 5=4 5 4 t=1 t 5 = 4 n 1 n 1 5 4 t=1 t 5
1 n
^ 1 1 yt n 1 n 1
yt
2 Pn 3 2 Pn 3
yt
t=1 yt t=1;t6=t yt
= 4 n 1
Pn
n 1 5=4 n 1 5: (6.7)
1 n n
n 1 t=1 yt + n
y
1 t n 1
(y yt )
Tem-se
h i h i h i h i
^ 1 1 1
E = E (X0 X) 0
X y = E (X X) 0 0
X (X + u) = 0
E (X X)
0
Xu =
2 3
h i 1 1
1 4 5:
Var ^ = 2 0
(X X) = 2 n 1 n 1
1 n
n 1 n 1
155
p
Não se verifica ^ ! porque
2 n 2
lim Var [^ ] = lim =
n!1 n!1 n 1
ou seja, ^ é centrado mas não é consistente (a precisão de ^ não melhora quando n aumenta
e depende da variância do ruído). Este resultado deve-se ao facto de ser usada apenas uma
observação para estimar . A propriedades do estimador para ^ não são afectadas.
n
^ (y yt ) n 1
^ = p = p n
Var [^ ] n 1
r
n yt y yt y
= ' :
n 1
yt y
Ora a distribuição de depende da distribuição dos erros. No caso do modelo de re-
gressão habitual, mesmo que os erros não tenham distribuição normal, o rácio-t para grandes
amostras tem distribuição aproximadamente normal, pelo teorema do limite central, e a in-
ferência habitual pode fazer-se sem problemas. No entanto, o rácio-t associado a variáveis
impulse-dummies depende da distribuição dos erros. Assim, se a distribuição dos erros é
desconhecida não é possível usar-se os testes t habituais. Mesmo que se possa usar o rácio-t
i:i:d: 2
(por exemplo, se houver garantias que ut N (0; )) o teste-t é inconsistente no seguinte
sentido: para qualquer valor crítico com nível de significância ;
156
6.5.3 Uma Solução para ensaiar H0 : =0
yt = x0t + "t
(onde x0t é um vector linha das variáveis explicativas) sem dummy e obtém-se o resíduo ^"t
associado ao momento t = t : Se este resíduo é elevado (em módulo) então é provável que
no momento t tenha ocorrido uma “quebra de estrutura”; neste caso a variável dummy d
será, em princípio, importante na explicação de y (no momento t ). Para grandes amostras
não só a estimativa ^ associada ao modelo
yt = x0t + dt + ut
X0 X p
! Q (definida positiva).
n
p p
Então a) ^ ! + ut e b) ^ =^"t ! 1:
157
Dem. Apêndice 6.G.
Um caso que conduz a conclusões incorrectas ocorre quando se usa simultaneamente impulse-
dummies com a matriz de White.
Para simplificar considere-se novamente o modelo
yt = + dt + ut ; t = 1; 2; :::; n
i:i:d: 2
onde ut N (0; ) e dt é uma impulse-dummy
8
< 1 t=t
dt =
: 0 t=
6 t:
h i
d ^ = (X0 X)
Var
1
X0 WX (X0 X)
1
n n
^ n 1
(yt y) n 1
(yt y)
^ = q = q P = q
1 n 2 ^2
d [^ ]
Var n(n 1) t=1 u
^ t n
n p yt y p yt y
= n ' n :
n 1 ^ ^
158
Embora (yt y) =^ possa ter distribuição aproximadamente N (0; 1) para amostras grandes
p
n (yt y) =^ não têm certamente distribuição N (0; 1) : Se (yt y) =^ tem distribuição
p
aproximadamente normal então n (yt y) =^ terá distribuição N (0; n) : Este resultado
sugere que se for usada a matriz de White numa amostra razoavelmente grande, qualquer
impulse-dummy é sempre interpretada como significativa à luz da distribuição habitual do
p
rácio-t (observe-se n (yt y) =^ ! 1 quando n ! 1).
6.5.5 Conclusão
Exemplo 6.5.1 Suponha-se que se pretende analisar o efeito de um anúncio público no dia
t sobre as cotações da empresa ABC. Suspeita-se que o efeito é positivo sobre a empresa
ABC e nulo ou irrelevante para o mercado. Pretende-se, assim, verificar se o valor esperado
do retorno da empresa ABC no dia t é positivo. Suponha-se ainda que, nesse dia t , o
mercado em geral observou uma forte queda. Para testar esse efeito uma possibilidade
consiste em considerar a regressão
rt = 0 + d t + ut
Contudo, poderá suceder, atendendo à quebra do mercado, que venha negativo ou não
significativo. Concluir-se-ía que o anúncio teve um impacto negativo ou nulo sobre o retorno
da empresa ABC. Mas esta conclusão pode ser errónea porque o efeito do mercado não é
159
levado em conta. Assim, é necessário controlar ou fixar o efeito do mercado através da
regressão
rt = 0 + 1 rt;m + d t + ut
6.6 Previsão
6.6.1 Introdução
Que propriedades devemos exigir a um previsor para yn+h ? Seja ~ n+h;n um previsor para
yn+h . Devemos exigir:
Para não haver “batota” o previsor ~ n+h;n para yn+h deve ser Fn -mensurável, isto é, se
prevemos y para o instante n+h e o momento em que efectuamos a previsão é n; só podemos
utilizar informação até n.
Em certos casos podemos permitir algum enviesamento do estimador desde que outras
propriedades mais do que compensem esse enviesamento. Na figura 6-14, qual é o previsor
preferível? O previsor 1 é enviesado; o previsor 2 não é. No entanto, o previsor 1 parece
preferível pois os erros de previsão são, na maior parte das vezes, inferiores.
Seja e~ (h) = yn+h ~ n+h;n o erro de previsão. O erro quadrático médio (EQM) de
previsão E e~ (h)2 pondera os três aspectos acima expostos: enviesamento, variabilidade e
160
12
10
8
Observado
6 Previsor 1
Previsor 2
4
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
2 2 2
E e~ (h) = E (yn+h ) E ~ n+h;n +( y ~) +2 y 1 y;~ : (6.8)
E (yn+h j Fn )
i.e., verifica-se
2 2
E (yn+h E (yn+h j Fn )) E yn+h ~ n+h;n
161
onde ~ n+h;n 2 Fn é um outro qualquer previsor Fn -mensurável.
para E (yn+h j Fn ) : A proposição 6.6.1 permite concluir que o previsor E (yn+h j Fn ) min-
imiza os três termos do lado direito da equação (6.8), no conjunto de todos os previsores
Fn -mensuráveis; em particular, o primeiro termo é zero.
Recorda-se do capítulo 4 que
2 2
E (yn+h E (yn+h j G)) E (yn+h E (yn+h j H)) ; H G.
Tendo em conta a proposição 6.6.1, vamos utilizar como previsor para yn+h a expressão
E (yn+h j Fn ) : O procedimento geral para obter a previsão pontual de yn+h é:
2. Calcular E (yn+h j Fn ) :
MA(2)
Previsão a um passo h = 1
yn+1 = + 1 un + 2 un 1 + un+1
Tem-se
E (yn+1 j Fn ) = + 1 un + 2 un 1
162
Tem-se
E (yn+2 j Fn ) = + 2 un :
Tem-se
E (yn+h j Fn ) =
MA(q)
Deixa-se como exercício verificar:
8
< Pq
+ i=h i un+h i para h = 1; :::; q
E (yn+h j Fn ) =
: para h = q + 1; :::
AR(1)
Na previsão dos processos AR, é útil considerar-se a previsão já realizada nos passos
intermédios. Considere-se novamente a notação n+h;n (igual por definição a E (yn+h j Fn )):
Previsão a um passo h = 1
yn+1 = c + 1 yn + un+1
Previsão a h passos
yn+h = c + 1 yn+h 1 + un+h
163
n+h;n = E (yn+h j Fn )
Observação 6.6.1 Podemos reescrever a equação (6.9) como função do valor observado em
n: Por exemplo, a previsão a dois passos (h = 2) é
n+2;n = c+ 1 n+1;n
= c+ 1 (c + 1 yn )
2
= c+c 1 + 1 yn :
n+3;n = c+ 1 n+2;n
2
= c+ 1 c+c 1 + 1 yn
2 2
= c+c 1 +c 1 + 1 yn :
2 h 1 h
n+h;n =c+c 1 +c 1 + ::: + c 1 + 1 yn : (6.11)
Do ponto de vista prático é irrelevante prever o modelo com base no modelo (6.9) ou com
base em (6.11), pois as expressões são equivalentes. No âmbito dos modelos dinâmicos,
a equação (6.9) designa-se por equação às diferenças finitas linear de primeira ordem (a
equação de juros compostos é também uma equação do tipo) cuja solução, dada a condição
164
inicial n;n = yn ; é precisamente a equação (6.11). Atendendo a que
h
2 h 1 1
1+ 1+ 1 + ::: + 1 = (soma de uma progressão geométrica)
1
2 h 1 h
n+h;n = c 1+ 1 + 1 + ::: + 1 + 1 yn
h
1 h
= c + 1 yn : (6.12)
1
AR(2)
Previsão a um passo h = 1
yn+1 = c + 1 yn + 2 yn 1 + un+1
n+1;n = E (yn+1 j Fn )
= E (c + 1 yn + 2 yn 1 + un+1 j Fn ) = c + 1 yn + 2 yn 1
n+2;n = E (yn+2 j Fn )
= c+ 1 n+1;n + 2 yn
165
Dependent Variable: Y
Sample: 3 1000
Included observations: 998
Variable Coefficient Std. Error t-Statistic Prob.
C 10.81186 1.196611 9.035402 0.0000
Y(-1) 0.469309 0.030095 15.59406 0.0000
Y(-2) 0.314900 0.030098 10.46238 0.0000
R-squared 0.521901 Mean dependent var 50.10264
Adjusted R-squared 0.520940 S.D. dependent var 0.722051
S.E. of regression 0.499762 Akaike info criterion 1.453631
Sum squared resid 248.5130 Schwarz criterion 1.468378
Log likelihood -722.3618 F-statistic 543.0800
Durbin-Watson stat 2.010668 Prob(F-statistic) 0.000000
n+h;n = E (yn+h j Fn )
Exemplo 6.6.1 Estimou-se um processo AR(2), cujos resultados estão apresentados na figura
6-15.
Tem-se n = 1000 e sabe-se que yn 1 =50.4360, yn =50.0207. Pretende-se obter uma
previsão para y para os período 1001, 1002 e 1003 (previsão a um passo, a dois passos e a
três passos).
Previsão a um passo:
n+1;n = c+ 1 yn + 2 yn 1
n+2;n = c+ 1 n+1;n + 2 yn
166
Previsão a três passos:
AR(p)
Previsão a um passo h = 1
= c+ 1 yn + ::: + p yn+1 p
n+h;n = E (yn+h j Fn )
ARMA(1; 1)
167
Previsão a um passo h = 1
yn+1 = c + 1 yn + un+1 + 1 un
n+1;n = E (yn+1 j Fn )
= E (c + 1 yn + un+1 + 1 un j Fn )
= c+ 1 yn + 1 un
n+2;n = E (yn+2 j Fn )
= c+ 1 n+1;n
n+h;n = E (yn+h j Fn )
= c+ 1 n+h 1;n
Vimos até agora a chamada previsão pontual. Vamos agora estabelecer um intervalo de
confiança, IC, (ou de previsão) para yn+h : Um IC para yn+h a 95% baseia-se na probabilidade
168
O intervalo de confiança é portanto (l1 ; l2 ) ; ou seja, yn+h estará no intervalo (l1 ; l2 ) com 0.95
de probabilidade dado Fn . Como determinar l1 e l2 ? Assuma-se que
ou seja,
yn+h E (yn+h j Fn )
Z= p Fn N (0; 1) :
Var (yn+h j Fn )
Tem-se assim,
e, portanto,
l1 E (yn+h j Fn ) p
p = 1:96 ) l1 = E (yn+h j Fn ) 1:96 Var (yn+h j Fn )
Var (yn+h j Fn )
l2 E (yn+h j Fn ) p
p = 1:96 ) l2 = E (yn+h j Fn ) + 1:96 Var ( yn+h j Fn )
Var (yn+h j Fn )
p
E (yn+h j Fn ) 1:96 Var ( yn+h j Fn ):
p
E (yn+h j Fn ) z1 =2 Var (yn+h j Fn )
p
n+h;n 1:96 Var (e (h)): (6.13)
169
Na prática n+h;n é desconhecido, pois envolve parâmetros desconhecidos. Em lugar de
n+h;n devemos usar ^ n+h;n (por exemplo, na previsão a um passo do modelo AR(1), em
lugar de n+1;n = c+ 1 yn deve-se considerar ^ n+1;n = c^ + ^ 1 yn ): A substituição de
n+h;n por ^ n+h;n aumenta a variância do erro de previsão numa quantidade proporcional
a 1=n (no apêndice 6.H discute-se esta questão). Para amostra grandes pode-se assumir
1=n ' 0 e, assim, podemos continuar a usar a expressão (6.13), substituindo os parâmetros
desconhecidos pela respectivas estimativas consistentes. Vamos ver alguns exemplos.
MA(2)
Previsão a um passo h = 1
yn+1 = + 1 un + 2 un 1 + un+1
Tem-se
E (yn+1 j Fn ) = + 1 un + 2 un 1
2
en (1) = yn+1 E (yn+1 j Fn ) = un+1 N 0; :
2
Logo Var (en (1)) = e, assim, um IC a 95% é
p
+ 1 un + 2 un 1 1:96 Var (en (1)) i.e.,
+ 1 un + 2 un 1 1:96
Tem-se
E (yn+2 j Fn ) = + 2 un
2 2
yn+2 E (yn+2 j Fn ) = 1 un+1 + un+2 N 0; 1 +1
2 2
Logo Var (en (2)) = 1 +1 e, assim, um IC a 95% é
q
2 2
+ 2 un 1:96 1 +1
170
Dependent Variable: Y
Method: Least Squares
Sample(adjusted): 1950:04 2005:05
Included observations: 662 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 10.01857 0.042397 236.3054 0.0000
MA(1) 0.373267 0.037900 9.848702 0.0000
MA(2) -0.231256 0.037917 -6.099047 0.0000
R-squared 0.162759 Mean dependent var 10.01838
Adjusted R-squared 0.160218 S.D. dependent var 1.042205
S.E. of regression 0.955072 Akaike info criterion 2.750462
Sum squared resid 601.1155 Schwarz criterion 2.770833
Log likelihood -907.4029 F-statistic 64.05464
Durbin-Watson stat 2.002569 Prob(F-statistic) 0.000000
Inverted MA Roots .33 -.70
Exemplo 6.6.2 Estimou-se um MA(2) (dados mensais), cujos resultados estão apresentados
na figura 6-16. A última observação, yn ; reporta-se ao período 2005:05 (Maio de 2005, na
notação do EVIEWS). Tem-se ainda a seguinte informação: u^n 1 = 0:655 e u^n = 0:055:
As estimativas dos parâmetros são13 :
^1 = 0:37326; ^2 = 0:231256:
Pretende-se um intervalo de previsão para 2005:6 (yn+1 ) e 2005:7 (yn+2 ) a 95%, supondo
inovações (erros) normais. Previsão a um passo:
n+1;n = + 1 un + 2 un 1
= 10:191
13
O output do EVIEWS apresenta as raízes invertidas do polinómio MA. Desta forma, o modelo é invertível
sse as raízes invertidas são em módulo inferiores a um. Como as raízes são em módulo inferiores a um conclui-
se que o processo é invertível. Outra forma de chegarmos a esta conclusão consiste em verificar se as seguintes
condições são válidas:
1+ 2 > 1; 1 2 < 1; 1 < 2 < 1:
Também por aqui se conclui que o modelo é invertível verificando as desigualdades:
^1 + ^2 = 0:37326 0:231256 > 1;
^1 ^2 = 0:37326 + 0:231256 < 1;
1 < 0:231256 < 1:
171
13
12
11
10
7
2005:06 2005:07
YF ± 2 S.E.
+ 1 un + 2 un 1 1:96
n+2;n = + 2 un
^ n+2;n = ^ + ^2 un
= 10:005
q
2 2
+ 2 un 1:96 1+1
p
10:005 1:96 (0:373262 + 1) 0:9550722 ou (8:01; 12:00) :
No EVIEWS o gráfico da previsão a dois passos é dada pela figura 6-17 (há uma ligeira
diferença entre os IC acima calculados e os IC fornecidos pelo EVIEWS. Porquê?)
MA(q)
172
Deixa-se como exercício verificar:
8
< Pq
+ i=h i un+h i para h = 1; :::; q
E (yn+h j Fn ) =
: para h = q + 1; :::
X
h 1
en (h) = yn+h E (yn+h j Fn ) = i un+h i , ( 0 = 1)
i=0
Tem-se
X
h 1
2
E e2n (h) = 2
i (6.14)
i=0
AR(1)
A determinação dos intervalos de previsão não é imediata nos processos AR e ARMA
em geral.
Previsão a um passo h = 1
yn+1 = c + 1 yn + un+1
n+1;n = E (yn+1 j Fn )
= E (c + 1 yn + un+1 j Fn ) = c + 1 yn
en (1) = un+1
n+2;n = E (yn+2 j Fn )
173
en (2) =?
A expressão E (yn+h j Fn ) pode ser obtida recursivamente como vimos no caso AR(p) com
h = 2 : Agora interessa-nos representar E (yn+h j Fn ) numa outra forma equivalente para
que possamos obter en (h) :
Como
X
1
yn+h = j un+h j
j=0
tem-se
E (yn+h j Fn )
!
X1
= E j un+h j Fn
j=0
= h un + h+1 un 1 + :: :
174
Logo
h un h+1 un 1 :::
Portanto,
E (en (h)) = 0
X
h 1
2
Var (en (h)) = E e2n (h) = 2
j; 0 =1 (6.16)
j=0
Dependent Variable: Y
Sample: 3 1000
Included observations: 998
Variable Coefficient Std. Error t-Statistic Prob.
C 10.81186 1.196611 9.035402 0.0000
Y(-1) 0.469309 0.030095 15.59406 0.0000
Y(-2) 0.314900 0.030098 10.46238 0.0000
R-squared 0.521901 Mean dependent var 50.10264
Adjusted R-squared 0.520940 S.D. dependent var 0.722051
S.E. of regression 0.499762 Akaike info criterion 1.453631
Sum squared resid 248.5130 Schwarz criterion 1.468378
Log likelihood -722.3618 F-statistic 543.0800
Durbin-Watson stat 2.010668 Prob(F-statistic) 0.000000
Vimos:
^ n+1;n = 50:169; ^ n+2;n = 50:108; ^ n+3;n = 50:126:
Sabendo que
1
= 1 + 0:469L + 0:535L2 + 0:399L3 + :::
1 0:469309L 0:31490L2
175
geral do IC a 95% (com erros Gaussianos) é dada pela expressão
p
E (yn+h j Fn ) 1:96 Var (en (h))
ou
p
n+h;n 1:96 Var (en (h))
ou q
^ n+h;n d (en (h))
1:96 Var
No caso dos modelos MA a expressão Var (en (h)) determina-se facilmente, como vimos
atrás. No caso dos modelos AR (ou ARMA) temos de usar a expressão (6.16)
X
h 1 X
h 1
Var (en (h)) = 2 2 d (en (h)) = ^ 2
ou Var ^2
j j
j=0 j=0
X
1 1 X
0
d (en (1)) = ^ 2
Var ^ 2 = ^2 ^ 2 = ^2 ^ 2 = ^2:
j j 0
j=0 j=0
Assim
p
^ n+1;n 1:96 ^ 2
176
Ora ^ n+2;n = 50:108 e
X
2 1
d (en (2)) =
Var ^ 2 ^ 2 = ^2 1 + ^ 2
j 1
j=0
Assim
q
^ n+2;n d (en (2))
1:96 Var
p
50:108 1:96 0:30470:
X
3 1
d (en (2)) =
Var ^2 ^ 2 = ^2 1 + ^ 2 + ^ 2
j 1 2
j=0
= 0:37619:
Assim
q
^ n+3;n d (en (3))
1:96 Var
p
50:126 1:96 0:37619:
Previsão de longo prazo significa tomar h muito alto. Qual é a previsão de yn+h quando
h ! 1? Isto é, qual o valor de
lim E (yn+h j Fn )?
h!1
177
disponível apenas a informação do retorno de hoje). Assim, nestas condições, E (yn+h j Fn )
é praticamente igual a E (yn+h ) (quer dizer, podemos dispensar Fn ). Tudo isto é verdade se,
obviamente, o processo for estacionário.
Assim, se o processo for estacionário tem-se
Outra questão tem a ver com os intervalos de previsão. Vimos que os intervalos de previsão
dependem da variância do erro de previsão
X
h 1
2 2
Var (en (h)) = j
j=0
1
onde i são os coeficientes que se obtêm da relação p (L) q (L) ; Recorde-se,
X
1
1
yt = p (L) q (L) ut = j ut j :
j=0
2
Ph 1 2
Qual é o valor da expressão Var (en (h)) = j=0 j quando h tende para 1? Temos de
avaliar
X
h 1
2 2
lim j:
h!1
j=0
P1 2
Se o processo y é ESO pode-se provar que j=0 j é finito14 e, portanto, Var (en (1)) é
14
Vimos em que condições se estabelece a estacionaridade. Outra forma alternativa consiste em considerar
a representação MA(1) do ARMA. Vimos
1
X
1
yt = p (L) q (L) ut = j ut j :
j=0
Tem-se
E (yt ) = 0
0 1
X1 1
X
Var (yt ) = Var @ j ut j
A= 2 2
j
j=0 j=0
P1 P1
Assim se y é E2O devemos ter Var (yt ) = 2 j=0 2j < 1: Logo devemos exigir j=0 2
j < 1 e, portanto,
P1 2
j=0 j < 1 é condição necessária para que y seja estacionário. Nestas condições
h
X1
2
Var (en (h)) = E e2n (h) = 2
j ! Var (yt ) :
j=0
178
finito. Para que valor tende? Pode-se provar (veja-se o último pé-de-página) que
yt = yt 1 + ut + 1 ut 1 :
A previsão a um passo é
n+1;n = E (yn+1 j Fn ) = yn + 1 un :
A dois passos é
= E (yn+1 j Fn ) = yn + 1 un
A h passos é
n+h;n = yn + 1 un :
2
Ph 1 2
Calcule-se agora a variância do erro de previsão Var (en (h)) = j=0 j: Temos de
calcular os i e, para o efeito, começamos por reescrever o processo na forma
(1 L) yt = (1 + 1 L) ut ou
(1 + 1 L)
yt = ut
1 L
179
Para determinar i:
(1 + 1 L)
= 1 + 1 L + 2 L2 + :::
1 L
1 + 1 L = 1 + 1 L + 2 L2 + ::: (1 L)
2 2 3
= 1 L+ 1L 1L + 2L 2L + :::
2
= 1+( 1 1) L + ( 2 1) L + :::
Resulta: 8 8
>
> = 1 >
> =1+
>
> 1 1 >
> 1 1
>
> >
>
< 0= < =1+
2 1 2 1
,
>
> 0= 3 >
> =1+
>
> 2 >
> 3 1
>
> >
>
: ::: : :::
e, portanto,
X
h 1
2 2
Var (en (h)) = j
j=0
2 2 2
= 1 + (1 + 1) + ::: + (1 + 1)
2 2
= 1 + (h 1) (1 + 1)
180
Out-of sample
forecast
In-sample estimation period evaluation period
1 t1 n
Figura 6-18: In-Samples Estimation Period vs. Out-of Sample Forecast Period
disponíveis sejam y1 ; :::; yt1 ; :::; yn o modelo é estimado apenas para o período de 1 a t1 :
Com base no modelo estimado no período in-sample estimation, geram-se depois as pre-
visões para o período out-of sample forecast e, finalmente comparam-se as previsões com
os valores observados mas não utilizados na estimação. O esforço de previsão no período
pós-estimação é equivalente ao de uma previsão verdadeira15 .
Seja
yho = yt1 +h
(com t1 + h = n).
Avaliação da Previsão I
Tendo-se calculado os erros e (1) ; e (2) ; :::; e (h) ; podemos agora avaliá-los através das
seguintes medidas:
Erro Médio de Previsão
1X o 1X
h h
EM P = (y yip ) = e (h)
h i=1 i h i=1
15
Também se definem as previsões in-sample forecast. Tratam-se de previsões geradas no período de esti-
mação do modelo. Por exemplo, previsões a h-passos
E ( yt+h j Ft ) ; t+h t1 :
O esforço de previsão é baixo porque o modelo de previsão usa estimativas ^ baseadas nas observações
y1 ; :::; yt1 (a qualidade da previsão a um passo, h = 1; pode ser avaliada através dos critérios habituais de
ajustamento R2 ; ^ ; etc.).
A avaliação da qualidade da previsão deve basear-se nas previsões out-of-sample.
181
Raiz do Erro Quadrático Médio (REQM ou RMSE)
v v
u h u h
u1 X u1 X
REQM = t (y o yi ) = t
p 2
e (h)2
h i=1 i h i=1
1X o 1X
h h
EAM = jy yip j = je (h)j
h i=1 i h i=1
Coeficiente de Theil
REQM
U=q P q P ; 0 U 1
1 h p 2 1 h o 2
h i=1 (y i ) + h i=1 (y i )
EQM penaliza fortemente os erros maiores. A grande maioria das previsões pode ser ex-
celente mas o EQM pode ser alto se existir uma previsão má ou muito má. O EAM não
é tão severo neste aspecto. Se a grande maioria das previsões for boa então o EAM vem
relativamente baixo.
Relativamente ao coeficiente de Theil, quanto mais baixo U melhor é a previsão. O
caso U = 1 é o pior cenário (por exemplo, prever sistematicamente zero quando os valores
observados são diferentes de zero, ou prever sempre valores positivos quando os valores
observados são sempre negativos, etc.).
As estatísticas anteriores avaliam a magnitude do erro de previsão e, com excepção do
EMP, não levam em conta se o erro de previsão é positivo ou negativo. Em certos casos, o
sinal do erro de previsão é importante. Para ilustrar esta situação, considere-se o seguinte
exemplo. Seja y a hora de partida do avião, y p a previsão da hora de chegada ao aeroporto
(para embarcar) e e = y y p o erro de previsão. Se e > 0; ele ou ela chega adiantado; se
e < 0 chega atrasado e perde o avião. Como poderemos avaliar o erro de previsão? Função
quadrática do tipo EQM? (penalizar de igual forma chegar cedo ou tarde?). Uma função de
182
avaliação poderia ser 8
< 999 e < 0
L (e) = (6.17)
: ke e > 0; k > 0:
Assim, chegar atrasado envolveria uma “perca” de 999 (valor que supomos muito alto), ao
passo que chegar adiantado e unidades de tempo, envolveria uma “perca” proporcional a e
(supondo 999 > ke). Uma estatística de avaliação da qualidade da previsão baseada em
(6.17) é
1X
h
999Ife(i)<0g + ke (i) Ife(i)>0g : (6.18)
h i=1
Observe-se: se a previsão é correcta yhp e yho apresentam o mesmo sinal e, portanto, o produto
yhp yho é positivo. Uma estatística de avaliação da qualidade da previsão baseada em (6.19) é
1X
h
I p o : (6.20)
h i=1 fyi yi <0g
A equação (6.20) representa a proporção de previsões com sinal incorrecto. Pode-se preferir,
todavia, trabalhar com a proporção de previsões com sinal correcto:
1X
h
P P SC = I p o :
h i=1 fyi yi >0g
Avaliação da Previsão II
Os erros de previsão podem devem-se, basicamente, às seguinte razões:
As previsões estão quase sempre acima ou abaixo dos valores observados (exemplo:
valores observado: 10, 11, 9, 12; previsões: 15, 16, 13, 16);
183
plo: valores observados: 10, 11, 9, 12; previsões: 2, 18, 5, 20).
1X o 1X p
h h
s2o = (y o 2
y ) ; s2p = (y y p )2
h i=1 i h i=1 i
Ph
1
h i=1 (yio y o ) (yip yp)
r=
s0 sp
e defina-se
(y o y p )2 (so sp )2 2 (1 r) s0 sp
UE = ; UV = ; UC = ;
EQM EQM EQM
184
Observado Modelos de Previsão erro quadráticos de previsão
h y yp1 yp2 yp3 modelo1 modelo2 modelo3
1 1 2 2 1 1 1 0
2 2 3 3 3 1 1 1
3 3 2 3 4 1 0 1
4 2 4 4 4 4 4 4
5 4 4 5 7 0 1 9
6 5 5 6 2 0 1 9
7 6 5 7 9 1 1 9
8 7 7 8 3 0 1 16
9 5 4 9 9 1 16 16
10 9 10 10 11 1 1 4
Média 4.4 4.6 5.7 5.3 1 2.7 6.9
Variância 5.64 5.24 6.81 10.61 1.2 20.61 31.29
corr(y,ypi) 0.9124 0.9230 0.6567
UE 0.0400 0.6259 0.1174
UV 0.0074 0.0204 0.1129
UC 0.9526 0.3537 0.7698
U 0.0986 0.1458 0.2341
12
10
8 y
yp1
6
yp2
4 yp3
0
1 2 3 4 5 6 7 8 9 10
feita nos pontos anteriores não serve porque as estatísticas REQM, Coeficiente de Theil,
etc., avaliam a qualidade da previsão a vários passos, ponderando de igual forma esses erros.
Como fazer? Para avaliar a qualidade da previsão a 5 passos fazemos variar t1 (veja-se a
figura 6-18). Podemos ainda ter a chamada “previsão recursiva” (recursive forecasting) ou a
“janela móvel” (rolling window). Exemplifica-se a seguir.
Recursive forecasting
Rolling window
185
Em ambos os casos, em cada iteração, faz-se sempre uma previsão a 5 passos. Todavia,
com o método rolling window, o período de estimação contém sempre 1000 observações (o
esforço de estimação é constante). Na primeira hipótese o esforço de estimação vai dimin-
uindo à media que se acrescentam mais observações no período da estimação. Ao fim de
várias iterações temos uma amostra de valores observados e valores previstos a 5 passos,
que podemos comparar usando as estatísticas já estudadas (EQM, EAM, etc.). Em termos
re
formais, seja,Yki = fyk ; yk+1 ; :::; yi g ; yh;i := E (yi+h j Y1i ) a previsão a h passos usando o
ro
método recursive forecasting, yh;i := E yi+h j Yii k ; i > k; a previsão a h passos usando
o método rolling window e yio := yi+h os valores observados. Com base em s previsões
out-of-sample, podemos calcular, por exemplo,
1X o 1X o
s s
re re 2 re re
EQM (h) = y yh;i ; EAM (h) = y yh;i
s i=1 i s i=1 i
1X o 1X o
s s
2
EQM ro (h) = y ro
yh;i ; EAM re (h) = y ro
yh;i :
s i=1 i s i=1 i
Previsão no EVIEWS
A previsão no EVIEWS é definida na janela “forecast”. Para obter previsões out-of-
sample é necessário, em primeiro lugar, encurtar a amostra na fase da estimação. Para
concretizar, suponha-se que estão disponíveis 1100 observações da série y. Se o período
out-of-sample forecast for 1001-1100, o período de estimação é obviamente 1-1000. Assim,
na opção de estimação deve-se escrever na caixa “sample” 1 1000 (veja-se a figura 6.6.6).
Depois de estimado o modelo, escolhe-se a opção “forecast” e na caixa “Forecast sample”
escreve-se 1001 1100 (veja-se a figura 6-20).
A opção “Dynamic forecast” faz a previsão de y ignorando os valores observados de y no
período 1001-1100 (segue a metodologia exposta em “Avaliação da Previsão I”). Por exem-
plo, no caso da previsão AR(1) usa-se a fórmula ^ n+h;n = c^ + ^ 1 ^ n+h 1;n . A opção “Static
forecast” segue o espírito da metodologia “Recursive Forecasting vs. Rolling Window” para
h = 1 com a seguinte diferença: o período de estimação mantém sempre fixo. No exem-
186
Figura 6-20: Previsão no EVIEWS
187
plo em análise o período de estimação é sempre 1-1000. A previsão AR(1) para o período
1001 é c^ + ^ 1 y1000 ; para o período 1002 é c^ + ^ 1 y1001 ; etc. Os parâmetros estimados c^ e ^ 1
baseiam-se sempre na amostra 1-1000. Em qualquer destas opções o EVIEWS calcula várias
estatísticas a partir dos erros de previsão e (i) ; i = 1; 2; ::: Por razões óbvias a previsão para
além do período de observação da variável (no exemplo em estudo, 1101-) só pode fazer-se
usando a opção “Dynamic forecast”.
Médias Móveis
Para “tendências localmente constantes” a previsão de y; para o período n + 1; n + 2; :::,
baseada na informação fy1 ; :::; yn g é
p yn + yn 1 + ::: + yn N +1
yn+h = ; h = 1; 2; :::
N
Alisamento Exponencial
Para “tendências localmente constantes” a previsão de y; para o período n + 1; n + 2; :::
, baseada na informação fy1 ; :::; yn g é
p
yn+h = Sn ; h = 1; 2; :::
Sn = yn + (1 ) Sn 1 ; 0< <1
188
Pode-se provar que o alisamento exponencial é uma média ponderada de y1 ; :::; yn e S0 16 :
Sn = yn + (1 ) yn 1+ (1 )2 yn 2 + ::: + (1 )n 1
y1 + (1 )n S0 : (6.21)
Sn = yn + (1 ) Sn 1 :
Dem. Uma forma de provar esta afirmação consiste em mostrar que, se yt segue um
ARIMA(0,1,1)
yt = yt 1 ut 1 + ut ; t = yt 1 ut 1
então, a previsão para yn+1 pode-se escrever na forma da equação (6.21)17 . Uma demon-
stração alternativa é a seguinte. No modelo ARIMA(0,1,1) a previsão para yn+1 é E (yn+1 j Fn ) =
16
Com efeito,
Sn = yn + (1 ) Sn 1
= yn + (1 ) ( yn 1 + (1 ) Sn 2)
2
= yn + (1 ) yn 1 + (1 ) Sn 2
2
= yn + (1 ) yn 1 + (1 ) ( yn 2 + (1 ) Sn 3)
2 3
= yn + (1 ) yn 1 + (1 ) yn 2 + (1 ) Sn 3
= :::
2 n 1 n
= yn + (1 ) yn 1 + (1 ) yn 2 + ::: + (1 ) y1 + (1 ) S0 :
n+1;n = yn un
= yn (yn n)
= yn yn + n
= (1 ) yn + (yn 1 un 2)
2
= (1 ) yn + yn 1 un 2
2
= (1 ) yn + yn 1 (yn 2 un 3)
= (1 ) yn + (1 ) yn 1 + un 3
= :::
2 n 1 n
= (1 ) yn + (1 ) yn 1 + (1 ) yn 2 + ::: + (1 ) y1 + y0 :
189
n+1;n : Verifique-se agora que
t = yt 1 ut 1
= yt 1 yt 1 t 1
= (1 ) yt 1 + t 1:
n+1;n = (1 ) yn + n
Sn = yn + (1 ) Sn 1 ;
1 = 11 0 ( 0 = 1).
190
Donde,
11 = 1:
2
1 2 2 1
22 = = 2
:
1 1 1
1
1 1
1 1 1
1 1 2
3 2 2
2 1 3 3 2 1 2 + 1 + 1 2 1 3
33 = = :
1 2 21 2
2
2 2 21 + 1
1 2
1 1 1
2 1 1
Este modelo não serve para previsão pois a representação autoregressiva não está bem definida.
191
O processo (6.23) verifica:
4 4
1 = 2 = =
+1 42 +1 17
s = 0 para s > 1
4
11 = 1 = 2 =
+1 17
s 2
1 4s
ss = 2(s+1)
= 15
1 1 42s+2
Ora o processo
1 ~= 1
y~t = u~t 1 + u~t ;
4 4
tem a mesma FAC e FACP do processo y: Com efeito,
~ 1
4
~1 = ~ 11 = 2 = = =
~ +1 1 2 2
+1 17
+1
1 s 1 2
1 4s
~ = = 15 :
ss
1 2(s+1) 1 42s+2
1
Na prática, qual é o alcance deste resultado? Se não ocorrer invertibilidade na fase da es-
timação devemos definir outros valores iniciais para os parâmetros. Por exemplo, se o pro-
grama fornece como estimativa ^ = 4 devemos definir outros valores iniciais até que o
software encontre a estimativa 1=4 para o parâmetro do processo MA. Convém lembrar que
a estimação de processos MA envolve problemas de optimização não linear. Por vezes, a
solução do problema de optimização é um extremante local (e não global, como é dese-
jável). Poderão existir outros extremantes que serão detectados se definirmos outros valores
de inicialização.
192
Resolvendo 3 (L) = 0 em ordem a L (através de um qualquer software) obtêm-se as
seguintes raízes
0:42 + 1:3i; 0:42 1:3i; 1:05
Como
p
j 0:42 + 1:3ij = :422 + 1:32 > 1 , j1:05j > 1
0:1 0:5 + =0
>
>
1 2
>
: :::
Da primeira equação sai 1 = 0:5; da primeira e da segunda sai, 2 = 0:15; etc. Em suma
1
1 0:5L + 0:1L2 0:5L3 = 1 + 0:5L + 0:15L2 + 0:52 L3
e, portanto,
193
O programa EVIEWS apresenta as raízes invertidas do polinómio q (L). Nestas condições,
o processo y é invertível se as raízes invertidas q (L) forem em módulo inferiores a um (ou
dentro do circulo unitário no plano complexo). Segue-se a explicação. Suponha-se que o
polinómio MA é (L) = (1 0:2L + 0:4L2 ) : As raízes de (L):
q
jL1 j = 0:252 + ( 1:56)2 = 1:58 > 1; jL2 j = ::: = 1:58 > 1:
1 a b
= 2 i
a + bi a + b2 a2 + b2
e s
2 2
1 a b 1
= + =p :
a + bi a + b2
2 a + b2
2
a2+ b2
Conclui-se, portanto, que
p 1 1
ja + bij = a2 + b 2 > 1 , =p < 1:
a + bi a + b2
2
1
= 0:100 16 + 0:624 97i
0:25 1:56i
1
= 0:100 16 0:624 97i:
0:25 + 1:56i
194
p
Como 0:100 162 + 0:624 972 = 0:632 95 < 1 o processo yt = (L) ut é invertível. Em
suma, no programa EVIEWS as raízes invertidas q (L) devem ser em módulo inferiores a
um (ou dentro do circulo unitário no plano complexo). Veremos ainda que as raízes invertidas
do polinómio AR (L) devem também ser em módulo inferiores a um (ou dentro do circulo
unitário no plano complexo) para que o processo seja ESO.
1
= 0:225 0:696i;
0:42 + 1:3i
1 1
= 0:225 + 0:696i; = 0:952:
0:42 1:3i 1:05
Assim, no programa EVIEWS as raízes invertidas de q (L) devem ser em módulo inferiores
a um (ou dentro do circulo unitário no plano complexo). Verifique que j 0:225 0:696ij <
1; j 0:225 + 0:696ij < 1; j0:952j < 1:
t t 1 t 2
yt = yt 1 + ut = y0 + u1 + u2 + ::: + ut 1 + ut (6.24)
(tendo-se admitido que o processo teve início em t0 ). Questão: para que valores de a
média, a variância e a covariância não dependem de t? A média é
t
E (yt ) = E (E (yt j F0 )) = E (y0 ) :
t
E (yt ) = E (y0 ) = E (y0 ) :
195
t
Nada se pode dizer, por enquanto. Se j j < 1 vem E (yt ) = E (y0 ) ! 0 quando t ! 1:
Para simplificar admite-se que o processo y é inicializado em condições estacionárias i.e.,
admite-se E (y0 ) = 0: Nestas condições
t
E (yt ) = E (y0 ) = 0:
2
E yt = E E yt2 F0
t t 1 t 2 2
= E E y0 + u1 + u2 + ::: + ut 1 + ut F0
2t 2 2(t 1) 2 2(t 2) 2 2 2
= E E y0 + u1 + u2 + ::: + ut 1 + u2t + ::: F0
2t 2 2(t 1) 2 2(t 2) 2 2 2 2
= E y0 + + + ::: + +
2t 2 2 2(t 1) 2(t 2) 2
= E y0 + + + ::: + +1 :
2t
2t 21
Se = 1 vem E (yt2 ) = E (y02 )+ 2
t ! 1: Se j j > 1 vem E (yt2 ) = E (y02 )+ 1 2 !
2t 2
2t 21
1: Se j j < 1 vem E (yt2 ) = E (y02 ) + 1 2 ! 1 2 :
2
Teoricamente pode-se definir E (y02 ) 6= 1 2 e, neste caso, com j j < 1; o processo é
apenas ESO assimptoticamente. Se o processo é inicializado em “condições estacionárias”
2
i.e. E (y02 ) = 1 2 , então, no caso j j < 1; resulta imediato que
2 2t 2
2 2t 21
E yt = 2 + 2 = 2 (constante 8t).
1 1 1
yt = u1 + u2 + ::: + ut 1 + ut
196
e, assim,
= t;k
2
t;k (t k) t k k
= 2t
= =1 = t;k
0;k t t
(depende de t). Coligindo todos resultados conclui-se que a média, a variância e a covariân-
cia não dependem de t se j j < 1: Em suma,
j j < 1 , yt é ESO
(supondo que a condição inicial tem distribuição estacionária ou que o processo foi iniciado
num passado remoto).
Outra forma de analisar a questão em estudo é a seguinte18 . Considere-se novamente o
AR(1)
yt = c + yt 1 + ut
y~t = f (~
yt 1 ) = c + y~t 1 ; f (x) = c + x
Satisfeitas outras condições (ver Tong, 1990) o processo y é EE se o ponto fixo y da EDF
y~t = c + y~t 1 é assimptoticamente estável. O ponto fixo y da equação às diferenças finitas
18
Apenas para o leitor que tenha estudado o problema da estabilidade no âmbito das equações às diferenças
finitas determinísticas.
197
(determinística) é o que resulta de
y = f (y)
c
y = c+ y )y = :
1
Como se sabe, a condição jf 0 (y)j < 1 implica que y é assimptoticamente estável. Ora
f 0 (x) = : Portanto, se j j < 1; y é assimptoticamente estável e y é EE.
Pode-se também recorrer às proposições 4.5.1 e 4.5.4 notando que, no caso AR(1) a
função g é g (x) = x e imediatamente se verifica que jg (x)j < jxj se j j < 1: Nas
condições das proposições referidas, o processo é EE. É ESO se o momento de segunda
ordem existir. Facilmente se verifica que existe. Nestas condições, o processo AR(1), com
j j < 1; é EE e ESO.
Tem-se
y1;t = c + 1 yt 1 + ::: + p yt p + ut
y2;t = y1;t 1
..
.
yp;t = yp 1;t:
198
De forma compacta, tem-se uma estrutura de um processo vectorial AR(1), habitualmente
designado por VAR(1) (vector AR), yt = c + Ayt 1 +gt , i.e.
0 1 0 10 1 0 1
y1;t y ut
B C B 1 2 n 1 n CB 1;t 1 C B C
B C B CB C B C
B y2;t C B 1 0 0 0 CB y2;t 1 C B 0 C
B C B CB C+B C
B .. C = B .. .. ... .. .. CB .. C B .. C
B . C B . . . . CB . C B . C
@ A @ A@ A @ A
yp;t 0 0 1 0 yp;t 1 0
| {z } | {z }| {z } | {z }
yt A yt 1 gt
t
E (yt j F0 ) = A y0 ! 0 (vector nulo)
(isto é E (yt j F0 ) converge para a sua média marginal, se At ! O). Seja = diag ( 1 ; :::; n)
a matriz dos valores próprios de A e P a matriz dos vectores próprios associados (admitem-
se linearmente independentes). Como se sabe da álgebra linear, verifica-se a igualdade
t
At = P P 1 . Logo devemos exigir que todos os valores próprios de A sejam em mó-
dulo menores do que um. Só nestas condições se tem At ! O: Pode-se provar que esta
condição é equivalente à seguinte: o processo AR(p) é estacionário sse as raízes da equação
199
yt Frequência S
Entrada de Turistas Mensal 12
Entrada de Turistas Trimestral 4
Retornos de um Título Diários 5
0.03
0.02
0.01
0.00
-0.01
-0.02
1980 1981 1982 1983 1984 1985
yt 12 “alto”) yt “alto”
yt 12 “baixo”) yt “baixo”
yt = 1 yt 12 + ut ; ou
yt = 1 yt 12 + 1 yt 24 + ut :
Processo AR(P)S
AR(2)S yt = 1 yt S + 2 yt 2S + ut
S 2S PS
1 1L 2L ::: PL yt = ut
P LS yt = ut :
200
Para um AR(1)S , yt = 1 yt S + ut , deixa-se como exercício verificar que
X
1
j
yt = 1 ut jS ; E (yt ) = 0;
j=0
X
1
2j
2
2 2
Var (yt ) = 1 = 2
( = Var (ut ) ),
j=0
1 1
X
1 X
1
j
i
Cov (yt ; yt+1 ) = 1 1 E (ut iS ut+1 jS ) =0
i=0 j=0
Cov (yt ; yt+2 ) = Cov (yt ; yt+3 ) = Cov (yt ; yt+S 1 ) = 0
X1 X1 X1
1
i j+1 2 j j+1 2
Cov (yt ; yt+S ) = 1 1 E (ut iS ut jS ) = 1 1 = 2
:
i=0 j=0 i=0
1 1
Donde 8
< m
k = mS; m = 0; 1; 2; :::
1
k =
: 0 k 6= mS; m = 0; 1; 2; :::
Processo MA(Q)S
201
MA(2)S yt = 1 ut S 2 ut 2S + ut ;
S 2S Qs
yt = 1 1L 2L ::: QL ut
yt = Q LS ut
E (yt ) = 0;
2 2 2
Var (yt ) = 1+ 1 ( = Var (ut ) ).
p (L) P LS y t = q (L) Q LS ut
202
Exemplo 6.F.1 Modelo ARMA(2,1)(1,0)12
2 12
1 1L 2L 1 1L yt = (1 + 1 L) ut
2 12 13 14
1 1L 2L 1L + 1 1L + 2 1L yt = ut + 1 ut 1
yt = 1 yt 1 + 2 yt 2 + 1 yt 12 1 1 yt 13 2 1 yt 14 + ut + 1 ut 1
1 1
^ = (d0 Md) d0 My; M=I X (X0 X) X0
1
= (d0 Md) d0 M (X 1 + d + u)
1
= + (d0 Md) d0 Mu:
1
Analise-se a convergência em probabilidade dos termos (d0 Md) e d0 M u (note-se que
p p p
^ ! e^ ! implica ^^ ! ). Tem-se
1
d0 Md = d0 I X (X 0 X) X0 d
1
= d0 d d0 X (X 0 X) X0 d
1
= 1 x0t (X0 X) xt
1
x0t X0 X
= 1 xt :
n n
X0 X 1 p
Tendo em conta que x0t =n ! 0 e n
!Q 1
facilmente se conclui que
p
d0 Md ! 1: (6.25)
203
Por outro lado,
1
d0 Mu = d0 I X (X0 X) X0 u
1
= d0 u d0 X (X0 X) X0 u
1
X0 X X0 u
= ut d0 X
n n
p
d0 Md ! ut : (6.26)
1 p
^ = + (d0 Md) d0 Mu ! + ut :
b) Considere-se
y=X 0 + "; ^"t = d0 My:
Tem-se
! 1
1
x0t XX 0
^ = 1 xt d0 My
n n
! 1
1
x0t X0 X
= 1 xt ^"t
n n
e, !
1 1
^ x0t X0 X
= 1 xt :
^"t n n
^ p
Resulta "t
^
!1
204
Quando n+h;n é desconhecido, a variável yn+h definida em
deve ser centrada usando-se ^ n+h;n (e não n+h;n ) Observe-se que a variável yn+h ^ n+1;n
continua a possuir distribuição normal de média zero. No entanto, a variância de yn+h
^ n+1;n é agora,
(observe-se que yn+h n+h;n é independente de ^ n+h;n n+h;n ; pois yn+h n+h;n envolve
apenas erros aleatórios posteriores a n; enquanto ^ n+h;n n+h;n envolve variáveis até ao
período n). Como consequência, o IC a 95% construído a partir de ^ n+h;n é
q
^ n+h;n 1:96 Var (e (h)) + Var ^ n+h;n n+h;n Fn :
Pode-se provar que Var ^ n+h;n n+h;n Fn é uma quantidade de ordem O (1=n); assim,
para amostra grandes, Var ^ n+h;n n+h;n Fn é uma quantidade “pequena” quando com-
parada com Var (e (h)) e pode ser negligenciada. A quantidade Var ^ n+h;n n+h;n Fn
pode ser estimada a partir de uma equação auxiliar. Para exemplificar considere-se a previsão
a um passo de um AR(1). A estimativa de c da equação
yt = c + 1 (yt 1 yn ) + ut
fornece uma estimativa para n+1;h (i.e., fornece ^ n+1;n ) pois y^n+1 = c^ + ^ 1 (yn yn ) = c^:
Por outro lado, o erro padrão de c^ = ^ n+1;n é uma estimativa para
205
6.I UE + UV + UC = 1
Veja-se em primeiro lugar que o EQM pode-se decompor em várias parcelas. Considere-se:
1X o
h
EQM = (y yip )2
h i=1 i
1X o
h
= (y yo + yo yip + y p y p )2
h i=1 i
1X o
h
= ((yi yo) (yip y p ) + (y o y p ))2
h i=1
1X o 1X p
h h
= (y o 2
y ) + (y y p )2
h i=1 i h i=1 i
| {z } | {z }
2 2
o p
1X o
h
+ (y o y p )2 2 (y y o ) (yip yp)
h i=1 i
| {z }
0 p
= 2
o + 2
p + (y o y p )2 2 0 p
2
= ( o p) + (y o y p )2 + 2 (1 ) 0 p
Assim
2
EQM = ( o p) + (y o y p )2 + 2 (1 ) 0 p
EQM
1 =
EQM
2
( o p) (y o y p )2 2 (1 ) 0 p
= + +
EQM EQM EQM
| {z } | {z } | {z }
UV UE UC
206
Capítulo 7
7.1 Introdução
Ao longo das últimas décadas os modelos ARMA têm dominado a abordagem de séries tem-
porais (os primeiros trabalhados datam de 1927 com os modelos autoregressivos estudados
por Yule). Existem razões para o sucesso dos modelos ARMA Gaussianos:
não são apropriados para dados que exibam súbitas alterações em períodos irregulares;
207
não são apropriados para dados que exibam forte assimetria e achatamento;
não modelam dados que exibam “soluções periódicas estáveis”. Retomaremos este
tema mais à frente.
k
P (jyj > c) O c
A expressão anterior estabelece que P (jyj > c) é proporcional (ou menos do que propor-
cional) a c k . Como c k
tende para zero quando c ! 1; P (jyj > c) tende também para
zero nas mesmas condições, e relativamente depressa se k é uma valor alto. Logo, a possi-
bilidade de jyj assumir um valor arbitrariamente grande é praticamente nula. Se y possuir
apenas o primeiro ou segundo momento, P (jyj > c) continua a tender para zero, mas a uma
taxa muito mais baixa, e y pode assumir valores “moderadamente” altos. A existência de
todos os momento como no caso do modelo ARMA Gaussiano, pode, em certos casos, não
ser uma propriedade desejável, pois em última análise impede que o modelo capte dados que
exibam súbitas alterações, excluindo portanto, os casos em que y assume transitoriamente
valores muito altos ou muito baixos.
Enquanto os modelos lineares são definidos apenas pela representação ARMA, o número
de especificações não lineares é virtualmente infinito. Embora a literatura dos modelos não
lineares esteja ainda na sua infância, existem já muitos modelos não lineares propostos na
literatura. Vamos apenas focar alguns modelos não lineares mais utilizados. Mas afinal, o
que é um modelo não linear?
208
Uma forma simples (mas não geral) de introduzir modelos não lineares consiste em ap-
resentar a não linearidade através dos momentos condicionais. Considere-se o modelo
yt = t + ut ; ut = t "t
yt = yt 1 + log 1 + yt2 1 + ut
tem-se um processo não linear na média, pois, t = yt 1 + log 1 + yt2 1 é uma função
não linear de yt 1 : Também
y t = u t 1 ut 2 + ut
existem alterações bruscas e inesperadas nas trajectórias dos processos (e.g., ataques
especulativos, crashes bolsistas, anúncios públicos de medidas do governo, eventos
políticos e, em geral, eventos extraordinários não antecipados).
1
Dizemos que uma função é não linear se não for uma função linear afim, i.e., se não verificar a relação
f (x1 ; :::; xn ) = a0 + a1 x1 + ::: + an xn , onde ai 2 R:
209
ausência de reversão para uma média. Outro exemplo é a taxa de inflação no período
1974-2006 (basta verificar os níveis de inflação e volatilidade nos anos 70/80 e nos
anos 90).
Para este tipo de fenómenos, os modelos com alterações (estocásticas) de regime (ou
regime-switching) podem ser, no essencial, de dois tipos:
Antes de entrarmos nos processos estocásticos não lineares, faz-se, na próxima secção,
uma breve incursão sobre os sistemas autónomos do tipo
yt = g (yt 1 )
2
O domínio de g poderá ser S Rm mas neste caso devemos exigir que S g (S) (suponha-se que esta
condição não se verifica - então poderia suceder que 2 S e y1 = g ( ) 2
= S e não seria possível agora
continuar com y2 = g (y1 ) = g (g ( )) pois g ( ) 2
= S).
210
7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares
Definição 7.2.1 (Ponto Fixo de f ) Um vector y é designado por ponto fixo de g se g (t; y) =
y; para todo o t.
No ponto fixo o sistema dinâmico discreto não varia (está em equilíbrio). Com efeito,
se yt 1 = y e y é um ponto fixo, a variação da solução, yt ; é nula, i.e., y t = yt
yt 1 = g (yt 1 ) yt 1 = y y = 0:
Por exemplo, considere-se y0 = 2 e a equação às diferenças finitas (EDF)3 yt = (1=2) yt 1 +
1 (note-se m = 1). Iterando a equação é fácil verificar que y1 = 2; y2 = 2; ::: Logo y = 2 é
o ponto fixo de g (x) = (1=2) x + 1: Para calcular o ponto fixo de g basta resolver a equação
(1=2) y + 1 = y em ordem a y:
Tem-se, portanto 00 11 0 1
x1 x2
g @@ AA = @ A
x2
x2 x1
com domínio 80 1 9
< x =
@ 1 A 2 R2 : x1 6= 0 :
: x ;
2
3
O ramo da matemática que estuda a dinâmica de sistemas determísticos usa, por vezes, uma linguagem um
pouco diferente da que estamos habituados. Por exemplo, a equação yt = yt 1 é designada por equação às
diferenças finitas homogénas de primeira ordem linear. Mantemos a designação “equação às diferenças finitas”
ou “sistema de equações às diferenças finitas” (consoante o caso) para identificar a equação yt = g (yt 1 ) :
211
yt Linha 45º
4
2 c b f(x)
e
d
a
-4 -2 2 4 yt-1
-2
-4
212
Figura 7-2: Gráfico Teia de Aranha da Aplicação f (x) = x2 (estão traçadas duas órbitas
com valores inicias -1.1 e 0.9)
1
Exemplo 7.2.3 Se g (x) = 1+x
; então
1 1
g 2 (x) = g (g (x)) = g = 1 ;
1+x 1 + 1+x
!
1 1 1
g 3 (x) = g (g (g (x))) = g g =g 1 = 1 :
1+x 1 + 1+x 1+ 1
1+ 1+x
1
Dada a EDF yt = 1+yt 1
; o valor y3 dado y0 = 1 é
1 3
g 3 (1) = 1 = :
1+ 1
1+ 1+1
5
1 1 1 2 1 3
y1 = = ; y2 = 1 = ; y3 = 2 = :
1+1 2 1+ 2
3 1+ 3
5
Definição 7.2.2 (Estabilidade - Caso g : R ! R) O ponto fixo y diz-se estável se para cada
" > 0 existe um = (t0 ; ") tal que, para cada qualquer solução yt (y0 ) a desigualdade
213
jy0 yj implica jyt (y0 ) yj < " para todo o t t0 : O ponto fixo y diz-se assimptot-
icamente estável se é estável e se existe um 0 > 0 tal que a desigualdade jy0 yj 0
4
implica jyt (y0 ) yj ! 0 quando t ! 1: O ponto fixo y diz-se instável se não é estável.
t
t 1 c t c
g t (y0 ) y = y0 +c = y0
1 1 1
c
g t (y0 ) y = j jt y0 = j jt jy0 yj :
1
Impondo jg t (y0 ) yj < " vem j jt jy0 yj < ". Se j j < 1 então y é estável. Basta
considerar um tal que jy0 yj < ": Nestas condições tem-se jg t (y0 ) yj < " para
todo o t > 0: Se j j > 1 o termo jg t (y0 ) yj tende para 1 o que significa que não existe
um > 0 nos termos da definição de ponto fixo estável; logo y é instável. Analise-se a
estabilidade assimptótica. Tem-se para 6= 1
8
1 t < c
= y se j j < 1
t t 1
lim g (y0 ) = lim y0 +c =
t!1 t!1 1 : 1 se j j > 1
Exemplo 7.2.5 Retome-se o exemplo 7.2.1 (yt = 2yt 1 (1 yt 1 )): Vimos que os pontos
fixos são y = 0 e y = 21 . Discute-se agora a estabilidade a partir do gráfico teia de aranha
- ver a figura 7-3. Estão representados três valores iniciais. É fácil concluir que qualquer
ponto que se encontre numa vizinhança do ponto fixo 1/2 (por exemplo ponto A ou B) não
4
Se a EDF é autónoma leia-se g t (y0 ) em lugar de yt (y0 ) :
214
0.6
0.4
0.2
C A B
-0.5 -0.25 0.25 0.5 0.75 1
-0.2
-0.4
só não se afasta de 1/2 como também converge para y = 1=2. Este ponto fixo é portanto
assimptoticamente estável. O ponto fixo zero é instável. Basta observar o que sucede quando
y é inicializado no ponto C.
Proposição 7.2.2 (a) Se r < < 1 então existe uma constante C > 0 tal que
t
kyt k C ky0 k
para t 0, para qualquer y0 2 R: Além disso verifica-se limt!1 kyt k = 0:(b) Se r > 1
então algumas soluções do sistema tendem para 1. (c) Se r 1 e se a multiplicidade
algébrica de todos os valores próprios que verificam j j = 1 for igual a um então existe uma
constante C > 0 tal que kyt k C ky0 k para t 0:
215
12
10
6
y1
4
y2
2
0
0 1 2 3 4 5 6 7 8 9 10 11
-2
-4
1
Os valores próprios são 2
i: Logo r = 12 . Como r < 1 conclui-se que o ponto fixo y = 0
é assimptoticamente estável. Nas figuras seguintes analisa-se graficamente a dinâmica do
sistema admitindo y0 = (10; 1)T : Na figura 7-4 apresentam-se as trajectórias y1t e y2t : A
figura 7-4 é elucidativa quanto à estabilidade do sistema. Em ambos os casos se observa
y1t ! 0, y2t ! 0 quanto t ! 0.
p
Os valores próprios são = cos i sin e jcos i sin j = jcos + i sin j = cos2 + sin2 =
1: Como a multiplicidade algébrica de todos os valores próprios que verificam j j = 1 é
igual a um conclui-se que o ponto fixo y = 0 é estável.
216
7.2.2 Estabilidade de Sistemas Não Lineares
Linearização
Proposição 7.2.3 Suponha-se que g : R!R tem derivada de primeira ordem contínua num
intervalo aberto contendo o ponto fixo y: Então (a) se jg 0 (y)j < 1; y é assimptoticamente
estável; (b) se jg 0 (y)j > 1; y é instável.
então existe uma vizinhança V" (y) de raio " > 0; tal que, para jg 0 (y)j < < 1;
Resulta que x 2 V" (y) ) g (x) 2 V" (y) (pela desigualdade anterior, constata-se que g (x)
está mais "perto"de y do que x está de y; por um factor de ordem < 1). É imediato verificar
que g (x) 2 V" (y) ) g 2 (x) 2 V" (y) : Repetindo o argumento conclui-se g t (x) 2 V" (y) :
Logo,
g 2 (x) y = jg (g (x)) yj < jg (x) yj < 2
jx yj :
Exemplo 7.2.8 Retome-se os exemplos 7.2.1 e 7.2.5. Com g (x) = 2x (1 x) tem-se g 0 (x) =
2 4x e, portanto, pela proposição 7.2.3, o ponto fixo 0 é instável pois jg 0 (0)j = 2 > 1 e o
ponto 1/2 é assimptoticamente estável pois jg 0 (1=2)j = 0 < 1:
217
@gi (y) 1 @gi2 (z)
T
gi (x) = gi (y) + (x y) + (x y) (x y) ; i = 1; :::; m
@xT 2 @x@xT
onde
0 1
@g1 (y) @g1 (y)
B @x1 @xm C
0 B .. .. .. C
A = g (y) = B . . . C; (7.3)
@ A
@gm (y) @gm (y)
@x1 @xm
0 1
@g12 (z)
(x y)T @x@x (x y)
1B C
T
0 B .. C
h (x) = g (y) g (y) y + B . C
2@ A
2 (z)
(x y)T @gm
@x@xT
(x y)
Proposição 7.2.4 Suponha-se que g : Rm !Rm tem derivadas de segunda ordem contínuas
num conjunto aberto contendo o ponto fixo y: Dado
e A é dada pela equação (7.3) tem-se, (a) se r < 1 então y é assimptoticamente estável; (b)
se r > 1 então y é instável.
218
Exemplo 7.2.9 Considere-se o seguinte modelo presa-predador,
y1t 1 y2t 1
y1t = (1 + ) y1t 1 0:001
1 + 0:0001y1t 1
y1t 1 y2t 1
y2t = (1 ) y2t 1 + 0:00003
1 + 0:0001y1t 1
p
j 1 j = j1:00167 + 0:0310466ij = 1:001672 + 0:03104662 = 1: 002;
p
j 1 j = j1:00167 0:0310466ij = 1:001672 + 0:03104662 = 1: 002;
pelo que r = 1:002 > 1 e, portanto, o ponto fixo y2 é instável. A figura 7-5 ilustra o
comportamento dinâmico do sistema.
219
550
450
350
y1
250
y2
150
50
em V" (y) (não confundir a função V com a vizinhança de z de raio "; V" (z)).
220
jg (y0 ) yj < jy0 yj, 0 < < 1: Por seu lado, a desigualdade V (g (y1 )) < V (y1 ) im-
2
plica jy2 yj = jg (y1 ) yj < jg (y0 ) yj < jy0 yj : Iterando, conclui-se jyt yj <
t
jg (y0 ) yj ! 0 quando t ! 1:
2
V (x) = x x3 x2 = x 6 2x4 = x4 x2 2 <0
p
no conjunto x : jxj < 2 = Vp2 (y) : Logo o ponto fixo y = 0 é assimptoticamente
estável.
Defina-se 00 11
x1
V @@ AA = x21 + x22 :
x2
= 0:
Bacia do Escoadouro
221
que o sistema dinâmico inicializado numa vizinhança do escoadouro converge para o escoad-
ouro. Utiliza-se também a designação bacia do escoadouro (basin of the skin) para definir
o conjunto de pontos W tal que se y0 2 W então yt = gt (y0 ) ! y (onde y é um es-
coadouro). Analiticamente escreve-se: W (y) = fy0 2 Rm : gt (y0 ) ! yg5 : No exemplo
7.2.5, onde g (x) = 2x (1 x) ; vimos que o ponto 1/2 é um escoadouro: qualquer ponto
na vizinhança de 1/2 converge para 1/2. Uma inspecção da figura 7-3 sugere que a bacia do
escoadouro é o conjunto (0; 1) ; i.e., W (1=2) = (0; 1) :
A proposição seguinte tem aplicação no caso de EDF autónomas (não lineares).
5
No caso não autónomo deve ler-se W (y) = fy0 2 Rn : yt (y0 ) ! yg :
222
2.5
2 VI I
1.5
1 V II
0.5
IV III
A B
-0.5 0.5 1 1.5 2 2.5
f(x)
-0.5
Exemplo 7.2.12 Considere-se g (x) = (3x x3 ) =2 (figura 7-7). Os pontos fixos são 1; 0; 1:
p
Analise-se o ponto 1: É fácil verificar que E1 = (0; b) = 0; 1=2 1 + 17 W (1) (a
proposição 7.2.6 é aplicável: numa vizinhança do ponto 1, a função g (x) encontra-se nas
regiões II e V; no entanto, a proposição fornece um primeiro conjunto contido em E1 ). Tem-
se agora
p p
onde e = 2; 11569; c = 3; d = 3: Este procedimento pode ser continuado com
E3 = fx : g (x) 2 E2 g, E4 ; etc.
Exemplo 7.2.13 Considere-se g (x) = tan x; =2 < x < =2: O ponto fixo é y = 0 (pois
g (0) = 0). Na figura 7-8 verifica-se que a função g (x) não se encontra nem na região II
nem na região V (neste caso concreto, qualquer que seja o valor inicial, o sistema dinâmico
afasta-se cada vez mais de y = 0). Assim, y = 0 não é escoadouro.
223
VI I
V
II
a e c 1 b
d
III
IV
1.5
VI I
1
0.5
V II
-1 -0.5 0.5 1
-0.5
-1
III
IV
-1.5
224
1.5
VI I
V
II
0.5
IV III
-0.5
6
Prova-se que não existe um " > 0 tal que f (2=3 ") 2=3 > 2=3 f 2 (2=3 ") :
225
Proposição 7.2.7 Admitam-se as condições da proposição 7.2.5 e suponha-se V (x) < 0
para todo o x 2 V" (y) e x 6= y. Se y0 2 V" (y) então gt (y0 ) ! y quando t ! 1:
2 2
y1t = y2t 1 y2t 1 y1t 1 + y2t 1
2 2
y2t = y1t 1 y1t 1 y1t 1 + y2t 1 :
2 2
V (x) = x2 x2 x21 + x22 + x1 x1 x21 + x22 x21 + x22
= :::
2
= x21 + x22 2 + x21 + x22
< 0
n p p o
no conjunto (x1 ; x2 ) : x21 + x22 < 2 = Vp2 (y) W (y) :
Exemplo 7.2.16 Retome-se o exemplo 7.2.10, yt = yt 1 yt3 1 : Resulta óbvio que Vp2 (y)
W (y) :
Exemplo 7.2.17 Retome-se o exemplo 7.2.12, yt = 3yt 1 yt2 1 =2: Analise-se a bacia
do escoadouro do ponto y = 1 e, para o efeito, considere-se V (x) = (x 1)2 : Tem-se
2
V (x) = 3x x2 =2 1 (x 1)2
9 2 3 3 1 4
= x x x + x
4 2 4
1
= (x 4) (x 1)2 x:
4
A função V (x) está representada na figura 7-11, a qual permite concluir que V1 (1) =
fx : jx 1j < 1g W (1) : No exemplo 7.2.12 foi-se um pouco mais longe. De facto,
observou-se que V1 (1) W (1).
A terminar esta secção mostra-se que se um ponto pertence a uma certa bacia de escoad-
ouro então esse ponto não pode pertencer a outra bacia de escoadouro. Assim;
226
2
0
-0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
-1
-2
-3
-4
y1 gt (y0 ) + y2 gt (y0 )
" "
< + = ":
2 2
Como a distância entre y1 e y2 é menor do que " para cada " > 0; deverá ter-se y1 = y2 :
Definições
gk (p) = p (7.4)
e k é o menor inteiro positivo tal que (7.4) se verifica (i.e., gs (p) 6= p para s = 1; 2; :::; k
1). A órbita de valor inicial p diz-se uma órbita periódica de período k:
227
Note-se que se p é um ponto periódico de período 2 então p é um ponto fixo de g2 : O
recíproco não é verdade. Por exemplo, um ponto fixo de g2 pode ser também um ponto fixo
de g e, neste caso, de acordo com a definição, este ponto tem período 1:
Considere-se uma órbita de valor inicial p; i.e., fp; g (p) ; g2 (p) ; :::g : Se p é um ponto
periódico de período 3, p deve repetir-se de três em três iterações. Por exemplo, fp; g (p) ; g2 (p) ; p; :::g :
Mas g (p) e g2 (p) também se repetem de três em três iterações, f::; p; g (p) ; g 2 (p) ; p; g (p) ; g 2 (p) ; p:::g :
Neste exemplo, é suficiente identificar a órbita de período 3 através dos três elementos
fp; g (p) ; g 2 (p)g (se p é ponto fixo de g e, portanto, ponto periódico de período 1, en-
tão a órbita periódica de período 1 é constituída apenas pelo elemento fpg). Naturalmente,
b = g (p) e c = g 2 (p) são também pontos periódicos de período 3. A proposição seguinte
estabelece este resultado.
o que significa que p repete de s em s iterações, ou seja que p é ponto fixo de gs : Esta
conclusão contradiz a hipótese de p ser ponto periódico de período k > s (i.e., a primeira
vez que p se repete é após k iterações). Basta agora ver que pi = gi (p) é ponto fixo de gk :
Vem
gk (pi ) = gk gi (p) = gi gk (p) = gi (p) = pi :
228
Poderíamos também obter g 2 (x) considerando
yt = ayt 1 (1 yt 1 )
o que permitiria deduzir g 2 (x) = a (ax (1 x)) (1 ax (1 x)) : Para determinar eventu-
ais pontos periódicos resolve-se a equação g 2 (x) = x em ordem a x: Factorizando g 2 (x) x
obtém-se
x (1 a + a x) 1 + a ax a2 x + a2 x2 = 0
1
p
1+a + 1a + 1
( 3 2a + a2 )
x1 = 0; x2 = ; x3 = 2 2 2
; (7.5)
a
p a
1
2
+ 21 a 1
2
( 3 2a + a2 )
x4 = : (7.6)
a
Estes valores serão pontos periódicos de período 2 se não forem pontos fixos de g. Ora
resolvendo
g (x) = x
1+a
sai y = 0 e y = a
: Retome-se os pontos fixos apresentados em (7.5) e (7.6). Conclui-se
que os pontos 0 e ( 1 + a) =a não são pontos periódicos de período 2 pois eles são pontos
fixos de g (e, portanto são pontos periódicos de período 1). Relativamente a x3 conclui-se
que p
1
2
+ 12 a + 1
2
( 3 2a + a2 ) 1+a
=
a a
se a = 1; e p
1
2
+ 12 a + 1
2
( 3 2a + a2 )
=0
a
se a = 1: Logo x3 é ponto periódico de período 2 se a 6= 1 e a 6= 1: Seguindo o
mesmo raciocínio conclui-se que x4 é ponto periódico de período 2 se a 6= 3 e a 6= 1:
1+a
Para concretizar suponha-se que a = 3:3: Tem-se y = 0, y = a
= : 696 97; x3 = :
823 6 e x4 = : 479 43: Na figura 7-12 é evidente que f0: 823 6; 0:47943g forma uma órbita
de período 2.
Outra forma (embora pouco eficiente) de confirmarmos as conclusões emergentes da
figura 7-12 consiste em se calcular iterativamente a trajectória y: A tabela seguinte fornece
229
y
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1 t
0
1 8 15 22 29 36 43
e
0 0 00 1111 00 11 0 1 0 1
x2 1 1
x1 x1
g3 (x) = g @g @g @@ AAAA = g @@ x1 AA = @ 1
x1
A=@ x1 A:
1 1
x2 x1
x2
x2
x1
Deixa-se como exército verificar que não existem ponto periódicos de período 2 e existem
três pontos periódicos de período 3.
Um modelo que pode gerar pontos periódico é o modelo linear por troços (ou, simples-
mente, modelo limiar). Assume-se um comportamento diferenciado do sistema dinâmico
consoante o estado do sistema no momento t 1; concretamente, consoante yt 1 se encontre
230
0.8
0.6
0.4
0.2
-0.2
-0.4
A função g (x) pode não ser contínua (no limiar ), como o exemplo precedente mostra.
O modelo seguinte, com c1 = ( 2 1) + c2 ; define uma função contínua no ponto :
8
< ( 2 1) + c2 + 1 yt 1 ; yt 1 <
yt =
: c +
2 2 yt 1 ; yt 1 :
2 + 1 c2
( 2 1) + c2 + 1x = x; Solução: x =
1 1
c2
c2 + 2x = x; Solução: x =
2 1
231
2+ c2 c2
e, agora resolvendo, 1
1
= 1
, sai c2 = (1 2) : Assim, tem-se
1 2
8
< ( 2 1) + (1 2) + 1 x; x<
g (x) =
: (1 2) + 2 x; x :
ou 8
< (1 1) + 1 x; x<
g (x) =
: (1 2) + 2 x; x :
Veja-se que
g( ) = (1 2) + 2 =
e
lim g (x) = (1 1) + 1 = :
x"
Tal como no caso dos pontos fixos de g; pontos periódicos podem ser estáveis ou instáveis.
Intuitivamente, um ponto periódico de período k é estável se qualquer trajectória iniciada
numa vizinhança desse ponto não se afasta desse ponto de k em k iterações, para todo o t (da
mesma forma se interpreta ponto periódico assimptoticamente estável e instável). O facto
essencial é que um ponto periódico de g de período k é um ponto fixo de gk : Desta forma,
a definição de estabilidade para pontos periódicos pode basear-se na definição 7.2.2, sendo
que agora deverá ler-se gk em lugar de g (gt deverá ler-se gkt ). Em geral são aplicáveis as
proposições precedentes, desde que se procedam às necessárias adaptações. Por exemplo, a
proposição 7.2.3 estabelece que y é assimptoticamente estável se jg 0 (y)j < 1 e instável no
caso contrário. Se as condições da proposição 7.2.3 se aplicarem, e fazendo h (x) = g k (x) ;
podemos estabelecer que o ponto periódico p de período k é assimptoticamente estável se
jh0 (p)j < 1 e instável no caso contrário.
Vimos na proposição 7.2.9 que, se p é ponto periódico de período k então a aplicação
g admite adicionalmente k 1 pontos periódicos. Se p exibe uma certa característica qual-
itativa que conclusões podemos tirar para os demais pontos periódicos? A proposição e a
demonstração seguintes mostra que todos os pontos periódicos partilham das mesmas pro-
priedades qualitativas. Desta forma pode-se falar de órbitas periódicas estáveis e instáveis
(em alternativa a pontos periódicos estáveis e instáveis).
232
Proposição 7.2.10 Seja g uma aplicação de classe C 1 em R e seja fp1 ; p2 ; :::; pk g uma órbita
periódica de período k: Então fp1 ; :::; pk g é assimptoticamente estável (escoadouro) se
e instável (fonte) se
jg 0 (pk ) :::g 0 (p1 )j > 1:
0 0
g 2 (0:428571) = g 2 (0:857143) = 1:25
0 0 0 0
g 4 (0:38282) = g 4 (0:500884) = g 4 (0:826941) = g 4 (0:874997) = 0:03:
233
f
1
0.8
0.6
0.4
0.2
x
0.2 0.4 0.6 0.8 1
Naturalmente esta segunda alternativa é bastante mais trabalhosa. Conclui-se que todos os
pontos periódicos de período k = 4 são assimptoticamente estáveis; todos os outros pontos
em análise são instáveis. O gráfico 7-15 permite identificar um comportamento periódico
de período k = 4:
Tem interesse ainda observar o gráfico teia de aranha do modelo g 4 (x) - ver figura 7-16.
Observe-se (talvez com alguma dificuldade) que a função g 4 corta o eixo de 45o oito vezes
(considerando também o ponto zero). Este facto corrobora a primeira tabela deste exemplo
(última linha).
7.3.1 Introdução
Como argumentámos na introdução deste capítulo, uma classe importante de processos não
lineares na média baseia-se na ideia de regime-switching. Nesta secção apresentam-se vários
modelos onde a mudança de regime depende de uma variável observável. Provavelmente o
modelo mais conhecido desta família (onde os regimes dependem de variáveis observáveis)
é o modelo Threshold AR ou TAR. Para exemplificar, considere-se um modelo TAR com
234
1.0
y
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x
dois regimes 8
< +
10 11 yt 1 + ut qt d <
yt = (7.7)
:
20 + 21 yt 1 + ut qt d >
7
A este respeito a fórmula de Taylor é instrutiva. Suponha-se que f : R ! R possui derivada contínua
2
de primeira ordem. Pela fórmula de Taylor tem-se f (x) = f (a) + f 0 (a) (x a) + O jx aj : Esta
fórmula diz-nos que f (x) pode ser arbitrariamente bem aproximada através da expressão linear (em x) f (a) +
f 0 (a) (x a). Note-se que a; f (a) e f 0 (a) são constantes e o erro envolvido na aproximação é de ordem
2
jx aj : Se procuramos aproximar f (x) quando x se afasta de a a aproximação piora significativamente,
2
tendo em conta o erro envolvido O jx aj . Assim, podemos usar a fórmula de Taylor na forma linear,
repetidamente, para vários valores de a; e assim obter boas aproximações de f em todo o seu domínio. É este
o princípio que está subjacente ao modelo TAR.
235
Outra interpretação do TAR é sugerida pela seguinte representação equivalente de (7.7):
yt = 10 Ifqt d g + 11 Ifqt d g yt 1
= 0 (qt d ) + 1 (qt d ) yt 1 + ut :
Observa-se, assim, que o modelo TAR pode ser interpretado como um processo AR de coe-
ficientes aleatórios com dependência em qt d :
O esqueleto da equação é
8
< 1 + 0:5~
yt 1 ; yt <0
1
y~t = (7.9)
: 1 0:5~ yt 1 ; y t 0
1
236
4
-4 -2 2 4
yt = 1 + 0.5 yt −1
-2 yt = −1 − 0.5 yt −1
-4
Figura 7-17: Gráfico Teia de Aranha do modelo (7.9). Os valores 0.4 e -1.2 são pontos
periódicos de período 2
6 y
5
4
3
2
1 t
0
-1
-2
-3
-4
1 6 11 16 21 26 31
As figuras 7-17 e 7-18 mostram que os valores 0.4 e -1.2 são pontos periódicos8 de período
2. Estes pontos são assimptoticamente estáveis. Qualquer que seja o valor de inicialização,
a solução y~t é atraída para a órbita f0:4; 1:2g :
Não faz sentido falar-se em soluções periódicas do modelo estocástico definido em (7.8).
8
É possível obter estes pontos resolvendo g (g (x)) = x em ordem a x:
237
Figura 7-19: Gráfico dos pares (yt 1 ; yt ) após se ter gerado uma trajectória do processo 7.8
(traçam-se também as rectas 1 + :5x e 1 0:5x)
A componente estocástica impede, de facto, que yt possa oscilar entre os pontos 0.4 e -1.2.
Todavia, o comportamento periódico subjacente ao esqueleto está parcialmente presente no
modelo estocástico, tal como mostra a figura 7-19, onde se apresenta o gráfico scatter (i.e. o
gráfico dos pares (yt 1 ; yt )) depois de se ter simulado uma trajectória.
Como o processo é EE (veja-se o exemplo 4.5.9), pode também indagar-se que tipo
de distribuição estacionária define o processo. A expressão analítica desta distribuição é
desconhecida, mas pode estimar-se de várias formas. Provavelmente o procedimento mais
simples consiste em gerar uma trajectória suficientemente longa e, depois de se desprezarem
os primeiros valores9 (digamos os primeiros 10), estima-se a função de densidade marginal
f (x) através do estimador
n
1 X S
x yi
f^ (x) = K (7.11)
nS h i=1 h
9
A justificação: o valor incial y0 ; a partir da qual é gerada a trajectória, não é obtido em condições esta-
cionárias porque estas são desconhecidas.
238
Figura 7-20: Densidade Estacionária de 7.8 estimada a partir de 50000 observações simu-
ladas.
239
7.3.3 Estacionaridade
yt = ::: :::
>
>
>
:
k0 + k1 yt 1 + ::: + kp yt p + ut y t d > k
Pp
se a condição max1 i k j=1 ji < 1 se verificar, então o processo é EE, atendendo
à proposição 4.5.4. Esta condição é apenas suficiente, mas não necessária. Como tal,
pode ser demasiado exigente. Para certos modelos particulares são conhecidas as condições
necessárias e suficientes. É o caso do modelo
8
>
> c +
>
< 1 1 yt 1 + ut yt d < 1
yt = c2 + 2 yt 1 + ut yt d (7.12)
>
>
1 2
>
: c +
3 3 yt 1 + ut yt d > 2
Proposição 7.3.1 O processo fyt g definido pelo sistema (7.12) é EE sse qualquer uma das
seguintes condições se verificar:
240
7.3.4 Exemplo (Bounded Random Walk)
yt = c2 + yt 1 + ut yt 1 (7.13)
>
>
1 2
>
: c + y +u
3 3 t 1 t yt 1 > 2
yt = y t 1 + ut 3 yt 1 3 (7.14)
>
>
>
: 0:9y + u
t 1 t yt 1 >3
onde fut g é uma sucessão de v.a. i.i.d. com distribuição N (0; 0:22 ) :
Processos do tipo (7.14) confundem-se facilmente com passeios aleatórios. Por esta
razão, o teste Dickey-Fuller tende a não rejeitar a hipótese nula de raiz unitária quando a
alternativa é um processo estacionário do tipo (7.14); por outras palavras, o teste Dickey-
Fuller é pouco potente contra alternativas do tipo (7.14). No contexto do modelo (7.13),
pode mostrar-se que a potência do teste Dickey-Fuller diminui quando 1 é baixo e 2 é alto
ou 1; 2 < 1 são altos ou Var (ut ) é baixa.
7.3.5 Estimação
241
Figura 7-21: Trajectória Simulada a partir do Processo (7.14)
2
onde se assume que fut g é um ruído branco com Var (ut ) = : Os parâmetros desconheci-
0 0
2 0 0
dos são d; ; e = 1 2
onde i = i0 i1 ::: ip
. Reescreva-se (7.15)
na forma
yt = 10 + 11 yt 1 + ::: + 1p yt p Ifqt d g
Seja x0t = (1; yt 1 ; :::; yt p ) : Observe-se que cada um dos “ramos” pode escrever-se como
= x0t 1 Ifqt d g
242
Assim, (7.15) pode ainda escrever-se na forma
yt = xt ( )0 + ut :
yt j Ft 1 N xt ( )0 ; 2
1
^ ( ) = X ( )0 X ( ) X( )y (7.16)
Pn 2
t=1 yt xt ( )0 ^ ( )
^2 ( ) =
n
a soma dos quadrados dos resíduos. Supondo d conhecido, toma-se para estimativa de o
valor que minimiza ^ 2 ( ) ; i.e.,
243
escolha dos valores relevantes para é relativamente pequena. Sejam y(1) ; y(2) ; :::; y(n) são
as estatística de ordem tais que
Como ^ 2 ( ) não se altera quando varia entre duas estatísticas de ordem, o problema de
optimização (7.17) é equivalente a
ou seja, para obter ^ basta percorrer no conjunto ~ e seleccionar, depois aquele que mini-
miza ^ 2 ( ). Na prática, impõe-se que cada regime possua pelo menos uma certa fracção
de observações (efectivamente, não faz sentido, tomar ^ = y(1) ou ^ = y(n) ). Assim, deve
restringir-se o conjunto ~ ; passando a ser y(( (n 1))) ; :::; y((1 )(n 1)) onde (:) representa a
parte inteira do número. Neste novo conjunto ~ não fazem parte as 100% mais baixas nem
as (1 ) 100% mais altas.
Falta-nos ainda tratar a estimação de d; que é também não standard tendo em conta que
d 2 N: Como ^ 2 depende de d; escolhe-se d num certo conjunto D = f1; 2; :::; d g de forma
a minimizar ^ 2 : Logo,
^ ; d^ = arg min ^ 2 ( ; d)
2 ~ ;d2D
onde, agora,
X
n
2
2
^ ( ; d) = n 1
yt xt ( ; d)0 ^ ( ; d)
t=1
e
1
^ ( ; d) = X ( ; d)0 X ( ; d) X ( ; d) y:
2. tomar para estimativa de e de d o par ( ; d) que minimiza ^ 2 ( ; d); seja esse par
dado por ^ ; d^ :
244
Exemplo 7.3.1 Considere
8
<
1 yt 1 + ut se yt d
yt =
:
2 yt 1 + ut se yt d >
2
com Var [ut ] = : Suponha que os resultados na fase da estimação são:
Valores de ^ 2 em função de ed
d!
1 2
#
-1 15.5 16
-0.7 12.4 13.5
-0.1 12.1 12.3
-.001 3.5 2.5
0.0 1.2 2.4
1.2 2.5 2.8
1.5 5.5 7
Resulta do quadro (veja o valor a negrito) que ^ = 0; d^ = 1 e ^ 2 = 1:2: Por outras
palavras
(0; 1) = arg min ^ 2 ( ; d) e min ^ 2 (0; 1) = 1:2.
Para ilustrar a matriz X ( ; d), suponha que os dois últimos valores de y são yn 1 = 1:5
e yn = 1:5; então a última linha da matriz X ( ; d) é
0 h i h i
xn ^ ; d^ = yn 1 Ifyn 1 0g yn 1 Ifyn 1 >0g
= 0 1:5
7.3.6 Inferência
Pode mostrar-se que o estimador para d é super-consistente, isto é, possui uma variância pro-
porcional a 1=n com > 1 (os estimadores habituais possuem uma variância proporcional
a 1=n). A distribuição assimptótica é também conhecida (Hansen, 2000). Dada a super-
consistência de d^ podemos, para efeitos de inferência estatística sobre os demais parâmetros,
assumir que d é conhecido.
245
Inferência sobre
p d 1
n ^ (^ ) 0 ! N 0; I ( 0 ) ; (7.19)
2
onde I ( 0 ) = E (xt ( 0 ) xt ( 0 )) ( 0 e 0 são, de acordo com a notação habitual, os
verdadeiros, mas desconhecidos valores dos parâmetros e ). Supomos, naturalmente, que
^ é um estimador consistente para 0: A matriz I ( 0 ) é estimada consistentemente por
1X
n
xt (^ ) xt (^ )0 :
n t=1
Uma questão importante é saber se o modelo TAR é preferível ao simples AR. Para o efeito,
testa-se H0 : 1 = 2 pois, sob esta hipótese, o TAR reduz-se ao AR. Aparentemente, o
resultado (7.19) permite ensaiar H0 ; no quadro do teste de Wald. Esta ideia é incorrecta,
pois sob a hipótese nula o parâmetro não identificável. Este é um problema que ocorre
tipicamente em modelos não lineares (veja-se, por exemplo, o modelo Markov-switching,
no ponto 7.4). Observe-se que, sob a hipótese nula, a função de verosimilhança deixa de
depender do parâmetro (é indiferente o valor que assume)10 . Nestas circunstâncias, a
matriz de informação é singular e não é possível usar os resultados assimptóticos habituais.
Hansen (2000) sugere o seguinte procedimento:
3. yt = ut ;
10
Veja-se mais um exemplo. No caso yt = x + ut ; x > 0; ocorre uma situação similar com H0 : = 0
ou com H0 : = 0: Por exemplo, sob a hipótese = 0; desaparece da especificação; como consequência, a
verosimilhança deixa de depender de . Já o ensaio H0 : = 0 com 0 6= 0 não levanta problemas.
246
5. obter ^ = arg min 2~ ^ n2 ( ) onde ^ n2 ( ) resulta da regressão de yt sobre xt ( );
6. obter Fn = n ~ n2 ^ n2 =^ n2
Seja
^ 2n ( ) ^ 2n (^ )
Fn ( ) = n : (7.20)
^ 2n (^ )
Sabe-se que (Hansen, 1997)
d
Fn ( 0 ) !
x=2 2
onde P ( x) = 1 e : Com base neste resultado, Hansen (1997) recomenda o
seguinte procedimento para a construção de um intervalo de confiança para :
1. Calcular Fn ( ) para 2~
247
Fn
1 12.2
1.1 10.2
1.15 7.35
1.2 0
1.35 6.31
1.45 7.35
1.6 15
Tabela 7.1: Intervalo de Confiança para o Threshold: Ilustração do método de Hansen
7.4.1 Introdução
Sabemos exactamente quando o evento A ocorre. Por exemplo, o evento A pode represen-
tar “segunda-feira”. Trata-se de um evento obviamente determinístico. Suponhamos agora
que A não é observável. Como modelar, estimar e prever y? São estas as questões que
abordaremos ao longo deste ponto.
Para trabalharmos com alguma generalidade, admita-se que estão definidos N regimes.
Por exemplo, um modelo relativamente simples com dois regimes, N = 2; é
8
< c + y +u se yt está no regime 1
1 t 1 t
yt = (7.22)
: c + + y + u se y está no regime 2
1 1 t 1 t t
O regime 1 pode estar associado, por exemplo, ao evento “A não ocorre” e o regime 2 “A
ocorre”. Este modelo é, em vários aspectos, similar ao modelo (7.21); há, no entanto, um
diferença apreciável: agora não se sabe quando é que y está no regime 1 ou 2. Seja St o
248
regime em que o processo y se encontra no momento t (assim, se St = i, então yt está
no regime i). No modelo anterior, equação (7.22), S pode assumir os valores St = 1 ou
St = 2: A sucessão fSt g é claramente um processo estocástico com espaço de estados
(finito) E = f1; 2; :::; N g.
É necessário, naturalmente, especificar um modelo para St . Admita-se E = f1; 2g : Se
o valor que S assume em t nada tem a ver com o valor que S assume em t 1; t 2;
:::; então fSt g é uma sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro
p que pode ser identificado com o regime 1, isto é, P (St = 1) = p. O processo y vai
“saltando” entre os regimes 1 e 2 de forma independente de acordo com a probabilidade
p. Num dado momento t; y está no regime 1 com probabilidade p (independentemente do
regime anterior assumido). Na prática, a independência entre os sucessivos valores de St não
é apropriada para um grande número de aplicações. Por exemplo, suponha-se que y é a taxa
de crescimento do produto. Admita-se ainda que y se comporta diferentemente consoante a
economia está em expansão ou em recessão. Temos, assim dois regimes St = 1 (recessão),
St = 2 (expansão). A sucessão fSt g não é provavelmente independente: se a economia, num
certo momento, está em expansão (St 1 = 2), é mais provável que no momento seguinte a
economia se encontre em expansão do que em recessão. Formalmente,
Logo fSt g é formado por uma sucessão de v.a. dependentes. Uma sucessão ou trajectória de
S; poderá ser, por exemplo, f1; 1; 1; 1; 2; 2; 2; 2; 1; 1; 1; :::g :
249
isto é, St é independente de St 2 ; St 3 ; :::; S0 dado St 1 .
Uma cadeia de Markov é completamente caracterizada pela chamada matriz de probabil-
idades de transição a um passo (ou simplesmente matriz de probabilidades de transição) e,
eventualmente, por uma condição inicial. No caso de dois regimes, E = f1; 2g ; esta matriz
define-se da seguinte forma
0 1 0 1
P (St = 1j St 1 = 1) P (St = 2j St 1 = 1) p11 p12
P=@ A=@ A:
P (St = 1j St 1 = 2) P (St = 2j St 1 = 2) p21 p22
250
Neste caso, pela lei das probabilidades totais, vem com N = 2
X
2
P (St = 1j St 2 = 2) = P (St = 1; St 1 = ij St 2 = 2)
i=1
X2
= P (St = 1j St 1 = i; St 2 = 2) P (St 1 = ij St 2 = 2)
i=1
X2
= P (St = 1j St 1 = i) P (St 1 = ij St 2 = 2)
i=1
= elemento (2; 1) da matriz P 2 = P P:
#E
X
P (Sm+n = jj S0 = i) = P (Sm = kj S0 = i) P (Sm+n = kj Sm = j) :
k=1
P (St = 1j St k = 2) = P (St+k = 1j St = 2) :
251
encontra em expansão. Formalmente, a questão é
Observe-se
0 110 0 1
0:7 0:3 0:40059 0:59941
@ A = @ A
0:2 0:8 0:39961 0:60039
0 120 0 1
0:7 0:3 0:4 0:6
@ A = @ A
0:2 0:8 0:4 0:6
0 140 0 1
0:7 0:3 0:4 0:6
@ A = @ A:
0:2 0:8 0:4 0:6
Proposição 7.4.1 Se S é recorrente11 positiva aperiódica com espaço de estados finito f1; 2; :::; N g12
11
Um regime ou estado i é recorrente sse, depois de o processo se iniciar em i; a probabilidade de retornar
a i, ao fim de algum tempo finito, é igual a um. Se S é contável e se todos os estados comunicam, então todos
os estados são recorrentes ou transientes (Taylor e Karlin, 1984).
12
O caso infinito adapta-se facilmente.
252
então, o vector (linha) das probabilidades estacionárias
= 1 2 N
onde
= P (St = i) 0
satisfaz as equações
X
N
= P; i = 1:
i=1
Tem-se, 8 8
>
> = 0:7 + 0:2 >
> = 0:4
>
< 1 1 2 >
< 1
Pela proposição 7.4.1 é fácil concluir que as probabilidades estacionárias são dadas por
1 p22 1 p11
1 = ; 2 = :
2 p11 p22 2 p11 p22
253
Retomando o exemplo 7.4.2, facilmente se obtém:
1 0:8 1 0:7
1 = = 0:4; 2 = = 0:6:
2 0:7 0:8 2 0:7 0:8
onde St é uma cadeia de Markov homogénea (escondida ou latente por St não ser observável)
com matriz de probabilidades de transição
0 1
p11 p12
P=@ A:
p21 p22
onde
8 8 8
< c se S = 1 < se St = 1 < se St = 1
1 t 1 1
c (St ) = ; (St ) = ; (St ) =
: c se S = 2 : se St = 2 : se St = 2:
2 t 2 2
254
A representação (7.26) sugere que o modelo MS (7.25) pode ser escrito como um processo
AR(1) com coeficientes aleatórios (vários outros modelos não lineares podem também ser
representados como um AR(1) com coeficientes aleatórios).
1 1
2 2
(yt c1 1 yt 1 )
2
f (yt j Ft 1 ; St = 1) = p 2
e 1
12
1 1
2 2
(yt c2 2 yt 1 )
2
f (yt j Ft 1 ; St = 2) = p 2
e 2 :
22
X
P (A) = P (Aj Bi ) P (Bi )
i
P
(ou fx (x) = i fxjy (xj yi ) fy (yi ) no caso em que y é uma v.a. discreta) tem-se que fdp
condicionada de y é
+f (yt j Ft 1 ; St = 2) P (St = 2j Ft 1 )
1 2
2 1=2 (yt c1 1 yt 1 )
2 2
= 12 e 1 P (St = 1j Ft 1 )
1 2
2 1=2 (yt c2 2 yt 1 )
2 2
+ 22 e 2 P (St = 2j Ft 1 ) :
255
Claro que P (St = 1j Ft 1 )+P (St = 2j Ft 1 ) = 1: É interessante observar que a fdp condi-
cionada é igual à média ponderada das fdp condicionadas associadas aos vários regimes. Os
ponderadores são naturalmente P (St = 1j Ft 1 ) e P (St = 1j Ft 1 ) (e somam 1). Por ex-
emplo, se num determinado momento, P (St = 1j Ft 1 ) é muito alto (perto de 1) a função
f (yt j Ft 1 ) dependerá sobretudo de f1t e pouco de f2t :
No caso geral com N regimes, a expressão da fdp é
X
N
f (yt j Ft 1 ) = fit P (St = ij Ft 1 ) : (7.27)
i=1
Regimes Independentes
No caso mais simples em que fSt g é uma sucessão de v.a. independentes (não só dos seus
valores passados e futuros como também de Ft 1 ) tem-se
e, portanto,
X
N
f (yt j Ft 1 ) = fit pi :
i=1
Esta hipótese é conhecida pelo menos desde 1972 com os trabalhos de Goldfeld e Quandt,
entre outros.
O caso de regimes independentes é um caso particular da cadeia de Markov. Notando
que
P (St = ij St 1 = j) = P (St = i)
para qualquer i e j 2 E; conclui-se que este caso induz uma matriz de probabilidades de
256
transição com colunas iguais,
0 1
P (St = 1) P (St = 2) P (St = N )
B C
B C
B P (St = 1) P (St = 2) P (St = N ) C
P=B
B .. .. .. ..
C:
C
B . . . . C
@ A
P (St = 1) P (St = 2) P (St = N )
A probabilidade de atingir, por exemplo, o regime 1 é sempre igual a P (St = 1) não im-
portando o regime em que S se encontre no período anterior (ou seja, o evento St = 1 é
independente de St 1 ).
+P (St = 1j St 1 = 2; Ft 1 ) P (St 1 = 2j Ft 1 )
= P (St = 1j St 1 = 1) P (St 1 = 1j Ft 1 )
+P (St = 1j St 1 = 2) P (St 1 = 2j Ft 1 )
X
N
P (St = ij Ft 1 ) = pj1 P (St 1 = ij Ft 1 ) (7.30)
j=1
Estas expressões envolvem uma estrutura recursiva que iremos expor a seguir. Tendo em
conta a expressão (7.30), calcule-se P (St 1 = ij Ft 1 ) : Observe-se, em primeiro lugar, que
g (yt 1 ; St 1 = 1j Ft 2 )
P (St 1 = 1j Ft 1 ) = P (St 1 = 1j yt 1 ; Ft 2 ) = :
f (yt 1 j Ft 2 )
257
P (A; Bj C) =P (Bj C) ; sendo g a função de probabilidade conjunta de (yt 1 ; St 1 ) : Tem-se
assim, pela regra das probabilidades totais (com N = 2)
g (yt 1 ; St 1 = 1j Ft 2 )
P (St 1 = 1j Ft 1 ) =
f (yt 1 j Ft 2 )
f (yt 1 j Ft 2 ; St 1 = 1) P (St 1 = 1j Ft 2 )
= PN : (7.31)
j=1 f (yt 1 j Ft 2 ; St 1 = j) P (St 1 = jj Ft 2 )
pit = P (St = ij Ft 1 )
pi;t 1 = P (St 1 = ij Ft 2 )
fi;t 1 = f (yt 1 j Ft 2 ; St 1 = i) :
onde
258
Regimes dependentes de St 1 e de Ft 1
Assume-se para simplificar N = 2: Sob esta hipótese a cadeia de Markov é não homogénea
(varia ao longo do tempo). Desta forma, as probabilidades P (St = 1j St 1 = 1; Ft 1 ) e
P (St = 2j St 1 = 2; Ft 1 ) dependem de Ft 1 : Suponha-se, para simplificar, que estas prob-
abilidades dependem apenas de yt 1 : Uma forma de relacionarmos as probabilidades com
yt 1 consiste, por exemplo, em formular uma representação probit para as probabilidades:
P (St = 1j St 1 = 1; Ft 1 ) = ( 0 + 1 yt 1 ) ,
P (St = 2j St 1 = 2; Ft 1 ) = ( 0 + 1 yt 1 )
f2t (1 ( 0 + 1 yt 1 )) :
259
7.4.6 Estacionaridade
Considere-se
8
>
> c1 +
>
< 11 yt 1 + ::: + 1p yt p + ut se St = 1
yt = ::: (7.34)
>
>
>
: c +
N N 1 yt 1 + ::: + N p yt p + ut se St = N
onde ut é um ruído branco e S é uma cadeia de Markov estacionária com vector de proba-
bilidades estacionárias ( 1 ; 2) : O modelo anterior pode escrever-se na forma
Então y é EE. Além disso, se fAt g é um processo EE então E log+ kA0 k < 0 implica
< 0:
260
Dem. Considerando a norma Euclidiana e a desigualdade de Jensen, tem-se
q
+ + 1 + 2 2
E log kC0 k = E log c2 (St ) + u2t = E log c (St ) + ut
2
1
log E c2 (St ) + E u2t < 1:
2
e, portanto,
+
E log kA0 k = E (log j 1 (St )j)
= 1 log j 11 j + 2 log j 21 j
1 2
= log (j 11 j j 21 j ):
Segue-se que j 11 j
1
j 21 j
2
< 1 implica E log+ kA0 k < 0:
onde ut é um processo ruído branco. Um processo AR(1) com coeficente = 2 não só é não
estacionário como é explosivo (tende para mais infinito em tempo finito). No entanto, yt é
EE. Com efeito, a partir de P obtém-se 1 = 0:1818 e 2 =1 1 = 0:8182 (conferir a
proposição 7.4.1 e o exemplo 7.4.3). Por outro lado, invocando a proposição 7.4.3, tem-se
j 11 j
1
j 21 j
2
= 20:1818 0:60:8182 = 0:746 < 1: Logo y é EE. Este resultado é interessante.
De facto poderíamos pensar que o comportamento explosivo de yt no regime 1 implicaria
um processo não estacionário. Isto não sucede porque a probabilidade do sistema estar num
dado momento no regime estável é relativamente elevada. O processo pode, episodicamente,
entrar no regime 1 e atingir valores extremamente elevados, mas num intervalo de tempo
261
Figura 7-22: Simulação de uma trajectória do processo (7.36) onde ut N (0; 1) (10000
observações)
onde
2 2 2
it = !i + i ut 1 + i t 1:
262
Proposição 7.4.4 Suponha-se: (a) f"t g é uma sucessão de v.a. i.i.d. de média zero e variân-
cia um, com função de densidade contínua em R; (b) i > 0; i > 0; para i = 1; 2; :::; N ;
(c) 1 + 1 < 1 e (d) p1t yt2 1 > 0 e pit yt2 1 ! 1 quando yt2 1 ! 1: Então y é EE.
A proposição assegura que o processo retorna ao regime estável sempre que yt tende a
assumir valores muito altos (alínea d)).
No caso especial em que as probabilidades são constantes, pit = i; é válido a seguinte
j j + j <1
j=1
então é EE.
Comece-se por analisar o modelo (7.25) e seja o vector dos parâmetros a estimar. Como ha-
Pn
bitualmente, o estimador de máxima verosimilhança é dado por ^n = arg max t=1 lt ( ) ;
onde
lt ( ) = log f (yt j Ft 1 ; ) = log (f1t p1t + f2t (1 p1t )) :
Se os regimes são independentes, p1t é dado pela equação (7.28); se seguem uma cadeia de
Markov, p1t é dada por (7.32a); finalmente, se os regimes são Ft 1 mensuráveis, p1t é dado
por (7.33) ou (??).
Pode-se mostrar:
p d 1
n ^n 0 ! N 0; I ( 0 )
@ 2 lt ( ) @lt ( ) @lt ( )
A( ) = E ; B( )=E :
@ @ 0 @ @ 0
2 ^
1 X @ lt n
n
p
A^n = ! A ( 0)
n t=1 @ @ 0
X @lt n ^n @lt ^n
^n = 1
B
p
! B ( 0) :
0
n t=1 @ @
263
Os ensaios individuais para os parâmetros da média e da variância condicional (GARCH)
podem ser feitos como habitualmente. Isto é, podem basear-se no resultado
^i;n a
N ( i ; v^ii )
1
onde i é o parâmetro (escalar) i; e vii é o elemento ii da matriz I ( 0 ) =n:
No ensaio, um regime versus dois regimes, H0 : c1 = c2 ; 1 = 2; 1 = 2; H1 : H0 é
falsa, a situação é similar ao do ensaio H0 : 1= 2 no contexto do modelo TAR: os testes
assimptóticos habituais (rácio de verosimilhanças, Wald e multiplicador de Lagrange) não
podem ser empregues. Sob a hipótese nula (um regime) vários parâmetros não são identi-
ficáveis (o score com respeito a estes parâmetros é identicamente nulo e a matriz informação
de Fisher resulta singular). Uma forma de lidar com este tipo de ensaio não standard é
proposto por Davies (1987), que obtém um limite superior para o nível de significância do
teste rácio de verosimilhança quando q parâmetros apenas são identificáveis sob a hipóteses
alternativa:
2
P (sup LR > LRobs ) P q > LRobs
(7.37)
(q 1)=2 2 q=2
+V:LRobs : exp f LRobs g (q=2)
:
onde é a função gama, LRobs = 2 (log L1n log L0n ) e L1n e L0n são os valores da função de
log-verosimilhança sob H1 e H0 , respectivamente. Se a função o rácio de verosimilhanças
p
admite um máximo global então V = 2 LRobs . Os passos para implementar o teste no
contexto do modelo (7.25) são os seguintes:
2
3. Calcular LRobs ; P q > LRobs ; V; etc.;
Suponhamos que se obtém P (sup LR > LRobs ) 0:02: Então rejeita-se H0 ao n.s. de
5% pois o verdadeiro p-value é inferior a 0.02. Suponhamos que P (sup LR > LRobs )
0:06: Nada se pode concluir ao n.s. de 5% pois o verdadeiro p-value pode ser 0.04 ou 0.055.
Tudo o que sabemos é que é inferior a 0.06.
Outro teste, designado por teste-J, é proposto por Garcia e Perron (1996) e baseia-se na
264
significância estatística do parâmetro (teste-t) da regressão
Xt = (1 ^ t(1) + X
)X ^ t(2) + "t
^t (1) ^t(2)
onde X eX são os previsores dos modelos com um e dois regimes, respectivamente (o
^ t(1) é o previsor do modelo com menos
teste generaliza-se imediatamente ao caso em que X
regimes). Assim, a rejeição de H0 : = 0 mostra evidência a favor do modelo com mais
regimes.
7.4.8 Previsão
Suponha-se que y segue um modelo MS com dois regimes e estão disponíveis em n ob-
servações de y; fy1 ; y2 ; :::; yn g : Usando, como previsor para yn+h a função E (yn+h j Fn ) ;
tem-se
onde E (yn+h j Fn ; Sn+h = i) é, como já vimos, a média condicional do regime i (no contexto
do modelo (7.25) tem-se E (yn+h j Fn ; Sn+h = 1) = E (c1 + 1 yn+h 1 j Fn )). A probabili-
dade P (Sn+h = ij Fn ) depende da hipótese que se tem sobre S: Se admitirmos que S segue
uma cadeia de Markov, vem
X
2
P (Sn+h = 1j Fn ) = P (Sn+h = 1; Sn = ij Fn )
i=1
X2
= P (Sn+h = 1j Sn = i; Fn ) P (Sn = ij Fn )
i=1
X2
= P (Sn+h = 1j Sn = i) P (Sn = ij Fn ) :
i=1
h
P (Sn+h = jj Sn = i) = Pi;j = elemento (i; j) da matriz P h :
265
Finalmente, tendo em conta a equação (7.31),
f (yn j Sn = i; Fn 1 ) P (Sn = ij Fn 1 )
P (Sn = ij Fn ) = PN :
j=1 f (yn j Sn = j; Fn 1 ) P (Sn = jj Fn 1 )
7.4.9 Aplicação
Analisa-se a taxa de juros FED fund13 (EUA) no período Julho de 1954 a Outubro de 2006
(628 observações mensais).
A literatura dos modelos de taxas de juro (a um factor) sugere que a volatilidade da taxa
de juro depende do nível da taxa de juro. Um dos modelos mais usados em matemática
financeira (tempo contínuo) é o processo CIR (devido a Cox, Ingersoll e Ross):
p
drt = ( rt ) dt + rt dWt ; ; ; >0 (7.38)
13
É oficialmente designada por Federal funds effective rate, com maturidade overnight.
266
Mean log-likelihood -1.07420
Number of cases 628
reversão para uma média de longo prazo; quando as taxas de juro são baixas, a volatilidade
é baixa e observa-se ausência de reversão para uma média. Este argumento sugere a existên-
cia de dois regimes: um regime de altas taxas de juro e alta volatilidade e um regime de
baixas taxas de juro e baixa volatilidade. Depois de vários ensaios seleccionou-se o seguinte
modelo: 8
< c1 + 1 yt 1
+ 1 "t se St = 1
yt = (7.40)
: c + y + py " se S = 2
2 2 t 1 2 t 1 t t
267
Figura 7-25: Taxa de juro e probabilidades P (St = 1j Ft 1 ) estimadas
Página em branco
268
Capítulo 8
Modelação da Heterocedasticidade
Condicionada - Caso Univariado
8.1 Introdução
Vimos no capítulo 3 que fortes variações dos retornos são normalmente seguidas de fortes
variações dos retornos em ambos os sentidos, e que baixas variações dos retornos são normal-
mente seguidas de baixas variações dos retornos, também, em ambos os sentidos (veja-se,
por exemplo, a figura 3-17). Este facto estilizado indica muito claramente que a volatilidade
não é constante ao longo do tempo. Uma forma mais subtil de mostrar que a volatilidade
não é constante consiste em constatar que a série dos quadrados dos resíduos (ou mesmo os
quadrados dos retornos) é autocorrelacionada.
Uma parte da volatilidade pode ser relacionada com a especulação. Em certos mode-
los distingue-se duas classes de investidores: investidores racionais que tendem a “em-
purrar” o preço dos activos na direcção do valor fundamental ou intrínseco da empresa
(normalmente formalizado como o valor actual dos fluxos financeiros que o investidor
espera vir a receber no futuro) e especuladores que baseiam as suas decisões em in-
formações estatísticas geradas pelo mercado, como por exemplo, os preços passados
e o volume de transacções. Quando a proporção de especuladores é alta e os sinais
269
de mercado são interpretados de forma análoga pela maior parte dos especuladores,
formam-se tendências fortes de compra ou de venda que se reflectem no preço e na
volatilidade.
Uma outra explicação (em certa medida complementar com as precedentes) relaciona
a volatilidade com a chegada de informação aos mercados. Suponha-se, num cenário
ideal ou hipotético, que o mercado está em equilíbrio (não há flutuação dos preços).
Quando chega informação ao mercado os agentes reavaliam as suas carteiras (perante
a nova informação, deixam de ser “óptimas”); tenderão, por conseguinte, a vender
ou a comprar activos até que se atinja um novo equilíbrio. A acção de comprar e
vender títulos tende a alterar os preços. A hipótese crucial é a de que a informação não
chega de forma homogénea e contínua ao mercado. Quando a chegada de informação
é reduzida e pouco relevante os mercados tenderão a exibir baixa volatilidade; pelo
contrário, quando a informação é intensa e relevante, poderão ocorrer períodos de
forte volatilidade. A informação relevante aqui deve ser entendida como a informação
que, de alguma forma, afecta a rendibilidade dos activos. Por exemplo, a libertação de
notícias relacionadas com inflação, taxas de juro, PIB, etc., geralmente têm impacto
sobre a volatilidade e sobre os preços.
270
por "i;t (i = 1; :::; Nt ). Se existir uma notícia (relevante) num certo dia t; o logaritmo do preço
no dia t é representado por log Pt = log Pt 1 + + "1;t ; se existirem duas notícias o modelo
passa a ser representado por log Pt = log Pt 1 + + "1;t + "2;t (e assim sucessivamente).
2
Assuma-se que f"i;t ; i = 1; 2; :::; Nt g é uma sucessão de v.a. i.i.d. com distribuição N (0; )
e independentes de Nt : Tem-se assim que o retorno do activo é dado por
X
Nt
rt = + "i;t : (8.1)
i=1
2
Var (rt j Nt = nt ) = nt
(de acordo com este modelo, quanto maior é o número de notícias que chegam ao mercado,
maior é a volatilidade). É razoável admitir-se uma distribuição de Poisson de parâmetro
para a v.a. Nt ; i.e., Nt P ( t ). Podemos ainda refinar o modelo, incorporando persistência
em Nt , i.e. permitindo que Nt seja alto (baixo) sempre que Nt 1 é alto (baixo). Por outras
palavras, o volume de informação tende a ser alto (baixo) em períodos seguidos. Nestas
circunstâncias, passa a assumir-se Nt P ( t ) com t = Nt 1 + 1 (o número médio de
notícias no dia t é igual ao número de informações do período anterior mais uma unidade)
(adiciona-se uma unidade para evitar que t = 0 para algum t). Na figura 8-1 representa-se
uma trajectória simulada de (8.1) para = 0; = 0:0015 e Nt P ( t) ; t = Nt 1 + 1:
Podemos observar que a trajectória simulada replica algumas das características típicas das
séries financeiras.
Retome-se a equação (8.1). Esta equação sugere a especificação
rt = + ut ; ut = t "t :
2
O essencial nesta equação é a ideia de que ut tem variância condicional t não constante.
2 2
Suponha-se de agora em diante que t é Ft 1 -mensurável (i.e., t depende apenas de var-
iáveis observadas no momento t 1)1 .
1 2 2
No exemplo anterior, t = nt não é Ft 1 -mensurável.
271
0.03
0.025
0.02
0.015
0.01
0.005
0
-0.005
-0.01
-0.015
-0.02
-0.025
1 101 201 301 401 501 601 701 801 901
t
H2 "t é independente de ut k ; k 2 N;
H3 t é Ft 1 mensurável.
Tem-se:
Assim, processos multiplicativos do tipo ut = t "t , com t não constante, são processos het-
erocedásticos (variância não constante). Este tipo de modelos estão presentes na abordagem
tradicional da heterocedasticidade. Por exemplo, se zt 1 > 0 é exógena e ut = z t 1 "t ;
2 2
então a expressão Var (ut j zt 1 ) = zt 1 não é constante.
Processos estocásticos com heterocedasticidade condicional (HC) (variância não con-
stante ao longo do tempo), são também definidos a partir de um processo multiplicativo do
2
tipo ut = t "t mas, comparativamente ao caso tradicional, a forma como t é especificado
2
varia substancialmente, como veremos a seguir. Que função especificar para t ou t ? Vimos
que uma das características das séries financeiras é exibir volatility clustering: fortes vari-
ações são normalmente seguidas de fortes variações em ambos os sentidos, devendo ocorrer,
272
portanto, Corr u2t 1 ; u2t > 0. Suponha-se, por um momento que ut representa a série fi-
nanceira. Portanto, se u2t 1 é um valor alto (baixo), em média, u2t será também um valor alto
2
(baixo). Nestas circunstâncias, faz sentido escrever o seguinte modelo para t :
2 2
t =!+ 1 ut 1 ; ! > 0; 1 0: (8.2)
u2t 1 é “alto” ) 2
t é “alto” ) u2t é “alto” (recorde-se ut = t "t ).
u2t 1 ! 2
t ! u2t ! 2
t+1 ! :::
yt = t + ut
2 2
Var ( yt j Ft 1 ) = E (yt t) Ft 1 = Var (ut j Ft 1 ) = t:
Uma característica muito importante dos modelos de HC é o de implicar (sob certas condições)
distribuições marginais leptocúrticas. Retome-se o modelo ut = t "t sob as hipóteses H1-
H3. Admita-se ainda que o choque aleatório "t tem distribuição N (0; 1) : Tem-se
E (ut ) = 0
Var (ut ) = E u2t = E 2
t
3
E ut = 0 ) skweness = 0.
273
Mostre-se que a distribuição marginal de u é leptocúrtica. Para o efeito, calcule-se o coefi-
ciente de kurtosis de u;
E (u4t )
ku = 2
E (u2t )
e verifique-se que ku > 3: Ora
4 4 4 4 4 2 2 4
E ut = E t "t =E t E "t = E t E "t
2 2 4 2 2 4 2 2
> E t E "t = E ut E "t = E ut 3
pelo que
2
E (u4t ) E (u2t ) 3
ku = 2 > 2 = 3:
E (u2t ) E (u2t )
Este resultado sugere que um modelo de HC pode ser adequado para modelar retornos, pois
acomoda uma das características mais importantes das séries financeiras que é a dos retornos
seguirem uma distribuição leptocúrtica.
Vimos que fortes variações de y são normalmente seguidas de fortes variações em ambos os
sentidos. Teoricamente, este efeito pode ser modelado através da média condicional. Esta
seria a situação ideal. Se a média condicional modelasse este efeito, conseguiríamos prever
razoavelmente as variações de y e, nestas circunstâncias, não só o erro ut = yt t seria
baixo como também a volatilidade de y poderia ser baixa e mesmo constante ao longo do
período. No entanto, vimos que a média condicional é geralmente uma componente muito
fraca do modelo (recorde-se a questão dos mercados eficientes). Isto é, se considerarmos o
modelo yt = t + ut ; a média condicional t (representada, por exemplo, por um AR ou
MA), é uma componente pouco explicativa do modelo. Assim, quando yt2 é alto, u2t também
é alto (porque a média condicional não acompanha as flutuações de yt ) e, consequentemente,
espera-se que u2t esteja fortemente correlacionado com u2t 1 .
Antes do artigo seminal de Engle (1982) as dependências temporais nos momentos superi-
ores a um eram tratadas como simples ruído. Engle mostrou que as dependências temporais
274
do segundo momento, podem explicar razoavelmente a evolução da volatilidade ao longo do
tempo. A volatilidade condicional (doravante volatilidade) da série pode ser identificada com
2
a variância condicional, t; ou, simplesmente, com t (em princípio, é preferível identificar
a volatilidade com t, pois t está na escala da variável).
Iremos ver que os modelos de HC permitem:
yt = t + ut ;
ut = t "t
ut = t "t
2 2 2
t = !+ 1 ut 1 + ::: + q ut q ; ! > 0; i 0
275
retornos Panel (a) volatilidade retornos Panel (b) volatilidade
4 20 15 20
10
2 15 15
5
0 10 0 10
-5
-2 5 5
-10
-4 0 -15 0
r(t) sigma(t) r(t) sigma(t)
2
É importante constatar que t 2 Ft 1 .
Como a volatilidade exibe forte dependência temporal, raramente se considera q =
1: Discute-se a seguir esta questão através de um exercício de simulação. Na figura 8-2
apresenta-se as trajectórias simuladas para o retorno (rt ) e t considerando diferentes val-
ores para os parâmetros i: O modelo simulado é
rt = ut ; ( t = 0)
276
Na figura 8-2 os gráficos que mais fielmente reproduzem o fenomeno de volatility clus-
tering (volatilidades altas (baixas) são geralmente seguidas por volatilidades altas (baixas))
e exibem alguma persistência no comportamento da volatilidade (tal como vimos nos pontos
3.2.2 e 3.2.3), correspondem aos painéis (c) e (d). A simulação sugere que é mais apropriado
em aplicações empíricas considerar-se um q elevado (não obstante, veremos adiante que é
problemático estimar-se um modelo com q elevado).
Por outro lado, como fut g é uma diferença de martingala, pois E (jut j) < 1 e E (ut j Ft 1 ) =
0; resulta pela proposição 4.4.1, que ut é não autocorrelacionado, i.e. Cov (ut ; ut k ) = 0.
Vimos, já por várias ocasiões, que existem dependências no segundo momento do processo.
A representação autoregressiva do processo ARCH mostra exactamente esse aspecto. Tem-
se,
2 2
t = !+ 1 ut 1
u2t + 2
t = !+ 2
1 ut 1 + u2t
u2t = ! + 2
1 ut 1 + u2t 2
| {z }t
vt
u2t = !+ 2
1 ut 1 + vt
277
Esquematicamente:
ut ARCH(1) ) u2t AR(1):
Estude-se a ESO de u. Vimos que E (ut ) e Cov (ut ; ut k ) são finitos e não dependem de t;
só falta estudar Var (ut ). Em que condições Var (ut ) = E (u2t ) não depende de t e é finita?
Considere-se o ARCH(1) na sua representação autoregressiva:
u2t = ! + 2
1 ut 1 + vt ; 1 0:
2 2
E ut = !+ 1 E ut 1
2 2 2 !
E ut = !+ 1 E ut ) E ut =
1 1
u2t = ! + 2
1 ut 1 + ::: + 2
q ut q + vt ; i 0:
q
Da estrutura autoregressiva conclui-se que, se as raízes do polinómio AR (1 1L ::: qL ) =
0; estiverem todas fora do circulo unitário (complexo), então E (u2t ) = 2
< 1: Se adicion-
armos a esta condição, as restrições i 0; a condição de ESO simplifica-se e, pode-se
provar, é igual a
1 + 2 + ::: + q < 1; ( i 0).
278
Neste caso, depois de algumas contas, obtém-se
!
Var (ut ) = E u2t = :
1 ( 1 + 2 + ::: + q)
Observação 8.2.1 Embora a expressão Var ( ut j Ft 1 ) seja variável, Var (ut ) é constante.
Assim: ut é condicionalmente heterocedástico (heterocedasticidade condicional) mas em
termos não condicionais ou marginais, ut é homocedástico. De forma análoga, também
num processo estacionário, a média condicional é variável e a não condicional é constante.
Por exemplo, num processo AR(1) estacionário, a média condicional é variável ao longo do
tempo e dada por t = c + yt 1 ; no entanto, a média marginal c= (1 ) é constante.
Suponha-se que o momento de ordem quatro de u é finito não depende de t. A FAC de u2t é
dada por
Vimos que se ut segue um ARCH(q), então u2t segue um AR(q). Assim, a FAC e a FACP
teóricas de u2 exibem o comportamento típico de um AR:
k
k = 1; k 1
11 = e kk = 0; k 2:
2
1. Estima-se o modelo yt = t + ut supondo t constante;
279
0.5 FAC de u^2 0.5 FACP de u^2
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
-0.1 -0.1
1 5 9 13 17 21 25 29 1 5 9 13 17 21 25 29
Suponha-se que "t é um ruído branco Gaussiano N (0; 1) : Então a distribuição condicional
2 2
de ut é N (0; ) ; i.e., ut = t "t j Ft 1 N (0; t): Sob certas condições, a distribuição
marginal de ut ; f (ut ), é dada pela expressão
Como na prática não se consegue obter a expressão para o limite anterior, f é geralmente
desconhecida; podemos ainda assim investigar algumas propriedades de f calculando alguns
momentos:
E (ut ) = 0
!
Var (ut ) = E u2t =
1 ( 1 + ::: + q )
3
E ut = 0 ) skweness = 0
E (u4t )
ku = 2 > k" = 3 (já vimos).
E (u2t )
280
25
kurtosis
20
15
10
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
alfa 1
2
ut j Ft 1 = t "t j Ft 1 N 0; t ) ut Dist:Leptocurtica:
Podemos obter uma expressão exacta para ku . Por exemplo, suponha-se ut ARCH(1);
i.i.d. 2
"t N (0; 1) e 3 1 < 1: Deixa-se como exercício mostrar que
4 4
E ut = 3 E t ,
2
! (1 + 1 )
4
E t = ;
(1 1 ) (1 3 21 )
E (u4t ) 3 (1 2
1) 6 21
ku = 2 = = 3 + > 3:
E (u2t ) 1 3 21 1 3 2
1
Vimos que a distribuição de u tem caudas mais pesadas do que a distribuição de ": A
proposição seguinte caracteriza as caudas da distribuição marginal.
2
Proposição 8.2.1 Seja ut = t "t onde "t é um ruído branco Gaussiano N (0; 1) e t =
2
!+ 1 ut 1 . Suponha-se 1 2 (0; 2e ) onde é a constante de Euler, ' 0:5772: Seja
> 0 a solução única da equação
2 (2 1 ) 1
1 E Z =1, p + =1 (8.5)
2
281
converge para
c 2
x ; c > 0:
2
A proposição 8.2.1 basicamente estabelece que as abas da fdp f (x) de ut têm caudas de
Pareto (i.e., para x suficientemente “grande” P (ut > x) - como função de x - e f (x) apre-
sentam um decaimento polinomial). Este resultado está de acordo com os factos estilizados
analisados no capítulo 3. É interessante verificar, mais uma vez, que embora a distribuição
condicional seja normal a distribuição marginal é leptocúrtica e apresenta caudas pesadas
(light-value input causes heavy-tailed output). O parâmetro obtém-se da resolução da
equação (8.5). Não há, no entanto, uma solução explícita para (em função de 1) -a
equação (8.5) deve resolver-se numericamente.
Algumas conclusões:
Embora fut g seja um processo não autocorrelacionado, fut g não é uma sucessão
de variáveis independentes (basta observar, por exemplo, E u2t u2t 1 6= 0 ou que
E (u2t j Ft 1 ) depende de u2t 1 );
Seja
yt = t + ut
ut = t "t
(assumem-se as hipóteses habituais para "t ). Deixa-se como exercício verificar que:
E (yt j Ft 1 ) = t;
2
Var ( yt j Ft 1 ) = t;
2
Se "t é Gaussiano então yt j Ft 1 N ( t; t);
E (yt ) = E ( t ) ;
282
4 Retorno A 4 Retorno B
3 3
2 2
1 1
0 0
-1 -1
-2 -2
-3 -3
-4 t -4 t
“[. . . ] practitioners often refer to the term volatility when speaking of movements
in financial prices and rates.” RiskMetrics
ou se yt ARCH(q)
d (ut ) = !
^
Var ; ( 1 + 2 + ::: + q < 1):
1 (^ 1 + ::: + ^ q )
283
No exemplo acima, a volatilidade marginal de B é maior do que a de A, embora B exiba
volatilidade constante.
ut = t "t
2 2 2 2 2
t = !+ 1 ut 1 + ::: + q ut q + 1 t 1 + :: + p t p
2 2 2
Surpreendentemente, o modelo mais simples GARCH(1,1), t =!+ 1 ut 1 + 1 t 1;
Considere-se o GARCH(p,q):
2 2 2 2 2
t =!+ 1 ut 1 + ::: + q ut q + 1 t 1 + ::: + p t p
2 q 2 P 2
t = ! + ( 1 L + ::: + q L )ut + 1L + ::: + pL t
| {z } | {z }
A(L) B(L)
2
(1 B (L)) t = ! + A (L) u2t :
2
No método dos mínimos quadrados (OLS) a estimação é relativamente simples e imediata, mesmo que o
número de parâmetros a estimar seja alto. Afinal, o “algoritmo de optimização” converge numa única iteração.
Já no âmbito dos modelos ARCH a estimação é mais complicada pois a função a minimizar é altamente não
linear e os estimadores não podem ser escritos através de uma fórmula “fechada”.
284
Assim,
2
(1 B (L)) t = ! + A (L) u2t
2 ! A (L) !
t = + u2t = + D (L) u2t
1 B (L) 1 B (L) 1 B (L)
2 !
t = + d1 L + d2 L2 + ::: u2t
1 B (1)
! X
1
= + di u2t i :
1 B (1) i=1
2 !
t = + d1 u2t 1 + d2 u2t 2 + :::
1 1 ::: p
2 2 2 2
t = !+ 1 ut 1 + 2 ut 2 + 1 t 1
2
t = !+ 1L + 2 L2 u2t + ( 1 L) 2t :
| {z } | {z }
A(L) B(L)
2
2 ! A (L) ! 1L + 2L
t = + u2t = + u2t :
1 B (1) 1 B (L) 1 1 1 1L
2
1L + 2L
Series[ ; fL; 0; 7g]:
1 1L
3
Considere-se
A (L)
= D (L)
1 B (L)
2 q
1 L + 2 L + ::: + q L
, P
= d1 L + d2 L2 + :::
1 1L ::: pL
2 q
, 1L + 2L + ::: + qL = d1 L + d2 L2 + ::: 1 1L ::: pL
P
:
A partir da última equação igualam-se os coeficientes homólogos e resolvem-se as igualdades obtidas em ordem
a di :
285
O output do programa fornece:
2
1L + 2L 2 2
= 1L +( 2 + 1 1) L + 2 1 + 1 1 L3
1 1L
2 3 3 4
+ 2 1 + 1 1 L4 + 2 1 + 1 1 L5
4 5 5 6
+ 2 1 + 1 1 L6 + 2 1 + 1 1 L7 + :::
Assim,
2
d1 = 1; d2 = 2 + 1 1; d3 = 2 1 + 1 1; etc:
Em geral di = 1 di 1 , i = 3; 4:::
d1 = 1; d2 = 2 + 1 1; di = 1 di 1
1 0; 1 0; 2 1 1
u2t + 2
t =!+ 2
1 ut 1 + u2t + 2
1 t 1;
286
isole-se u2t no lado esquerdo da equação e simplifique-se a equação até se obter o ARMA
implícito:
u2t = ! + 2
1 ut 1 + 2
1 t 1 + u2t 2
| {z }t
vt
2 2 2 2
= !+ 1 ut 1 + 1 t 1 + 1 ut 1 1 ut 1 + vt
2
= !+( 1 + 1 ) ut 1 1 u2t 1
2
t 1 + vt
| {z }
vt 1
2
= !+( 1 + 1 ) ut 1 1 vt 1 + vt :
Como E (vt ) = 0 e Cov (vt ; vt k ) = 0 conclui-se: u2t ARM A(1; 1). No caso geral
pode-se mostrar
Por exemplo,
Em geral é problemático identificar o GARCH a partir das FAC e FACP de u2t . Por duas
razões: 1) o GARCH implica uma estrutura ARMA para u2t e, como se sabe, no ARMA,
nenhuma das funções de autocorrelação (FAC ou FACP) é nula a partir de certa ordem em di-
ante (e, é esta característica que facilita a identificação das ordens do AR ou do MA, mas não
do ARMA); 2) não existe uma correspondência perfeita entre a estruturas ARMA e GARCH
(por exemplo, um ARMA(2,2) para u2t pode ser um GARCH(2,1) ou um GARCH(2,2) para
ut ). Quer isto dizer que as funções de autocorrelação não são interessantes nesta fase? De
forma alguma, por duas razões: 1) se FAC e a FACP de u2t não apresentarem coeficientes
significativos então não existe efeito ARCH; 2) a existência de vários coeficientes de auto-
correlação e de autocorrelação parcial significativos é indício forte da presença de efeitos
ARCH4 .
4
Coeficientes de autocorrelação de u2t estatisticamente significativos podem ainda dever-se a um erro de es-
pecificação do modelo (veremos isso adiante) ou à presença de outros modelos não lineares, como por exemplo,
o modelo bilinear.
287
Como regra geral, não devemos usar o ARCH; o GARCH é preferível. A identificação
das ordens p e q do GARCH faz-se na fase da estimação.
Estacionaridade de Segunda Ordem num GARCH(p,q)
Como se sabe E (ut ) = Cov (ut ; ut k ) = 0; 8k 2 N: Assim, para discutir a ESO do
processo u; basta analisar E (u2t ) :
Vimos
ut GARCH(p,q) ) u2t ARMA(max fp; qg ; p).
q p p
X X X
u2t = ! + 2
i ut i +
2
i ut i i vt i + vt
i=1 i=1 i=1
maxfp;qg p
X X
2
= !+ ( i + i ) ut i i vt i + vt
i=1 i=1
= ! + (A (L) + B (L)) u2t i + (1 B (L)) vt :
Tem-se assim
(1 A (L) B (L)) u2t = ! + (1 B (L)) vt :
q p
X X
i + i < 1:
i=1 i=1
ut = t "t
2 2 2 2 2
t = !+ 1 ut 1 + ::: + q ut q + 1 t 1 + :: + p t p
e
q p
X X
i + i =1
i=1 i=1
288
0 0
i.e., a soma dos parâmetros se s é igual a um.
2 2 2
Vamos analisar apenas o IGARCH(1,1): t =!+ 1 ut 1 + 1 t 1; onde 1 + 1 = 1:
A designação Integrated GARCH resulta do facto de u2t possuir uma raiz unitária:
u2t = ! + ( 1 + 2
1 )ut 1 1 vt 1 + vt
| {z }
1
u2t = ! + u2t 1 1 vt 1 + vt
(1 L) u2t = ! 1 vt 1 + vt
(logo u2t é um ARIMA(0,1,1)). Nestas condições ut não é ESO. Durante algum tempo
pensou-se que ut seria também não estacionário em sentido estrito. Daniel Nelson mostrou
que um IGARCH poderia ser estritamente estacionário (EE). Concretamente mostrou: 1) a
condição necessária e suficiente para que ut seja EE5 é
2
E log 1 + 1 "t < 0;
2) e que esta condição acaba por ser menos exigente que a condição de ESO, 1 + 1 < 1.
2
Se E (log ( 1 + 1 "t )) < 0; então a distribuição conjunta de (u1 ; u2 ; :::; uk ) é igual à
distribuição conjunta de (ut ; ut+1 ; :::; ut+k ) para todo o t e k e, em particular, as funções
densidade de probabilidade são constantes no tempo f (ut ) = f (us ) ; 8t; s; pode-se ainda
2
mostrar que t é uma variável aleatória limitada em probabilidade (não tende para 1; como
2 p 2 2
à primeira vista poderíamos pensar) e t ! (!) ( (!) é uma v.a.) (embora não
exista o segundo momento). Vários estudos mostram que os testes assimptóticos habituais
permanecem válidos6 . Para assentar ideias, suponha-se "t N (0; 1) : Então:
se 1 + 1 < 1 ) ut é ESO;
2 2
E log 1 + 1 "t log E 1 + 1 "t = log ( 1 + 1) <0
2
e, portanto, 1 + 1 < 1 ) log E ( 1 + 1 "t ) < 0; isto é, se o processo é ESO então
5
Na proposição 4.5.5 e exemplo 4.5.13 aborda-se, do ponto de vista teórico, esta questão.
6
Esta conclusão contrasta com o processos integrados na média, por exemplo do tipo, yt = yt 1 + "t que,
como se sabe, não são nem estacionários de segunda ordem nem estritamente estacionários e onde os testes
habituais não são válidos.
289
β1
α 1 + β1 > 1
[ (
E log β1 + αε t2 > 0 )]
α 1 + β1 > 1
α 1 + β1 < 1
[ ( )]
E log β1 + αε t2 < 0
[ ( )]
E log β1 + αε t2 < 0
α1
1 3
Figura 8-6: Regiões no espaço dos parâmetros ( 1; 1) onde o processo fut g é E2O e EE
é também EE;
2
pode-se provar que 1 + 1 = 1 ) E (log ( 1 + 1 "t )) < 0 (este valor esperado
pode ser calculado de forma exacta7 ). Como referimos, o processo IGARCH é EE. A
condição de ESO acaba por ser mais exigente do que a condição de EE. A primeira
exige a existência do momento de segunda ordem enquanto EE exige que toda a es-
trutura probabilística (leia-se função de distribuição finita) seja estável ao longo do
tempo, independentemente dos momentos serem finitos ou não.
2
E (log ( 1 + 1 "t )) < 0 6) 1 + 1 <1
A figura 8-6 mostra três regiões no espaço dos parâmetros ( 1; 1 ). Na região f( 1; 1) 2 R2 : 1 + 1 <
o processo fut g é ESO e EE. Na região f( 1; 1) 2 R2 : 1 + 1 > 1; E (log ( + "2 )) < 0g
o processo fut g não é ESO mas é EE. Na região f( 1; 1) 2 R2 : 1 + 1 > 1; E (log ( + "2 )) > 0g
o processo fut g não é ESO nem EE.
Certos processos exibem reversão para a média; outros não (e.g. RW). É usual chamar a estes
últimos processos persistentes no sentido em que choques nas inovações exercem um efeito
7
Com efeito, a variável aleatória Z = log 1 + 1 "2 tem distribuição conhecida. Por exemplo, basta
fazer uma transformação de variável e atender ao facto de "2 2
(1) :
290
fhi = 0.1 fhi = 0.8
120 120
115 115
110 110
105 105
100 100
95 95
90 90
85 85
80 80
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
291
Existem outras medidas de persistência. Por exemplo a half-life é o valor de h tal que
1
E (yt+h j Ft ) (yt ); (supondo yt > )
2
Suponha-se que em t existe um desvio de y face à sua média de longo prazo igual a yt :
Questão: quantos períodos são necessários para que metade desse desvio seja eliminado (em
média)? Ou, em quanto tempo o processo elimina metade do desvio yt ? A resposta é h:
Para exemplificar, considere-se o processo AR(1), yt = yt 1 + ut (note-se, = 0).
Como se viu atrás
h
E (yt+h j Ft ) = yt :
h
Assim, a half-life é o valor de h tal que yt = 21 yt : Logo
h 1 log (1=2)
yt = yt ) h = :
2 log
Se temos dados diários (t = 1 corresponde a uma dia) e, por exemplo, = 0:8; então
h = log (1=2) = log (0:8) = 3:1 é o número de dias necessários para que, em média, metade
do desvio de y face à sua média de longo prazo seja eliminado. Valores altos de h indicam
maior persistência (o processo demora mais tempo a eliminar desvios face à média de longo
prazo e, neste caso, o processo exibe uma reversão para a média mais lenta). No caso !
1 ) h ! 1 e o processo é persistente. Obviamente, se E (yt+h j Ft ) não converge quando
h ! 1 o processo y é persistente.
Tradicionalmente, o conceito de persistência aplica-se à média do processo. Com o
GARCH surgiu a ideia da persistência em variância. Choques na variância são rapidamente
2
eliminados e t tende rapidamente para E ( 2t ) ou, pelo contrário, os choques têm um efeito
duradouro na variância?
Podemos também definir uma half-life para a variância. Trata-se do valor de h tal que
2 2 1 2 2 2 2
E t+h Ft t (supondo t > )
2
2
onde = E ( 2t ) : Para exemplificar, considere-se o GARCH(1,1). Vem 2
= != (1 1 1)
e
2 2 h 2 2
E t+h Ft = ( 1 + 1) t
(este resultado mostra-se no capítulo da previsão). Assim a half-life é o valor de h tal que
292
h
( 1 + 1) ( 2
t
2
) = 12 ( 2
t
2
) : Logo
h 2 2 1 2 2 log (1=2)
( 1 + 1) t = t )h= :
2 log ( 1 + 1 )
Quando 1+ 1 tende para 1; h tende para mais infinito e o processo é persistente na variância
(ou a volatilidade é persistente).
Uma das dificuldades na análise dos processos GARCH em geral, e dos IGARCH em
particular, é o de que certos processos podem ser persistentes num certo modo de convergên-
cia e não ser num outro modo de convergência. Pode-se provar que os IGARCH, emb-
2 2
ora persistentes de acordo com a medida E t+h Ft não são persistentes no modo
de convergência designado “quase certamente” ou “com probabilidade 1” (como notámos
2 q:c: 2 2
t ! (!) ; i.e. t converge quase certamente para uma variável aleatória, apesar de
E ( 2t ) não existir).
Em muitas aplicações empíricas observa-se que a estimativa para 1 + 1 se encontra
muito perto de um, sugerindo que a volatilidade pode ser persistente (forte dependência
temporal) e que Var (yt ) pode não existir. Este facto está de acordo com os factos estilizados
discutido no ponto no capítulo 3.
Um modelo estacionário mas em que a volatilidade exibe memória longa é o FIGARCH
(GARCH fraccionário).
Este modelo foi simulado 500 vezes. Na figura 8-8 representa-se uma das 500 trajectórias
simuladas.
Em cada simulação (ou trajectória simulada) estimaram-se os parâmetros. Embora o
293
10
8
6
4
2
0
-2
-4
-6
-8
1 101 201 301 401 501 601 701 801 901
modelo simulado não seja claramente um IGARCH (note-se que + = 0:7), concluiu-se
que:
1X 2
h
2 1 2
t (h) = yt i = y + yt2 + ::: + yt2
h i=1 h t 1 2 h
294
0.0007
0.0006
0.0005
Vol30
0.0004 Vol60
0.0003 Vol120
0.0002 Vol240
0.0001
0
Jan-89
Jun-90
Nov-91
Jul-97
Mar-03
Dec-98
Oct-01
Jan-06
Feb-96
May-00
Sep-94
Apr-93
Aug-04
Figura 8-9: Estimativas da volatilidade do índice Dow Jones ao longo do período, baseadas
no estimador 2 (h) para diferentes valores de h (e.g., Vol30 = 2t (30) ; Vol60 = 2t (60) ;
etc.)
2
o estimador t (h) implica que todas as observações no período (t h; t 1) têm o
2
mesmo peso na determinação do valor de t (h) : Por exemplo, com
1 X 2
240
2 1
t (240) = yt i = yt2 1 + yt2 2 + ::: + yt2 240
240 i=1 240
todas as observações têm um peso de 1/240. No entanto, seria preferível dar mais peso
às observações mais recentes;
2
o estimador t (h) implica que todas as observações fora do período (t h; t 1)
têm peso zero. Como consequência, pode suceder o seguinte. Se na janela amostral
(t h; t 1) existir uma observação extrema, a volatilidade é sobrestimada; quando
essa observação sai da janela amostra, a volatilidade estimada cai depois abruptamente.
O estimador Exponential Weighted Moving Averages (EWMA, proposto pela J.P. Mor-
gan) resolve algumas das fragilidades dos estimador acima descrito, dando mais peso às
295
observações mais recentes:
X
1
2 i 1 2
t = (1 ) yt i ; 0< <1
i=1
2 2
= (1 ) yt2 1 + yt2 2 + yt 3 + ::: :
Quanto mais alto for ; mais peso o estimador dá às observações mais antigas (o decréscimo
dos ponderadores é, no entanto, sempre exponencial).
i
Os ponderadores, ! i = (1 ) ; somam 1,
X
1
2
! i = (1 ) 1+ + + ::: = 1
i=1
(recorde-se a soma de uma progressão geométrica). Por exemplo, com = 0:5 vem
2 2 2
t = (1 ) yt2 1 + yt2 2 + yt 3 + :::
2
A expressão de t pode ser reescrita de uma forma mais sugestiva. Notando que
2 2 2
t 1 = (1 ) yt2 2 + yt2 3 + yt 4 + :::
temos
2
t = (1 ) yt2 1 + 2
t 1: (8.7)
2 2 2
t = !+ 1 ut 1 + 1 t 1; 1 + 1 =1
2 2
= ! + (1 1 ) yt 1 + 1 t 1:
296
8.5 Modelo CGARCH
Considere-se o GARCH(1,1):
2 2 2
t = !+ 1 ut 1 + 1 t 1
= !+ 1 u2t 1
2
+ 1
2
t 1
2
+ 1
2
+ 1
2
2 2 2
= (1 1 1) + 1 + 1 + 1 u2t 1
2
+ 1
2
t 1
2
2
= + 1 u2t 1
2
+ 1
2
t 1
2
2
Esta equação relaciona t com a respectiva média de longo prazo e mostra como se processa
2 2
a dinâmica de ajustamento de t face à constante :
O Component GARCH model (CGARCH) permite representar:
2
t = qt + 1 u2t 1 qt 1 + 1
2
t 1 qt 1 (8.8)
2 2
qt = + qt 1 + u2t 1
2
t 1
2
onde = E ( 2t ) : O ajustamento de curto prazo de 2
t faz-se agora em relação à v.a. qt ,
2
a qual tende, no “longo prazo”, para : A primeira equação é designada de componente
transitória e a segunda equação de componente de longo prazo. O modelo CGARCH é um
GARCH(2,2) com restrições sobre os parâmetros. Com efeito, substituindo
2
(1 )+ u2t 1 2
t 1
qt =
(1 L)
2 2
+( 1 + ) t 1 + (( 1 + 1) 1 ) t 2:
297
ESO sse
(1 1 1) + 1 + 1 < 1:
Nestas circunstâncias,
2
(1 1 1 ) (1 ) 2
Var (ut ) = = :
1 ( (1 1 1) + 1 + 1)
298
Para modelar o efeito assimétrico é necessário que a volatilidade responda assimetricamente
ao sinal de ut : Mais precisamente, a volatilidade deve aumentar mais quando ut < 0 (“má
notícia”) do que quando ut > 0 (“boa notícia”).
O modelo GJR-GARCH (assim como o EGARCH, AARCH, etc.) modela não só o efeito
magnitude como também o efeito assimétrico. A especificação mais simples (suficiente para
um grande número de aplicações) é
2 2
t =!+ 1 ut 1 + 1 2t 1 + 1 u2t 1 Ifut 1 <0g ;
8
< 1 se u < 0
t 1
Ifut 1 <0g =
: 0 se u 0:
t 1
2
De acordo com o efeito assimétrico devemos esperar 1 > 0: Como é que t varia como
resposta a uma variação em ut 1 ? Uma forma de visualizar esta relação consiste em fixar
2 2 2
t 1 = (variância marginal) e depois traçar t como função de ut 1 : Este gráfico designa-
se por news impact curve (NIC). NIC é portanto uma função de ut 1 . No caso GARCH,
tem-se
2 2 2
N IC (ut 1 ) = ! + 1 + 1 ut 1 = const: + 1 ut 1 (8.9)
2 2 2
N IC (ut 1 ) = ! + 1 + 1 ut 1 + 1 ut 1 Ifut 1 <0g (8.10)
2 2
= const: + 1 ut 1 + 1 ut 1 Ifut 1 <0g
Por exemplo, admita-se 1 = 0:2; 1 = 0:5; ! = 0:1; 1 = 0:4: Para estes valores as
NIC (8.9) e (8.10) estão representadas na figura 8.6. Como seria de esperar, a NIC associada
ao modelo (8.10) é assimétrica e aba esquerda é mais inclinada, traduzindo o facto de que a
299
volatilidade é comparativamente maior quando ut 1 < 0:
12
10
8
Vol(t)
6 NIC GARCH
GJR-GARCH
4
0
-4 -3 -2 -1 0 1 2 3 4
u(t-1)
2 !
Var (ut ) = E t =
1 ( 1 + 1 =2 + 1)
2 2 2 2
yt = c + g t + ut ; ut = t "t ; t =!+ 1 ut 1 + 1 t 1:
2 2
g t = t; g t = log t
300
Dada a estreita relação entre os parâmetros da média e da variância condicional, um erro de
especificação da variância condicional afecta a consistência dos estimadores dos parâmetros
da média condicional.
yt = t + ut
ut = t "t
2 2 2
t = !+ 1 ut 1 + 1 t 1 + g (xt )
2
onde a função g é tal que t > 0 (com probabilidade 1). Que variáveis poderemos considerar
para xt ? Vejamos alguns exemplos:
2 2 2 a u
t =!+ 1 ut 1 + 1 t 1 + 1 St + 2 Tt + 3 Qt + 5 Qt
2
onde St = 1 se t é uma segunda-feira, etc. (deverá ter-se ! +min f i g > 0 ) t > 0).
2 2 2
t =!+ 1 ut 1 + 1 t 1 + 1 goodt + 2 badt
8
< 1 t = são divulgados resultados da empresa ABC acima do esperado
goodt =
: 0 0
8
< 1 t = são divulgados resultados da empresa ABC abaixo do esperado
badt =
: 0 0
8
A chamada “armadilha das variáveis artificiais” não ocorre no exemplo (embora pareça) pois as notícias
podem ser “boas”, “más” ou simplesmente não ocorrerem (e, neste caso, vem goodt = badt = 0).
301
Variação do preço do crude.
Volume de transacções:
2 2 2
t =!+ 1 ut 1 + 1 t 1 + 1 volt 1
volt 1
onde volt 1 pode ser especificada como volt 1 = vol
ou volt 1 = log (volt 1 ) ou
volt 1 = volt 1 =volt 2 , sendo vol o volume de transacções. Observe-se que o vol-
ume de transacções pode ser considerado como uma variável proxy da variável não
observada “chegada de informação”.
No ponto 7.4.9 vimos que o modelo em tempo discreto, compatível com o processo CIR,
p
em tempo contínuo, drt = ( rt ) dt + rt dWt conduz ao modelo,
rt = c + rt 1 + ut
ut = t "t
2 2
t = rt 1
Inspirados nesta especificação, certos autores modelam a taxa de juro em tempo discreto
combinando as características do GARCH com as características do processo de difusão
(modelo CIR):
rt = c + rt 1 + ut
ut = t "t
2 2 2
t = !+ 1 ut 1 + t 1 + rt 1 :
O ensaio H0 : = 0 vs. H1 : > 0 permite analisar se a nível da taxa de juro influencia pos-
itivamente a volatilidade. Geralmente conclui-se > 0. A figura 8-10 sugere (claramente)
> 0:
302
18
16
14
12
10
8
6
4
2
0
Jan-54
May-56
Jan-61
May-63
Jan-68
May-70
Jan-75
May-77
Jan-82
May-84
Jan-89
May-91
Jan-96
May-98
Jan-03
May-05
Sep-58
Sep-65
Sep-72
Sep-79
Sep-86
Sep-93
Sep-00
Figura 8-10: Taxa de Juro (Bilhetes do Tesouro a 3 meses -EUA)
8.9 Estimação
Seja yt = t +ut onde ut = t "t : Suponha-se que v.a. "t tem distribuição conhecida (normal,
t-Student ou outra) de média zero e variância um. O vector dos parâmetros desconhecidos,
, envolve parâmetros definidos na média condicional e na variância condicional.
A média condicional t pode depender de uma variável xt (esta variável pode ser encar-
ada também como um vector de variáveis explicativas). Por exemplo, podemos ter,
yt = 0 + 1 xt + 1 yt 1 + ut
0
= ( 0; 1; 1 ; !; 1) :
A estimação do vector poderia ser feita da seguinte forma (tome-se como referência o
modelo acima apresentado):
303
O procedimento acima descrito envolve estimadores consistentes mas altamente inefi-
cientes, pois em ambos os casos os erros das equações são heterocedásticos (no caso da
estimação ! e 1; a situação é particularmente grave, pois, pode mostra-se, vt tende a exibir
forte heterocedasticidade).
O método de estimação mais utilizado é o método da máxima verosimilhança (o GMM
também pode ser utilizado) que se descreve a seguir.
então
::: f (y1 j Y0 ; x1 ; )
Y
n
= f (yt j Yt 1 ; Xt ; ) (8.11)
t=1
304
Desenvolva-se a nova expressão (*):
A nova expressão (*) pode ser desenvolvida de forma similar. Coligindo as equações (8.12)-
(8.14), obtém-se (8.11).
A hipótese definida na proposição anterior, estabelece que yt não depende dos valores
futuros xt+1 ; xt+2 dado It = Yt 1 [ Xt ou, por outras palavras, xt dado Xt 1 não depende
de Yt 1 (ou ainda, y não causa à Granger x). Doravante assume-se esta hipótese.
A função de verosimilhança (supondo que as condições iniciais Y0 são dadas) é
Y
n
Ln ( ) = f (Yn j Y0 ; Xn ; ) = f (yt j It ; ) (8.15)
t=1
Y
n X
n
^n = arg max log Ln ( ) = arg max log f (yt j It ; ) = arg max log f (yt j It ; ) :
t=1 t=1
p d 1
n ^n 0 ! N 0; I ( 0 )
@ 2 lt ( ) @lt ( ) @lt ( )
A( ) = E ; B( )=E
@ @ 0 @ @ 0
lt ( ) = log f (yt j It ; ) :
305
Sob certas condições, A e B podem ser estimados consistentemente por
2 ^
1 X @ lt n
n
p
A^n = ! A ( 0)
n t=1 @ @ 0
X @lt n ^n @lt ^n
^n = 1
B
p
! B ( 0) :
0
n t=1 @ @
2 2
ut j It = t "t j It N 0; t ) yt j It N t; t :
e, portanto,
1 1 1
log f (yt j It ; ) = log (2 ) log 2
t ( ) 2
(yt t ( ))2 : (8.16)
2 2 2 ( )
t
yt = 0 + 1 xt + 1 yt 1 + ut
onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para
estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-
cionar “estimate” e depois “ARCH"em method. Ver a figura 8-11.
Escolhendo 1 em “Threshold order” poderia estimar-se o GJR-GARCH.
i:i:d
yt = x0t + ut ; ut = "t t ; "t N (0; 1)
306
Figura 8-11: Estimação do GARCH no EVIEWS
Var ~ n Var ^ n
é semidefinida positiva. Isto implica, em particular, que as variâncias dos estimadores OLS
são maiores ou iguais às correspondentes variâncias dos estimadores de máxima verosimil-
hança. Para confirmarmos esta ideia, simulou-se 1000 vezes o modelo
i:i:d
yt = 1 + 2 xt + ut ; xt N (0; 1) ; t = 1; :::; 1000
1 = 10; 2 = 5;
i:i:d
ut = "t t ; "t N (0; 1)
2
t = 0:05 + 0:2u2t 1 + 0:75 2
t 1
307
1 2
(1) OLS (2) MV (1)/(2) (3) OLS (4) MV (3)/(4)
Erro Quad.Médio 0.001 0.0006 1.667 0.0011 0.0006 1.833
Tabela 8.1: Eficiência do Estimador OLS vs. Estimador de MV
1 X ~ (i)
1000
2
1 10
1000 i=1
(i)
e ~ 1 é a estimativa OLS para 1 obtida na i-ésima simulação).
A tabela 8.1 sugere que o estimador ML é substancialmente mais preciso do que o esti-
mador OLS. Com base nas 1000 estimativas OLS e de MV do parâmetro 2; apresenta-se na
figura 8-12 as fdp estimadas (não parametricamente) dos estimadores OLS e de MV.
A figura 8-12 confirma a tabela 8.1: o estimador de MV é mais eficiente do que o esti-
mador OLS (i.e., é mais preciso ou apresenta menor variabilidade). A figura 8-12 também
sugere que ambos os estimadores são asimptoticamente centrados.
Prova-se (sob as condições usuais de regularidade) que o estimador de máxima verosim-
ilhança apresenta as propriedades habituais, isto é, é consistente, assimptoticamente eficiente
e tem distribuição assimptótica normal (como vimos). O estimador OLS é consistente para
308
os parâmetros da média condicional mas, como vimos, não é assimptoticamente eficiente.
Na prática, a distribuição de "t não é conhecida. Podemos ainda assim supor, por exemplo,
"t N (0; 1) ou "t t (n)? A resposta é afirmativa no seguinte sentido: mesmo que a
verdadeira distribuição seja desconhecida, podemos ainda assim “trabalhar” com a hipótese
"t N (0; 1) ou "t t (n) e obter, sob certas condições, estimadores consistentes. Seja
X
n
^n = arg max log f (yt j It ; )
t=1
não pode ser implementado, pois a função f é desconhecida. O estimador de pseudo máxima
verosimilhança usa como pseudo verdadeira fdp a função h (que na generalidade dos casos
é diferente de f ),
X
n
^pmv
n = arg max log h (yt j xt ; :::x1 ; yt 1 ; yt 2 ; :::y1 ; )
t=1
^pmv
n
p
! 0
p
n ^pmv
n 0
d
! N 0; A ( 0 ) 1
B ( 0) A ( 0) 1
309
Se, por acaso, a função h é a própria função f , i.e., f = h, então o estimador de pseudo
máxima verosimilhança é o estimador de máxima verosimilhança e, neste caso, tem-se
1 1 1
A ( 0 ) = B ( 0 ) e, portanto, A ( 0 ) B ( 0) A ( 0) =A ( 0) :
Em suma, mesmo que a distribuição de "t não seja conhecida podemos supor, por exem-
plo, "t N (0; 1) (ou "t D tal que a densidade h satisfaça as condições estabelecidas),
pmv
porque ^n é, ainda assim, um estimador consistente (embora não assimptoticamente efi-
ciente) e tem distribuição assimptótica normal. O único cuidado adicional é tomar como
1 1
matriz de variâncias-covariâncias (assimptótica) a expressão9 A ( 0 ) B ( 0) A ( 0) e
não I ( 0 ) 1 .
9
Esta opção no EVIEWS é dada por “heteroskedasticity consistent covariance (Bollerslev-Wooldrige)” no
menu “options” da estimação.
310
2 2
Var ( ut j Ft 1 ) = t - caso contrário ter-se-á Var ( ut j Ft 1 ) = t v= (v 2)). A solução é
simples. Basta reparametrizar a variável:
p 6
"t = X (v 2) =v ) Var ("t ) = 1; k" = kx = 3 +
v 4
Considere-se assim a distribuição t-Student T(0,1) (de média zero e variância 1):
v+1
v+1
1 2 x2 2
g (x) = p v
1+ :
(v 2) 2
v 2
0 2
1 v+1
2
yt t
v+1
1 yt t 1 1 2 B t C
f (yt j It ) = g = p v @1 + A :
t t t (v 2) 2
v 2
Pn
Assim, o estimador de máxima verosimilhança é ^n = arg max t=1 lt ( ) ; ( inclui
v) onde
0 2
1 v+1
2
yt t
v+1
1 2 B t C
lt ( ) = log f (yt j It ) = log p v @1 + A
2
t (v 2) 2
v 2
1 2 1 1
= log t log log (v 2)
2 2 2 !
v+1 2
2 v+1 1 (yt t)
+ log v
log 1 + 2
2
2 v 2 t
10
Rx
Seja g (x) a fdp de " e G (x) = 1
g (x) dx a respectiva função de distribuição. Qual é a fdp de
yt = t + t "t condicionada a Ft 1 ; sabendo que (1) a fdp de "t é dada pela função g e (2) t e t são
conhecidos dado Ft 1 (ou It )? Trata-se de um problema clássico de mudança de variáveis. Comece-se por
analisar a função de distribuição condicional
y t y t
P ( yt yj Ft 1) =P( t + t "t yj Ft 1) =P "t Ft 1 =G
t t
Logo, a fdp de yt condicionada a Ft 1 é, pelo teorema da derivada da função composta, dada pela expressão
y
dP ( yt yj Ft d t
1) 0 y t t y t 1
f ( yj Ft 1) = =G =g :
dy t y t t
311
2.5
g(x)
2.0
1.5
1.0
0.5
-3 -2 -1 0 1 2 3
x
Diz-se que "t tem distribuição GED se a sua fdp é dada por
s
1 "t v
v exp 2 2 2=v (1=v)
g ("t ) = (1+1=v) (1=v)
; função Gama, =
2 (3=v)
yt = 0 + 1 xt + 1 yt 1 + ut
onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para
estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-
cionar “Student’s t” em “Error distribution”. Ver a figura 8.9.3. O output fornece também
uma estimativa para o número de graus de liberdade da distribuição t-Student. Esta estima-
tiva é interessante pois fornece informação sobre o achatamento da distribuição condicional.
312
8.10.1 Ensaios Pré-Estimação
yt = t + ut
ut = t"
2 2 2
t = !+ 1 ut 1 + ::: + q ut q .
Existe efeito ARCH se pelo menos um parâmetro i for diferente de zero. Se todos forem
zero, não existe efeito ARCH. Pode-se provar, sob a hipótese H0 : 1 = 2 = ::: = q =0
que
d
nR2 ! 2
(q)
2
u é o resíduo supondo
(^ t constante). Suponha-se que q é elevado e a hipótese nula é
rejeitada. Então é conveniente considerar o GARCH. Na verdade, pode-se provar que o teste
multiplicador de Lagrange do efeito GARCH baseia-se também na regressão de u^2t sobre as
variáveis u^2t i :
313
Para a realização do teste os passos são:
2
1. Estima-se o modelo yt = t + ut supondo t constante;
2
P (q) nR2 :
FAC de u^2t
Como se viu, a existência de um processo GARCH implica a correlação das variáveis u2t
e u2t k : O teste Ljung-Box é assimptoticamente equivalente ao teste ARCH. A sua hipótese
nula é H0 : 1 u2t ) = ::: =
(^ m u2t ) = 0; sendo
(^ i u2t ) o coeficiente de autocorrelação entre
(^
u^2t e u^2t i : Sob H0 tem-se
X
m
1 d
Q = n (n + 2) ^2i u^2t ! 2
(m k)
i=1
n i
onde y são os retornos do PSI20 (Jan 93 a Out 04). O modelo foi estimado através da in-
strução y c ma(1). Uma vez estimado o modelo, o programa EVIEWS oferece a opção
“ARCH LM test...” em “view”-“Residual Tests”. A figura 8-14 mostra que o valor-p é zero,
pelo que existe forte evidência contra a hipótese nula; por outras palavras, existe forte ev-
idência da presença de efeito ARCH. O teste Ljung-Box (ver a figura 8-15) corrobora as
conclusões do teste ARCH.
314
ARCH Test:
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Included observations: 2925 after adjustments
315
Existem muitos outros testes para ensaiar efeitos e modelos específicos (ver por exemplo,
Franses e van Dijk, 2000). Estes testes têm como objectivo sugerir a especificação da estru-
2
tura de t e, portanto, são realizados antes da fase da estimação (final) do modelo. Como
alternativa, podemos discutir esses efeitos específicos (por exemplo, efeito assimétrico) na
fase da estimação, a partir dos ensaios habituais de significância e dos critérios SC e AIC.
Por exemplo, suponha-se que se pretende ensaiar a presença do efeito assimétrico. Em
alternativa aos testes apresentados em Franses e van Dijk (2000), pode-se ensaiar a hipótese
Teste de Wald
O teste de Wald é muito fácil de usar no programa EVIEWS. Veja-se primeiro um esboço
da teoria. Já concluímos que
p d
n ^n 0 ! N (0; V0 ) (8.18)
onde
8
< I( ) 1 = A( ) 1 se ^n é o est. de máxima verosimilhança
0 0
V0 =
: A( ) 1B( )A( ) 1
se ^n é o est. de pseudo máxima verosimilhança
0 0 0
316
k = 5 e H0 : 4 +2 5 = 3 tem-se q = 1 e
0 1
1
B C
B C
B 2 C
B C
B C
4 +2 5 =3, 0 0 0 1 2 B 3 C = |{z}
3 :
| {z }B
B
C
C r
R B 4 C
@ A
5
| {z }
p d
n R^n r ! N (0; RV0 R0 )
e, consequentemente11 ,
0 d
1
n R^n r (RV0 R0 ) R^n r ! 2
(q) : (8.19)
O programa EVIEWS permite aplicar de forma muito fácil o teste de Wald. No exemplo
anterior, e depois de estimado o modelo GARCH, bastaria seleccionar “view”-“coefficient
tests”-“Wald” e depois escrever “c(4)+2*c(5)=3”. É possível também ensaiar relações não
lineares entre os parâmetros, como por exemplo, “c(4)^2+c(5)^2=1”.12
Testes individuais (por exemplo, do tipo H0 : 2 = 0) baseiam-se na relação
!
a
^0
V
^n N 0;
n
devido a (8.18) (para n finito mas suficientemente alto, ^n tem distribuição aproximadamente
igual a N ( 0 ; V0 =n)). Assim, para ensaiar, por exemplo, H0 : 2 = 0 considera-se o rácio-t
^n;2
t^n;2 =
se ^n;2
com distribuição N (0; 1) onde se ^n;2 é o erro padrão de ^n;2 (é a raiz quadrada do ele-
11
Note-se que se X é um vector aleatório dimensão q 1 com distribuição N ( ; ) ; então
0 1 2
(x ) (x ) (q) :
12
Neste caso não linear seria necessário adaptar a estatística de teste (8.19). Observe-se que R 0 expressa
uma relação linear.
317
^ 0 =n). O programa EVIEWS fornece automaticamente os rácios-t.
mento (2,2) da matriz V
Testes de Diagnóstico
O modelo em análise é
yt = t + ut ; ut = t "t :
e as hipóteses são E ("t ) = 0; Var ("t ) = 1 (verificam-se sempre, por construção), f"t g é um
processo diferença de martingala ou ruído branco e f"t g é um processo homocedástico.
Nestas circunstância, se o modelo está bem especificado, deve ter-se: f"t g deve ser não
autocorrelacionado e f"t g deve ser condicionalmente homocedástico.
Assim, se
(a) y é, por exemplo, um ARMA e a média condicional não captar esta estrutura, os proces-
sos fut g e f"t g exibirão autocorrelação;
(b) de igual forma, se y segue um GARCH e a variância condicional não captar esta estrutura
"2t = u2t = 2
t exibirá autocorrelação;
(c) finalmente, se " segue uma distribuição leptocúrtica então k^" > 3:
4. (Análise da questão (a)). Efectuar o teste Ljung-Box tomando como hipótese nula,
H0 : 1 (^"t ) = ::: = m (^"t ) = 0 ( i (^"t ) é o coeficiente de autocorrelação entre ^"t e
^"t i ) e estatística de teste
X
m
1 d
Q = n (n + 2) ^2i (^"t ) ! 2
(m k)
i=1
n i
318
5. (Análise da questão (b)). Efectuar o teste Ljung-Box tomando como hipótese nula,
H0 : 1 ^"2t = ::: = m ^"2t = 0 ( i ^"2t é o coeficiente de autocorrelação entre ^"2t e
^"2t i ) e estatística de teste
X
m
1 d
Q = n (n + 2) ^2i ^"2t ! 2
(m k)
i=1
n i
onde k é o número de parâmetros estimados (McLeod e Li, 1983, sugere que k pode
ser apenas o número de parâmetros dinâmicos estimados na variância condicional; por
exemplo, 2 no GARCH(1,1)). Evidência contra a hipótese nula sugere que ^"2t é auto-
correlacionado. Neste caso é necessário rever a especificação da variância condicional.
Teste Alternativo
Uma forma alternativa de analisar a questão (b) atrás referida consiste em verificar a
presença de efeitos ARCH remanescentes através da especificação (Franses e van Dijk, 2000,
e Lundbergh e Teräsvirta, 2002):
yt = t + ut
ut = t "t
q
2 2
"t = e t 1+ 1 "t 1 + ::: + m "t m
d
nR2 ! 2
(m)
onde
1 @ ^ 2t
x^t =
^t @ 0
@ 2
0 2 2 2
e é o vector de parâmetros especificados em t. Calcule-se @
t
0 no caso t = !+ 1 ut 1 +
319
2
1 t 1: Tem-se
2 2
@ t @ t @ 2t @ 2 @ 2
0
= = t t :
@ @! @ 1 @ 1
@ ! 1 1
@ 20
Suponha-se @!
= 0: Vem
2 2
@ 2t @ t 1 @ t 2
= 1+ 1 =1+ 1 1+ 1 = ::: =
@! @! @!
X
t
1
2 t 1 i 1 t
= 1+ 1 + 1 + ::: + 1 = 1 = 1 1 :
i=1 1 1
@ 2
t Pt i 1 Pt i 1 2 Pt i 1 2
0
= i=1 1 i=1 1 u^t i i=1 1 ^t i :
@
8.11 Previsão
A previsão no contexto do modelo ARCH/GARCH envolve habitualmente a previsão de yt
2
e de t: Todavia, em várias aplicações, como por exemplo, estimação do risco de mercado,
construção de portfolios dinâmicos, valorização de opções, etc., a previsão da volatilidade é
mais importante do que a previsão de yt :
2
Vamos analisar a previsão de yt e de t e estabelecer os respectivos intervalos de con-
fiança (ICs) ou de previsão. Concretamente, temos um modelo do tipo ARMA+GARCH,
baseado em n observações, fy1 ; y2 ; :::; yn g e procura-se,
320
2 2
prever n+1 ; n+2 ; :::;
2 2
estabelecer ICs para n+1 ; n+2 ; :::;
Vimos que o previsor com EQM mínimo para yn+h (dada a informação em Fn ) é E (yn+h j Fn ) :
2
De igual forma, o previsor com EQM mínimo para n+h (dada a informação em Fn ) é (nat-
uralmente)
2
E n+h Fn :
2 2
Modelo ARCH(1) t =!+ 1 ut 1
Previsão a um passo h = 1
2 2
Como n+1 =!+ 1 un tem-se
2 2 2
n+1;n =E !+ 1 un Fn = ! + 1 un
2 2
n+2;n = E !+ 1 un+1 Fn
2
= !+ 1 E un+1 Fn
2
= !+ 1 E n+1 Fn
2
= !+ 1 n+1;n
2
Podemos ainda escrever n+2;n como função do valor u2n : Basta substituir na expressão an-
2 2
terior, n+1;n por ! + 1 un : Vem
2 2
n+2;n = !+ 1 n+1;n
2
= !+ 1 !+ 1 un
2
= ! (1 + ) + 1 un
321
Previsão a h passos
2 2
n+h;n = E !+ 1 un+h 1 Fn
2
= !+ 1 E un+h 1 Fn
2
= !+ 1 E n+h 1 Fn
2
= !+ 1 n+h 1;n :
2
Tal como anteriormente, podemos escrever n+h;n como função de u2n : Pode-se provar que
h
2 2 1 1 h 2
n+h;n =!+ 1 n+h 1;n =! + 1 un
1 1
Se 0 1 < 1; conclui-se
2 !
n+h;n ! = Var (ut ) (quando h ! 1).
1 1
2 2 2
Modelo GARCH(1,1) t =!+ 1 ut 1 + 1 t 1
Previsão a um passo h = 1
2 2 2
Como n+1 =!+ 1 un + 1 n tem-se
2 2 2 2 2
n+1;n =E !+ 1 un + 1 n Fn = ! + 1 un + 1 n
2 2 2
n+2;n = E !+ 1 un+1 + 1 n+1 Fn
2 2
= !+ 1 E un+1 Fn + 1 E n+1 Fn
2
= !+( 1 + 1) n+1;n
322
Previsão a h passos
2 2 2
n+h;n = E !+ 1 un+h 1 + 1 n+h 1 Fn
2 2
= !+ 1 E un+h 1 Fn + 1 E n+h 1 Fn
2
= !+( 1 + 1) n+h 1;n
2 2
n+h;n =!+( 1 + 1) n+h 1;n (8.20)
h
! 1 ( 1 + 1)
2 h 1 2 2
n+h;n = +( 1 + 1) 1 un + 1 n :
1 1 1
2 !
n+h;n ! = Var (ut ) (quando h ! 1).
1 1 1
2 2
n+2;n = !+ n+1;n
2 2 2 2
n+3;n = !+ n+2;n =!+ !+ n+1;n = 2! + n+1;n
:::
2 2
n+h;n = (h 1) ! + n+1;n
e, portanto,
2 2
n+h;n = n+1;n , se ! = 0
2
n+h;n ! 1, se ! > 0 (quando h ! 1).
2
Para além da estimação pontual de n+h;n ; há interesse também em estabelecer ICs. Esta
questão é tratada no ponto 8.11.3.
323
8.11.2 A Previsão da Variável Dependente y
Qualquer que seja o modelo para y; o previsor de yn+h com EQM mínimo, baseia-se, como
vimos, no valor esperado condicionado de y. Assim, a previsão pontual de yn+h não envolve
qualquer novidade face ao que foi já exposto no ponto 6.6. Todavia, a estimação por inter-
valos deve agora reflectir a presença de heterocedasticidade condicional. Seja (l1 ; l2 ) o IC a
(1 ) 100% associado a yn+h ; i.e, l1 e l2 são tais que
p
Seja Zn+h = (yn+h E (yn+h j Fn )) = Var ( yn+h j Fn ) e q1 =2 o quantil de ordem 1 =2
da distribuição da v.a. Zn+h j Fn : Como também se tem
l1 E (yn+h j Fn ) l2 E (yn+h j Fn )
p = q1 =2 ep = q1 =2 :
Var ( yn+h j Fn ) Var (yn+h j Fn )
p p
l1 = E (yn+h j Fn ) q1 =2 Var (yn+h j Fn ); l2 = E (yn+h j Fn )+q1 =2 Var (yn+h j Fn )
p
E (yn+h j Fn ) q1 =2 Var (yn+h j Fn )
13
Note-se que Var ( yn+h j Fn ) = Var ( en (h)j Fn ) onde en (h) = yn+h E ( yn+h j Fn ) é o erro de previsão
a h passos. Assim, o IC (1 ) 100% pode ser também apresentado da seguinte forma:
p
E ( yn+h j Fn ) q1 =2 Var ( en (h)j Fn ):
324
Por exemplo, assuma-se que yn+h j Fn tem distribuição N (E (yn+h j Fn ) ; Var ( yn+h j Fn ))
e, portanto, Zn+h j Fn N (0; 1). Nestas condições, o IC a 95% para yn+h é
p
E (yn+h j Fn ) 1:96 Var ( yn+h j Fn ):
yt = c + yt 1 + ut ;
2 2 2
t =!+ 1 ut 1 + 1 t 1:
2
p
Se ut j Ft 1 N (0; t ) então um IC a 95% para yn+1 é E (yn+h j Fn ) 1:96 Var ( yn+h j Fn )
ou seja
p
c + yn 1:96 ! + 2 2
1 un + 1 n:
Modelo de Regressão
yt = x0t + ut
325
onde x0t é um vector linha de dimensão k e vector coluna de dimensão k: Supomos que u e
2
X são independentes e ainda que ut j Ft 1 N (0; t): O previsor de yn+1 de EQM mínimo
é
0
E (yn+1 j Fn ; xn+1 ) = xn+1
Por que razão o valor esperado é condicionado também a xn+1 ? A razão é a seguinte: a
previsão de y no momento n + 1 depende de xn+1 ; e, portanto, xn+1 tem de ser conhecido.
Na prática, só em casos muito especiais se conhece xn+1 no momento n (mesmo assim,
podemos estar interessados em prever yn+1 admitindo um dado cenário ou hipótese para
xn+1 ).
Assim, um IC para yn+1 a 95% é
p
x0n+1 1:96 Var ( yn+1 j Fn ) , x0n+1 1:96 n+1;n :
Analise-se agora uma questão que é normalmente descurada no âmbito das séries tempo-
rais (mas não na área da econometria). O intervalo de previsão acima estabelecido assume
que é conhecido. Ao substituirmos pela respectiva estimativa, introduz-se uma nova
fonte de variabilidade, que deve ser incorporada no intervalo de previsão. Para se ter em
conta a variabilidade de ^ ; é necessário obter a distribuição da variável yn+1 x0n+1 ^ : A
representação
permite concluir que yn+1 x0n+1 ^ tem distribuição normal de média E (en (1)j Fn ; xn+1 ) =
0 e variância
326
Obtém-se assim o seguinte IC a 95% para yn+1 :
r
x0n+1 ^ 1:96 x0n+1 Var ^ xn+1 + 2
n+1;n : (8.21)
Para amostra grandes podemos continuar a usar a aproximação x0n+1 ^ 1:96^ n dado que
x0n+1 Var ^ xn+1 é aproximadamente proporcional a 1=n e, portanto, tende para zero as-
simptoticamente (por outras palavras, é uma quantidade “pequena” quando comparada com
2
n+1;n ).
2
previsão de t para os períodos n + 1; n + 2; :::;
onde " tem distribuição desconhecida de média nula e variância um. O algoritmo é o
seguinte:
u^t
f^"t ; t = 1; :::; ng ; onde ^"t =
^t
!
^ c^
^2 = ; ^=
1 ^ ^ 1 ^
0
^ = c^; ^ ; !
^; ^; ^
327
2. Simular o modelo 8
>
> y = c^ + ^ yt 1 + ut
>
< t
u t = t "t (8.23)
>
>
>
: 2=!
t ^ + ^u 2 + ^ t 1
2
t 1
0
Note-se que ^ = c^ ; ^ ; !
^ ;^ ;^ é o vector das estimativas obtidas no contexto
do modelo simulado (8.23).
n o
(1) (2) (B)
yn+j ; yn+j ; :::; yn+j ; j = 1; :::; h;
n o
2 (1) 2 (2) 2 (B)
^ n+j ; ^ n+j ; :::; ^ n+j ; j = 1; :::; h:
q 2 ; q1 2
n o
(1) (2) (B)
onde q 2 e q1 2
são os quantis empíricos da amostra yn+j ; yn+j ; :::; yn+j :
2
6. Um intervalo de previsão a (1 ) 100% para n+j é
q 2 ; q1 2
n o
2 (1) 2 (2) 2 (B)
onde agora q 2 e q1 2
são os quantis empíricos da amostra ^ n+j ; ^ n+j ; :::; ^ n+j :
328
8.12 Problema dos Erros de Especificação na Média Condi-
cional
Considere o modelo
2 2
yt = t + ut ; E ut Ft 1 = constante
yt = mt + vt ;
onde vt é tomada como a v.a. residual. Nestas condições pode existir um efeito ARCH
espúrio.
Para exemplificar, suponha-se que o verdadeiro processo é
2
yt = c + yt 1 + ut ; ut RB Gaussiano N 0;
Por erro de especificação supõe-se mt = c. Nestas condições existe um efeito ARCH es-
púrio. O modelo considerado (erradamente) é
yt = c + vt ; vt = yt 1 + ut
vt2 = ( yt 1 + ut )2 = 2 2
yt 1 + u2t + 2 yt 1 ut
= 2
(c + vt 1 )2 + u2t + 2 yt 1 ut
2 2 2 2 2
= c + 2cvt 1 + vt 1 + u2t + 2 yt 1 ut :
2 2 2
E vt Ft 1 = c1 + c2 vt 1 + vt 1 :
Significa que vt exibe um efeito do tipo ARCH, apesar do modelo inicial ser condicional-
mente homocedástico.
329
Considere-se agora um caso mais geral.
Modelo Verdadeiro : yt = t + ut ;
2
E vt Ft 1 = E ( t mt + ut )2 Ft 1
= E ( t mt )2 + 2 ( t mt ) ut + u2t Ft 1
= E ( t mt )2 Ft 1 + E u2t Ft 1 :
Se E (u2t j Ft 1 ) = 2
então a variância condicional de vt ; E (vt2 j Ft 1 ), não é con-
stante, pois E ( t mt )2 Ft 1 não é constante.
Se E (u2t j Ft 1 ) = 2
t então a variância condicional associada ao modelo incorrecto
2
yt = mt + vt será superior à verdadeira variância condicional t: Com efeito,
2
E vt Ft 1 =E ( t mt )2 Ft 1 + 2
t:
Como nota final registe-se que, na prática, a média condicional que especificamos é
E yt j Ft 1 onde Ft 1 é o “nosso” conjunto de informação, necessariamente limitado, e
não o conjunto de todos os acontecimentos ! 2 que geram y no momento t 1: Como
resultado a média condicional que especificamente envolve quase sempre erros de especifi-
cação. A existência do efeito ARCH pode dever-se ou acentua-se na presença desses erros
de especificação. É interessante observar Engle (1982): “the ARCH regression model is an
approximation to a more complex regression which has no-ARCH disturbances. The ARCH
specification might then picking up the effect of variables omitted from the estimated model.
The existence of an ARCH effect would be interpreted as evidence of misspecification”.
330
8.13 Modelos Não Lineares na Média combinados com o
GARCH
O modelo TAR tal como foi apresentado na secção 7.3 não é apropriado para séries tem-
porais financeiras, pois assume que a variância condicional é constante ao longo do tempo.
Podemos, no entanto, generalizar o TAR de forma a acomodar heterocedasticidade condi-
cionada. Se admitirmos o caso mais geral em que o padrão de heterocedasticidade se dis-
tingue consoante o regime, o modelo a considerar, com dois regimes e um desfasamento
(veja-se Gospodinov, 2005) é
onde ut = t "t e f"t g é uma sucessão de v.a. i.i.d. de média zero e variância um e
2 2 2 2 2
t = !1 + 1 ut 1 + 1 t 1 Ifqt d g + !2 + 2 ut 1 + 2 t 1 Ifqt d> g: (8.25)
Aborda-se a seguir a estimação do modelo. Suponha-se que " é um ruído branco Gaussiano.
Assim,
2
yt j Ft 1 N t; t
2
onde t =( 10 + 11 yt 1 ) Ifqt d g +( 20 + 21 yt 1 ) Ifqt d> g e t é dado pela equação
(8.25). Seja o vector de todos parâmetros do modelo com excepção de :A função log-
verosimilhança vem
X
n
log Ln ( ; ) = log f (yt j Ft 1 ; ; )
t=1
1 1 1
log f (yt j It ; ; ) = log (2 ) log 2
t ( ; ) 2
(yt t ( ; ))2 :
2 2 2 t ( ; )
Pn
O problema de optimização max t=1 log f (yt j Ft 1 ; ; ) não é standard, pois a derivada
de log Ln ( ; ) em ordem a não existe. O princípio do método de máxima verosimilhança
mantém-se, todavia: é necessário maximizar a função em ordem aos parâmetros. A esti-
mação dos parâmetros processa-se da seguinte forma:
331
Parâmetro Estimativa Erro Padrão
c 0.0478 0.0075
0.2332 0.0112
! 0.0118 0.0015
0.1111 0.0073
0.8812 0.0074
Log-Veros.= 11439:3
Tabela 8.2: Resultados da estimação do modelo AR+GARCH
Exemplo 8.13.1 Considere o retorno diário em percentagem, yt = 100 log (Pt =Pt 1 ),
associados ao índice NASDAQ, no período 5-02-1971 a 13-10-2006 (9006 observações).
Na tabela 8.2 apresentam-se os resultados da estimação do modelo AR(1)+GARCH(1,1).
De seguida, estimou-se o modelo SETAR (8.24)-(8.25), com qt d = yt 1 : Seguiram-se
os seis passos do procedimento descrito atrás. Obteve-se ^ n = 0:356 (trata-se do valor
que maximiza a função de log-verosimilhança log Ln ( ; )): A figura 8-16 mostra o valor
de log Ln como função de (observe-se que ^ n = 0:356 maximiza log Ln ). Para o valor
^ n estimado, obtiveram-se os resultados que constam da tabela 8.3. O primeiro regime mod-
ela os retornos quando estes estão em queda, mais precisamente, quando o retorno anterior
é inferior a 0:356%: A média marginal deste regime é :1718= (1 :0563) = :182%.
Tendo em conta este valor, há tendência para o processo sair do regime 1, mantendo, ainda
assim, uma rendibilidade negativa. Talvez o dado mais significativo é a forte persistência
da volatilidade neste regime, associada a valores altos de volatilidade (w1 > w2 ). Este
resultado está de acordo com os factos estilizados habitualmente observados em dados fi-
nanceiros, segundo os quais, a volatilidade tende a ser superior quando as cotações estão
332
Figura 8-16: Valor da máximo da função log-Verosimilhança como função do parâmetro :
Estimativa de : 0:358316
a descer. A volatilidade associada ao regime 1 pode ser identificada como a “má volatili-
dade”, i.e., aquela que está ligada à queda dos preços.
Vimos na secção 7.4 que a separação das dinâmicas do processo em estudo em dois ou mais
regimes permite, na maior parte dos casos, obter diferentes valores para i (veja-se o mod-
elo (7.25)). Significa isto que os erros são heterocedásticos. No entanto, é possível ir um
pouco mais longe se admitirmos, mesmo em cada regime, erros heterocedásticos. Em séries
financeiras, o modelo (7.25) pode mostrar-se insuficiente para modelar a volatilidade típica
333
das séries financeiras. O caminho está assim indicado: é necessário admitir, em cada regime,
uma especificação dinâmica para a volatilidade. Entendeu-se inicialmente (e.g. Hamilton)
que os modelos Markov-switching com efeitos GARCH eram intratáveis e impossíveis de
serem estimados, devido à dependência da variância condicional de toda a trajectória passada
(em última análise, a estrutura que se admitia para um Markov-Switching com N regimes
obrigaria posteriormente a expandir o número de regimes para N n sendo n o número de
observações). Gray (1996) propôs um modelo que resolve a dependência da variância condi-
cional de toda a trajectória passada.
O modelo MS+GARCH com dois regimes é
8
< c +
1 1 yt 1 + 1t "t se St = 1
yt =
: c +
2 2 yt 2 + 2t "t se St = 2
2 2 2
it = !i + i ut 1 + t 1; (8.26)
sendo
2
ut = yt E (yt j Ft 1 ) ; t = Var (yt j Ft 1 ) :
Momentos de y
Determinem-se os momentos do processo. Seja it = E (yt j Ft 1 ; St = i) : No contexto
do modelo (7.25) tem-se:
E (yt j Ft 1 ; St = 1) = c1 + 1 yt 1 ; E (yt j Ft 1 ; St = 2) = c2 + 2 yt 1 :
334
Tem-se
t = E (yt j Ft 1 )
= E (yt j Ft 1 ; St = 1) P (St = 1j Ft 1 )
+ E (yt j Ft 1 ; St = 2) P (St = 2j Ft 1 )
= 1t p1t + 2t p1t :
E (yt j Ft 1 ) é, portanto, a média ponderada dos valores esperados condicionais dos regimes
1 e 2. Por outro lado,
2
t = Var ( yt j Ft 1 ) = E yt2 Ft 1 (E (yt j Ft 1 ))2
= E yt2 Ft 1 ; St = 2 P (St = 1j Ft 1 )
+ E yt2 Ft 1 ; St = 2 P (St = 2j Ft 1 ) 2
t
2 2 2 2 2
= 1t + 1t p1t + 2t + 2t p2t t:
2
E ut = ! + 1E u2t 1 ; i.e.
| {z } | {z }
t t 1
t = !+ 1 t 1
!
:
1 1
14
Ver a definição de ponto fixo na secção 7.2.
335
!
Este ponto é assimptoticamente estável se j 1j < 1; além disso, se a condição inicial é 1 1
! !
então t = 1 1
; 8t. Quando a condição inicial é 0 6= 1 1
pode-se provar que a solução da
EDF t =!+ 1 t 1 é
t
(1 1) t
t =! + 1 0 (Solução)
1 1
Se j 1j <1)
t
(1 1) t !
t =! + 1 0 !
1 1 1 1
!
Se a condição inicial não é igual à solução de longo prazo, 1 1
; o processo ut é “assimptot-
icamente estacionário” (ou ESO se o processo teve início num passado remoto). Em suma,
se 1 < 1 (por hipótese 1 0) (e a condição inicial for != (1 1 )) então
2 !
E ut = , 8t
1 1
e o processo ut é ESO.
2 2 2
No caso ARCH(2), tem-se t =!+ 1 ut 1 + 2 ut 2 ; ! > 0; 1 0; 2 0: Assim,
2 2 2 2
= E !+ 1 ut 1 + 2 ut 2 =!+ 1 E ut 1 + 2 E ut 2
Donde
2
E ut = ! + 1E u2t 1 + 2E u2t 2 ; i.e.
| {z } | {z } | {z }
t t 1 t 2
t =!+ 1 t 1 + 2 t 2
2
1 1L 2L t =!
2
Pode-se provar que t converge se as raízes de (1 1L 2L ) estiverem fora do circulo
unitário, i.e.,
1 + 2 < 1; 2 1 < 1; 1< 2 < 1:
336
!
Nestas condições, se 0 = 1 ( 1+ 2)
e 1 + 2 < 1 o processo u é ESO e
2 2 2 2 !
E ut = ! + 1 E ut + 2 E ut ) E ut = :
1 ( 1 + 2)
337
Página em branco
338
Capítulo 9
Modelação da Heterocedasticidade
Condicionada - Caso Multivariado
9.1 Introdução
Vimos no ponto 3.2.6 que muitas séries financeiras (por exemplo, índices bolsistas ou co-
tações de acções) apresentam co-movimentos de rendibilidade e volatilidade, isto é, quando
a rendibilidade e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatili-
dade das outras tende, em geral, a aumentar (diminuir).
A estimação destes co-movimentos de rendibilidade e volatilidade deve ser naturalmente
feita no quadro da estimação multivariada (por multivariada entendemos várias equações).
Esta análise é relevante, por exemplo, no âmbito da selecção de portfolios, da gestão do risco,
etc. Permite também discutir questões do tipo:
339
Como se comportam as correlações condicionais? São variáveis ao longo do tempo?
Tendem a aumentar ou a diminuir em períodos de alta volatilidade e instabilidade dos
mercados?
Para tratar estas questões vai considerar-se um modelo genérico, envolvendo m equações:
y1t = 1t + u1t ;
:::
ymt = mt + umt
onde it := E (yit j Ft 1 ) para i = 1; :::; m: Para usarmos uma notação mais compacta,
definam-se os seguintes vectores-coluna m dimensionais:
0 1 0 1 0 1
y1t 1t u1t
B C B C B C
B . C B .. C B . C
yt = B .. C ; t =B . C; ut = B .. C :
@ A @ A @ A
ymt mt umt
yt = t + ut :
A média condicional t não é aqui relevante, mas pode supor-se que yt é bem mode-
lado por um VARMA (vector ARMA, ou mesmo vector ARMAX). Tem-se um modelo de
heterocedasticidade condicional multivariado se ut é um processo multiplicativo do tipo,
1=2
ut = Ht "t
340
Dadas as hipóteses, tem-se
m=2 1=2 1 0
f (yt j Ft 1 ) = (2 ) jHt j exp (yt t) Ht 1 (yt t) :
2
X
n
log Ln ( ) = log f (yt j Ft 1 )
t=1
1X 1X
n n
nm 0
= log (2 ) log jHt j (yt t) Ht 1 (yt t)
2 2 t=1 2 t=1
1X
n
nm
= log (2 ) log jHt ( )j (9.1)
2 2 t=1
1X
n
(yt t ( ))0 Ht 1 ( ) (yt t ( ))
2 t=1
(a última equação destaca a dependência face a ). No caso univariado (i.e. m = 1), vem
2
Ht = t e log f (yt j Ft 1 ) é dada pela equação (8.16).
Nesta fase é necessário definir uma hipótese sobre a estrutura de t e de Ht . A média
condicional t pode ser definida através de um VAR(1) (vector autoregressivo) ou VARMA(1,1)
(vector ARMA), etc. Não abordaremos aqui a especificação da média condicional. Neste
capítulo estamos interessados sobretudo na especificação de Ht : Nos pontos seguintes dis-
cutiremos possíveis especificação para Ht .
341
9.3 Modelo VECH (ou VEC)
É necessário, em primeiro lugar, introduzir o operador vech : Considere-se, por exemplo,
0 1
a11 a12 a13
B C
B C
A = B a21 a22 a23 C:
@ A
a31 a32 a33
O operador vech selecciona os elementos abaixo da diagonal principal (elementos dentro dos
quadrados) e passa-os para um vector-coluna:
0 1
a11
B C
B C
B a21 C
B C
B C
B a22 C
vech (A) = B
B
C:
C
B a31 C
B C
B C
B a32 C
@ A
a33
Obviamente que não se perde informação com esta operação se A é uma matriz (real)
simétrica, hipótese que doravante se assume, sempre que se empregar tal operador.
O modelo VECH (ou VEC) (Engle e Kroner, 1995) propõe uma estrutura GARCH(p,q)
multivariada. No caso GARCH(1,1), a matriz Ht é tal que
2 2
(h11;t := 1t ; ht;22 := 2t ; h12;t := t12 ). Note-se, por exemplo, que a covariância condi-
342
cionada h12;t := E (u1t u2t j Ft 1 ) é igual a
2 2
w12 + 21 u1;t 1 + 23 u2;t 1 + 22 u1;t 1 u2;t 1 + 21 h11;t 1 + 22 h12;t 1 + 23 h22;t 1 (9.3)
hij;t
ij;t =p ; i; j = 1; :::; m:
hii;t hjj;t
0 1
E (vech (ut ut )) = E (vech (Ht )) = (I A1 B1 ) w:
A principal vantagem do modelo VEC é a sua grande flexibilidade, pois permite que
todos os elementos de Ht dependam de todos os produtos cruzados de vech ut 1 u0t 1 e de
todos os elementos de Ht 1 : No entanto, as suas desvantagens superam largamente as suas
vantagens. As duas principais desvantagens do modelo VEC são as seguintes:
Por definição a matriz Ht deve ser definida positiva, mas não é fácil garantir isso a
partir das matrizes A e B. Se Ht não é definida positiva, é possível, por exemplo, obter
1
É indiferente identicar ij;t como as correlações condicionais entre os retornos ou entre os erros, pois,
por definição, ij;t = Corr ( yit ; yjt j Ft 1 ) = Corr ( uit ; ujt j Ft 1 ) : Já as correlações marginais não são
necessariamente iguais, isto é, em geral, tem-se Corr (yit ; yjt ) 6= Corr (uit ; ujt ).
2
Com efeito, pode-se provar que
t 1 t
E ( vech (Ht )j F0 ) = I+ (A1 + B1 ) + ::: + (A1 + B1 ) w+ (A1 + B1 ) vech (H1 )
t
sendo vech (H1 ) 2 F0 ). Se (A1 + B1 ) ! 0 (quando t ! 1) então E ( vech (Ht )j F0 ) converge para o
1 t
momento estacionário E (vech (Ht )) = (I (A1 +B1 )) : Ora, (A1 + B1 ) ! 0 sse os valores próprios de
A1 + B1 são em módulo menores do que 1.
3
Com efeito, note-se que A1 e B1 são matrizes quadradas de ordem m (m + 1) =2 e o vector w possui
2
m (m + 1) =2 elementos. Assim, o número total de elementos a estimar é 2 (m (m + 1) =2) +m (m + 1) =2 =
(m (m + 1) =2) (1 + (m (m + 1))) :
343
m (m (m + 1) =2) (1 + (m (m + 1)))
2 21
3 78
4 210
Tabela 9.1: Número de parâmetros a estimar no VEC
Estas duas desvantagens acabam por limitar, de facto, a aplicação do modelo. Mesmo no
caso m = 2 têm-se 21 parâmetros (tabela 9.1). Estimar 21 parâmetros usando o OLS é fácil
(desde que o número de graus de liberdade assim o permita). Mas estimar 21 parâmetros
maximizando a função log-verosimilhança (9.1) é extremamente difícil. Frequentemente,
implementa-se o modelo VEC impondo várias restrições de nulidade sobre A1 e B1 , como
podemos ver no exemplo seguinte.
Exemplo 9.3.1 Existem efeitos de rendimento e de volatilidade do PSI20 que possam ser
antecipados através do Dow Jones (DJ)? Seja y1t e y2t o retorno diário associado, respec-
tivamente, aos índices, PSI20 e DJ. Para reduzir o número de parâmetros a estimar, as var-
iáveis y1t e y2t foram previamente centradas (e, como consequência, os termos constantes
das equações foram eliminados). Depois de vários ensaios, definiu-se o seguinte modelo
0 1 0 10 1
y1t 11 12 y1;t 1
@ A=@ A@ A + H1=2 "t
y2t 0 22 y2;t 1
onde
0 1 0 1 0 10 1
h 0 0 13 u21;t 1
B 11;t C B C B 11 CB C
B C B C B CB C
vech (Ht ) = B h12;t C = B 0 C + B 0 0 0 CB u1;t 1 u2;t 1 C
@ A @ A @ A@ A
h22;t w22 0 0 33 u22;t 1
0 10 1 0 1
0 0 h volt 1
B 11 C B 11;t 1 C B C
B CB C B C
+B 0 0 0 C B h12;t 1 C + B 0 C
@ A@ A @ A
0 0 33 h22;t 1 0
344
31/12/92 a 15/03/99 (1496 observações) obteve-se,
^ 1t = :3132u^2
h + :0466u^22t ^ 1t
+ :6053h 1 + :0254volt 1
1t 1 1
(:0466) (:0151) (:0459) (:0062)
^ 2t = 1:25
h 10 6
+ :0903u^22t ^ 2t 1 ;
+ :897 h h12;t = 0:
1
(5:2 10 7) (:0195) (:0227)
Assim, 0 1 0 1
:3132 0 :0466 :6053 0 0
B C B C
^1 = B
A B 0 0 0
C
C; ^1 = B
B B 0 0 0
C
C
@ A @ A
0 0 :0903 0 0 :897
^1 + B
Os valores próprios (estimados) da matriz A ^ 1 são f0:987; 0:918; 0g : Conclui-se: (1)
345
9.4 Modelo Diagonal VECH
Podem obter-se modelos VECH com menos parâmetros impondo que as matrizes A1 e B1
sejam diagonais. Por exemplo, no caso m = 2; vem
0 1 0 1 0 10 1
h w 0 0 u21;t 1
B 11;t C B 11 C B 11 CB C
B C B C B CB C
vech (Ht ) = B h12;t C = B w12 C+B 0 22 0 C B u1;t 1 u2;t 1 C
@ A @ A @ A@ A
h22;t w22 0 0 33 u22;t 1
0 10 1
0 0 h
B 11 C B 11;t 1 C
B CB C
+B 0 22 0 C B h12;t 1 C
@ A@ A
0 0 33 h22;t 1
4
Dadas duas matrizes A = (aij )m m e B = (bij )m m ; o produto Hadamard define-se como A
B = (aij bij )m m . Por exemplo,
1 2 5 6 5 12
= :
3 4 7 8 21 32
346
A vantagem do modelo em análise face ao modelo VECH é a de reduzir o número de
parâmetros a estimar. Num modelo multivariado GARCH(1,1) com m equações, o número
total de parâmetros a estimar no modelo Diagonal VECH é de apenas 3m (m + 1) =2: To-
davia há uma desvantagem face ao VECH. Para ilustrar este ponto considere-se o caso
m = 2. No modelo Diagonal VECH é fácil verificar que hii;t só depende dos termos u2i;t 1
e hii;t 1 ; e h12;t só depende dos termos u1;t 1 u2;t 1 e h12;t 1 . Desta forma, a especificação
Diagonal VECH elimina a possibilidade de interacção entre as diferentes variâncias e co-
variâncias condicionais. Por outro lado, a matriz Ht ; por construção, não resulta definida
positiva. Há várias formas de ultrapassar este último problema no âmbito da especificação
Diagonal VECH. Uma possibilidade consiste em reespecificar o modelo na forma
0
Ht = ! ! 1 )0 + ~
~ 1 (~ a1 )0 ut 1 u0t
a1 (~ 1
~1 b
+b ~1 Ht 1
0
com ! = ! ! 1 )0 , a1 = ~
~ 1 (~ a1 )0 e b1 = b
a1 (~ ~1 b
~1 e!
~ 1, ~ ~ 1 são matrizes quadradas
a1 e b
de ordem m: As matrizes !; a1 e b1 assim construídas implicam uma matriz Ht definida
positiva. Esta forma de definir o modelo resulta claro com o seguinte exemplo univariado.
Suponha-se que os parâmetros 0 e 1 do modelo yt = 0 + 1 xt + ut têm de ser positivos.
347
O modelo EWMA, no caso m = 2; tem a seguinte representação VECH:
0 1 0 10 1 0 10 1
h 1 0 0 u21;t 1 0 0 h
B 11;t C B CB C B C B 11;t 1
C
B C B CB C B CB C
B h12;t C=B 0 1 0 C B u1;t 1 u2;t 1 C+B 0 0 C B h12;t 1 C:
@ A @ A@ A @ A@ A
h22;t 0 0 1 u22;t 1 0 0 h22;t 1
Existe uma redução dramática do número de parâmetros a estimar (passamos para apenas 1,
qualquer que seja o número de equações do modelo).
2 2 2
h11;t = w11 + 11 u1;t 1 + 12 21 u2;t 1
2
+ 11 h11;t 1 + 11 12 h12;t 1 + 11 21 h12;t 1 + 12 21 h22;t 1 :
348
Figura 9-1: Simulação do modelo BEKK (m = 2).
Com o modelo BEKK há ainda uma redução de número de parâmetros a estimar: passam
agora a existir (m + 5m2 ) =2: Na figura seguinte mostra-se uma simulação com dois activos.
hij;t
ij = ij;t =q ) ht;ij = ij it jt :
2 2
it jt
349
VEC BEEK Correl.Const.
m+5m2
m (m (m + 1) =2) (1 + (m (m + 1))) 2
3m + 21 m (m 1)
2 21 11 7
3 78 24 12
Tabela 9.2: Número de parâmetros a estimar
Logo
0 1
2
B 1t 12 1t 2t 1m 1t mt C
B 2 C
B 12 1t 2t 2m 2t mt C
= B C
2t
Ht B .. .. .. .. C
B . . . . C
@ A
2
1m 1t mt 2m 2t mt mt
0 10 10 1
1t 0 0 1 12 1m 1t 0 0
B CB CB C
B CB CB C
B 0 2t 0 CB 12 1 2m CB 0 2t 0 C
= B
B .. .. ..
CB
.. CB .. .. .. ..
CB
CB .. .. ..
C
.. C
B . . . . CB . . . . CB . . . . C
@ A@ A@ A
0 0 mt 1m 2m 1 0 0 mt
| {z }| {z }| {z }
Dt R Dt
= Dt RDt :
2 2 2 2
Supondo que it = !i + i ui;t 1 + i i;t 1 ; cada elemento it envolve 3 parâmetros.
Por outro lado, a matriz R envolve m (m 1) =2 parâmetros. Na tabela 9.2 comparam-se os
modelos VEC, BEEK e de correlações constantes (na versão “GARCH(1,1)”.
Não só o número de parâmetros a estimar é menor como também a maximização da
função de log-verosimilhança é mais fácil. Retome-se a equação (9.1):
1X 1X
n n
nm 0
log Ln ( ) = log (2 ) log jHt j (yt t) Ht 1 (yt t) :
2 2 t=1 2 t=1
Ht = Dt RDt ;
log jHt j = log jDt RDt j = log jDt j + log jRj + log jDt j = 2 log jDt j + log jRj ;
0 0
(yt t) Ht 1 (yt t) = (yt t) Dt 1 R 1 Dt 1 (yt t) = vt0 R 1 vt :
350
Observe-se que vt representa o vector das variáveis aleatórias estandardizadas:
0
vt0 = (yt t) Dt 1 = y1t 1t y2t 2t ymt mt :
1t 2t mt
Assim,
nm X
n
n 1X 0 1
n
log Ln ( ) = log (2 ) log jDt j log jRj v R vt :
2 t=1
2 2 t=1 t
X Pn Pn
1X 0
n n 1
n t=1 vt vt0 t=1 vt0 vt
log Ln ( ) = const: log jDt j log v vt :
t=1
2 n 2 t=1 t n
Sabendo log jDt j = log ( 1t + ::: + mt ) ; e utilizando-se mais algumas propriedades ele-
mentares do cálculo matricial, a expressão da função log-verosimilhança pode ainda apresentar-
se na forma simplificada:
X
n
n Xn
log Ln ( ) = const: log ( 1t + ::: + mt ) log vt vt0 :
t=1
2 t=1
P P
Note-se que j nt=1 vt vt0 j é naturalmente o determinante de nt=1 vt vt0 : Nos modelos VEC e
BEEK, é necessário inverter a matriz Ht para cada t e para cada iteração do algoritmo de
maximização. Esta dificuldade é superada com o presente modelo. A principal desvantagem
do modelo em análise é o de assumir correlações condicionais constantes.
351
sendo R a matriz de correlações condicionais (constante). Esta matriz é, por definição,
E (vt vt0 j Ft 1 ) e calcula-se da seguinte forma:
0 1 0
E (vt vt j Ft 1 ) = E Dt (yt t ) (yt t) Dt 1 F t 1 = Dt 1 Ht Dt 1 = R:
Nos modelos VEC e BEKK (entre outros) a matriz E (vt vt0 j Ft 1 ) é variável ao longo
do tempo. Este resultado decorre das hipóteses formuladas para Ht (é, portanto, uma conse-
quência da forma como Ht é especificada). No modelo DCC E (vt vt0 j Ft 1 ) também é var-
iável, mas este resultado decorre directamente da forma como a matriz E (vt vt0 j Ft 1 ) é para-
metrizada. A ideia consiste em propor um modelo para Rt = E (vt vt0 j Ft 1 ) : Considere-se
0 1
1 12;t 1m;t
B C
B C
B 12;t 1 2m;t C
Rt = B
B .. .. .. ..
C:
C
B . . . . C
@ A
1m;t 2m;t 1
** incompleto**
y y y
E y1t j Ft 1 1 [ Ft 2 1 = E y1t j Ft 1 1 :
Diz-se, nestes casos, que y2 não causa à Granger y1 : Para concretizar, suponha-se que y1t
é o retorno do NASDAQ e y2t é o retorno do PSI20. Dadas as dimensões relativas dos
mercados, não faz sentido, supor-se que y1 (NASDAQ) dado todo o seu passado, possa ser
influenciado pelos valores atrasados de y2 (PSI20). Também em termos de volatilidade,
idêntica conjectura pode ser estabelecida, i.e., a variância de y1t condicionada em Fty1 1 não
depende dos valores passados de y2 ; Fty2 1 : No entanto, y2 (PSI20) dado Fty2 1 pode depender
352
de Fty1 1 (valores passados do NASDAQ).
Para processos y1 e y2 com as características acima descritas, é possível definirem-se
processos multivariados simplificados.
Para se ilustrar o modelo, considere-se o processo y = (y1 ; y2 ; y3 ) e suponham-se as
seguintes relações: y1 y2 y3 onde “y1 y2 ” significa y1 influencia y2 dado Fty2 1 e
y2 não influencia y1 dado Fty1 1 : Suponha-se ainda que y segue um processo VAR(1) (vector
autoregressivo de ordem 1). Sob a hipótese y1 y2 y3 e VAR(1), o processo y tem a
seguinte representação:
0 1 0 1 0 10 1 0 1
y c 0 0 y u
B 1t C B 1 C B 11 C B 1;t 1
C B 1t C
B C B C B CB C B C
B y2t C = B c2 C + B 21 22 0 C B y2;t 1 C + B u2t C: (9.5)
@ A @ A @ A@ A @ A
y3t c3 31 32 33 y3;t 1 u3t
A matriz dos coeficientes autoregressivos é triangular, porque na média condicional y1;t ape-
nas depende de y1;t 1 , y2t depende de y1;t 1 e y2;t 1 e y3t depende de y1;t 1 ; y2;t 1 e y3;t 1 :
Como definir a estrutura de dependências do segundo momento condicional, continuando
a assumir a relação y1 y2 y3 ? Uma forma simples e que facilita extraordinariamente a
estimação do modelo, consiste em admitir que
8 0 1 0 10 1
>
> u = e1t u 1 0 0 e
>
< 1t B 1t C B CB 1t C
B C B CB C
u2t = ae1t + e2t , B u2t C=B a 1 0 CB e2t C
>
> @ A @ A@ A
>
: u = be + ce + e
3t 1t 2t 3t u3t b c 1 e3t
| {z } | {z }| {z }
ut et
2 2
onde se admite que (e1t ; e2t ; e3t ) são independentes entre si, e eit j Ft 1 N (0; it ) ; it =
2 2
!i + i ei;t 1 + i i;t 1 : Observe-se que u2t depende de e2t (efeitos idiossincrásicos) e ainda
dos choques idiossincrásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos
idiossincrásicos) e ainda dos choques idiossincrásicos da primeira e da segunda equação. A
volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.
A designação “modelo triangular” é agora óbvia: a equação matricial (9.5) representa-se
na forma,
yt = c + yt 1 + et (9.6)
353
Dadas as hipótese sobre o vector et ; defina-se
0 1
2
1;t 0 0
B C
B C
t := Var (et j Ft 1 ) = B 0 2
2;t 0 C:
@ A
2
0 0 3;t
2 2 2
Tendo em conta it = !i + i ei;t 1 + i i;t 1 ; tem-se
0 1 0 1
2
!1 0 0 1 e1;t 1 0 0
B C B C
B C B C
t = B 0 !2 0 C+B 0 2
2 e2;t 1 0 C
@ A @ A
2
0 0 !3 0 0 3 e3;t 1
0 1
2
1 1;t 1 0 0
B C
B C
+B 0 2
2 2;t 1 0 C
@ A
2
0 0 3 3;t 1
0 1
! 0 0
B 1 C
B C
= B 0 !2 0 C
@ A
0 0 !3
0 1 0 1
0 0 e21;t 1 e1;t 1 e2;t e1;t 1 e3;t
B 1 C B 1 1
C
B C B C
+B 0 2 0 C B e1;t 1 e2;t 1 e22;t 1 e2;t 1 e3;t 1 C
@ A @ A
0 0 3 e1;t 1 e3;t 1 e2;t 1 e3;t 1 e23;t 1
| {z } | {z }
A et 0
1 et 1
0 1 0 1
2
0 0 0 0
B 1 C B 1;t 1 C
B C B C
+B 0 2 0 C B 0 2
2;t 1 0 C
@ A @ A
2
0 0 3 0 0 3;t 1
| {z } | {z }
B t 1
= W + A et 1 e0t 1 +B t 1
354
por observar que
ut = et ;
1
et = ut ;
1 0
et e0t = 1
ut u0t :
e, portanto,
0 0
Ht = Var (ut j Ft 1 ) = Var ( et j Ft 1 ) = Var ( et j Ft 1 ) = t :
0 1 1 0
Desta última relação (i.e., Ht = t ); sai t = Ht ( ) : Em suma,
0
Ht = t
0
= W + A et 1 e0t 1
0
+ (B t 1)
0
0 1 1 0 1 1 0
= W + A ut 1 u0t 1
0
+ B Ht 1
0
:
Esta última relação escreve Ht como função dos termos ui;t 1 uj;t 1 e hij;t 1 : Expandindo
a expressão anterior e depois de cálculos simples mas fastidiosos obtém-se, por exemplo,
h22;t = a2 ! 1 + ! 2 + a2 ( 1 + 2
2 ) u1;t 1
0
Ht = t
0 10 10 1
2
1 0 0 0 0 1 a b
1;t
B CB CB C
B CB C B C
= B a 1 0 CB 0 2
2;t 0 CB 0 1 c C
@ A@ A@ A
2
b c 1 0 0 3;t 0 0 1
0 1
2 2 2
a 1;t b 1;t
B 1;t C
B C
= B a 21;t a2 21;t + 22;t ab 21;t + c 22;t C: (9.7)
@ A
2 2 2 2 2 2 2 2
b 1;t ab 1;t + c 2;t b 1;t + c 2;t + 3;t
355
A partir de (9.7), deduzem-se também os coeficientes de correlação condicionados:
a 2 a 1;t
12;t = q q 1;t =q
2
1;t a2 21;t + 2
2;t a2 2
1;t + 2
2;t
2
b 1;t b 1;t
13;t = q q =q
2 2 2 2 2 2 2
1;t b2 1;t + c2 2;t + 3;t b2 1;t + c2 2;t + 3;t
2 2
ab1;t + c 2;t
23;t = q q :
2 2
a2 1;t + 2;t b2 21;t + c2 2
2;t + 2
3;t
Os sinais dos coeficientes a; b e c são decisivos nos sinais dos coeficientes de correlação
condicionados.
Observação 9.8.1 Tendo em conta as relação Vec (ABC) = (B 0 A) Vec (C) e Vec (A B) =
diag (Vec (A)) Vec (B) onde é o produto de Kronecker e diag é definido como
00 11 0 1
x1 x1 0
diag @@ AA = @ A;
x2 0 x2
~ +A
Vec (Ht ) = W ~ Vec ut 1 u0t 1
~ Vec (Ht 1 )
+B (9.8)
onde
~ = (
W ) Vec (W) ;
~ = (
A ) diag (Vec (A)) 1 1
;
~ = (
B ) diag (Vec (B)) 1 1
:
Como a equação (9.8) está basicamente na forma da equação (9.2) deduz-se que a condição
~ +B
de ESO do processo fut g estabelece que todos os valores próprios de A ~ sejam, em mó-
~ +B
dulo, menores do que um. Pode-se provar que os valores próprios de A ~ são f0; 0; 0; 0; 0; 0; 1+
356
9.8.2 Estimação
2 2 2 2
onde eit j Ft 1 N (0; it ) ; it = !i + i ei;t 1 + i i;t 1 : A estimação do modelo pode ser
conduzida da seguinte forma:
2. Substituir, na equação (9.10), e1t por e^1t e estimar o modelo. Obter os resíduos f^
e2t g :
3. Substituir, na equação (9.11), e1t por e^1t e e2t por e^2t e estimar o modelo.
0 1
(yt t) Ht 1 (yt t) = u0t ( 0 ) t
1 1
ut
1 2 1
= 2
u 1t + 2
(u2t au1t )2
1t 2t
1
+ 2
(u3t (b ac) u1t cu2t )2
3t
2 2 2
= log 1t + log 2t + log 3t
Tem-se assim,
357
1X 1X
n n
nm 0
log Ln ( ) = log (2 ) log jHt j (yt t) Ht 1 (yt t) :
2 2 t=1 2 t=1
1X
n
nm 2 2 2
= log (2 ) log 1t + log 2t + log 3t (9.12)
2 2 t=1
1X
n
1 1
2
u21t + 2
(u2t au1t )2 (9.13)
2 t=1 1t 2t
1
+ 2
(u3t (b ac) u1t cu2t )2 (9.14)
3t
1X
n
nm 2 2 2
= log (2 ) log 1t + log 2t + log 3t
2 2 t=1
1X
n
1 1 1
2
u21t + 2
(u2t ae1t )2 + 2
(u3t be1t ce2t )2
2 t=1 1t 2t 3t
!
1X 1X 1 2
n n
nm 2
= log (2 ) + log 1t u
2 2 t=1 2 t=1 21t 1t
| {z }
log Ln;1
!
1X 1X 1
n n
2 2
+ log 2t (u2t ae1t )
2 t=1 2 t=1 22t
| {z }
log Ln;2
!
1X 1X 1
n n
log 2
3t (u3t be1t ce2t )2
2 t=1 2 t=1 23t
| {z }
log Ln;3
= log Ln;1 + log Ln;2 + log Ln;3
A decomposição log Ln ( ) = log Ln;1 +log Ln;2 +log Ln;3 ; mostra que a estimação pode
ser feita consistentemente de acordo com os passos acima indicados. A primeira parcela,
log Ln;1 ; só depende do vector
0
1 = (c1 ; 11 ; ! 1 ; 1; 1) :
Estes parâmetros são estimados de forma consistente e eficiente maximizando (apenas) log Ln;1
(trata-se, portanto, da estimação, pelos métodos habituais, da equação (9.9)). A segunda
parcela, log Ln;2 ; depende do vector,
0
2 = (c2 ; 21 ; 22 ; ! 2 ; 2; 2 ; a)
358
e ainda de 1; através dos erros fe1t g : A estimação de 2 através da maximização de log Ln;2
pode ser feita de forma consistente, mas não eficiente, substituindo os erros fe1t g por f^
e1t g :
e1t g baseiam-se no estimador consistente ^1 ; obtido no
A estimação é consistente pois f^
primeiro passo. Claro que a maximização de log Ln;2 corresponde à estimação da equação
(9.10), pelos métodos habituais ((com f^
e1t g em lugar de fe1t g). Este raciocínio aplica-se de
forma análoga a log Ln;3 .
Como nota final, observe-se que a estimação do modelo pode ser totalmente eficiente
se a maximização de log Ln for simultânea (confiram-se as equações (9.12)-(9.14)). Como
se sabe, o problema da maximização de log Ln é, entre outros, o dos valores iniciais dos
parâmetros a estimar. Este problema é mitigado no presente contexto: basta fornecer como
valores iniciais as estimativas obtidas na estimação em três passos, acima apresentada.
Considere-se novamente
8 8
>
> u = e1t >
> h = 21t
>
< 1t >
< 11;t
u2t = ae1t + e2t ; h22;t = a2 21t + 22t
>
> >
>
>
: u = be + ce + e >
: h = b2 2 + c 2 2 + 2
3t 1t 2t 3t 33;t 1t 2t 3t :
Observámos que u2t depende de e2t (efeitos idiossincrásicos) e ainda dos choques idiossin-
crásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos idiossincrásicos) e
ainda dos choques idiossincrásicos da primeira e da segunda equação. Como referimos, a
volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.
Desta forma, existem efeitos de volatility spillover do mercado 1 para o mercado 2 se a 6= 0
e dos mercados 1 e 2 para o mercado 3 se b 6= 0 e c 6= 0:
Pode-se ainda obter informação sobre a evolução da transmissão da volatilidade ao longo
do tempo através de rácios de volatilidade. Seja RVti;j a proporção da variância do mercado
j que é causada pelo efeito de volatility spillover do mercado i (efeito do mercado i para j;
i 7! j). Tem-se
a2 21t
RVt1;2 = ;
h22;t
b2 21t c2 22t
RVt1;3 = RVt2;3 = :
h33;t h33;t
359
Dependent Variable: R1
Method: ML - ARCH
Sample (adjusted): 6/01/1993 4/09/2009
Included observations: 4055 after adjustments
Variance Equation
Variance Equation
9.8.4 Exemplo
360
Dependent Variable: R3
Method: ML - ARCH
Sample (adjusted): 6/01/1993 4/09/2009
Included observations: 4055 after adjustments
Variance Equation
Alguns dos valores mais altos dos coeficientes de correlação coincidem com algumas
crises financeiras5 . Este facto é particularmente notório com a crise do subprime de
2008.
^b2 ^ 2
RV _U St = RVt1;3 = 1t
;
^h33;t
c^2 ^ 22t
RV _EUt = RVt2;3 = ;
^ 33;t
h
RV _P Tt = 1 RV _U St RV _EUt :
5
As principais crises financeiras no período em análise são as seguintes: Recessão do Japão, 1991; Crise do
México, 1994/1995; Bolha Dot.com, 2000; Crise de 2001 (ataque às Twin Towers); Crise da Argentina, 2002;
Crise do Subprime, 2007/2008.
361
.9
.8
.7
.6
.5
.4
.3
.2
.1
94 96 98 00 02 04 06 08
362
1.0
0.8
0.6
0.4
0.2
0.0
94 96 98 00 02 04 06 08
Seja yt = (y1t ; y2t ; :::; ymt )0 o vector das observações no momento t (t = 1; :::; n). Se
quisermos normalizar as variáveis consideramos
yit E (yit )
xit = :
i
363
Suponha-se que W é não aleatório dado Ft 1 . Vem
= E ( xt x0t j Ft 1 )
0
= E (xt xt j Ft 1 )
0 0
= E (WPt Pt W j Ft 1 )
= W E (Pt P0t j Ft 1 ) W0
Obter a matriz W
Seja X a matriz das observações estandardizadas, X = x 1 x 2 x m de tipo
n m (por exemplo, x 1 representa o vector das observações estandardizadas da variável 1)
e
0
^ =X X:
V
n
V é a matriz de correlações de yt : Por exemplo, o elemento (1; 2) de V é
Considerar Pn
1
x0 1 x 2 n t=1 (y1t y1 ) (y2t y2 )
=
n ^1 ^2
se os momentos E (y1t ), E (y2t ), 1 e 2 forem desconhecidos.
364
Como se sabe, se W i é vector próprio de V e i é o valor próprio associado a W i então
^
VW i = iW i; i = 1; :::; m
Compactamente
^
VW =W
1
X = PW0 , P = X (W0 ) = XW
tem-se
P0 P = W0 X0 XW
^
= nW0 VW
= nW0 W
= n :
^ = X0 X=n.
2. Calcular V
^
3. Calcular os vector próprios (W) de V:
4. Obter P = XW.
365
Figura 9-7: Aplicação (rendabilidade do índice de mercado: NASDAQ; INDUSTRIAL,
COMPUTER)
P0 P
= (9.16)
n
366
tem-se 0 1
0
P 1P 1 0 0
B C
B 0 C
B 0 P 2P 2 0 C
P P =B
0
B .. .. ... ..
C
C
B . . . C
@ A
0 0 P0 m P m
P0 i P i
= i:
n
X0 X WP0 PW0
= = W W0 :
n n
ordenam-se os valores próprios por ordem descendente , i.e. 1 > 2 > :::
P = XW
que tem dimensão n k: Nestas circunstâncias é necessário modelar apenas estas k compo-
nentes principais. Assim,
367
e
0 1
(P 2 j F ) 0 0
B E 1t t 1 C
B C
B 0 E (P2t2 j Ft 1 ) 0 C
0
E Pt (Pt ) Ft 1 =B
B .. .. .. ..
C:
C
B . . . . C
@ A
0 0 E (Ptk2 j Ft 1 )
^ = X0 X=n.
2. Calcular V
Cov ( yt j Ft 1 ) W E Pt (Pt )0 Ft 1 (W )0 :
368
seguinte forma
^ ^ t 1=2 u
"t = H ^t :
0
1=2 1=2
(verifique que o produto Ht Ht é Ht ). Assim,
2 3
1
1=2
0
=4 5:
1t
Ht
pt 2
p1 2
1t 1 t 2t 1 t
1=2
(Deixa-se como exercício mostrar que E ("t ) = 0 e Var ("t ) = Var Ht ut = In ). Desta
^t 1=2
"t = H
forma (continuando o exemplo) a expressão ^ u
^ t vale
2 3 2 32 3 2 3
1 u
^1t
^"1t ^ 1t
0 u^1t ^ 1t
4 5=4 54 5=4 5:
^t u
^2t u
^1t ^t
^"2t p p1 u^2t p p
^ 1t 1 ^2t ^ 2t 1 2
t ^ 2t 1 ^2t ^ 1t 1 ^2t
369
Por exemplo no caso m = 2 e L = 1; a regressão envolveria as seguintes variáveis:
Segundo passo: teste F de nulidade de todos os parâmetros com excepção do do termo in-
dependente. Se existir evidência estatística contra a hipótese nula, podemos suspeitar que
a matriz Ht não foi convenientemente modelada. Nos passos seguintes repete-se o proced-
imento, tomando sucessivamente ^"2i;t i = 2; :::; m como variável dependente na regressão
auxiliar.
"t é um ruído branco. O procedimento
Naturalmente é conveniente verificar também se ^
anterior pode ser repetido substituindo os resíduos estandardizados ao quadrado simples-
mente pelos resíduos estandardizados e eliminando os termos cruzados.
370
Capítulo 10
10.1 Introdução
***
10.2.1 Introdução
371
(x h; x + h) : Esta proporção deve ser dividia por h :
11X
n
f^ (x) = I xt x 1 : (10.1)
h n t=1 fxt :j h j< 2 g
Tem-se assim que f^ (x) representa a proporção de observações por unidade relativa de fre-
quencia. Naturalmente, podemos fazer variar h: Um valor maior implica um maior alisa-
mento da estimativa (mais observações são consideradas), diminuindo a variabilidade de f^:
Todavia, valores muitos altos de h podem distorcer a estimativa de f (x), na medida em que
podem entrar observações muito afastadas de x; não traduzindo, portanto, o comportamento
local de f no ponto x:
Pode-se mostrar que Z 1
f^ (x) dx = 1:
1
A respectiva fdp é
F (x + h) F (x)
f (x) = F 0 (x) = lim
h!0 h
ou, equivalentemente,
F (x + h=2) F (x h=2)
f (x) = lim
h!0 h
P (x h=2 < X < x + h=2)
= lim
h!0 h
X x 1
P h
<2
= lim
h!0 h
Dada esta definição de f (x) ; é imediato concluir que uma estimativa da última expressão é
1
Pn
n t=1 Ifxt :j xt x j< 1 g
h 2
que é exactamente a expressão obtida em (10.1). Esta estimativa pode também ser escrita da
seguinte forma
1 X
n
xt x
f^ (x) = K
nh t=1 h
372
onde 8
1
1<se 1 < u < 1
2
K (u) = Ifu:juj<1g =
2 : 0 caso contrário.
A função K (u) ; designada por kernel (ou núcleo) é uma função densidade de probabilidade
(Uniforme). Resulta que outros kernels, com baseados em funções densidade de probabili-
dade, podem também ser usados. Por exemplo,
1 1 2
K (u) = p exp u kernel Gaussiano
2 2
1
K (u) = Ifu:juj<1g kernel Uniforme,
2
15
K (u) = 1 u2 Ifu:juj<1g .
16
10.2.2 Propriedades
A4 h ! 0 quando n ! 1, nh ! 1 quando n ! 1
p 5=2
A5 nh ! 0 quando n ! 1:
h2 f 00 (x) 2
E f^ (x)
K
= f (x) + + O h4
2
1
Var f^ (x) = O :
nh
373
Note-se que O (h4 ) representa um termo de ordem h4 ou inferior. Por outras palavras,
O (h4 ) é proporcional ou menos do que proporcional a h4 ; podendo ser, por exemplo, 2h4 :
Obviamente limh!0 O (h4 ) = 0 e limh!0 O (h4 ) =h4 é uma constante.
p
Proposição 10.2.2 Tem-se f^ (x) ! f (x) :
p Z
d
nh f^ (x) E f^ (x) !N 0; f (x) K 2 (u) du
p Z
d
nh f^ (x) f (x) !N 0; f (x) K 2 (u) du
10.2.3 Escolha de h
p 5=2
nh = n1=2 (n )5=2 = n1=2 n5 =2
= n(1+5 )=2
!0
deverá ter-se (1 + 5 ) < 0: Coligindo todas as desigualdades obtém-se 1< < 1=5: É
preciso todavia encontrar um valor para e : Para o efeito, é necessário usar um critério de
374
selecção. Existem vários propostos na literatura, mas focaremos apenas o Mean Integrated
Squared Error: Z 2
M ISE (h) = E f^ (x) f (x) dx :
R
2 f (x) K 2 (u) du h4 (f 00 (x))2 4
E f^ (x) f (x)2 ' Var f^ (x) + f (x) E f^ (x)
K
= +
nh 4
tem-se
Z R !
K 2 (u) du h4 (f 00 (x))2
f (x) 4
K
M ISE (h) = + dx
nh 4
R 2 Z
K (u) du h4 4K 2
= + (f 00 (x)) dx:
nh 4
R !1=5
K 2 (u) du 1=5
hopt = R n :
4
K (f 00 (x))2 dx
R
Usando o kernel Gaussiano, tem-se K 2 (u) du ' 0:282 e 4
K = 1: O valor de hopt depende
ainda de f 00 (x) que é desconhecido. Este valor pode ser estimado não parametricamente.
2
Uma alternativa mais simples consiste em assumir que f (x) N( ; ) (vários estudos
indicam que esta escolha é relativamente robusta desde que a verdadeira densidade não seja
bimodal ou excessivamente assimétrica). Com estas simplificações obtém-se
^ opt = 1:06^ n
h 1=5
375
(^ desvio padrão estimado de xt ).
yt = (xt ) + ut
2
ut = (xt ) "t
2
onde "t é um ruído branco e tal que E ("t j xt ) = 0; (xt ) é a média condicional e (xt )
é a variância condicional. Os momentos condicionais dependem apenas de xt (é natural-
mente possível generalizar). Para simplificar admitiremos que xt = yt 1 (mas é possível
2
generalizar). O problema de estimação é o dos momentos condicionais (x) e (x) : À
2
semelhança da estimação de f (x) ; a estimação de (x) (e (x)) faz-se localmente, i.e.,
estima-se (x) separadamente para cada x. Por exemplo, seleccionando x = 1 estimamos
(1) = E (yt j xt = 1)
e repete-se o procedimentos para outros pontos x e assim obtemos uma ideia do comporta-
mento de (x) :
Na análise da estimação local da média condicional, o ponto de partida é a fórmula de
376
Taylor de (xt ) numa vizinhança de x :
onde x é um valor entre xt e x: Desta forma yt pode ser representado pela expressão
= c + xt + u t :
Se (x) é não linear o erro de aproximação é não nulo e aumenta quando xt se afasta de
x. Desta forma, obtém-se uma boa aproximação de (x) se usarmos apenas as observações
que se encontram “perto” de x: Em alternativa, pode-se usar todas as observações mas damos
mais peso às observações que se encontram “perto” de x:
Trade-off na estimação de (x) :
não considerar todas as observações ou não dar peso significativo a parte das obser-
vações acarreta um custo: aumento da variância do estimador.
O peso a dar às observações é controlado pelo kernel K (u) : Seja x 2 R. Como atribuir
mais ou menos peso às observações xt ?
( )
2
1 xt x 1 1 1 u 1
K = p exp
h h 0:1 2 2 :01
377
2.0
1.5
1.0
0.5
-4 -3 -2 -1 0 1 2 3 4
n o
1 p1 1 u 1 2
Figura 10-1: 0:2 2
exp 2 0:2
2.0
1.5
1.0
0.5
-4 -3 -2 -1 0 1 2 3 4
n o
1 p1 1 u 1 2
Figura 10-2: 1 2
exp 2 1
378
assim,
X
n
^ N W (x; h) = c^ = arg min (yt c)2 wt
c
t=2
wt = h1 K xt x
h
: Resolvendo obtém-se
Pn xt x
K yt
c^ = Pt=2
n
h
xt x
:
t=2 K h
Aproximação linear:
Considera-se a aproximação
@ (x)
yt = (x) + (xt x) + et
@x0
= c + c1 (xt x) + et
X
n
f^
c; c^1 g = arg min (yt c c1 (xt x))2 wt
fc;c1 g
t=2
Notando que
X
n
(yt c c1 (xt x))2 wt
t=im +1
Xn
1=2
2
= (yt c c1 (xt x)) wt
t=im +1
Xn
1=2 1=2 1=2
2
= yt wt cwt c1 w t (xt x) ;
t=im +1
o problema de optimização pode ser encarado como um problema de estimação OLS relati-
vamente à seguinte especificação:
379
imediata a construção das variáveis
1=2 1=2
yt wt ; wt (xt1 x1 ) ; etc:
yt = c + c1 (xt x) + errot
onde
2 3
1 x2 x
6 7
6 .. .. 7
Z (x) = 6 . . 7 W (x; h) = diag fw2 ; :::; wn g
4 5
1 xn x
2 3
y
6 2 7
6 . 7
y = 6 .. 7
4 5
yn
h i
1
c^ = 1 0 (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y:
1
c^ = (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y
e Z (x) = Z = 11 (n 2) :
380
plo,
h i
E( \
1
yt j xt = x) = 1 0 (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y
Propriedades
Vamos considerar primeiro o caso em que xt é i.i.d., por ser mais fácil tratar.
2
B1 xt é i.i.d. e E (ut j xt ) = 0; Var (ut j xt ) = (xt )
B3 (nh)1=2 h2 ! 0 quando n ! 1;
Proposição 10.2.6
h2
E (^ N W (x)) = (x) + ( 00 (x) f (x) + 2f 0 (x) 0
(x)) 2
K + o h2
2f (x)
2 Z
1 (x) 1
Var (^ N W (x)) = K 2 (u) du + o
nh f (x) nh
Proposição 10.2.7
h2 00
E (^ (x)) = (x) + (x) 2K + o h2
2
2
(x) 2 1
Var (^ (x)) = K +o :
nhf (x) nh
Proposição 10.2.8
p
^ N W (x) ! (x)
p
^ (x) ! (x)
R
Proposição 10.2.9 Sob as hipóteses anteriores e E juj2+ <1e K (u)2+ du < 1
R
p d
2
(x) K 2 (u) du
nh (^ N W (x) E (^ N W (x))) ! N 0;
f (x)
381
Proposição 10.2.10 Sob as hipóteses anteriores e B3 tem-se
R
p d
2
K 2 (u) du
(x)
nh (^ N W (x) N W (x)) ! N 0;
f (x)
R 2
p d
2
(x) K (u) du
nh (^ (x) (x)) ! N 0;
f (x)
10.A Demonstrações
Demonstração da proposição 10.2.1
Tem-se
!
1 X
n
xt x
E f^ (x) = E K
nh t=1 h
1 xt x
= E K (devido a A1)
h h
Z
1 x
= K f ( )d
h h
Z
1 x
= K (u) f (uh + x) hdu (mudança de variável = u)
h h
Z
= K (u) f (uh + x) du
Z
0h2 u2 00
= K (u) f (x) + huf (x) + f (x) + ::: du (invocando a fórmula de Taylor)
2
Z Z Z
0 h2 u2 00
= K (u) f (x) du + K (u) huf (x) du + K (u) f (x) du + :::
2
Z
h2 f 00 (x)
= f (x) + K (u) u2 du + :::
2
h2 f 00 (x) 2K
= f (x) + + O h4
2
R
A última equação decorre de A2. Note-se que todos os termos do tipo K (u) uk du são zero
quando k é ímpar. O termo O (h4 ) inclui todos os restantes termos são de ordem igual ou
inferior a h4 no seguinte sentido limh!0 O (h4 ) =h4 = constante.
382
Por outro lado,
!
1 X
n
xt x
Var f^ (x) = Var K
nh t=1 h
!
1X
n
1 xt x
= Var K
n2 h t=1 h
1
= 2
Var (w1 + w2 + ::: + wn ) (com wt = h 1 K ((xt x) =h)
n
1 X 2 XX
n
= Var (w t ) + Cov (wi ; wj )
n2 t=1 n2
2X
n 1
1 t
= Var (wt ) + 1 Cov (w1 ; wt+1 ) (devido a A1):
n n t=1 n
1 xt x
Var (wt ) = Var K
h h
1 xt x
= Var K
h2 h
" #
2
1 2 x t x x t x
= E K E K
h2 h h
"Z Z #
2
1 x x
= K2 f ( )d K f ( )d
h2 h h
"Z Z #
2
1
= K 2 (u) f (hu + x) hdu K (u) f (hu + x) hdu
h2
Z
1 2 0 h2 u2 00
= K (u) f (x) + huf (x) + f (x) + ::: hdu
h2 2
Z 2
1 0 h2 u2 00
K (u) f (x) + huf (x) + f (x) + ::: hdu
h2 2
Z Z
1
= K (u) f (x) du + K 2 (u) uf 0 (x) du + :::
2
h
Z Z 2
K (u) f (x) du + K (u) huf 0 (x) du + :::
Z
f (x)
= K 2 (u) du + O (1)
h
(note-se que o termo de ordem O (1) definido na última equação inclui todos os demais
termos não presentes na equação e que são relativamente pequenos em comparação com
R
f (x) h 1 K 2 (u) du quando n é grande e h é pequeno).
P
Analise-se n2 nt=11 1 nt Cov (w1 ; wt+1 ). Notando que Cov (w1 ; wt+1 ) = t Var (w1 ) ;
383
devido a A1, tem-se
2X 2X
n 1 n 1
t t
1 jCov (w1 ; wt+1 )j = 1 j t j Var (w1 )
n t=1 n n t=1 n
2 Var (w1 ) X
n 1
t
= 1 j tj
n t=1
n
!
Var (w1 ) X
n 1
t 2t
2 1 C2 e (devido a A1)
n t=1
n
Var (w1 )
= O (1)
n
1 1
= O (pois Var (w1 ) = O ).
nh h
Desta forma,
2X
n 1
1 t
Var f^ (x) = Var (wt ) + 1 Cov (w1 ; wt+1 ) (devido a A1):
n n t=1 n
Z
f (x) 1
= K 2 (u) du + O :
nh nh
p X
n 1
t
Var ^
nhf (x) = h Var (wt ) + 2h 1 Cov (w1 ; wt+1 )
t=1
n
h i
Seja n = p1 onde [x] designa aqui a parte inteira de x: Tem-se
h
X
n 1
t Xn
t
2h 1 Cov (w1 ; wt+1 ) = 2h 1 Cov (w1 ; wt+1 )
t=1
n t=1
n
| {z }
J1;n
X
n 1
t
+2h 1 Cov (w1 ; wt+1 )
t=
n
n +1
| {z }
J2;n
Para 1 t n tem-se
384
jCov (w1 ; wt+1 )j E jw1 wt+1 j
x1 x 1 xt+1 x
= E K K
h h h
Z
1 x1 x xt+1 x
= 2
K K f1;t+1 (xt ; xt+1 ) dxt dxt+1
h h h
Z
= K (u) K (u + v) f1;t+1 (x; x) dudv + O (h)
= O (1) :
Assim
Xn
h p
J1;n h Cov (w1 ; wt+1 ) = hO ( n) = O (h n) =O p =O h = o (1) :
t=1 h
Assim,
X
n 1
t
J2;n = 2h 1 Cov (w1 ; wt+1 )
t=
n
n +1
X
n 1 Z
t
2 1 t f (x) K 2 (u) du + O (h)
t=
n
n +1
Z X
n 1
2 t
= 2 f (x) K (u) du + O (h) 1 t
t=
n
n +1
! 0
Pn 1 t
Pn 1
pois t= n +1
1 n t t= n +1 t ! 0 quando n ! 1 e n ! 1:
Demonstração da proposição 10.2.4
Demonstração da proposição 10.2.5
Demonstração da proposição 10.2.6
385
xt x
Seja t = h
: Tem-se
0 00 (xt x)2
yt = (x) + (x) (xt x) + (x ) + ut
2
2
h2 t
= (x) + h 0 (x) t+
00
(x ) + ut :
2
(x) 1 X (x ) 1 X
0 n 00 n
h 2
E ( ^ N W (x)j x1 ; :::; xn ) = (x) + K ( t) t + K ( t) t:
f^ (x) n t=2 2f^ (x) n t=2
386
Pela teorema do valor esperado iterado, vem
1 X 2
n
1 2
Var ( ^ N W (x)j x1 ; :::; xn ) = K ( t) (xt ) :
f^2 (x) n2 h2 t=2
Dado que o segundo termo da expressão Var (^ N W (x)) = E (Var ( ^ N W (x)j x1 ; :::; xn )) +
Var (E ( ^ N W (x)j x1 ; :::; xn )) é zero, vem
Z Z
1 2 1 x
E K ( t) (xt ) = K2 2
( )f ( )d = K 2 (u) 2
(x + uh) f (x + uh) du
h h h
Z
= K 2 (u) 2
(x) f (x) + o (h) du
Z
2
= (x) f (x) K 2 (u) du + o (h) :
387
Desta forma,
!
1 1 2
1
Var (^ N W (x)) = E K ( t ) 2 (xt )
nh ^2
f (x) h
2 Z
1 (x) 1
= K 2 (u) du + o :
nh f (x) nh
388
Parte III
Aplicações
389
Página em branco
390
Capítulo 11
um mercado é eficiente na forma fraca se os preços dos títulos reflectirem toda a infor-
mação sobre os preços passados; como consequência, as cotações passadas não podem
391
ser utilizadas para obter rentabilidades anormais;
um mercado é eficiente na forma forte se os preços dos títulos reflectirem toda a in-
formação disponível, pública e privada; a informação privada é conhecida apenas dos
gestores da empresa.
A hipótese dos mercados eficientes admite que todas as informações relevantes estão
disponíveis (a baixo custo) e que as cotações reflectem o conjunto dessas informações. Desta
forma, não é possível com base na informação disponível, obter ganhos persistentes acima
do “retorno normal”; se o mercado é ineficiente, os preços não traduzem o seu valor “justo”
ou valor “intrínseco” e é possível obter rendibilidades anormais.
A questão que normalmente se coloca consiste em saber se é possível obter rendibilidades
anormais de forma persistente utilizando uma estratégia de investimento. Uma forma para
analisar esta questão consiste em comparar a rendibilidade que se obtém a partir de uma certa
estratégia de investimento com a “rendibilidade normal” ou esperada deduzida em função de
um modelo de equilíbrio como o CAPM ou APT. Outra metodologia baseia-se em saber se
os retornos são ou não “previsíveis”. Esta análise pode ser conduzida a partir de um modelo
do tipo
rt = f (xt 1 ) + ut
392
Para simplificar admita-se que o retorno normal, E (rt ) = > 0 é constante. Se o
mercado é eficiente então é indiferente usar ou não usar a informação disponível Ft 1 para
prever rt e, desta forma tem-se
Note-se que E (rt ) representa a previsão de rt não baseada em qualquer informação especí-
fica, a não ser nas “características gerais do processo”. Pelo contrário, se
E (rt j Ft 1 ) 6= E (rt )
log Pt = log Pt 1 + ut
sendo fut g um processo ruído branco ou, em termos mais gerais, uma diferença de martin-
gala. Esta formalização implica (11.1) e ainda que log Pt é uma martingala,
E (log Pt j Ft 1 ) = log Pt 1 :
1
A rigor é um impossibilidade o preço ser um passeio aleatório,
Pt = P t 1 + ut
uma vez que Pt , neste modelo, é não limitado em probabilidade. Isto significa que pode assumir valores
negativos com probabilidade um quando t tende para 1: De facto, prova-se que Pt visita os estados 1 e
+1 infinitas vezes quando t ! 1: Como os preços não podem ser negativos, por definição, o preço não pode
ser um passeio aleatório.
393
Esta formalização é contra intuitiva pois assume que o valor esperado do retorno é zero
(E (rt ) = 0) e, portanto, que o prémio de risco é negativo. Todavia, se o retorno for con-
venientemente ajustado ao risco, a propriedade de martingala deve verificar-se (vejam-se as
referências em Campbell et al., 1997, pág. 31).
Um modelo mais natural e compatível com (11.1) é o modelo de passeio aleatório com
deriva (positiva),
log Pt = c + log Pt 1 + ut ; c > 0:
X
m
1 d
Q = n (n + 2) ^2k ! 2
(m)
k=1
n k
394
11.2.2 Regras de Compra e Venda e a Análise Técnica
Uma forma popular entre traders and financial professionals de definir regras de compra e
venda assenta na chamada “análise técnica”. A análise técnica baseia-se num conjunto de
indicadores estatísticos gerados pelo mercado, tais como preços e volume, visando estabele-
cer regras de compra e venda de activos cotados em bolsa2 . A generalidade dos indicadores
procura detectar tendências de subida ou descida das cotações. Analisam-se três regras de
compra e venda (provavelmente as mais utilizadas e conhecidas, mas existem muitas out-
ras regras) e discutem-se procedimentos econométricos destinados a aferir a qualidade das
regras. A previsibilidade associada às regras de compra e venda não significa necessaria-
mente ineficiência de mercado. Para argumentar que um mercado é ineficiente é necessário
demonstrar que a regra de investimento seleccionada é superior a um porfolio de referência.
Seja
Pt + P t 1 + ::: + Pt k+1
Mt (k) =
k
uma média móvel (MM) de ordem k da variável P; no momento t: A estatística Mt (k)
fornece uma medida de tendência local de P: Quanto maior for k mais informação atrasada
a média móvel contém e, também, mais alisada é a tendência. Pelo contrário, se k é baixo, a
estatística Mt (k) fornece apenas a tendência recente de P: Defina-se assim a MM de curto
prazo, Mt (c) ; onde c é uma valor “baixo” e a MM de longo prazo, Mt (l) onde l é um valor
“alto”. Tipicamente, para dados diários, c e l são escolhido nos intervalos, 1 c 5e
50 l 250: Do confronto entre a MM de curto e longo prazo argumenta-se que é possível
projectar uma tendência futura de P: Mais concretamente, se Mt (c) > Mt (l) ; os preços
mais recentes estão mais altos do que os preços mais antigos. Isto sugere que os preços
seguem uma tendência positiva. A regra prescreve uma compra para o período t + 1: Se as
duas médias são aproximadamente iguais, a tendência futura sobre os preços não é clara, e
neste caso não há lugar a compra ou venda. Esta regra pode ser melhorada, estabelecendo um
sinal de compra ou venda apenas quando a diferença entre Mt (c) e Mt (l) for significativa,
digamos acima de um certo limiar B (bandwidth): Assim, as regras de compra e venda para
2
A abordagem fundamental analysis, ao contrário, estabele regras de compra e venda com base em factores
financeiros e económicos. Por exemplo, analisam-se variáveis financeiras (treasury bill rates, bonds returns,
dividend yield (dividendo por acção/cotação), price-earning ratios (cotação/lucro), etc.) ou macroeconómicas
(produto, inflação, etc.).
395
NASDAQ composite
2380
2280
2180
2080
P
1980
MM curta
1880 MM longa
1780
Jan-05 Mar-05 May-05 Jul-05 Sep-05 Nov-05 Jan-06
comprar = 1, vender = 0
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Jan-05 Mar-05 May-05 Jul-05 Sep-05 Nov-05 Jan-06
Figura 11-1: Regra Média Móvel - Aplicação ao NASDAQ composite Jan-05 a Mar-06
o dia t + 1, passariam a ser: comprar se Mt (c) > Mt (l) + B; vender se Mt (c) < Mt (l) B
e não transaccionar se jMt (c) Mt (l)j B:
Na figura 11-1 ilustra-se a regra média móvel ao NASDAQ composite (Jan-05 a Mar-
06). Fixou-se c = 10 e l = 50: Em princípio deveriamos escolher um valor de c entre 1 e
5; todavia, a escolha c = 10 permite identificar melhor graficamente a média móvel Mt (10)
(com c 5 a série Mt (c) praticamente não se distingue, graficamente, de P ).
Regra Canal
À semelhança da regra média móvel, também esta regra se baseia numa hipótese sobre a
evolução futura da tendência dos preços. Antevê-se uma subida ou descida dos preços com
base na comparação entre o valor actual do preço Pt e o valor mínimo ou máximo atingido
pelos preços nos últimos L dias. Sejam,
respectivamente os valores mínimo e máximo atingidos pelos preços nos últimos L dias. A
ideia é a seguinte: se no dia t houve uma indicação de compra e Pt é significativamente
396
t+1
Comprar Vender Neutro
t
Comprar Pt > (1 + B) mt 1 Pt < (1 B) mt 1 outros casos
Vender Pt > (1 + B) Mt 1 Pt < (1 B) Mt 1 outros casos
Neutro Pt > (1 + B) Mt 1 Pt < (1 B) mt 1 outros casos
Tabela 11.1: Regras de Compra e Venda Baseadas no procedimento Canal
NASDAQ composite
2380
2280
2180
2080
1980
1880
1780
Jan-05 Mar-05 May-05 Jul-05 Sep-05 Nov-05 Jan-06
comprar = 1, vender = 0
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Jan-05 Mar-05 May-05 Jul-05 Sep-05 Nov-05 Jan-06
397
t+1
Comprar Vender Neutro
t
Comprar t+1;t >0 t+1;t < B outros casos
Vender t+1;t >B t+1;t <0 outros casos
Neutro t+1;t >B t+1;t < B outros casos
Tabela 11.2: Regras de Compra e Venda Baseadas num ARMA
Seja t+1;t a previsão do retorno para o momento t + 1 dado Ft ; baseado num certo modelo
ARMA. Na tabela 11.2 definem-se as regras de compra e venda. A posição (1,1) na tabela
11.2, estabelece o seguinte: se no período t houve uma indicação de compra e t+1;t > 0
então antecipa-se uma tendência de subida dos preços e a indicação é de compra para o
período t + 1 . A posição (2,1) estabelece o seguinte: se no período t houve uma indicação
de venda e t+1;t > B então a indicação é de compra para o período t+1: O período t+1 é de
compra apenas se a previsão do retorno for suficientemente alta, digamos, acima de B > 0:
Se t+1;t > 0 mas t+1;t < B entende-se que não existe indicação suficientemente clara
de compra dado que no período anterior o dia foi de venda e, nestas circunstâncias, o dia é
considerado neutro, isto é, não há lugar a venda ou compra. As demais células interpretam-se
de forma similar.
O parâmetro B pode ser estimado com base na informação passada: selecciona-se o valor
que maximiza o lucro.
Medidas de Previsibilidade
Embora as duas primeiras regras atrás apresentadas envolvam preços, as medidas de pre-
visibilidade, por exigirem a aplicação do teorema do limite central e a lei dos grandes
números, são construídas a partir dos retornos, dado que estes são (em princípio) proces-
sos estacionários.
Considere-se um certa regra de compra e venda e defina-se, C o conjunto dos índices t
onde há um sinal de compra para o período seguinte, t + 1; e V o conjunto dos índices t onde
há um sinal de venda para o período seguinte, t + 1. Por exemplo, se nos dias 3, 7 e 9 há
sinais de compra para os respectivos períodos seguintes, e nos dias 6 e 11 há sinais de venda
para os períodos seguintes então, C = f3; 7; 9g e V = f6; 11g : Seja nC o cardinal de C; nV
398
o cardinal de V (no exemplo dado nC = 3 e nV = 2),
1 X
rC = rt+1
nC t2C
1 X
rV = rt+1
nV t2V
E (rt+1 j t 2 C) 6= E (rt+1 j t 2 V )
i.e., o valor esperado dos retornos depende da informação de compra ou venda e, por isso, os
dois valores esperados são diferentes. Se, pelo contrário, E (rt+1 j t 2 C) = E (rt+1 j t 2 V )
então o comportamento dos retornos no período t + 1 não reflecte a expectativa de subida ou
descida dos preços, dada pela regra de compra e venda.
Numa regra informativa devemos esperar E (rt+1 j t 2 C) > E (rt+1 j t 2 V ) ; i.e., o sinal
de compra (venda) está associado a uma expectativa de subida (descida) sustentada dos
preços.
Temos várias formas de testar se uma regra de compra e venda é informativa. Uma
possibilidade consiste em realizar o teste diferença de média. Admitindo que os retornos são
i.i.d., tem-se que, sob a hipótese nula, H0 : E (rt+1 j t 2 C) = E (rt+1 j t 2 V ) a estatística
rC rV
z=q 2 (11.2)
^C ^ 2V
nC
+ nV
na regressão
rt = 0 + 1 It 1;C + 2 It 1;N + ut (11.3)
(com erros padrão robustos) onde It;C e It;N são variáveis dummies; It;C assume o valor 1
quando no período t houve uma indicação de compra e It;N que assume o valor 1 quando no
399
período t houve uma indicação neutra. O chamado “grupo base” consiste na “indicação de
venda”. Da equação (11.3) tem-se
E (rt+1 j t 2 C) = 0 + 1; E (rt+1 j t 2 V ) = 0
E (rt j It 1 ) = E (rt )
Pelo contrário, se
E (rt j It 1 ) 6= E (rt )
então, a informação disponível It é relevante para prever os retornos futuros. Nestas circun-
stâncias, existe alguma informação sobre a “tendência provável” de rt ; e será possível, em
princípio, obter rentabilidades anormais, usando a informação disponível It .
Existem inúmeros procedimentos e conjuntos de informação It usados para testar a efi-
ciência (semi-forte) de mercado. A literatura tem estudado (entre muitos outros) os seguintes
tópicos:
400
Valor de mercado versus valor contabilístico. Entende-se que um valor de mercado
baixo face ao valor contabilístico pode indicar, em certas circunstâncias, que as acções
estão subavaliadas.
Impacto de outras variáveis financeiras como por exemplo, taxas de juro de obrigações
de tesouro, dividendos por acção (dividend yield), etc.
Impacto de outras “anomalias” mercado, como por exemplo, efeito dos dias da semana,
efeito de fim de semana, fim de ano, etc. (efeitos de calendário - algumas destes tópicos
foram já abordados na secção 3.1.6).
401
A questão é, portanto, óbvia: trata-se de identificar as informações similares relevantes
e verificar se na vizinhança da data da divulgação da notícia as rendibilidades apresentaram
um comportamento “anormal”.
Para simplificar divida-se o estudo do impacto da chegada da informação sobre as rendibil-
idades em duas áreas: A) impacto de notícias similares sobre um conjunto de empresas e B)
impacto de notícias similares sobre uma empresa específica. No caso A) começa-se por
recolher uma amostra de N empresas que estiveram expostas a anúncios não antecipados e
observam-se as rendibilidades anormais na vizinhança das datas dos anúncios. A rendibili-
dade anormal, ra; do activo i no período t é
PN PN
rat;i (rat;i rat )2
rat = i=1
; s2t = i=1
;
N N 1
402
vações disponíveis (e não apenas na vizinhança da data do anúncio). Com este procedimento
é possível comparar rat nos períodos vizinhos e não vizinhos do anúncio, por exemplo,
analisando a significância de 2 na regressão,
onde I0;t e I1;t são variáveis dummies. I0;t assume o valor 1 quando t corresponde à data de
anúncio e I1;t assume o valor 1 quando t corresponde a uma data imediatamente a seguir à
data de anúncio . Se 2 é significante então é possível que o mercado seja ineficiente (ou não
totalmente eficiente). Se, pelo contrário, apenas 1 é significante então o impacto do anúncio
concentra-se no período do anúncio e não há razões para rejeitar a hipótese de eficiência. A
análise poderá ser mais fina, adicionando-se mais variáveis dummies.
Se o objectivo é avaliar o impacto de notícias similares sobre uma empresa específica -
caso B) - o procedimento mais simples consiste em formular a equação de regressão
403
Página em branco
404
Capítulo 12
Selecção de Portfolios
Vai analisar-se o problema da determinação dos pesos óptimos de uma carteira consti-
tuída por m activos com risco e um activo sem risco por parte de um investidor individual.
Os resultados principais devem-se a Markowitz (prémio Nobel 1990), James Tobin (prémio
Nobel 1981) e William Sharpe (prémio Nobel 1990). O objectivo deste capítulo consiste em
apresentar a teoria básica e ilustrar o problema da determinação dos pesos óptimos a partir
de momentos marginais e condicionais da distribuição dos retornos.
Os modelos de heterocedastiocidade multivariada são particularmente úteis quando os
pesos óptimos se baseiam em momentos condicionais.
405
7. Todos os activos podem ser convenientemente fraccionados.
Para além das hipóteses anteriores suponha-se que não existe o activo sem risco, i.e., todos
os activos envolvem risco.
Estabeleça-se a seguinte notação:
2
Variância do portfolio p = Var (Rpt ) = Var (! 0 rt ) = ! 0 Var (rt ) ! = ! 0 H!:
Pm
Naturalmente que i=1 ! i = 1 , ! 0 1 = 1 onde 1 (a negrito) representa um vector-
coluna de 1’s. Para simplificar, assume-se que todos os activos envolvem risco e que alguns
pesos ! i (mas não todos) podem ser negativos. Na teoria financeira um peso pode ser nega-
tivo quando há lugar a uma venda a descoberto ou short selling1 . Esta hipótese simplifica o
problema de optimização.
Em condições normais, qualquer investidor procura dois objectivos antagónicos: max-
imizar o lucro (ou valor do retorno) e minimizar o risco. Os objectivos são contraditórios
porque, em geral, os activos com maior (menor) retorno (em média) são os que possuem
maior (menor) variabilidade. Para conciliar estes objectivos, pode-se, por exemplo, (i) fixar
um valor para o retorno esperado do portfolio e, para esse valor, procurar os activos com a
menor variabilidade possível; ou (ii) fixar um valor para o risco do portfolio (variância) e,
depois, procurar os activos com o maior retorno esperado possível.
1
Venda a descoberto ocorre quando se vende um activo financeiro ou derivado que não se possui, esperando
que o preço caia para depois comprá-lo e lucrar na transação. O mecanismo é o seguinte: o agente A pede
(digamos) uma acção a B e promete-lhe todo o rendimento subjacente ao título. A vende imediatamente a
acção a C; mais tarde, A compra no mercado a acção para a devolver a B. Se o preço da acção cair, esta
operação é vantajosa para A.
406
Suponha-se que se opta pelo procedimento (i). O problema de optimização é então
8 8
< min Var (R ) < min ! 0 H!
!i pt !i
P , (12.1)
: s.a E (R ) = m : s.a ! 0 = 0
pt p e i=1 ! i = 1 p e! 1 = 1
L (!) = ! 0 H! + 1 p !0 + 2 (1 ! 0 1)
! =! p = g+ p h (12.2)
onde
g= H 11 H 1
; h= H 1
H 1 1;
0
= H 1 1; = 0
H 1
; = 10 H 1 1; = 2
;
2
p = Vp p = ! 0 H! :
A função ! 0 H! é estritamente convexa se H for uma matriz definida positiva (hipótese pacífica). As
2
funções 1 p ! 0 e 2 (1 ! 0 1) são convexas por serem lineares (funções lineares são, por definição,
côncavas e convexas).
407
Então, pode-se provar, a solução deste problema optimização é precisamente p. Desta forma
basta estudar o problema formulado na equação (12.1).
Na prática os valores esperados e H são desconhecidos. É necessário estimá-los a
partir dos valores observados. Supondo que frt g é um processo estacionário fracamente
dependente, e H podem ser estimados usando os seguintes estimadores consistentes:
0 1
r
B 1 C h i
B .. C ^ ^ ij
^ =B . C; H= h
@ A i;j=1;::;m
rm
X n
^ ij = 1
h (rit ri ) (rjt rj ) :
n t=1
Exemplo 12.1.1 Considere-se um portfolio constituído pelas acções A1, A2 e A3. Vai ser
tomada uma decisão de investimento no valor de 1 milhão de Euros. A questão é: quanto
comprar de cada um desses activos? Com base em observações diárias suponha-se que se
obtém3 : 0 1 0 1
5:22 1:549 0:9534 0:465
B C B C
B C ^ = B 0:9534 2:093 1:0416 C
B
^ = B 6:05 C H C:
@ A @ A
5:98 0:465 1:0416 1:265
0 1
0:176
B C
^ (5:85) = g
! ^ =B
^+ p h
C
B 0:104 C :
@ A
0:720
3
Estimativas baseadas nos retornos dos índices SP500, DowJones e PSI20, no período 04/01/1993-
04/09/2009.
408
Desta forma, a variância mínima do portfolio associado à rendibilidade 5:85 é
^ 0 H^
Vpt (5:85) = ! !
0 10 1
1:549 0:9534 0:465 0:176
B CB C
B CB C
= 0:176 0:104 0:72 B 0:9534 2:093 1:0416 C B 0:104 C = 1:03:
@ A@ A
0:465 1:0416 1:265 0:720
p
O vector de pesos óptimo associado à combinação p; p = 1:03; 5:85 diz-nos que a
composição do portfolio deve ser de 17.6% de A1, 10.4% de A2 e 72% de A3.
409
Figura 12-1: Fronteira Eficiente: Curva AB
q q q
0 2;
Vp p ; p = g+ p h H g+ p h ; p = c0 + c1 p + c2 p p :
dVp p d (! 0 H! )
= = 0;
d p d p
cuja solução é
g0 Hh
min = :
h0 Hg
410
Inserindo este valor em Vp () obtém-se
0 (g0 Hh)2
Vp ( min ) = g Hg
h0 Hh
Aplicando estas fórmula aos valores do exemplo anterior obtém-se min = 5:63 e Vp ( min ) =
0:919:
O porfolio inclui agora o activo sem risco (por exemplo, obrigações e os títulos do Tesouro4 ).
Tem rendibilidade certa f (e, por isso, tem variância e covariâncias nulas com os demais ac-
tivos). A rendibilidade do portfolio é agora ! 0 + (1 ! 0 1) f: O problema de optimização
passa a ser 8
< min ! 0 H!
!i
: s.a ! 0 + (1 ! 0 1) =
f p:
! p =c p !;
p f 1
c p = 0 ; !=H f1 :
1
f1 H f1
0 2
Vp p = ! 0 H! = c p ! Hc p ! =c p ! 0 H!:
Nesta formulação a composição da carteira dos activos com risco é fixa, dado f; qual-
quer que seja o valor p. Com efeito, ! é proporcional a ! e a constante de proporcionali-
dade é c p : Por exemplo, suponha-se que se tem dois activos com risco e ! = (0:3; 0:6)0 :
Então dado o valor de f, o número de acções do activo 2 é sempre o dobro do do activo 1,
qualquer que seja o valor que queiramos para a rendibilidade do portfolio.
A observação anterior sugere que o valor do portfolio pode ser dado como uma combi-
4
Naturalmente, em condições normais, o estado não entra em falência. Não há portanto risco de incumpri-
mento. Mas é preciso notar que as obrigações e os títulos do Tesouro têm o risco da taxa de juro (risco da taxa
de juro subir e do preço dos títulos descer).
411
nação linear de um portfolio constituído apenas por activos de risco e o activo sem risco.
Este portfolio, constituído apenas por activos de risco, designa-se por tangency portfolio. Os
pesos deste portfolio não poderão ser exactamente dados por ! dado que os pesos ! 0i s não
somam um. Assim defina-se
! !
! T = Pm = :
i=1 !i !01
Note-se agora que a soma dos pesos do vector ! T somam um e ! = ! T ! 0 1: Podemos assim
escrever
! =c p ! =c p ! 0 1! T = a! T ; a=c p ! 0 1:
O retorno do portfolio pode ser escrito como uma combinação linear entre o retorno do
tangency portfolio, T e o retorno do activo sem risco, f:
0
p =! + (1 ! 0 1) f = a! 0T + (1 a) f =a T + (1 a) f:
Por seu lado a variância do portfolio pode também ser escrita em função de ! T :
Vp p = ! 0 H! = a! 0T Ha! T = a2 ! 0T H! T = a2 2
T
p
p =a T )a=
T
T f
p = f + s p; s= :
T
412
Figura 12-2: Fronteira Eficiente de um Portfolio com Activo Sem Risco (Recta)
413
disponível até ao momento t 1; são dadas pelos dois primeiros momentos condicionais. A
determinação dos pesos óptimos usando momentos condicionais assenta na ideia de que o
portfolio pode ajustar-se continuamente ao longo do tempo em função das condições de mer-
cado. Esta abordagem tem ainda a vantagem de contornar as criticas que se fazem às duas
primeiras hipóteses definidas na secção anterior (os retornos seguem uma distribuição mar-
ginal normal multivariada, e as correlações entre os retornos são fixas ao longo do tempo).
Como se sabe, no quadro de um modelo baseado em momentos condicionais variáveis, não
só a distribuição marginal não é (em condições muito gerais) normal, como também as cor-
relações (condicionais) podem ser variáveis ao longo do tempo.
Na formulação que a seguir apresentaremos, a decisão de investimento é tomada no mo-
mento t 1; baseada numa suposição sobre o comportamento dos retornos esperados e do
risco envolvido no momento t: Na verdade as perdas ou ganhos que eventualmente ocorram
vão concretizar-se no momento t: É por esta razão que os momentos condicionais envolvem
variáveis aleatórias no momento t; dada a informação disponível em t 1:
Estabeleça-se a seguinte notação:
vector do valor esperado condicional dos retornos: t = (E (R1t j Ft 1 ) ; :::; E (Rmt j Ft 1 ))0 ;
Pesos óptimos de um portfolio sem o activo sem risco, dado um determinado nível de
retorno p;t :
!t = !t p;t = gt + p;t ht
414
onde
t t t t
gt = Ht 1 1 Ht 1 ; ht = Ht 1 t Ht 1 1
t t t t
0 1 0 1
t = t Ht 1; t = t Ht t; t = 10t Ht 1 1; t = t t
2
t;
Pesos óptimos de um portfolio com o activo sem risco, dado um determinado nível de
retorno p;t :
T;t f
p;t = f + st p;t ; st = :
T;t
415
Página em branco
416
Capítulo 13
13.1 Introdução
Em resposta aos desastres financeiros ocorridos no passado recente, a gestão do risco sofreu
uma revolução nos últimos anos. O valor em risco ou Value at Risk (VaR) iniciou essa
revolução e tem ganho reconhecimento como medida fundamental na análise e na gestão do
risco de mercado das instituições financeiras. Presentemente, muitas instituições reportam
medidas de risco relacionadas com o VaR para o público em geral e, em certos casos, também
para agências reguladoras. Por exemplo, os bancos comerciais estão sujeitos a requisitos
mínimos de capital para cobrirem o seu risco de crédito e de mercado. O Acordo Basiléia II
estabelece taxas de segurança baseadas em modelos VaR.
A literatura financeira enumera vários tipos de risco, como por exemplo, risco de mer-
cado, risco de crédito, risco de liquidez, risco operacional (associado ao risco de fraude,
erros de transacção e de apreçamento, etc.) e risco sistémico (associado, por exemplo, a
situações de incumprimento devido a reacções em cadeia). Neste capítulo aborda-se o risco
de mercado, isto é, o risco associado às variações (inesperadas) de preços e taxas e algumas
metodologias de mensuração desse risco.
Para introduzir o VaR é instrutivo, em primeiro lugar, pensar-se em análise de cenários.
Neste tipo de análise, formulam-se vários resultados possíveis de acordo com a informação
disponível e, quando tal é possível, atribuem-se probabilidades aos diversos cenários. Em
geral, dá-se especial atenção aos piores cenários pois são estes que maior impacto têm sobre
o funcionamento normal da organização.
417
Para avaliar os piores cenários, podemos começar por formular a questão: “Qual é a
perda máxima que a organização pode sofrer num certo período de tempo?”. A resposta
não é particularmente informativa, pois a perda máxima significa perder tudo (com prob-
abilidade praticamente nula). Se reformularmos ligeiramente a questão, obtemos a me-
dida VaR: “Quanto é que podemos perder com probabilidade > 0 num certo período
de tempo?”. Impõe-se que seja não nulo mas razoavelmente pequeno com vista a avaliar
os eventos que embora raros podem ocorrer e afectar o funcionamento normal da organi-
zação. VaR é portanto a perda que pode ocorrer num lapso de tempo determinado, com
certa probabilidade , supondo que o portfolio não é gerido durante o período de análise.
Em termos probabilísticos, o VaR é o quantil de ordem (em módulo)1 da distribuição
teórica de ganhos e perdas. Para concretizar, seja Vn+h := Vn+h Vn a variação do
valor do capital investido não gerido durante o horizonte de risco de h dias. Por exem-
2
plo, considere-se a compra de 200,000 acções de um título no período n ; ao preço de
Pn = 5 Euros. O investimento é de Vn = 5 200; 000 = 1; 000; 000 Euros. Suponha-se
que no momento n + h o preço do título passa para Pn+h = 5:5 Euros. A variação do cap-
ital é de Vn+h = 1; 100; 000 1; 000; 000 = 100; 000: O retorno (em tempo discreto) é
Rn+h = (Pn+h Pn ) =Pn = 0:1: É importante notar que o retorno pode também ser obtido
através da expressão Rn+h = Vn+h =Vn :3 Pode supor-se que Vt é observado no período
t = 1; 2; :::; n, mas não em n + 1; n + 2; ::: Os valores que V vier a assumir no periodo
n + 1; n + 2; :::; n + h dizem respeito ao perído de investimento e, portanto, Vn+h ; é descon-
hecido para h 1:
O VaR a 100 % baseado na distribuição marginal de ganhos e perdas é o valor VaR tal
que
P ( Vn+h < V aR) = :
Por seu turno, o VaR a 100 % baseado na distribuição condicional é o valor VaR tal que
1
O quantil de ordem < 0:05 da distribuição de ganhos e perdas é um valor negativo. Para que o VaR
represente efectivamente uma “perda”, considera-se esse quantil em valor absoluto.
2
Seguimos a notação anglo-saxónica: a vírgula separa os milhares.
3
Este facto é relevante, pelo seguinte. Como iremos ver mais à frente uma das abordagens possíveis ao VaR
consiste em modelar parametricamente o processo f Vt g : Ora este processo é quase sempre não estacionário.
Para confirmar este facto, veja-se a figura 6-9, no ponto 6.3.2, onde se exibe uma trajectória típica de Vt .
Desta forma, usando a relação Rn+h = Vn+h =Vn ; pode-se modelar Vn+h via retornos, que é geralmente
um processo estacionário.
418
O VaR (condicional) é uma medida que depende explicitamente de n; h e e, portanto,
pode ser escrita como V aRn;n+h; : A estimação do VaR envolve princípios e procedimentos
até certo ponto similares com a da previsão de Vn+h : Em ambos os casos, a lei de prob-
abilidades relevante é a distribuição condicional de Vn+h dado Fn ; i.e., f ( j Fn ) : Com
efeito, o previsor óptimo para Vn+h dado Fn (de acordo com o critério do EQM) corre-
sponde ao primeiro momento da distribuição f ( j Fn ), i.e., E ( Vn+h j Fn ) : Por seu turno,
o V aRn;n+h; é o quantil de ordem da distribuição de f ( j Fn ). Em ambos os casos, as
quantidades de interesse são parâmetros da distribuição f ( j Fn ) :
Uma vantagem do VaR é a de poder agregar numa única medida diferentes tipos de risco.
Pelo contrário, as medidas tradicionais de risco não são agregáveis. Revejam-se algumas
medidas tradicionais de risco.
O risco associado com uma obrigação do tesouro é o risco da taxa de juro e a medida
tradicional deste risco é a duração (medida de volatilidade do preço da obrigação face a vari-
ações da taxa de rendimento até à maturidade). O principal risco associado com obrigações
emitidas por entidades particulares é o risco de incumprimento (default risk), o qual pode
ser medido através de um sistema de rakings, disponibilizados em vários casos por agências
de crédito. Para portfolios de acções o risco é normalmente avaliado através da volatilidade
do portfolio, que é função das volatilidades individuais e das correlações entre os diferentes
activos. O risco de taxa de câmbio tipicamente inclui spreads e volatilidades das taxas de
câmbio. Os risco associados a swaps e opções também está sujeito a um tratamento especial.
Em geral, as medidas tradicionais de risco não podem ser agregadas numa única medida
(por exemplo, a duração de uma obrigação não pode ser comparada com a volatilidade de
um portfolio). Pelo contrário, uma das grandes vantagens da metodologia VaR é a de poder
agregar diferentes tipos de risco numa única intuitiva medida de risco.
Para simplificar admite-se inicialmente que o portfolio é constituído por apenas um ac-
tivo.
419
variação do capital ao fim de um período. Por definição tem-se
ou, equivalentemente,
V[
aRn;n+1; = q~R Vn
onde q~R é o quantil empírico de ordem da série de retornos fRt g4 . Observe-se que nen-
huma hipótese é estabelecida sobre a distribuição (marginal) dos retornos - daí a designação
de “abordagem não paramétrica”.
No caso h > 1; considera-se
Vn+h
Vn+h = Vn = Rn+h (h) Vn
Vn
4
Na literatura existem diferentes fórmulas para calcular o quantil empírico de ordem : Usaremos a seguinte
convenção: o quantil empírico q~R corresponde à estatística de ordem [n ] ; sendo [x] o inteiro de x: Por
exemplo, na amostra de dimensão n = 6; f1; 4; 2; 7; 15; 0g , as estatísticas de ordem são: y(1) = 0; y(2) = 1;
y(3) = 2; y(4) = 4; y(5) = 7; y(6) = 15: O quantil de ordem = 0:9 é a estatística de ordem [0:9 6] = 5;
isto é, y(5) = 7.
420
em ordem a V aRn;n+h; ou, equivalentemente, resolve-se a expressão
V[
aRn;n+h; = q~R Vn
onde q~R é o quantil empírico de ordem da série de retornos fRn+h (h) ; n = 1; 2; :::g.
Naturalmente, o VaR pode ser obtido a partir directamente da distribuição empírica das
variações de capital f Vn+h ; n = 1; 2; :::g : Neste caso viria V[
aRn;n+h; = q~ V
; onde q~ V
Pn
onde ! i são os pesos do capital investido no activo i ( i=1 ! i = 1), os pesos devem per-
manecer fixos durante todo o período histórico.
A abordagem não paramétrica embora tenha a vantagem de ser simples, sofre dos seguinte
problemas:
Embora a distribuição não esteja especificada (por isso mesmo é que o procedimento
se designa por não paramétrico) assume-se (incorrectamente) que a distribuição rele-
vante para obter o VaR é a distribuição marginal de Rn+h e não a distribuição condi-
cional. Mas o VaR está associado a uma previsão dos retornos dada (obviamente) a
informação disponível Fn e, por isso, é a distribuição condicional que nos interessa.
Assim, mesmo que no período n se registe, por exemplo, alta volatilidade e perdas
acentuadas, essa informação é negligenciada para obter o VaR.
421
Quando é muito baixo por exemplo = 0:01 ou inferior o estimador q~R é muito im-
preciso. A justificação teórica é dada pelo seguinte resultado assimptótico. Suponha-
se que fXt ; t = 1; :::; ng é uma sucessão de variáveis i.i.d. com função distribuição
F e função densidade de probabilidade f e seja q = inf fx : F (x) g : O quantil
empírico q~ (isto, é a estatística de ordem [n ]) tem distribuição assimptótica dada por
p d (1 )
n (~
q q ) !N 0; 2 :
(f (q ))
Vn+1
Vn+1 = Vn = Rn+1 Vn ' rn+1 Vn :
Vn
Esta expressão mostra que a distribuição condicional de rn+1 Vn apenas depende da dis-
tribuição de rn+1 (no momento n; Vn é conhecido). Podemos assim concentrar-nos ape-
2
nas sobre a distribuição de rn+1 : Assuma-se rn+1 j Fn D n+1 ; n+1 onde D é uma
422
2
distribuição qualquer de média n e variância n: Tem-se
rn+1 n+1
Zn+1 =
n+1
vem
V aRn;n+1;
!
Vn n+1
P Zn+1 < Fn = (13.1)
n+1
V aR
Vn n+1
= q Z ) V aRn;n+1; = n+1 + qZ n+1 Vn (13.2)
n+1
Vn+h
Vn+h = Vn
Vn
(rn+1 + rn+2 + ::: + rn+h ) Vn ; rn+i = log (Pn+i =Pn+i 1 )
= rn+h (h) Vn :
Não é por mero acaso que se passa de Vn+h para rn+h (h) Vn : A ideia é obter a distribuição
de Vn+h a partir da distribuição de rn+h (h) : Claro que, formalmente, Vn+h é igual a
Rn+h (h) Vn (onde Rn+h (h) são os retornos discretos multi-períodos). O problema com esta
relação decorre do facto da distribuição de Rn+h (h) ser geralmente difícil de tratar.
Para determinar V aRn;n+h; considera-se
423
e, estandardizando5 rn+h (h), i.e.,
vem V aRn;n+h;
!
Vn E (rn+h (h)j Fn )
P Zn+h < p Fn = :
Var (rn+h j Fn )
Conclui-se
V aRn;n+h;
Vn E (rn+h (h)j Fn )
p = qZ
Var ( rn+h (h)j Fn )
p
) V aRn;n+h; = E (rn+h (h)j Fn ) + q Z Var (rn+h (h)j Fn ) Vn (13.3)
rt = + ut ; (13.4)
2 2
onde fut g é um ruído branco Gaussiano, ut N (0; ) : Assim, rn+1 N( ; ) : No caso
h = 1; tem-se, pela fórmula (13.2)
V aRn;n+1; = + qZ Vn
5
Admitindo que faz sentido a estandardizazção. Veremos que no caso geral a distribuição de Wn+h é
desconhecida.
424
e, portanto, pela aplicação da fórmula (13.3), vem
p
V aRn;n+h; = h + h q Z Vn :
p
Se = 0 deduz-se V aRn;n+h; = hV aRn;n+1;
onde f"t g é um ruído branco de média nula e variância 1. O modelo assenta na hipótese
IGARCH(1,1) com termo constante nulo, ! = 0; e média condicional nula, t = 0. Para
obter V aRn;n+h; aplica-se uma vez mais a fórmula (13.3). Para o efeito estude-se a dis-
tribuição condicional de rn+h (h) : Comece-se por verificar que
2 2
E (rn+i j Fn ) = 0; E n+i Fn = n (Ver previsão IGARCH, ponto 8.11.1).
E (rn+h (h)j Fn ) = 0
Var ( rn+h (h)j Fn ) = Var (rn+1 + ::: + rn+h j Fn )
425
São conhecidos os dois primeiros momentos. Falta conhecer-se a lei de probabilidade de
rn+h (h) : Assuma-se que rn+h (h)j Fn tem distribuição aproximadamente normal6
a
rn+h (h)j Fn N (E (rn+h (h)j Fn ) ; Var (rn+h (h)j Fn )) :
p
V aRn;n+h; = qZ h n Vn
Assuma-se agora
p (L) rt = + q (L) ut
ut = t "t ; ut GARCH:
6
A distribuição de rn+h (h)j Fn é geralmente desconhecida. Mesmo no caso em que rn+1 j Fn tem
distribuição normal, rn+i j Fn para i = 2; 3; ::: não tem distibuição normal. Relembre-se que, sob certas
condições, a distribuição de rn+i j Fn quando i ! +1 converge para a distribuição marginal que geralmente
é diferente da distribuição condicional. Pode-se mostrar que a função de distribuição de rn+h (h)j Fn é
Z h
Y1
Fn;h (x) = f ( rn+h (h)j Fn+h 1) f ( rn+i j Fn+i 1 ) drn+1 :::drn+h :
rn (h) x i=1
Esta expressão só é conhecida no caso h = 1. Para h > 1 a expressão anterior é intratável. Neste caso a
fdp rn+h (h)j Fn pode considerar-se desconhecida (Tsay (2001), cap.7 conclui erradamente que "n Normal
) rn+h (h)j Fn Normal). Apesar destas observações, podemos assumir
426
Tal como no caso anterior, temos de obter a distribuição de rn+h (h)j Fn : Tem-se
2
Var ( rn+h (h)j Fn ) = E rn+1 + ::: + rn+h n+1;n + ::: + n+h;n Fn
X
h 1
en (h) = 0 un+h + 1 un+h 1 + ::: + h 1 un+1 = j un+h j :
j=0
Como
en (1) = un+1 ;
:::;
resulta
X
h 1
en (1) + ::: + en (h) = un+1 + (un+2 + 1 un+1 ) + ::: + j un+h j
j=0
!
X
h 1
= un+h + (1 + 1 ) un+h 1 + ::: + j un+1 :
j=0
427
Falta conhecer-se a lei de probabilidade de rn+h (h) : Sob a hipótese
a
rn+h (h)j Fn N (E (rn+h (h)j Fn ) ; Var (rn+h (h)j Fn ))
Z
p
V aRn;n+h; = E (rn+h (h)j Fn ) + q Var (rn+h (h)j Fn ) Vn
onde E (rn+h (h)j Fn ) e Var (rn+h (h)j Fn ) são dados pelas expressões (13.5) e (13.6).
2 2 2
rt = t "t ; t =!+ 1 rt 1 + 1 t 1:
2 ! k 1 2 2
n+k;n = +( 1 + 1) 1 rn + 1 n ; (un = rn )
1 1 1
resulta
Var ( rn+h (h)j Fn ) = Var (un+h j Fn ) + Var ( un+h 1 j Fn ) + ::: + Var ( un+1 j Fn )
Xh
2
= n+k;n
k=1
Xh
! k 1 2 2
= +( 1 + 1) 1 rn + 1 n
k=1
1 1 1
1 2 2 h
= h! 1 rn + 1 n ( 1 + 1) 1 :
1 1 1
Tem-se
rn+h (h)j Fn N (0; Var ( rn+h (h)j Fn ))
e
s !
1 h
V aRn;n+h; = qZ h! ( 2
1 rn + 2
1 n) ( 1 + 1) 1 Vn :
1 1 1
428
0.15
VaR
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
h
Figura 13-1: Value at Risk como função de h. V aRn+h;n;0:01 traço grosso; V aRn+h;n;0:05
traço fino.
rt = c + rt 1 + ut ; ut = t "t (13.8)
2
t = ! + u2t 1 Ifut 1 <0g + 2
t 1: (13.9)
429
Tem-se,
E (rn+h (h)j Fn ) = n+1;n + ::: + n+h;n :
h
1 h
n+h;n =c + yn :
1
Assim,
1 h
1 1 1 h
E (rn+h (h)j Fn ) = c + yn + ::: + c + yn
1 1
h h
yn ( 1 + ) 1+ + c h (1 )+ 1+
=
( 1 + )2
Por outro lado, para calcular Var ( rn+h (h)j Fn ) é necessário obter i (confira-se (13.6)).
1
Como se sabe, j são os coeficientes que resultam da equação (L) = p (L) (L) (veja-
k
se a equação (6.15)). No caso AR(1) facilmente se conclui que (L) = 1+ L+:::+ Lk +
i
:::; pelo que i = : A aplicação da fórmula (13.6) envolve também Var (un+h j Fn ) :=
2
n+h;n que é necessário estabelecer. Para o modelo definido em (13.9) tem-se,
2
n+1;n = ! + u2n Ifun <0g + 2
n
2 2
n+2;n = ! + ( =2 + ) n+1;n
:::
2 2
n+h;n = !+ n+h 1;n ; = =2 + :
2 2
Resolvendo iterativamente n+h;n como função de n+1;n facilmente se conclui que
2 ! h 1 2 !
n+h;n = + n+1;n :
1 1
430
O valor de Var (rn+h (h)j Fn ), dado pelo programa Mathematica, é igual a
h 1+h
1 1+ 2 +
2 h! + 2
( 1+ ) ( 1+ ) 1+
h
2 h ! 1 2
+ n+1;n 1 + + !+ n+1;n ( 1)
1+
0 h h
11
2+2h 1+h
B 2 1 1 CC
B 2 CC :
@ 2 AA
Rp;n+1 E (Rp;n+1 j Fn )
Zn+1 = p
Var (Rp;n+1 j Fn )
vem
V aRn;n+1;
!
Vn E (Rp;n+1 j Fn )
P Zn+1 < p Fn =
Var (Rp;n+1 j Fn )
V aRn;n+1;
E (Rp;n+1 j Fn ) q
Vn Z Z
p = q ) V aRn;n+1; = E (Rp;n+1 j Fn ) + q Var (Rp;n+1 j Fn ) Vn
Var (Rp;n+1 j Fn )
431
Pm
Tendo em conta que Rp;n+1 = i=1 ! i Ri;n+1 = ! 0 rn+1 ; tem-se Rp;n+1 = E (Rp;n+1 j Fn ) =
!0 n+1 e Var ( Rp;n+1 j Fn ) = ! 0 Hn+1 ! e, finalmente
p
V aRn;n+1; = !0 n+1 + q N ! 0 Hn+1 ! Vn
p
V aR do título 1 = 1:645 0:01 1 = 0:164
p
V aR do título 2 = 1:645 0:005 2 = 0:232:
Observa-se que a soma dos VaR individuais, 0:164 + 0:232 = 0:396; é maior do que o VaR
do portfolio.
432
também sido aplicada na actividade seguradora e, mais recentemente, nas área das finanças,
no cálculo do VaR.
Recorde-se a abordagem não paramétrica. Vimos que o VaR pode estimado a partir da
expressão
V[
aRn;n+1; = q~r Vn (13.10)
onde q~r é o quantil empírico de ordem da série de retornos fRt g (também poderia ser a
partir de frt g). Como referimos no ponto 13.2, a estimativa q~ é muito imprecisa quando
é muito baixo (ou muito alto). Como iremos ver a teoria dos valores extremos tem uma
resposta para este problema. O objectivo deste ponto é obter uma estimativa para qa via
teoria dos valores extremos.
A teoria dos valores extremos trata habitualmente os eventos extremos que ocorrerm na
aba direita da distribuição. Seguiremos esta lógica na introdução e, depois, por analogia,
focaremos a aba esquerda que é a relevante para o cálculo do VaR. O leitor poderá consultar
o livro de Franke et. al (2008) para mais pormenores sobre a teoria.
Seja fyt ; i = 1; 2; :::; ng uma sucessão de v.a. i.i.d. e Mn = max fy1 ; y2 ; :::; yn g o máx-
imo da amostra. Pode-se provar que se existirem constantes normalizadoras cn > 0; dn 2 R
e uma distribuição não degenerada H (isto é, que não atribui toda a massa de probabilidade
d
a um único ponto) tal que cn 1 (Mn dn ) ! H; então H é da forma
n o
1=
H (x) = exp (1 + x) ; 1 + x > 0; 6= 0:
433
Proposição 13.5.1 Suponha-se que fyt g é uma sucessão de v.a. com função de distribuição
F . Então as seguintes proposições são equivalentes: 1) F 2 DM (H); 2) para alguma
função : R+ ! R+ ;
onde
Fu (x) = P (y u xj y > u)
8 1=
< 1 1+ x
; 1+ x
> 0; x > 0 se 6= 0
G ; (x) =
: 1 e x; x 0 se = 0:
1 F (x + u)
1 Fu (x) = P (y u xj y > u) =
1 F (u)
1 F (x + u) = (1 F (u)) (1 Fu (x))
ou (fazendo a substituição de x + u por x; passando agora x a ser definido por x > u),
Esta relação juntamente com (13.11) constitui o essencial do método que se expõe para a
estimação do VaR. Como F e consequentemente Fu são funções desconhecidas, a expressão
do lado direito de (13.12) pode ser estimada da seguinte forma
1 F^ (u) 1 F^u (x u)
434
onde,
1X
n
N (u)
1 F^ (u) = Ifyj >ug = ; F^u (x ^ ^ ^ (x
u) = G ; u) :
n j=1 n
1=^
N (u) N (u) x u
1 F^ (u) 1 F^u (x u) = 1 ^ ^ ^ (x
G ; u) = 1+^ :
n n ^
1=^
N (u) ^ q^ u
1 F (q ) = 1+
n ^
1=^
N (u) q^ u
1 = 1+^ :
n ^
^
!
^ n
q^ = u + (1 ) 1 : (13.14)
^ N (u)
Se não for um valor muito alto (perto de 1) podemos usar para estimativa de q~ a
estatística de ordem [n ] : Vimos, no entanto, que se for um valor muito alto a variância
assimptótica deste quantil empirico aproxima-se de mais infinito. Nestas circunstâncias, a
teoria dos valor extremos tem uma solução que consiste em estimar q pela expressão (13.14).
Existem ainda três questões por analisar: 1) Como estimar e ?; 2) como escolher u? e
3) como obter o VaR?
Estimação de e
Sejam y (1) ; y (2) ; :::; y (n) as estatísticas de ordem tais que
e Yi = y (i) u (nota: y (1) é o valor máximo, y (2) é o segundo valor mais alto etc.; relembra-
se o leitor que usámos y(1) para o mínimo, y(2) para o segundo mais baixo, etc. Resulta da
notação que y (1) = y(n) ; y (n) = y(1) ; etc.). Para estimar e dado que N (u) = m é fixo,
assume-se que Y1 ; Y2 ; :::; Ym é uma sucessão de v.a. i.i.d. com distribuição G ; (y) ( > 0) :
435
Logo, a função log-verosimilhança é
1 X
m
log Lm ( ; j Y1 ; Y2 ; :::; Ym ; N (u) = m) = m log 1+ log 1 + Yj :
j=1
(13.15)
Os estimadores de máxima verosimilhança ^ e ^ obtém-se a partir da maximização de
log Lm : Pode-se provar que, para > 1=2 e m ! 1
0 1 00 1 0 1 11
p ^ d 0 (1 + ) 2
(1 + )
m@ ^
A ! N @@ A;@ A A:
1 0 (1 + ) 2 (1 + )
Como escolher u?
Quando u é muito alto o valor de N (u) é baixo (significa que o número de observações
efectivamente usadas na estimação é baixo) e a variância do estimador tende a ser alta.
Quando u é baixo, a aproximação para Fu (x) ; usando a distribuição G ; (x) tenderá a
ser pobre e, como consequência o estimador q^ pode vir fortemente enviesado.
Para ajudar na escolha de u considera-se o seguinte resultado: se Z G ; e0 < 1;
então the average excess function é linear:
Este resultado sugere seleccionar o limiar u de forma que a função estimada para e (u) ;
en (v) ; para os valores v u seja (aproximadamente) linear. Pode-se provar que
1 X
n
en (u) = max f(yj u) ; 0g :
N (u) j=1
Para verificar se en (v) é (aproximadamente) linear pode-se analisar no plano o gráfico dos
pontos y(k) ; en y(k) onde y(1) ; y(2) ; :::; y(n) são as estatísticas de ordem tais que
436
se yt = rt : Assim, se q^ é o quantil de ordem associada à variável y; então q^r = q^
com =1 , é o quantil de ordem associado à variável r: Pela equação (13.10), uma
estimativa para o VaR é
V aR = q^r Vn = q^ Vn ; =1 :
1. Definir yt = rt ;
2. Definir = 1 ;
3. Seleccionar u;
6. Obter o V aR = q^ Vn
O ponto anterior assentou na hipótese de frt ; i = 1; 2; :::; ng ser uma sucessão de v.a. i.i.d.
Esta hipótese é irrealista. O VaR calculado sob esta hipótese não reflecte a volatilidade cor-
rente no momento n (seria de esperar o VaR aumentasse quando no momento n a volatilidade
é alta). McNeil e Frey (2000) propõem uma abordagem condicional do VaR no âmbito da
teoria dos valores extremos. A ideia assenta no modelo ARMA-GARCH rt = t+ t "t : Se o
modelo estiver bem especificado será de esperar que "t se comporte aproximadamente como
uma sucessão de v.a. i.i.d. Como os resultados principais da teoria dos valores extremos
se aplicam a sequências i.i.d., é preferível aplicá-los à sucessão f"t g do que directamente
a frt g ; pois esta sucessão não é geralmente i.i.d., devido à presença de volatilidade não
constante.
Seja q^" o quantil da distribuição de "t obtido seguindo a metodologia do ponto anterior.
Tem-se assim,
437
Em suma, uma vez apurado q^" ; o quantil da distribuição condicional de rn+1 vem igual a
rt ^t
^"t =
^t
438
Diz-se que a previsão do VaR produz uma cobertura marginal correcta (correct uncondi-
cional coverage) se
P (It = 1) = , E (It ) = :
Se esta condição se verifica então em 100% dos casos deverá observar-se Vt < V aRt;t 1; :
É exactamente este raciocínio que se estabelece a priori quando se procura definir o VaR a
100%: Interessa depois saber se, na prática, essa desigualdade se verifica efectivamente
em 100% das vezes. Esta condição é, naturalmente, necessária mas não suficiente para
identificar uma medida VaR como apropriada. Suponha-se, como habitualmente nas séries
financeiras, que se tem o fenómeno de volatility clustering. Momentos de alta (baixa) volatil-
idade são seguidos por momentos de alta (baixa) volatilidade. Nestas circunstâncias, o VaR
deve ser alto nos momentos de alta volatilidade e baixo nos momentos de baixa volatilidade.
Se o V aRt;t 1; não reflecte o fenómeno de volatility clustering (nem em termos gerais as
propriedades da distribuição condicional) então o VaR tenderá a falhar como medida de risco
em períodos consecutivos. Um VaR assim definido traz a seguinte implicação sobre fIt g: em
momentos de alta volatilidade os 10 s tendem a repetir-se (por exemplo, It = 1; It+1 = 1;
It+2 = 1; etc.), pois tenderá a observar-se em períodos seguidos Vt < V aRt;t 1; e, em
momentos de baixa volatilidade, uma repetição de 00 s: Ou seja a sucessão It tenderá a ap-
resentar dependência temporal (será autocorrelacionada). Mesmo neste caso, de autocorre-
lação de It ; poderá ter-se E (It ) = : Por esta razão a cobertura marginal embora necessária
não é suficiente para identificar o VaR como uma medida precisa.
Diz-se que a previsão do VaR produz uma cobertura condicional correcta (correct condi-
cional coverage) se
P (It = 1j Ft 1 ) = , E (It j Ft 1 ) = :
Esta condição implica ausência de autocorrelação, pois, tendo em conta a lei do valor esper-
ado iterado,
2
= E (It k E ( j Ft k )) E( )E( ) = E (It k ) = 0:
439
Existem várias formas de testar a cobertura marginal e condicional. Por exemplo, se fIt g
é uma sucessão de v.a. i.i.d. e E (It ) = ; então ambas as coberturas são válidas. Outra
possibilidade consiste em analisar somente a cobertura condicional pois, pela lei do valor
esperado iterado, tem-se, com vimos atrás,
f0; 0; 0; 0; 0; 0; 0; 0; 0; 1; 1; 1; 1; 1; 1g ; (X = 2)
f1; 0; 1; 0; 1; 0; 1; 0; 1; 0; 1; 0; 1g (X = 13)
também podemos suspeitar algum tipo de dependência temporal (flutuações cíclicas de período
curto). Sob a hipótese, H0 : fIt g é uma sucessão de v.a. independentes, a distribuição de X
dado n0 e n1 é conhecida. Quando n0 > 20 ou n1 > 20 é mais conveniente usar-se o
resultado assimptótico. Sob H0 tem-se
X E (X) d
Z= p ! N (0; 1)
Var (X)
7
O número máximo que X pode assumir é
2 min fn0 ; n1 g se n0 = n1
max X =
2 min fn0 ; n1 g + 1 se n0 6= n1 :
440
onde
2n0 n1
E (X) = +1
n
2n0 n1 (2n0 n1 n)
Var (X) = :
n2 (n 1)
O teste é bilateral (afastamento à hipótese nula pode dever-se quando X é alto ou baixo).
Rejeita-se H0 se a probabilidade P (jZj > jzobs j) estiver abaixo do nível de significância
fixado.
Se a hipótese H0 não pode ser rejeitada pelos dados, pode-se assumir que fIt g é uma
sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro E (It ) : Interessa agora
P
investigar a cobertura marginal, i.e. se E (It ) coincide com : Seja Sn = ni=1 Ii = n1 a
soma dos 10 s que, como se sabe, tem distribuição Binomial de parâmetros (n; E (It )) : Sob a
hipótese
H0 : E (It ) =
L ( j H0 ) n1
(1 )n0
RV = 2 log = 2 log n1
L (^ ) ^ (1 ^ )n0
2
tem distribuição assimptótica (1) : ^ é o estimador de máxima verosimilhança, ^ = n1 =n e
é a probabilidade previamente fixada para o VaR (por exemplo, = 0:01 ou = 0:05).
Exemplo 13.6.1 Suponha-se que numa amostra de 800 observações foi calculado o VaR a
5% ( = 0:05). Observou-se n0 = 750; n1 = 50; X = 90 (na amostra a desigualdade
Vt < V aRt;t 1; verificou-se 50 vezes). Haverá razões para pensar que o VaR a 5
% é inapropriado? Considere-se primeiro a hipótese, H0 : fIt g é uma sucessão de v.a.
independentes. Tem-se:
2n0 n1
90 n
+1 90 94:75
zobs = q = = 1:43:
2n0 n1 (2n0 n1 n) 3:298
n2 (n 1)
Como o valor-p P (jZj > 1:43) ' 0:15 é relativamente alto não se rejeita H0 : Considere-se
agora H0 : E (It ) = 0:05: Tem-se ^ = n1 =n = 0:0625 e
0:05n1 (1 0:05)n0
RVobs = 2 log = 2:447:
^ n1 (1 ^ )n0
441
2
Como o valor-p P (1) > 2:477 ' 0:118 é relativamente alto não se rejeita H0 .
Assim, existe evidência de que o VaR estimado é uma medida adequada.
Se It segue uma cadeia de Markov (em tempo discreto, com espaço de estado f0; 1g), o
teste run pode apresentar baixa potência8 , isto é, se o usamos o teste run quando It segue
uma cadeia de Markov, a probabilidade de rejeitar independência pode ser baixa.
Suponha-se que It segue uma cadeia de Markov com a seguinte matriz de probabilidades
de transição 0 1
1 p01 p01
P=@ A
1 p11 p11
onde pij = P (It = jj It 1 = i) : Só no caso muito particular p01 = p11 ; fIt g é uma sucessão
de v.a. i.i.d. (com distribuição de Bernoulli). Com efeito, sob a hipótese de independência,
8
A potência de um teste é a probabilidade de rejeitar H0 dado que H1 é verdadeira.
9
Pode-se provar que Corr (It ; It 1 ) = p11 p01 : Logo se p11 = p01 a correlação entre It e It 1 é nula.
Nestas condições pode-se também provar que Corr (It ; It k ) = 0; para k 2 N:
442
verosimilhança de pij obtêm-se facilmente a partir de L (pij ) ;
Por outro lado, sob H0 : p01 = p11 (substitua-se p01 e p11 por p1 )
onde p^1 = (n01 + n11 ) =n. Uma variante interessante deste teste consiste em tomar como
hipótese nula H0 : p01 = p11 = (não só se testa a independência como também a cobertura
marginal, E (It ) = ). Com se têm agora duas restrições impostas em H0 (p01 = p11 ;
p01 = ), a estatística de teste é
A vantagem deste teste do ponto de vista prático é clara: de uma vez só, ensaia-se a cobertura
marginal e condicional.
Estes testes, baseados no modelo da cadeia de Markov sofrem no entanto de uma lim-
itação: baseiam-se em dependências de primeira ordem. Ora, pode suceder que It dado
It 1 dependa ainda de It 2 : Neste caso, os testes baseados no modelo da cadeia de Markov,
podem perder bastante potência.
Clements e Taylor (2003) generalizam a abordagem anterior. A hipótese E (It j Ft 1 ) =
sugere que It dado Ft 1 apenas depende de uma constante, : Assim, se It depende de
alguma variável Ft 1 mensurável, a hipótese E (It j Ft 1 ) = deve ser rejeitada. Para testar
a possibilidade de It depender de alguma variável Ft 1 mensurável, uma possibilidade con-
siste em fazer uma regressão de It sobre as variáveis definidas em Ft 1 (como por exemplo,
It 1 ; It 2 ; :::; variáveis dummy reportadas a t 1, t 2; etc., retornos, etc.),
X
k
It = 0 + i It i + x0t 1 + ut
i=1
443
variável I; em princípio seria mais apropriado uma regressão binária. No entanto, Sarma et
al. (2003) refere que na presença de forte assimetria dos dados (mais de 95% ou 99% dos
dados são 0’s ou 1’s) a regressão binária envolve problemas técnicos. Para grande amostras
o estimador OLS é apropriado.
444
Página em branco
445
Referências
(referências incompletas!)
Basrak, B., R. Davis e T. Mikosch (2002). Regular variation of GARCH processes. Sto-
chastic Processes and their Applications 99(1), pp. 95-115.
Davies, (1987). Hypothesis testing when a nuisance parameter is present only under the
alternative. Biometrika 74, pp. 33-43.
Dimson E., P. Marsh e M. Staunton (2002). Triumph of the Optimists:101 Years of Global
Investment Returns, Princeton University Press.
Engle R. (2001). Financial Econometrics - a New Discipline with new Methods. Journal
of Econometrics 100, pp. 53-56.
Fama, E. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work.
Journal of Finance 25 (2), pp. 383-417.
Fan, J. e Q. Yao (2005), Nonlinear Time Series, Springer Series in Statistics, New York.
446
Franke, J., W. Hardle e C. Hafner (2008). Statistics of Financial Markets: An Introduction,
2a ed., Springer, Berlin Heidelberg New-York.
Franses, P. e van Dijk, D. (2000). Nonlinear Time Series Models in Empirical Finance,
Cambridge University Press, Cambridge.
Gray, S., (1996). Modeling the Conditional Distribution of Interest Rates as a Regime-
Switching Process. Journal of Financial Economics, 42(1), pp. 27-62.
Groeneveld, R.A. e G. Meeden (1984). Measuring skewness and kurtosis. The Statistician,
33, pp. 391-399.
Morgan J., (1996). RiskMetrics Technical Document, Part II: Statistics of Financial Mar-
ketReturns, 4th edition, New York.
Pascuala L. , J. Romob e E. Ruiz (2006). Bootstrap Prediction for Returns and Volatilities
in GARCH models. Computational Statistics & Data Analysis, 50(9), pp. 2293-2312.
447
Stelzer, R. (2009). On Markov-Switching Arma Processes? Stationarity, Existence of Mo-
ments, and Geometric Ergodicity. Econometric Theory, 25(1), pp. 43-62.
Taylor S. (2005). Asset Price Dynamics, Volatility, and Prediction, Princeton University
Press.
448