You are on page 1of 118

LISE DE SE RIES TEMPORAIS ANA

RICARDO S. EHLERS

Primeira publica c ao 2003 Segunda edi c ao publicada em 2004 Terceira edi c ao publicada em 2005 Quarta edi c ao publicada em 2007 Quinta edi c ao publicada em 2009 RICARDO SANDES EHLERS 2003-2009

Sum ario
1 Introdu c ao 2 T ecnicas Descritivas 2.1 Decomposi c ao Cl assica . 2.2 S eries com Tend encia . . 2.3 S eries Sazonais . . . . . 2.4 Autocorrela c ao . . . . . 2.4.1 O Correlograma 1 7 7 7 12 12 14 20 20 21 22 22 22 23 24 26 31 32 35 36 37 41 42 43 45 45 46 54 54 54

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

3 Modelos Probabil sticos 3.1 Introdu c ao . . . . . . . . . . . . . 3.2 Processos Estacion arios . . . . . . 3.3 A Fun c ao de Autocorrela c ao . . . . 3.4 Alguns Processos Estoc asticos . . . 3.4.1 Sequ encia Aleat oria . . . . 3.4.2 Passeio Aleat orio . . . . . . 3.4.3 Processos de M edia M oveis 3.4.4 Processos Autoregressivos . 3.4.5 Modelos Mistos ARMA . . 3.4.6 Modelos ARMA Integrados

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

4 Estima c ao 4.1 Autocovari ancia e autocorrela c ao . . 4.2 Ajustando Processos Autoregressivos 4.3 Ajustando Processos M edias M oveis 4.4 Ajustando Processos ARMA . . . . . 4.5 Modelos Sazonais . . . . . . . . . . . 4.6 Adequa c ao do Modelo . . . . . . . . 4.6.1 An alise dos Res duos . . . . . 4.6.2 Testes sobre os res duos . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

5 Previs ao 5.1 M etodos Univariados de Previs ao . . . . . . . . . . . . . . . . . . . . . 5.1.1 Alisamento Exponencial Simples . . . . . . . . . . . . . . . . . i

ii 5.1.2 M etodo de Holt-Winters . . . Previs ao em Modelos ARMA . . . . Performance Preditiva . . . . . . . . Crit erios de Informa c ao . . . . . . . Previs oes Usando Todos os Modelos Previs ao Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

SUMARIO . . . . . . . . . . . . . . . . . . . . . . . . 58 60 64 66 69 70 75 75 76 82 83 84 86 89 89 91 92 94 97 98 98 99 99 100 101 102 108 108 108 109 109 109 110 110 110 110 111 111 111 112 112

5.2 5.3 5.4 5.5 5.6

6 Modelando a Vari ancia 6.1 Introdu c ao . . . . . . . 6.2 Modelos ARCH . . . . . 6.3 Modelos GARCH . . . . 6.3.1 Estima c ao . . . . 6.3.2 Adequa c ao . . . 6.4 Volatilidade Estoc astica

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

7 Modelos Lineares Din amicos 7.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . 7.2 Modelos Polinomiais . . . . . . . . . . . . . . . . 7.2.1 An alise Sequencial e Previs oes . . . . . . 7.2.2 Vari ancias de Evolu c ao e das Observa c oes 7.3 Modelo de Crescimento Linear . . . . . . . . . . 7.4 Modelos Sazonais . . . . . . . . . . . . . . . . . . 7.4.1 Modelos sem Crescimento . . . . . . . . . 7.4.2 Modelos com Crescimento . . . . . . . . . 7.5 Representa c ao de Fourier . . . . . . . . . . . . . 7.6 Ilustra c ao . . . . . . . . . . . . . . . . . . . . . . 7.7 Modelos de Regress ao . . . . . . . . . . . . . . . 7.8 Monitoramento . . . . . . . . . . . . . . . . . . . A Lista de Distribui co es A.1 Distribui c ao Normal . . . . . . A.2 A Fun c ao Gama . . . . . . . . A.3 Distribui c ao Gama . . . . . . . A.4 Distribui c ao Wishart . . . . . . A.5 Distribui c ao Gama Inversa . . . A.6 Distribui c ao Wishart Invertida A.7 Distribui c ao Beta . . . . . . . . A.8 Distribui c ao de Dirichlet . . . . A.9 Distribui c ao t de Student . . . A.10 Distribui c ao F de Fisher . . . . A.11 Distribui c ao Binomial . . . . . A.12 Distribui c ao Multinomial . . . A.13 Distribui c ao de Poisson . . . . A.14 Distribui c ao Binomial Negativa

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

SUMARIO References

iii 113

Cap tulo 1

Introdu c ao
Uma s erie temporal e uma cole c ao de observa c oes feitas sequencialmente ao longo do tempo. A caracter stica mais importante deste tipo de dados e que as observa c oes vizinhas s ao dependentes e estamos interessados em analisar e modelar esta depend encia. Enquanto em modelos de regress ao por exemplo a ordem das observa c oes e irrelevante para a an alise, em s eries temporais a ordem dos dados e crucial. Vale notar tamb em que o tempo pode ser substituido por outra vari avel como espa co, profundidade, etc. Como a maior parte dos procedimentos estat sticos foi desenvolvida para analisar observa c oes independentes o estudo de s eries temporais requer o uso de t ecnicas espec cas. Dados de s eries temporais surgem em v arios campos do conhecimento como Economia (pre cos di arios de a c oes, taxa mensal de desemprego, produ c ao industrial), Medicina (eletrocardiograma, eletroencefalograma), Epidemiologia (n umero mensal de novos casos de meningite), Meteorologia (precipita c ao pluviom etrica, temperatura di aria, velocidade do vento), etc. Algumas caracter sticas s ao particulares a este tipo de dados, por exemplo, Observa c oes correlacionadas s ao mais dif ceis de analisar e requerem t ecnicas espec cas. Precisamos levar em conta a ordem temporal das observa c oes. Fatores complicadores como presen ca de tend encias e varia c ao sazonal ou c clica podem ser dif ceis de estimar ou remover. A sele c ao de modelos pode ser bastante complicada, e as ferramentas podem ser de dif cil interpreta c ao. mais dif E cil de lidar com observa c oes perdidas e dados discrepantes devido ` a natureza sequencial.

Terminologia
Uma s erie temporal e dita ser cont nua quando as observa c oes s ao feitas continuamente no tempo. Denindo o conjunto T = {t : t1 < t < t2 } a s erie temporal ser a denotada 1

CAP ITULO 1. INTRODUC AO

Note que estes termos n ao se referem ` a vari avel observada X , esta pode assumir valores discretos ou cont nuos. Em muitas situa c oes X pode ser discreta por deni c ao (e.g. o n umero de casos noticados de AIDS) por em para efeito de an alise estat stica pode ser tratada como continua se os seus valores observados n ao forem muito pequenos.

por {X (t) : t T }. Uma s erie temporal e dita ser discreta quando as observa c oes s ao feitas em tempos espec cos, geralmente equiespa cados. Denindo o conjunto T = {t1 , . . . , tn } a s erie temporal ser a denotada por {Xt : t T }. Por simplicidade podemos fazer T = {1, 2, . . . , n}.

Por outro lado, s eries temporais discretas podem surgir de v arias formas. S eries cont nuas podem ser discretizadas, i.e. seus valores s ao registrados a certos intervalos de tempo. S eries de valores agregados ou acumulados em intervalos de tempo, por exemplo exporta c oes medidas mensalmente ou quantidade de chuva medida diariamente. Finalmente, algumas s eries s ao inerentemente discretas, por exemplo dividendos pagos por uma empresa aos seus acionistas em anos sucessivos. Uma s erie temporal tamb em pode ser multivariada. Se k vari aveis s ao observadas a cada tempo (por exemplo discreto) denota-se por {X1t , . . . , Xkt , t T }. Neste caso v arias s eries correlacionadas devem ser analisadas conjuntamente, ou seja em cada tempo tem-se um vetor de observa c oes.

Objetivos
Em algumas situa c oes o objetivo pode ser fazer previs oes de valores futuros enquanto em outras a estrutura da s erie ou sua rela c ao com outras s eries pode ser o interesse principal. De um modo geral, os principais objetivos em se estudar s eries temporais podem ser os seguintes, Descri c ao. Descrever propriedades da s erie, e.g. o padr ao de tend encia, exist encia de varia c ao sazonal ou c clica, observa c oes discrepantes (outliers), altera c oes estruturais (e.g. mudan cas no padr ao da tend encia ou da sazonalidade), etc. Explica c ao. Usar a varia c ao em uma s erie para explicar a varia c ao em outra s erie. Predi c ao: predizer valores futuros com base em valores passados. Aqui assumese que o futuro envolve incerteza, ou seja as previs oes n ao s ao perfeitas. Por em devemos tentar reduzir os erros de previs ao. Controle. Os valores da s erie temporal medem a qualidade de um processo de manufatura e o objetivo e o controle do processo. Um exemplo e o controle estat stico de qualidade aonde as observa c oes s ao representadas em cartas de controle. Este t opico n ao ser a abordado nestas notas de aula.

Abordagens
T ecnicas Descritivas. T ecnicas gr acos, identica c ao de padr oes, etc. Modelos Probabil sticos. Sele c ao, compara c ao e adequa c ao de modelos, estima c ao, predi c ao. Ferramenta b asica e a fun ca o de autocorrela ca o. An alise espectral. M etodos n ao param etricos (alisamento ou suaviza c ao). Outras Abordagens. Modelos de espa co de estados, modelos n ao lineares, s eries multivariadas, estudos longitudinais, processos de longa depend encia, modelos para volatilidade, etc.

Sazonalidade
Muitas s eries temporais exibem um comportamento que tende a se repetir a cada s per odos de tempo. Por exemplo, e natural esperar que as vendas mensais de brinquedos ter ao um pico no m es de dezembro e talvez um pico secund ario em outubro. Este padr ao possivelmente se repetir a ao longo de v arios anos. Vejamos alguns poss veis modelos sazonais, 1. Sazonalidade deterministica. Vari aveis dummies (bin arias). O coeciente de cada vari avel dummy representa o fator sazonal do respectivo m es, trimestre, etc. 2. Fun c oes trigonom etricas. 3. Sazonalidade estoc astica: (a) Vari avel end ogena com defasagem sazonal no modelo (modelos ARMA peri odicos), (b) modelo ARMA sazonal.

Tipos de Sazonalidade
Aditiva. A s erie apresenta utua c oes sazonais mais ou menos constantes n ao importando o n vel global da s erie. Multiplicativa. O tamanho das utua c oes sazonais varia dependendo do n vel global da s erie. No exemplo dos brinquedos, suponha que o aumento esperado nas vendas nos meses de dezembro e de 1 milh ao de reais em rela c ao ` a m edia anual. Ent ao as previs oes para os meses de dezembro dos pr oximos anos deve somar a quantia de 1 milh ao de reais ` a uma m edia anual para levar em conta esta utua c ao sazonal. Isto e o que se chama de sazonalidade aditiva.

CAP ITULO 1. INTRODUC AO

Suponha agora que o aumento esperado nos meses de dezembro seja de 30%. Ent ao o aumento esperado (em valor absoluto) de vendas em dezembro ser a pequeno ou grande dependendo da m edia anual de vendas ser baixa ou alta. Nas previs oes para os pr oximos meses de dezembro deve-se multiplicar a m edia anual pelo fator 1,3. Isto e o que se chama de sazonalidade multiplicativa.

Tend encia
Globalmente, uma s erie pode exibir tend encia de crescimento (ou decrescimento) com v arios poss veis padr oes. Crescimento linear. Por exemplo, a cada ano o aumento esperado nas vendas de um certo brinquedo e de 1 milh ao de reais. Crescimento exponencial. Por exemplo, a cada ano as vendas de um certo brinquedo aumentam de um fator 1,3. Crescimento amortecido. Por exemplo, as vendas de um certo brinquedo tem uma aumento esperado de 70% sobre o ano anterior. Se o aumento esperado for de 1 milh ao de reais no primeiro ano, no segundo ano ser a de 700 mil reais, no terceiro ano ser a de 490 mil reais e assim por diante.

Exemplos de S eries Temporais


Como primeira ilustra c ao s ao apresentadas na Figura 1.1 quatro s eries temporais dispon veis no pacote R. Nos eixos horizontais aparecem os anos de observa c ao e nos eixos verticais os nomes das s eries (mesmos nomes do R). A Figura 1.1a mostra totais mensais de passageiros em linhas a ereas internacionais nos EUA entre 1949 e 1960. Existe uma clara tend encia de crescimento bem como um padr ao sazonal ao longo dos anos. A Figura 1.1b mostra a s erie com o n umero anual de linces capturados em armadilhas entre 1821 e 1934 no Canad a. Existe um padr ao c clico em torno de 10 ou 11 anos. A Figura 1.1c mostra a s erie com as medi c oes anuais de vaz oes do Rio Nilo em Ashwan entre 1871 e 1970. Parece haver alguma altera c ao estrutural em torno do ano de 1900. Finalmente a Figura 1.1d mostra a s erie trimestral do consumo de g as no Reino Unido entre o primeiro trimestre de 1960 e o quarto trimestre de 1986. H a uma tend encia de crescimento por em a amplitude do padr ao sazonal aumenta bastante a partir de 1971.

AirPassengers

500

300

lynx 1950 1954 (a) 1958 0 1820 2000

100

5000

1860 (b)

1900

1400

1000

UKgas 1880 1920 (c) 1960

Nile

600

200 1960

600

1000

1970 (d)

1980

Figura 1.1: (a) Totais mensais de passageiros em linhas a ereas internacionais nos EUA entre 1949 e 1960, (b) n umero anual de linces capturados em armadilhas entre 1821 e 1934 no Canad a, (c) medi c oes anuais de vaz oes do Rio Nilo em Ashwan entre 1871 e 1970, (d) consumo de g as no Reino Unido entre o primeiro trimestre de 1960 e o quarto trimestre de 1986.

CAP ITULO 1. INTRODUC AO

Exerc cios
1. Classique as seguintes s eries temporais quanto ao tempo e quanto a vari avel observada. (a) Registros de mar e durante 1 dia. (b) Medidas de temperatura em uma esta c ao meteorol ogica. (c) O ndice di ario da bolsa de valores de S ao Paulo. (d) A ina c ao mensal medida pelo ndice de pre cos ao consumidor. (e) Varia c ao di aria de um determinado ndice nanceiro, 1 para varia c ao positiva, -1 para varia c ao negativa ou zero se n ao ocorreu varia c ao. (f) N umero mensal de novos casos de Dengue em uma determinada regi ao. 2. D e exemplos de s eries temporais continuas que poderiam ser discretizadas (e de que forma).

Cap tulo 2

T ecnicas Descritivas
Ao se analisar uma ou mais s eries temporais a representa c ao gr aca dos dados sequencialmente ao longo do tempo e fundamental e pode revelar padr oes de comportamento importantes. Tend encias de crescimento (ou decrescimento), padr oes c clicos, altera c oes estruturais, observa c oes aberrantes, etc. s ao muitas vezes facilmente identicados. Sendo assim, o gr aco temporal deve ser sempre o primeiro passo e antecede qualquer an alise. Outras ferramentas ser ao descritas ao longo deste cap tulo.

2.1

Decomposi c ao Cl assica

Muitas das propriedades observadas em uma s erie temporal Xt podem ser captadas assumindo-se a seguinte forma de decomposi c ao Xt = Tt + Ct + Rt onde Tt e uma componente de tend encia, Ct e uma componente c clica ou sazonal e Rt e uma componente aleat oria ou ru do (a parte n ao explicada, que espera-se ser puramente aleat oria). A componente c clica se repete a cada intervalo xo s, i.e. = Ct2s = Cts = Ct = Ct+s = Ct+2s = . . . . Assim, varia c oes peri odicas podem ser captadas por esta componente.

2.2

S eries com Tend encia

N ao existe uma deni c ao precisa de tend encia e diferentes autores usam este termo de diferentes formas. Podemos pensar em tend encia como uma mudan ca de longo prazo no n vel m edio da s erie. A diculdade aqui e denir longo prazo. A forma mais simples de tend encia e Xt = + t + t (2.1)

onde e s ao constantes a serem estimadas e t denota um erro aleat orio com m edia zero. O n vel m edio da s erie no tempo t e dado por mt = + t que e algumas vezes 7

CAP ITULO 2. TECNICAS DESCRITIVAS

chamado de termo de tend encia. Por em alguns autores preferem chamar a inclina c ao de tend encia, ou seja a mudan ca no n vel da s erie por unidade de tempo j a que = mt mt1 . Note que a tend encia na equa c ao (2.1) e uma fun c ao determin stica do tempo e algumas vezes e chamada de tend encia global (i.e. vale para toda a s erie), em oposi c ao a tend encia local. De um modo geral, uma forma de se lidar com dados n ao sazonais que contenham uma tend encia consiste em ajustar uma fun c ao polinomial, Xt = 0 + 1 t + + p tp + t . Uma fun c ao linear ou quadr atica seria apropriada no caso de uma tend encia monotonicamente crescente ou decrescente. Caso contr ario polin omios de ordem mais alta devem ser ajustados. Outras poss veis formas de tend encia s ao os crescimentos descritos por uma curva Gompertz, log xt = a + brt onde a, b e r s ao par ametros com 0 < r < 1, ou uma curva Log stica, xt = a/(1 + bect ) onde a, b e c s ao par ametros. Estas duas u ltimas s ao chamadas curvas S e se aproximam de uma ass ntota quando t . Neste caso o ajuste pode levar a equa c oes n ao lineares. Seja qual for a curva utilizada, a fun c ao ajustada fornece uma medida da tend encia da s erie, enquanto os res duos (valores observados valores ajustados) fornecem uma estimativa de utua c oes locais. Exemplo 2.1 : A Figura 2.1 mostra as medi c oes anuais de vaz oes do Rio Nilo em Ashwan entre 1871 e 1970 juntamente com polin omios de graus 3 e 6 superimpostos. Os polin omios foram ajustados por m nimos quadrados usando os comandos do R a seguir. A s erie original com as tend encias estimadas aparecem na Figura (2.1). > + + + + + + + + > > mypolytrend = function(y, degree = 1) { n = length(y) x = 1:n X = matrix(NA, n, degree) for (i in 1:degree) X[, i] = x^i a = as.numeric(lm(y ~ X)$coeff) out = cbind(rep(1, n), X) %*% a return(ts(out, start = start(y), freq = frequency(y))) } z3 = mypolytrend(Nile, 3) z6 = mypolytrend(Nile, 6)

2.2. SERIES COM TENDENCIA

1400

Vazoes

600

800

1000

1200

observado tendencia grau 6 tendencia grau 3

1880

1900

1920

1940

1960

Figura 2.1: Medi c oes anuais de vaz oes do Rio Nilo em Ashwan entre 1871 e 1970 (pontos),
com polin omios de graus 3 e 6 ajustados por minimos quadrados.

Regress ao Local
A id eia aqui e estimar para cada t uma equa c ao de regress ao polinomial diferente, por exemplo (t)t. x t = (t) + Note que as estimativas de e dependem do tempo o que d a o car ater local das retas de regress ao. O procedimento conhecido como loess e um procedimento iterativo que a cada passo aplica a regress ao local anterior, calcula os res duos xt x t e aplica novamente a regress ao local dando peso menor ` as observa c oes com res duos maiores. Este procedimento se repete at e atingir converg encia. Exemplo 2.2 : A Figura 2.2 apresenta os mesmos dados da Figura 2.1 sendo que as curvas superimpostas foram obtidas usando regress ao local com os comandos do R a seguir.

10

CAP ITULO 2. TECNICAS DESCRITIVAS

1400

Vazoes

600

800

1000

1200

observado tendencia f=1 tendencia f=0.25

1880

1900

1920

1940

1960

Figura 2.2: Medi c oes anuais de vaz oes do Rio Nilo em Ashwan entre 1871 e 1970 (pontos),
tend encia estimada via fun c ao lowess.

Filtragem
Outro procedimento para analisar s eries com tend encia e atrav es de ltros lineares. Um ltro linear converte uma s erie {xt } em outra {yt } atrav es da seguinte opera c ao linear
s

yt =
j =q

aj xt+j

M edias m oveis s ao em geral sim etricas com s = q e ar = ar . Por exemplo, se s = q = 2 temos que yt = a2 xt2 + a1 xt1 + a0 xt + a1 xt+1 + a2 xt+2 .

onde {aj } e um conjunto de pesos. Al em disso, como queremos estimar a m edia local s os pesos devem ser tais que j =q aj = 1, garantindo assim que min{xt } < yt < max{xt }. Neste caso a opera c ao e chamada m edia m ovel.

O caso mais simples e quando todos os pesos aj tem o mesmo valor e devido ` a restri c ao de soma 1 segue que aj = 1/(2q +1), para j = q, . . . , q . Neste caso, o valor suavizado

2.2. SERIES COM TENDENCIA de xt e dado por yt = 1 2q + 1

11

xt+j .
j =q

Qualquer que seja o ltro utilizado, yt e uma estimativa da tend encia no tempo t e xt yt e uma s erie livre de tend encia. Exemplo 2.3 : A Figura 2.3 apresenta a s erie com os totais mensais de passageiros de linhas a ereas internacionais nos EUA, entre 1949 e 1960 (Box, Jenkins and Reinsel, 1976) juntamente com a tend encia estimada superimposta. Foram aplicados ltros lineares com m edias m oveis aproximadamente trimestrais (q = 2) e m edias m oveis aproximadamente anuais (q = 5).

Numero de passageiros (em milhares)

500

600

100

200

300

400

dados Media Movel q=2 Media Movel q=5

1950

1952

1954 Anos

1956

1958

1960

Figura 2.3: Totais mensais de passageiros de linhas a ereas internacionais nos EUA, com
a tend encia superimposta aplicando m edias m oveis aproximadamente trimestrais (q = 2) e m edias m oveis aproximadamente anuais (q = 5).

Note que, para a aplica c ao de qualquer ltro sim etrico os valores suavizados s o podem ser calculados para t = q + 1, . . . , n q e assim a s erie suavizada ter a n 2q valores. Em algumas situa c oes no entanto e importante obter valores suavizados at e o per odo t = n e uma alternativa e utilizar um ltro assim etrico que usa apenas os valores atual e passados de xt . Por exemplo na t ecnica conhecida como alisamento

12

CAP ITULO 2. TECNICAS DESCRITIVAS

exponencial os valores suavizados s ao dados por

yt =
j =0

(1 )j xtj

onde 0 < < 1. Note como, embora todas as observa c oes passadas sejam usadas no j ltro, os pesos (1 ) decaem geometricamente com j . Quanto mais pr oximo de 1 estiver mais peso ser a dado ` as observa c oes mais recentes e quanto mais pr oximo de zero mais os pesos estar ao distribuidos ao longo da s erie. Por exemplo se = 0, 90 a s erie ltrada ca yt = 0, 9xt + 0, 09xt1 + 0, 009xt2 + . . . enquanto que para = 0, 1 temos que yt = 0, 1xt + 0, 09xt1 + 0, 081xt2 + . . . . Este tipo de ltro pode ser utilizado para fazer previs oes. Especicamente a previs ao da s erie original em t + 1 ser a o valor ltrado yt (mais detalhes no Cap tulo 5).

Diferencia c ao
Um tipo especial de ltro, muito u til para remover uma componente de tend encia polinomial, consiste em diferenciar a s erie at e que ela se torne estacion aria (este conceito ser a formalizado no Cap tulo 3). Para dados n ao sazonais, a primeira diferen ca e em geral suciente para induzir estacionariedade aproximada. A nova s erie y2 , . . . , yn e formada a partir da s erie original x1 , . . . , xn como yt = xt xt1 = xt . Note que isto nada mais e do que um ltro (assim etrico) com coecientes 1 e -1. Diferencia c ao de primeira ordem e a mais utilizada sendo que ocasionalmente uma diferencia c ao de segunda ordem pode ser requerida, i.e. yt = 2 xt = (xt xt1 ) = xt 2xt1 + xt2 . Al em disso, independente do seu uso para induzir estacionariedade, a diferencia c ao pode ser muito u til como ferramenta explorat oria. Observa c oes discrepantes por exemplo podem ter um efeito dram atico na s erie diferenciada e uma representa c ao gr aca e em geral suciente para identicar tais pontos.

2.3

S eries Sazonais

Uma forma bastante simples de eliminar o efeito sazonal e simplesmente tomar m edias sazonais. Por exemplo, em dados mensais com sazonalidade anual, as m edias anuais estar ao livres do efeito sazonal. Embora este procedimento esteja correto muitos dados ser ao perdidos e ao inv es disto pode-se recorrer mais uma vez ` as m edias m oveis.

2.4

Autocorrela c ao

Uma importante ferramenta para se identicar as propriedades de uma s erie temporal consiste de uma s erie de quantidades chamadas coecientes de autocorrela ca o

2.4. AUTOCORRELAC AO

13

amostral. A id eia e similar ao coeciente de correla c ao usual, i.e. para n pares de observa c oes das vari aveis x e y o coeciente de correla c ao amostral e dado por
n i=1 n i=1

r=

(xi x)(yi y )
n

(2.2)

(xi x)2

i=1

(yi y )2

Aqui no entanto queremos medir a correla c ao entre as observa c oes de uma mesma vari avel em diferentes horizontes de tempo, i.e. correla c oes entre observa c oes defasadas 1, 2, . . . per odos de tempo. Assim, dadas n observa c oes x1 , . . . , xn de uma s erie temporal discreta podemos formar os pares (x1 , x2 ), . . . , (xn1 , xn ). Considerando x1 , . . . , xn1 e x2 , . . . , xn como duas vari aveis o coeciente de correla c ao entre elas e dado por
n1 t=1 n1 t=1

r1 =

(xt x1 )(xt+1 x2 )
n1 t=1

(2.3)

(xt x1 )2

(xt+1 x2 )2
n

onde as m edias amostrais s ao


n1

x1 =
t=1

xt /(n 1)

e x2 =
t=2

xt /(n 1).

Como o coeciente r1 mede as correla c oes entre observa c oes sucessivas ele e chamado de coeciente de autocorrela c ao ou coeciente de correla c ao serial. usual simplicar a equa E c ao (2.3) utilizando-se a m edia de todas as observa c oes,
n

i.e. x =
t=1

xt /n j a que x1 x2 , e assumindo vari ancia constante. Assim, a vers ao


n1 t=1

simplicada de (2.3) ca (xt x)(xt+1 x)


n

r1 =

(2.4)

(n 1)

t=1

(xt x) /n

sendo que alguns autores ainda retiram o termo n/(n 1) que e pr oximo de 1 para n n ao muito pequeno. Esta u ltima forma simplicada, sem o termo n/(n 1) ser a utilizada neste texto. A equa c ao (2.4) pode ser generalizada para calcular a correla c ao entre observa c oes defasadas de k per odos de tempo, i.e.
nk t=1

rk =

(xt x)(xt+k x)
n t=1

(2.5)

(xt x)

14

CAP ITULO 2. TECNICAS DESCRITIVAS

fornece o coeciente de autocorrela c ao de ordem k . Assim como o coeciente de correla c ao usual, as autocorrela c oes s ao adimensionais e 1 < rk < 1. Na pr atica e mais usual calcular primeiro os coecientes de autocovari ancia {ck }, denidos por analogia com a f ormula usual de covari ancia, i.e.
nk

ck =
t=1

(xt x)(xt+k x)/n, k = 0, 1, . . . .

Os coecientes de autocorrela c ao s ao ent ao obtidos como rk = ck /c0 .

2.4.1

O Correlograma

Um gr aco com os k primeiros coecientes de autocorrela c ao como fun c ao de k e chamado de correlograma e pode ser uma ferramenta poderosa para identicar caracter sticas da s erie temporal. Por em isto requer uma interpreta c ao adequada do correlograma, i.e. devemos associar certos padr oes do correlograma como determinadas caracter sticas de uma s erie temporal. Esta nem sempre e uma tarefa simples e a seguir s ao dadas algumas indica c oes.

S eries aleat orias


A primeira quest ao que podemos tentar responder atrav es do correlograma e se uma s erie temporal e aleat oria ou n ao. Para uma s erie completamente aleat oria os valores defasados s ao n ao correlacionados e portanto espera-se que rk 0, k = 1, 2, . . . . Suponha que x1 , . . . , xn sejam vari aveis aleat orias independentes e identicamente distribuidas com m edia arbitr arias. Ent ao, pode-se mostrar que o coeciente de autocorrela c ao amostral rk e assintoticamente normalmente distribuido, com m edia e vari ancia dados por E (rk ) 1/n e V ar(rk ) 1/n.

(ver Kendall, Stuart, & Ord 1983, Cap tulo 48). Portanto, limites de conan ca apro ximados de 95% s ao dados por 1/n 1, 96/ n, que s ao frequentemente ainda mais aproximados para 1, 96/ n. Isto ilustra uma das diculdades de interpretar o correlograma j a que, mesmo para uma s erie completamente aleat oria, espera-se que 1 em cada 20 coecientes rk esteja fora destes limites. Por outro lado, um valor muito grande de rk tem menos chance de ter ocorrido ao acaso do que um valor que est a apenas ligeiramente fora dos limites. A Figura 2.4 mostra uma s erie temporal com 100 observa c oes independentes e identicamente distribuidas geradas no computador juntamente com o seu correlo grama. Neste caso os limites de conan ca de 95% s ao aproximadamente 2/ 100 = 0,2 e podemos notar que 2 dentre as 20 primeiras autocorrela c oes est ao ligeiramente fora destes limites. No entanto isto ocorre em defasagens aparentemente arbitr arias (12 e 18) e podemos concluir que n ao h a evid encia para rejeitar a hip otese de que as observa c oes s ao independentes.

2.4. AUTOCORRELAC AO

15

observaes

2 0

0 1 2

20

40 tempo

60

80

100

autocorrelaoes

0.2 0

0.4

1.0

10 defasagem

15

20

Figura 2.4: (a) 100 observa c oes simuladas independentes e identicamente distribuidas. (b)
20 primeiras autocorrela c oes amostrais.

Correla c ao de curto-prazo
Uma s erie temporal na qual uma observa c ao acima da m edia tende a ser seguida por uma ou mais observa c oes acima da m edia, similarmente para observa c oes abaixo da m edia, e dita ter correla c ao de curto-prazo. Um correlograma desta s erie dever a exibir um valor relativamente grande de r1 seguido por valores que tendem a car sucessivamente menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero. Na Figura 2.5 temos 50 observa c oes geradas de acordo com o processo xt = 0, 7xt1 + t juntamente com o seu correlograma.

Correla c ao negativa
Se os valores de uma s erie temporal tendem a se alternar acima e abaixo de um valor m edio, o correlograma desta s erie tamb em tende a se alternar. O valor de r1 ser a negativo enquanto o valor de r2 ser a positivo j a que as observa c oes defasadas de 2 per odos tendem a estar do mesmo lado da m edia. Esta caracter stica est a ilustrada na Figura 2.6 aonde temos 50 observa c oes simuladas com autocorrela c oes negativas juntamente com as 15 primeiras autocorrela c oes amostrais.

16

CAP ITULO 2. TECNICAS DESCRITIVAS

observacoes

3 0

10

20 tempo

30

40

50

autocorrelacoes

0.2 0

0.4

1.0

5 defasagem

10

15

Figura 2.5: (a) 50 observa c oes simuladas com autocorrela c oes de curto-prazo. (b) 16
primeiras autocorrela c oes amostrais.

S eries n ao estacion arias


Para uma s erie temporal com tend encia os valores de rk n ao decair ao para zero a n ao ser em defasagens grandes. Intuitivamente, isto ocorre porque uma observa c ao de um lado da m edia tende a ser seguida por um grande n umero de observa c oes do mesmo lado (devido ` a tend encia). Neste caso, pouca ou nenhuma informa c ao pode ser extraida do correlograma j a que a tend encia dominar a outras caracter sticas. Na verdade, como veremos em outros cap tulos a fun c ao de autocorrela c ao s o tem um signicado para s eries estacion arias, sendo assim qualquer tend encia deve ser removida antes do c alculo de {rk }. A Figura 2.7 mostra uma s erie temporal com 50 observa c oes geradas segundo o modelo xt = xt1 + t , juntamente com o seu correlograma. Note que a n ao estacionariedade da s erie ca evidenciada no correlograma j a que as autocorrela c oes amostrais decaem muito lentamente.

Varia c ao sazonal
Um padr ao sazonal e em geral facilmente identicado no correlograma. De fato, se uma s erie temporal contem utua c oes sazonais o correlograma ir a exibir oscila c oes na

2.4. AUTOCORRELAC AO

17

observacoes

2 0

10

20 tempo

30

40

50

autocorrelacoes

0.5 0

0.5

5 defasagem

10

15

Figura 2.6: (a) 50 observa c oes simuladas com autocorrela c oes negativas. (b) 15 primeiras
autocorrela c oes amostrais.

mesma frequ encia. Por exemplo, com observa c oes mensais r6 ser a grande e negativo enquanto r12 ser a grande e positivo. Na verdade, se o padr ao sazonal j a for evidente no gr aco da s erie original o correlograma trar a pouca ou nenhuma informa c ao adicional.

Observa c oes discrepantes


Se uma s erie temporal contem uma ou mais observa c oes discrepantes (outliers) o correlograma pode ser seriamente afetado. No caso de uma u nica observa c ao discrepante o gr aco de xt contra xt+k ter a pontos extremos o que pode viesar os coecientes de correla c ao para zero. Com dois valores discrepantes o efeito pode ser ainda mais devastador, al em de gerar uma correla c ao esp uria quando k e igual ` a dist ancia entre os valores.

18

CAP ITULO 2. TECNICAS DESCRITIVAS

observacoes

0.0 0.4 0.8 0

10

20 tempo

30

40

50

autocorrelacoes

0.5 0

0.5

10 defasagem

15

20

Figura 2.7: (a) 50 observa c oes simuladas segundo um passeio aleat orio. (b) 20 primeiras
autocorrela c oes amostrais.

2.4. AUTOCORRELAC AO

19

Exerc cios
1. Use o R para gerar uma s erie temporal Yt = b0 + b1 t + t , t = 1, . . . , 100, com 2 se t 70 b0 , b1 = 0 e t normais e independentes com m edia e vari ancia 1 2 = 2 se t > 70. Usando diferentes valores de aplique o mas vari ancia 2 1 alisamento exponencial e fa ca um gr aco da s erie com os valores suavizados. Comente os resultados. 2. Para cada um dos processos abaixo gere 200 observa c oes. Fa ca um gr aco da s erie e do correlograma. (a) S erie aleat oria, observa c oes iid da distribui c ao N(0,1). (b) S erie com tend encia estoc astica, xt = xt1 + t , t N (0, (0, 1)2 ) (c) Outra s erie com tend encia estoc astica, xt = xt1 + t , t N (1, 52 )

(d) S erie com correla c ao de curto-prazo, xt = 0, 7xt1 + t , t N (0, 1) (e) S erie com correla c oes negativas, xt = 0, 8xt1 + t , t N (0, 1) (f) M edias m oveis, xt = t + 0, 6t1 , t N (0, 1) (g) passeio aleat orio com desvio Xt = 1 + Xt1 + t , t N (0, 1). 3. Se mt = c0 + c1 t + + cp tp mostre que mt e um polin omio de grau p 1 em t e portanto p+1 mt = 0

Cap tulo 3

Modelos Probabil sticos


3.1 Introdu c ao

Neste cap tulo ser ao descritos v arios modelos adequados para dados de s eries temporais. Tais modelos s ao chamados de processos estoc asticos. Matematicamente um processo estoc astico pode ser denido como uma cole c ao de vari aveis aleat orias ordenadas no tempo e denidas em um conjunto de pontos T , que pode ser cont nuo ou discreto. Iremos denotar a vari avel aleat oria no tempo t por X (t) no caso cont nuo (usualmente < t < ), e por Xt no caso discreto (usualmente t = 0, 1, 2, . . . ). O conjunto de poss veis valores do processo e chamado de espa co de estados que pode ser discreto (e.g. o n umero de chamadas que chegam a uma central telef onica a cada 2 horas) ou cont nuo (e.g. a temperatura do ar em uma localidade observada em intervalos de 1 hora). Em an alise de s eries temporais a situa c ao e bem diferente da maioria dos problemas estat sticos. Embora seja poss vel variar o tamanho da s erie observada, usualmente ser a imposs vel fazer mais do que uma observa c ao em cada tempo. Assim, tem-se apenas uma realiza c ao do processo estoc astico e uma u nica observa c ao da vari avel aleat oria no tempo t denotada por x(t) no caso cont nuo e xt , para t = 1, . . . , N no caso discreto. Uma maneira de descrever um processo estoc astico e atrav es da distribui c ao de probabilidade conjunta de X (t1 ), . . . , X (tk ) para qualquer conjunto de tempos t1 , . . . , tk e qualquer valor de k . Esta e uma tarefa extremamente complicada e na pr atica costuma-se descrever um processo estoc astico atrav es das fun c oes m edia, vari ancia e autocovari ancia. Estas fun c oes s ao denidas a seguir para o caso cont nuo sendo que deni c oes similares se aplicam ao caso discreto. m edia (t) = E [X (t)] vari ancia 2 (t) = V ar[X (t)] autocovari ancia (t1 , t2 ) = E [X (t1 ) (t1 )][X (t2 ) (t2 )] Note que a fun c ao de vari ancia e um caso especial da fun c ao de autocovari ancia quando t1 = t2 . Momentos de ordem mais alta do processo tamb em ser denidos 20

3.2. PROCESSOS ESTACIONARIOS

21

mas s ao raramente utilizados na pr atica e as fun c oes (t) e (t1 , t2 ) s ao em geral sucientes.

3.2

Processos Estacion arios

Uma importante classe de processos estoc asticos s ao os chamados processos estacion arios. A id eia intuitiva de estacionariedade foi introduzida no cap tulo anterior e aqui ser a apresentada a deni c ao formal. Uma s erie temporal e dita estritamente estacion aria se a distribui c ao de probabilidade conjunta de X (t1 ), . . . , X (tk ) e a mesma de X (t1 + ), . . . , X (tk + ). Ou seja, o deslocamento da origem dos tempos por uma quantidade n ao tem efeito na distribui c ao conjunta que portanto depende apenas dos intervalos entre t1 , . . . , tk . Em particular, para k = 1 a estacionariedade estrita implica que a distribui c ao de X (t) e a mesma para todo t de modo que, se os dois primeiros momentos forem nitos, temos que (t) = e 2 (t) = 2 s ao constantes que n ao dependem de t. Para k = 2 a distribui c ao conjunta de X (t1 ) e X (t2 ) depende apenas da dist ancia t2 t1 , chamada defasagem. A fun c ao de autocovari ancia (t1 , t2 ) tamb em depende apenas de t2 t1 e pode ser escrita como ( ) onde ( ) = E [X (t) ][X (t + ) ] = Cov [X (t), X (t + )] e chamado de coeciente de autocovari ancia na defasagem . Note que o tamanho de ( ) depende da escala em que X (t) e medida. Portanto, para efeito de interpreta c ao, e mais u til padronizar a fun c ao de autocovari ancia dando origem a uma fun c ao de autocorrela c ao ( ) = ( )/ (0) que mede a correla c ao entre X (t) e X (t + ). No cap tulo anterior foi apresentado o seu equivalente emp rico para s eries discretas rk . Note tamb em que o argumento ser a discreto se a s erie temporal for discreta e cont nuo se a s erie temporal for cont nua. Na pr atica e muito dif cil usar a deni c ao de estacionariedade estrita e costuma-se denir estacionariedade de uma forma menos restrita. Deni c ao 3.1. Um processo estoc astico {X (t), t T } e dito ser estacion ario de segunda ordem ou fracamente estacion ario se a sua fun ca o m edia e constante e sua fun ca o de autocovari ancia depende apenas da defasagem, i.e. E [X (t)] = e Cov [X (t), X (t + )] = ( ).

Nenhuma outra suposi c ao e feita a respeito dos momentos de ordem mais alta. Al em disso, fazendo = 0 segue que V ar[X (t)] = (0), ou seja a vari ancia do processo

22

CAP ITULO 3. MODELOS PROBABIL ISTICOS

assim como a m edia tamb em e constante. Note tamb em que tanto a m edia quanto a vari ancia precisam ser nitos. Esta deni c ao mais fraca de estacionariedade ser a utilizada daqui em diante j a que muitas propriedades dos processos estacion arios dependem apenas da estrutura especicada pelo primeiro e segundo momentos. Uma classe importante de processos aonde isto se verica e a classe de processos normais ou Gaussianos aonde a distribui c ao conjunta de X (t1 ), . . . , X (tk ) e normal multivariada para todo conjunto t1 , . . . , tk . A distribui c ao normal multivariada ca completamente caracterizada pelo primeiro e segundo momentos, i.e. por (t) e (t1 , t2 ), assim estacionariedade fraca implica em estacionariedade estrita para processos normais. Por outro lado, e ( ) podem n ao descrever adequadamente processos que sejam muito n ao-normais.

3.3

A Fun c ao de Autocorrela c ao

Foi visto na Se c ao 2.4 que os coecientes de autocorrela c ao amostral de uma s erie temporal observada s ao uma ferramenta importante para descrever a s erie. Analogamente, a fun c ao de autocorrela c ao te orica (fac) de um processo estoc astico estacion ario e uma ferramenta importante para assessar suas propriedades. A seguir ser ao apresentadas propriedades gerais da fun c ao de autocorrela c ao. Se um processo estoc astico estacion ario X (t) tem m edia e vari ancia 2 ent ao ( ) = ( )/ (0) = ( )/ 2 e portanto (0) = 1. As seguintes propriedades s ao facilmente veric aveis. 1. A correla c ao entre X (t) e X (t + ) e a mesma que entre X (t) e X (t ), ou seja ( ) = ( ). 2. 1 < ( ) < 1. 3. Embora um processo estoc astico tenha uma estrutura de autocovari ancia u nica poss o contr ario n ao e verdadeiro em geral. E vel encontrar v arios processos com a mesma fun c ao de autocorrela c ao, o que diculta ainda mais a interpreta c ao do correlograma.

3.4

Alguns Processos Estoc asticos

Nesta se c ao ser ao apresentados alguns processos estoc asticos que s ao utilizados com frequ encia na especica c ao de modelos para s eries temporais.

3.4.1

Sequ encia Aleat oria

Um processo em tempo discreto e chamado puramente aleat orio se consiste de uma sequ encia de vari aveis aleat orias {t } independentes e identicamente distribuidas. Isto implica nas seguintes propriedades

3.4. ALGUNS PROCESSOS ESTOCASTICOS 1. E (t ) = E (t |t1 , t2 , . . . ) =


2 2. V ar(t ) = V ar(t |t1 , t2 , . . . ) =

23

3. (k ) = Cov (t , t+k ) = 0,

k = 1, 2, . . . .

Como a m edia e a fun c ao de autocovari ancia n ao dependem do tempo o processo e estacion ario em segunda ordem. A fun c ao de autocorrela c ao e simplesmente (k ) = 1, k = 0 0, k = 1, 2, . . . .

Um processo puramente aleat orio e as vezes chamado de ru do branco e pode ser u til por exemplo na constru c ao de processos mais complicados. As propriedades acima podem ser entendidas como aus encia de correla ca o serial e homocedasticidade condicional (vari ancia condicional constante).

3.4.2

Passeio Aleat orio

2 . Um Seja {t } um processo discreto puramente aleat orio com m edia e vari ancia processo {Xt } e chamada de passeio aleat orio se

Xt = Xt1 + t . Fazendo-se substitui c oes sucessivas obt em-se que Xt = Xt2 + t1 + t = Xt3 + t2 + t1 + t . . .
t

= X0 +
j =1

e iniciando o processo em X0 = 0 n ao e dif cil vericar que


t

E (Xt ) =
j =1 t

E (j ) = t
2 V ar(j ) = t . j =1

V ar(Xt ) =

Al em disso, a fun c ao de autocovari ancia e dada por


2 Cov (Xt , Xtk ) = Cov (1 + + tk + + t , 1 + + tk ) = (t k )

e portanto a fun c ao de autocorrela c ao ca t (k ) = tk . t

24

CAP ITULO 3. MODELOS PROBABIL ISTICOS

Como a m edia, a vari ancia e as autocovari ancias dependem de t este processo e n ao estacion ario. No entanto, e interessante notar que a primeira diferen ca de um passeio aleat orio e estacion aria j a que Xt = Xt Xt1 = t . Os exemplos mais conhecidos de s eries temporais que se comportam como um passeio aleat orio s ao os pre cos de a c oes em dias sucessivos (ver por exemplo Morettin e Toloi, 2004).

3.4.3

Processos de M edia M oveis

2. Seja {t } um processo discreto puramente aleat orio com m edia zero e vari ancia Um processo {Xt } e chamada de processo de m edias m oveis de ordem q , ou MA(q ), se Xt = t + 1 t1 + + q tq , (3.1)

sendo i R, i = 1, . . . , q . N ao e dif cil vericar como cam a m edia e a vari ancia deste processo,
q

E (Xt ) = E (t ) +
j =1

j E (tj ) = 0
q 2 2 2 2 j V ar(tj ) = (1 + 1 + + q ) .

V ar(Xt ) = V ar(t ) +
j =1

2 para t = s e Cov ( , ) = 0 para t = s, a fun c ao Al em disso, como Cov (t , s ) = t s de autocovari ancia e dada por

(k ) = Cov (Xt , Xt+k ) = Cov (t + 1 t1 + + q tq , t+k + 1 t+k1 + + q t+kq ) 0 k>q q k 2 j j +k k = 0, . . . , q = (3.2) j =0 (k ) k<0

com 0 = 1. Como a m edia e a vari ancia s ao constantes e (k ) n ao depende de t o processo e (fracamente) estacion ario para todos os poss veis valores de 1 , . . . , q . Al em disso, se os t s forem normalmente distribuidos os Xt s tamb em ser ao e portanto o processo ser a estritamente estacion ario. A fun c ao de autocorrela c ao pode ser facilmente obtida dividindo-se (3.2) por (0), 1 k=0 q k q 2 j j +k j k = 1, . . . , q (k ) = j =0 j =0 0 k>q (k ) k < 0.

3.4. ALGUNS PROCESSOS ESTOCASTICOS

25

Note que a fun c ao tem um ponto de corte na defasagem q , i.e. (k ) = 0 para k > q . Esta e uma caracter stica espec ca de processos m edias m oveis e ser a u til na especica c ao do valor de q na pr atica (Box & Jenkins 1970, p. 170). > MAacf <- function(q, beta, lag.max) { + sig2x = 1 + sum(beta^2) + rho = rep(0, lag.max) + for (k in 1:q) { + rho[k] = beta[k] + if (q - k > 0) { + for (j in 1:(q - k)) rho[k] = rho[k] + beta[j] * + beta[j + k] + } + rho[k] = rho[k]/sig2x + } + return(rho) + } > round(MAacf(q = 2, beta = c(0.5, 0.3), lag.max = 6), 4) [1] 0.4851 0.2239 0.0000 0.0000 0.0000 0.0000 Vamos analisar agora com mais detalhes o caso particular do processo MA(1). A fun c ao de autocorrela c ao ca k=0 1 2 (k ) = (3.3) 1 /(1 + 1 ) k = 1 0 k > 1.

O processo e estacion ario para qualquer valor de 1 mas em geral e desej avel impor restri c oes para que ele satisfa ca uma condi c ao chamada inversibilidade. Considere os seguintes processos MA(1) Xt = t + t1 1 Xt = t + t1 .

Substituindo em (3.3) n ao e dif cil vericar que estes dois processos diferentes t em exatamente a mesma fun c ao de autocorrela c ao. Assim, n ao e poss vel identicar um processo MA(1) u nico a partir da fun c ao de autocorrela c ao. Por outro lado, podemos fazer substitui c oes sucessivas e reescrever estes dois processos colocando t em fun c ao de Xt , Xt1 , . . . , i.e. t = Xt Xt1 + 2 Xt2 3 Xt3 + . . . 1 1 1 t = Xt Xt1 + 2 Xt2 3 Xt3 + . . . Se || < 1 a primeira s erie converge e o modelo e dito ser invers vel mas a segunda n ao converge e o modelo e n ao invers vel. Ou seja, a condi c ao de inversibilidade (neste

26

CAP ITULO 3. MODELOS PROBABIL ISTICOS

caso || < 1) garante que existe um u nico processo MA(1) para uma dada fun c ao de autocorrela c ao. Outra consequ encia da inversibilidade e que o processo MA(1) pode ser reescrito como uma regress ao de ordem innita nos seus pr oprios valores defasados. Para um processo MA(q ) esta condi c ao pode ser melhor expressa usando-se o operador de retardo, denotado por B e denido como B j Xt = Xtj , para todo j.

A equa c ao (3.1) pode ent ao ser reescrita como Xt = (1 + 1 B + 2 B 2 + + q B q )t = (B )t onde (B ) e um polin omio de ordem q em B . Um processo MA(q ) e invers vel se as ra zes da equa c ao (B ) = 1 + 1 B + 2 B 2 + + q B q = 0 estiverem fora do c rculo unit ario. Ou seja, se 1 , . . . , q s ao q solu c oes de (B ) = 0 ent ao o processo e invers vel se |i | > 1, i = 1, . . . , q . Teremos ent ao 2q modelos com a mesma fun c ao de autocorrela c ao mas somente um deles ser a invers vel. Finalmente, vale notar que uma constante qualquer pode ser adicionada ao lado direito de (3.1) dando origem a um processo com m edia . O processo continuar a sendo estacion ario com E (Xt ) = e em particular a fun c ao de autocorrela c ao n ao ser a afetada.

3.4.4

Processos Autoregressivos

Suponha que {t } seja um processo puramente aleat orio com m edia zero e vari ancia 2 . Um processo {X } e chamada de processo autoregressivo de ordem p , ou AR( p), t se Xt = 1 Xt1 + + p Xtp + t . (3.4)

Note a similaridade com um modelo de regress ao m ultipla, onde os valores passados de Xt fazem o papel das regressoras. Assim, processos AR podem ser usados como modelos se for razo avel assumir que o valor atual de uma s erie temporal depende do seu passado imediato mais um erro aleat orio. Por simplicidade vamos come car estudando em detalhes processos de primeira ordem, AR(1), i.e. Xt = Xt1 + t . (3.5)

Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado Xt1 , Xt n ao depende de Xt2 , Xt3 , . . . . Fazendo subtitui c oes sucessivas em (3.5)

3.4. ALGUNS PROCESSOS ESTOCASTICOS obtemos que Xt = (Xt2 + t1 ) + t = 2 Xt2 + t1 + t = 2 (Xt3 + t2 ) + t1 + t = 3 Xt3 + 2 t2 + t1 + t . . .
r

27

= r+1 Xtr1 +
j =0

j tj .

2 podemos escrever que Se Xt for estacion ario com vari ancia nita X r

E [X t

2 2r +2 2 j tj ]2 = 2r+2 E (Xt X r 1 ) = j =0

e se || < 1 temos que 2r+2 0 quando r . Portanto, esta condi c ao nos permite escrever Xt como o seguinte processo MA innito, Xt = t + t1 + 2 t2 + . . . e assim || < 1 e uma condi c ao suciente para que Xt seja estacion ario. Neste caso, reescrevendo o processo k per odos ` a frente, i.e. Xt+k = t+k + t+k1 + + k t + . . . (3.6)

note como o efeito de t sobre Xt+k diminui a medida que k aumenta e por isso e chamado efeito transit orio. Podemos tamb em usar o operador de retardo reescrevendo a equa c ao (3.5) como (1 B )Xt = t ou equivalentemente Xt = 1 t = (1 + B + 2 B 2 + . . . )t = t + t1 + 2 t2 + . . . (1 B )

Escrevendo o processo AR(1) neste formato de MA innito ca f acil ver que a sua m edia e vari ancia s ao dados por
2 E (Xt ) = 0 e V ar(Xt ) = (1 + 2 + 4 + . . . ) = 2 . 1 2

A fun c ao de autocovari ancia pode ser obtida usando os resultados acima. Reescrevendo a equa c ao (3.6) como Xt+k = t+k + + k1 t+1 + k t + k+1 t1 + k+2 t2 + . . . pode-se vericar que, para qualquer k = 1, 2, . . . , Cov (t + t1 + 2 t2 + . . . , t+k + + k1 t+1 ) = 0.

28 Portanto,

CAP ITULO 3. MODELOS PROBABIL ISTICOS

E (Xt Xt+k ) = Cov (t + t1 + 2 t2 + . . . , k t + k+1 t1 + k+2 t2 + . . . )


k+2 k+4 = k E (2 E (2 E (2 t) + t1 ) + t2 ) + . . . 2 = k (1 + 2 + 4 + . . . ) = k 2 2 = k X = (k ). 1 2

Assim, a fun c ao de autocorrela c ao e (k ) = k para k = 0, 1, 2, . . . . Assim, como a m edia e a vari ancia s ao constantes e (k ) n ao depende de t o processo AR(1) com | | < 1 e estacion ario. Na Figura 3.1 s ao mostradas gracamente as autocorrela c oes te oricas de um processo AR(1) at e a defasagem k = 20 para igual a 0,8, -0,8, 0,2 e -0,2. Note como a fun c ao de autocorrela c ao decai rapidamente para zero quando = 0, 2 e se alterna entre valores positivos e negativos quando = 0, 8. Ou seja sempre h a um decaimento exponencial para zero mas este decaimento depende do sinal e magnitude de .

0.8

0.6

0.4

0.2

10

15

20

0.8

0.0

0.2

0.2

0.6

10

15

20

0.20

0.10

10

15

20

0.20

0.00

0.10

0.00

10

15

20

Figura 3.1: As 20 primeiras autocorrela c oes te oricas de um processo AR(1) com (a) = 0, 8, (b) = 0, 8, (c) = 0, 2 e (d) = 0, 2. Generalizando os resultados acima para um processo AR(p) escrevemos novamente Xt como um processo MA innito com coecientes 0 , 1 , . . . , i.e. Xt = 0 t + 1 t1 + 2 t2 + = (0 + 1 B + 2 B 2 + . . . )t = (B )t .

3.4. ALGUNS PROCESSOS ESTOCASTICOS e em analogia com o caso AR(1) segue que o processo ser a estacion ario se Usando agora o operador de retardo a equa c ao (3.4) ca (1 1 B 2 B 2 p B p )Xt = t e portanto o processo AR(p) pode ser escrito como Xt = (B )1 t = (B )t . Assim, os coecientes j podem ser obtidos a partir dos coecientes j fazendo-se (1 1 B 2 B 2 p B p )(0 + 1 B + 2 B 2 + . . . ) = 1 Desenvolvendo-se esta express ao segue que 0 + 1 B + 2 B 2 + 1 0 B 1 1 B 2 1 2 B 3 . . . ou (B )Xt = t
j

29
2 < . j

2 0 B 2 2 1 B 3 2 2 B 4 . . . . . .

p 0 B p p 1 B p+1 = 1 + 0B + 0B 2 + . . . e agora agrupando em termos de B, B 2 , . . . 0 + (1 1 0 )B + (2 1 1 2 0 )B 2 + = 1 + 0B + 0B 2 + . . . donde obt em-se os coecientes MA recursivamente como 0 = 1 1 = 0 1 2 = 1 1 + 0 2 3 = 2 1 + 1 2 + 0 3 . . .
i

i =
j =1

ij j .

O efeito de t sobre Xt+k e dado por k , k = 1, 2, . . . . Pode-se mostrar que (ver por exemplo Box, Jenkins, & Reinsel 1994) a condi c ao de estacionariedade do processo Xt e que todas as ra zes de (B ) = 0 estejam fora do c rculo unit ario. Em particular, para p = 1 temos que (B ) = 1 B = 0 implica que B = 1/ e a condi c ao de estacionariedade ca || < 1 conforme j a haviamos vericado. Para reescrever um processo AR(p) em forma vetorial, dena Z t = (Xt1 , . . . , Xtp ) e portanto Z t = Z t1 + ut

30

CAP ITULO 3. MODELOS PROBABIL ISTICOS

e ut = (t , 0, . . . , 0) . Para obter a fun c ao de autocorrela c ao de um processo AR(p) e algebricamente mais simples assumir a priori que o processo e estacion ario com E (Xt ) = 0, V ar(Xt ) = 2 e Cov (X , X X ) = ( k ). Neste caso, multiplicando a equa c ao (3.4) por Xtk , i.e t tk Xt Xtk = 1 Xt1 Xtk + + p Xtp Xtk + t Xtk . e tomando o valor esperado obtemos que E (Xt Xtk ) = (k ) = 1 E (Xt1 Xtk ) + + p E (Xtp Xtk ) = 1 (k 1) + + p (k p), k > 0.
2 obtem-se que Dividindo-se ambos os lados pela vari ancia constante X

sendo a matriz denida como 1 2 1 0 0 1 = . . . . . . 0 0

... ... ... . . . ...

p1 p 0 0 0 0 . . . . . . 1 0

(k ) = 1 (k 1) + + p (k p),

k>0

chamadas equa c oes de Yule-Walker. Por exemplo, para um processo AR(1) com coeciente segue que (1) = , (2) = (1) = 2 , . . . , (k ) = k como j a haviamos vericado. Para um processo AR(2) com coecientes 1 e 2 segue que (1) = 1 (0) + 2 (1) (1) = 1 /(1 2 ) e as outras autocorrela c os s ao obtidas iterativamente como (k ) = 1 (k 1) + 2 (k 2), k2

Autocorrela c oes Parciais


Para um processo AR(p), o u ltimo coeciente p mede o excesso de correla c ao na defasagem p que n ao e levado em conta por um modelo AR(p 1). Este e chamado de p- esimo coeciente de autocorrela ca o parcial. Assim, variando k = 1, 2, . . . temos a chamada fun ca o de autocorrela ca o parcial (FACP). Por outro lado, em um processo AR(p) n ao existe correla c ao direta entre Xt e Xtp1 , Xtp2 , . . . e substituindo k = p + 1, p + 2, . . . nas equa c oes de Yule-Walker obtem-se que todos os coecientes de correla c ao parcial ser ao nulos para k > p. Por exemplo, substituindo-se k = p + 1 segue que (p + 1) = 1 (p) + + p (1) + p+1 . O fato de que a facp e igual a zero para k > p e sugerido em Box and Jenkins (1970, p. 170) como uma ferramenta para determinar a ordem p do processo autoregressivo para s eries temporais observadas.

3.4. ALGUNS PROCESSOS ESTOCASTICOS

31

3.4.5

Modelos Mistos ARMA

Combinando-se modelos AR e MA pode-se obter uma representa c ao adequada com um n umero menor de par ametros. Processos autoregressivos m edias m oveis (ARMA) formam um classe de modelos muito u teis e parcimoniosos para descrever dados de s eries temporais. O modelo ARMA(p, q ) e dado por Xt = 1 Xt1 + + p Xtp + t + 1 t1 + + q tq
2 . Note onde {t } e um processo puramente aleat orio com m edia zero e vari ancia que, modelos AR ou MA podem ser obtidos como casos especiais quando p = 0 ou q = 0. Usando o operador de retardo o modelo pode ser reescrito como

(1 1 B 2 B 2 p B p )Xt = (1 + 1 B + 2 B 2 + + q B q )t ou (B )Xt = (B )t . Os valores de 1 , . . . , p que tornam o processo estacion ario s ao tais que as ra zes de (B ) = 0 est ao fora do c rculo unit ario. Analogamente, os valores de 1 , . . . , q que tornam o processo invers vel s ao tais que as ra zes de (B ) = 0 est ao fora do c rculo unit ario. Vale notar que as fun c oes de autocorrela c ao e autocorrela c ao parcial cam consideravelmente mais complicadas em processos ARMA. De um modo geral, para um processo ARMA(p, q ) estacion ario a fun c ao de autocorrela c ao tem um decaimento exponencial ou oscilat orio ap os a defasagem q enquanto que a facp tem o mesmo comportamento ap os a defasagem p (Box & Jenkins 1970, p. 79). Em princ pio este resultado pode ser utilizado para auxiliar na determina ca o da ordem (p, q ) do processo mas na pr atica pode ser bastante dif cil distinguir entre decaimentos exponenciais e oscilat orios atrav es das estimativas destas fun c oes. A Tabela 3.1 mostra as propriedades te oricas das fun c oes de autocorrela c ao e autocorrela c ao parcial para alguns processos estacion arios como auxiliar na identica c ao do modelo. Tabela 3.1: Propriedades te oricas da fac e facp. Processo s erie aleat oria AR(1), > 0 AR(1), < 0 AR(p) MA(1) ARMA(p, q ) FAC 0 decaimento decaimento decaimento 0, k > 1 decaimento FACP 0 0, k 2 idem 0, k > p decaimento oscilat orio decaimento a partir de p

exponencial oscilat orio para zero a partir de q

32

CAP ITULO 3. MODELOS PROBABIL ISTICOS

3.4.6

Modelos ARMA Integrados

Os modelos discutidos at e agora s ao apropriados para s eries temporais estacion arias. Assim, para ajustar estes modelos a uma s erie temporal observada e necess ario remover as fontes de varia c ao n ao estacion arias. Por exemplo, se a s erie observada for n ao estacion aria na m edia pode-se tentar remover a tend encia tomando-se uma ou mais diferen cas (esta abordagem e muito utilizada em Econometria). Um modelo ARMA no qual Xt e substituido pela sua d- esima diferen ca d Xt e capaz de descrever alguns tipos de s eries n ao estacion arias. Denotando a s erie diferenciada por Wt = d Xt = (1 B )d Xt o processo autoregressivo integrado m edias m oveis denotado ARIMA(p, d, q ) e dado por Wt = 1 Wt1 + + p Wtp + t + 1 t1 + + q tq ou, equivalentemente (B )(1 B )d Xt = (B )t . (3.7) Da equa c ao (3.7) acima pode-se notar que o modelo para Xt e claramente n ao estacion ario j a que o polin omio autoregressivo (B )(1 B )d tem exatamente d ra zes sobre o c rculo unit ario, ou d ra zes unit arias. Um processo que se torna estacion ario ap os d diferen cas e dito ser n ao estacion ario homog eneo, ou integrado de ordem d, I (d). Na pr atica valores pequenos s ao em geral especicados para d, sendo d = 1 o valor mais frequentemente utilizado e excepcionalmente d = 2. Note tamb em que o passeio aleat orio pode ser considerado um processo ARIMA(0,1,0). Vale notar que para dados reais um modelo ARIMA (e de fato qualquer modelo) e no m aximo uma aproxima c ao para o verdadeiro processo gerador dos dados. Na pr atica pode ser bem dif cil distinguir entre um processo estacion ario com mem oria longa (e.g. AR(1) com 1) e um processo n ao estacion ario homog eneo. Existe uma vasta literatura econom etrica sobre testes de ra z unit aria (ver por exemplo Hamilton 1994 e Bauwens, Lubrano, & Richard 1999). Mais recentemente, modelos da classe ARFIMA (ou ARIMA fracion arios) tem sido utilizados para analisar s eries com mem oria longa. Estes t opicos n ao ser ao abordados aqui e o leitor interessado pode consultar por exemplo Brockwell & Davis (1991) al em das refer encias acima.

3.4. ALGUNS PROCESSOS ESTOCASTICOS

33

Exerc cios
Nos exerc cios a seguir {t } e um processo discreto puramente aleat orio com m edia 2 zero e vari ancia . 1. Encontre a fac do processo Xt = t + 0, 7t1 0, 2t2 . 2. Encontre a fac do processo Xt = 0, 7(Xt1 ) + t .
1 2 3. Encontre a fac do processo Xt = 3 Xt1 + 9 Xt2 + t .

4. Se Xt = + t + t1 mostre que a fac do processo n ao depende de . 5. Reescreva cada um dos modelos abaixo em termos de operador de retardo B e verique se o modelo e estacion ario e/ou invers vel: (a) Xt = 0, 3Xt1 + t . (b) Xt = t 1, 3 t1 + 0, 4 t2 . (c) Xt = 0, 5Xt1 + t 1, 3 t1 + 0, 4 t2 . (d) Xt = 0, 3 Xt1 + t 0, 6 t1 (e) Xt = Xt1 + t 1, 5t1 6. Mostre que o processo Xt = Xt1 + cXt2 + t e estacion ario se 1 < c < 0 e obtenha a fac para c = 3/16. 7. Mostre que o processo Xt = Xt1 + cXt2 cXt3 + t e n ao estacion ario para qualquer valor de c. 8. Descreva como deve se comportar a fun c ao de autocorrela c ao te orica para os seguintes processos, (a) AR(1) estacion ario, para = 0, 1, = 0, 75 e = 0, 99. (b) M edias m oveis de ordem q . (c) Como deveriam car as fun c oes de autocorrela c ao e autocorrela c ao parcial amostrais que identicam os processos acima? 9. Descreva como deveriam se comportar as fun c oes de autocorrela c ao e autocorrela c ao parcial amostrais para processos AR, MA e ARMA n ao sazonais. 10. Para o modelo (1 B )(1 0, 2B )Xt = (1 0, 5B )t , identique os valores de p, q , e d e verique se o processo e estacion ario e invers vel. 11. Mostre que a fun c ao de autocovari ancia de um processo AR(1) estacion ario com 2 k 2 vari ancia X e dada por X (Sugest ao: use a express ao (3.2) com q ) 12. Verique se Xt =
t j =1 t

e estacion ario.

34

CAP ITULO 3. MODELOS PROBABIL ISTICOS

13. Mostre que a fac do processo Xt = aXt1 + t + bt1 e dada por (1 + ab)(a + b) 1 + b2 + 2ab (k ) = a(k 1), k = 2, 3, . . . (1) = 14. Obtenha a fun c ao de autocovar ancia do processo 1 1 1 Xt = t + t1 + 2 t2 + + m tm a a a sendo que 0 < a < 1. 15. Se {Xt } e um processo estacion ario obtenha a fun c ao de autocovari ancia de Yt = Xt Xt1 . 16. Mostre que o processo Xt = ( + 1)Xt1 Xt2 + t tem exatamente uma raiz unit aria e reescreva-o como um processo ARIMA(1,1,0). 17. Obtenha a fun c ao de autocorrela c ao do passeio aleat orio Xt = Xt1 + t com 2 e Cov ( , ) = 0, t = s. E (t ) = , V ar(t ) = t s 18. Verique se o processo {Yt } tal que P (Yt = 1) = P (Yt = 1) = 1/2 e estacion ario. Obtenha sua m edia, vari ancia e covari ancia. 19. Sejam os processos Yt = t + t1 , || > 1 e {Xt } tal que Xt = 1 se Yt 0 e Xt = 1 se Yt < 0. Verique se {Xt } e {Yt } s ao estacion arios. Calcule a fun c ao de autocorrela c ao de {Xt }. 20. Verique que o processo Yt = (1)t t e estacion ario e que Xt = Yt + t n ao e estacion ario. 21. Se {Xt } e {Yt } s ao independentes e estacion arios verique se Zt = Xt + Yt , , R tamb em e estacion ario. 22. Obtenha a representa c ao MA() de um processo AR(2) estacion ario. 23. Obtenha a representa c ao AR() de um processo MA(1) invers vel.

Cap tulo 4

Estima c ao
No cap tulo anterior foram estudados modelos probabil sticos que podem ser utilizados para descrever dados de s eries temporais. Neste cap tulo ser a discutido o problema de ajustar um modelo aos dados observados. A infer encia ser a baseada na fun c ao de autocorrela c ao. Para um processo estacion ario {Xt } (t = 1, . . . , n), a fun c ao de densidade de probabilidade conjunta de X1 , . . . , Xn pode ser sempre fatorada como p(x1 , . . . , xn ) = p(x1 )p(xn , . . . , x2 |x1 )

= p(x1 )p(x2 |x1 )p(xn , . . . , x3 |x2 , x1 ) . . .


n

= p(x1 )
t=2

p(xt |xt1 , . . . , x1 ).

Em particular para um modelo ARMA(p, q ), denotando o vetor de par ametros por 2 ) e destacando-se a densidade conjunta das p primeiras =(1 , . . . , p , 1 , . . . , q , realiza c oes segue que
n

p(x1 , . . . , xn | ) = p(x1 , . . . , xp | ) = p(x1 , . . . , xp | )

t=p+1 n t=p+1

p(xt |xt1 , . . . , x1 , ) p(xt |xt1 , . . . , xp , ). (4.1)

Au ltima igualdade vem da estrutura Markoviana da componente autoregressiva. O segundo termo em (4.1) e a densidade condicional conjunta de xp+1 , . . . , xn dados os valores iniciais x1 , . . . , xp e dene ent ao uma fun c ao de verossimilhan ca condicional enquanto p(x1 , . . . , xn | ) dene a fun c ao de verossimilhan ca exata. Se for atribuida uma distribui c ao de probabilidades conjunta tamb em para ent ao pelo Teorema de Bayes e poss vel obter sua distribui c ao atualizada ap os os dados serem observados (distribui c ao a posteriori), p( |x) = p(x| )p( ) p(x| )p( ). p(x) 35

36

CAP ITULO 4. ESTIMAC AO

4.1

Autocovari ancia e autocorrela c ao

O coeciente de autocovari ancia amostral de ordem k foi denido na Se c ao 2.4 como


nk

ck =
t=1

(xt x)(xt+k x)/n

que e o estimador usual do coeciente de autocovari ancia te orico (k ). As propriedades deste estimador n ao ser ao detalhadas aqui mas podem ser encontradas por exemplo em Priestley (1981). Ap os obter as estimativas de (k ) os coecientes de autocorrela c ao s ao ent ao estimados como rk = ck /c0 , k = 1, 2, . . . . Aqui ser ao consideradas apenas as propriedades de rk quando a amostra vem de um processo puramente aleat orio (propriedades gerais podem ser obtidas em Kendall et al. 1983, Cap tulo 48). Vimos na Se c ao 2.4.1 que o coeciente de autocorrela c ao amostral rk e assintoticamente normalmente distribuido, com m edia e vari ancia dados por E (rk ) 1/n e V ar(rk ) 1/n. e os limites de conan ca aproximados de 95% frequentemente utilizados s ao dados por 1, 96/ n. No caso geral, limites de 100(1-)% podem ser construidos como c ao normal padr ao. q/2 / n sendo q/2 o percentil /2 da distribui

Interpretando o correlograma
No Cap tulo 2 foram vistos alguns exemplos de correlogramas associados a caracter sticas de s eries temporais observadas. O correlograma eu til tamb em na identica c ao do tipo de modelo ARIMA que fornece a melhor representa c ao de uma s erie observada. Um correlograma como o da Figura 2.7 por exemplo, aonde os valores de rk decaem para zero de forma relativamente lenta, indica n ao estacionariedade e a s erie precisa ser diferenciada. Para s eries estacion arias o correlograma e comparado com as autocorrela c oes te oricas de v arios processos ARMA para auxiliar na identica c ao daquele mais apropriado. Por exemplo, se r1 e signicativamente diferente de zero e todos os valores subsequentes r2 , r3 , . . . s ao pr oximos de zero ent ao um modelo MA(1) e indicado j a que sua fun c ao de autocorrel c ao te orica se comporta assim. Por outro lado, se r1 , r2 , r3 , . . . parecem estar decaindo exponencialmente ent ao um modelo AR(1) pode ser apropriado. Vale notar entretando que a interpreta c ao de correlogramas e um dos aspectos mais dif ceis da an alise de s eries temporais. A fun c ao de autocorrela c ao parcial e um importante coadjuvante nesta etapa de identica c ao se houver termos autoregressivos no modelo j a que seus valores estimados tendem a car pr oximos de zero ap os a defasagem p. Vimos no Cap tulo 3 que para um processo ARMA(p, q ) estacion ario a fun c ao de autocorrela c ao te orica ter a um decaimento exponencial ou oscilat orio ap os a defasagem q enquanto que a fun c ao de autocorrela c ao parcial te orica ter a o mesmo comportamento ap os a defasagem p. Mas na pr atica esta distin c ao entre decaimentos

4.2. AJUSTANDO PROCESSOS AUTOREGRESSIVOS

37

exponenciais e oscilat orios atrav es das estimativas destas fun c oes pode ser bastante dif cil.

4.2

Ajustando Processos Autoregressivos

Para um processo AR de ordem p com m edia dado por Xt = 1 (Xt1 ) + + p (Xtp ) + t , e dadas n observa c oes x1 , . . . , xn , os par ametros , 1 , , . . . , p podem ser estimados pelo m etodo de m nimos quadrados, i.e. minimizando-se a soma de quadrados
n

S=

t=p+1

[(xt ) 1 (xt1 ) p (xtp )]2

com respeito a , 1 , , . . . , p . Note que o somat orio e de t = p + 1 em diante, mas esta pequena perda de informa c ao n ao ser a importante se a s erie n ao for muito curta. Al em disso, se o processo t tiver distribui c ao normal ent ao as estimativas de m nimos quadrado coincidem com as estimativas de m axima verossimilhan ca condicionada nas p primeiras observa c oes. Alternativamente, dois m etodos aproximados podem ser utilizados tomando-se = x. O primeiro ajusta os dados ao modelo Xt x = 1 (Xt1 x) + + p (Xtp x) + t , como se fosse um modelo de regress ao linear m ultipla. No segundo m etodo os coecientes de autocorrela c ao (k ) s ao substituidos pelas suas estimativas rk nas p primeiras equa c oes de Yule-Walker. Ou seja, estamos usando o m etodos dos momentos e por isto os estimadores resultantes s ao assintoticamente equivalentes aos estimadores de m axima verossimilhan ca. Assim, temos um sistema com p equa c oes e p inc ognitas 1 , . . . , p , i.e. r1 = 1 + 2 r1 + + p rp1

r2 = 1 r1 + 2 + + p rp2 . . .

rp = 1 rp1 + 2 rp2 + + p ou equivalentemente, r1 r2 .= . . rp 1 r1 . . . r1 1 . . . ... ... 1 rp1 rp2 2 . . . . . . 1 p

r p 1 r p 2 . . .

Exemplo 4.1 : Usando os comandos do R abaixo vamos simular um processo AR(3) e usar as equa c oes de Yule-Walker para estimar os coecientes.

38 > > > > > > >

CAP ITULO 4. ESTIMAC AO x = arima.sim(n = 200, model = list(ar = c(0.6, -0.7, 0.2))) r = acf(x, plot = FALSE)$acf[2:4] R = diag(3) R[1, 2] = R[2, 1] = r[1] R[1, 3] = R[3, 1] = r[2] R[2, 3] = R[3, 2] = r[1] round(solve(R, r), 4) 0.667 -0.738 0.285

[1]

podemos reescrever o modelo na forma matricial como y = X + ,

Para estima c ao por minimos quadrados basta escrever o AR(p) como um modelo linear usual e resolver um sistema de equa c oes lineares. Denindo-se xp+1 xp . . . x1 p+1 1 x2 xp+2 xp1 . . . p+2 2 X= . = . = . y= . . . . . . . . . . . . xn xn1 . . . xnp n p (4.2)

2I sendo E () = 0, V ar() = np e I np a matriz identidade de ordem n p. A solu c ao de m nimos quadrados para os coecientes e obtida minimizando-se e e 1 = (X X ) X y . Usando o valor estimado de na equa dada por c ao do modelo , i.e. calcula-se os res duos como y X p

et = xt

j xtj , t = p + 1, . . . , n
j =1

2 e a estimativa de m nimos quadrados de e dada por

2 =

1 np

e2 t.
t=p+1

Note que os res duos tamb em foram calculados a partir de t = p + 1. Mantendo a representa c ao (4.2) e adicionando a hip otese de normalidade dos erros, 2 i.e. N (0, I np ) obt em-se uma fun c ao de verossimilhan ca aproximada dada por,
2 2 (np)/2 2 L(, ) ( ) exp{ (y X) (y X)/2}. 2 coincidem com os estimadores de m nimos quadrados, Neste caso, os EMV de e 2 )) log(L(, 2 (y X) (y X) 2 2 (2 X y + X X) = 2 2 (2X y + 2X X). = 2

4.2. AJUSTANDO PROCESSOS AUTOREGRESSIVOS


2 )) log(L(, = 0 = (X X )1 X y . = 2 ) (y X ) = n Lembrando que (y X t=p+1 et segue que n 2 , )) log(L( 1 2 2 e2 = (n p) log( ) + t 2 2 2 t=p+1 n 1 2 4 e2 (n p) = t 2 t=p+1 2 )) , log(L( 2 2 = 2

39

2 = = 0

1 np

e2 t.
t=p+1

Exemplo 4.2 : Para um modelo AR(1) com erros normais a matriz X tem somente uma coluna e n ao e dif cil vericar que
n n

XX=
t=2

x2 t1

e Xy=
t=2

xt xt1 .

Portanto, o EMV condicional e dado por =


n t=2 xt xt1 n 2 t=2 xt1

2 = e

1 n1

n t=2

(xt xt1 )2 .

Exemplo 4.3 : Novamente para o modelo AR(1) com erros normais o EMV incondicional e obtido maximizando-se da fun c ao de verossimilhan ca exata. A express ao (4.1) com p = 1 ca
n 2 p(x1 , . . . , xn |, )

2 p(x1 |, )

t=2

2 p(xt |xt1 , , ).

2 /(1 2 ) e razo Lembrando que E (Xt ) = 0 e V ar(Xt ) = avel assumir que X1 2 2 N (0, /(1 )). Segue ent ao que 2 L(, ) 2 1 2 1/2

exp

1 2 2 x1 2 2
n t=2

2 (n1)/2 ( ) exp

1 2 2

(xt xt1 )2
n

(1 )

2 1/2

2 n/2 ( ) exp

1 2 2

(1

)x2 1

+
t=2

(xt xt1 )2

Maximizar esta express ao (ou seu logaritmo) em rela c ao a requer algum algoritmo de otimiza c ao num erica (por exemplo m etodos de Newton-Raphson). No R podemos usar a fun c ao optim como no Exemplo 4.4.

40

CAP ITULO 4. ESTIMAC AO

Exemplo 4.4 : Foram gerados 200 valores de um processo AR(1) com par ametros 2 = 0, 8 e = 1. Os comandos abaixo podem ser usados para obter as estimativas de m axima verossimilhan ca (incondicional). Note que estamos maximizando o logaritmo da verossimilhan ca e vericando a condi c ao de estacionariedade. > fun = function(theta, x) { + s2 = theta[1] + alpha = theta[2] + if (abs(alpha) >= 1) + return(-Inf) + n = length(x) + e = x[2:n] - alpha * x[1:(n - 1)] + Q = (1 - alpha^2) * x[1]^2 + sum(e^2) + return(-0.5 * (n * log(s2) - log(1 - alpha^2) + Q/s2)) + } > > > + > x = arima.sim(n = 200, model = list(ar = 0.8)) init = c(1, 0.5) out = optim(init, fn = fun, method = "BFGS", control = list(fnscale = -1), hessian = T, x = x) out$par

[1] 1.0196215 0.7290768 Como o custo computacional de estimar modelos AR n ao e t ao grande uma abordagem alternativa para determina c ao de p consiste em estimar modelos de ordem progressivamente mais alta e calcular a soma de quadrados residual para cada valor de p. Pode ser poss vel encontrar o valor de p para o qual a inclus ao de termos extras n ao melhora sensivelmente o ajuste. Como vimos na Se c ao 3.4.4 este procedimento d a origem ` a fun c ao de autocorrela c ao parcial. Suponha agora que vamos atribuir uma distribui c ao de probabilidades para o vetor 2 de par ametros = (1 , . . . , p , ). Pelo Teorema de Bayes e usando a verossimilhan ca condicional segue que
2 (np)/2 2 p(|x) p( ) ( ) exp{ (y X) (y X)/2}.

Para representar a informa c ao a priori sobre pode-se fazer por exemplo, p( ) = 2 I ) ou p( ) = p()p( 2 ) com N (0, I ). Nos 2 2 2 p(| )p( ) com | N (0, p p 2 2 c ao Gama Inversa, i.e. dois casos comumente assume-se que tem distribui 2 GI (a, b) (ver Ap endice A), ou equivalentemente Gama(a, b). Exemplo 4.5 : No modelo AR(1) com erros normais vamos atribuir as seguintes 2 GI (1, 1). Portanto, distribui c oes a priori, N (0, 1) e p() exp(2 /2)
2 2 2 2 e p( ) ( ) exp(1/ )

4.3. AJUSTANDO PROCESSOS MEDIAS MOVEIS

41

e os comandos abaixo podem ser usados para obter a moda da distribui c ao a posteriori 2 conjunta de e . > + + + + > > + > prior = function(theta) { s2 = theta[1] alpha = theta[2] return(-alpha^2/2 - 1/s2 - 2 * log(s2)) } post = function(theta, x) fun(theta, x) + prior(theta) out = optim(init, fn = post, method = "BFGS", control = list(fnscale = -1), hessian = T, x = x) out$par

[1] 1.0094652 0.7273912 Note que as estimativas pontuais nos Exemplos 4.4 e 4.5 s ao bastante similares. Nenhuma restri c ao de estacionariedade foi imposta na distribui c ao a priori, mas e poss vel fazer uma otimiza c ao restrita ou mesmo impor esta restri c ao a priori. No caso do AR(1) poderiamos atribuir uma distribui c ao normal truncada ou uma distribui c ao uniforme em (-1,1) para o par ametro .

4.3

Ajustando Processos M edias M oveis

O problema de estima c ao dos par ametros em modelos MA e bem mais complicado do que em modelos AR. Os erros t s ao agora fun c oes n ao lineares complicadas dos par ametros 1 , . . . , q e express oes anal ticas para os estimadores n ao podem ser obtidas. Assim, m etodos computacionais iterativos precisam ser utilizados para minimizar a soma de quadrados residual. Dado um modelo MA(q ) Xt = + t + 1 t1 + + q tq e uma s erie observada x1 , . . . , xn o procedimento iterativo consiste basicamente em xar os valores de , 1 , . . . , q e calcular os res duos et = xt 1 t1 q tq sequencialmente para t = 1, . . . , n assumindo que 0 = 1 = = q+1 = 0 e substituindo t1 , . . . , tq pelos residuos calculados. Assim, e1 = x1

e2 = x2 1 e1 = x2 1 x1 + 1 e3 = x3 1 e2 2 e1 . . .

42

CAP ITULO 4. ESTIMAC AO

Dados estes res duos pode-se calcular a soma de quadrados residual S (, ) = n 2 t=1 et . Repetindo este procedimento para , 1 , . . . , q variando em uma grade de pontos pode-se escolher os valores que minimizam a soma de quadrados. Este procedimento requer o uso de algoritmos ecientes de otimiza c ao num erica e nada garante a sua converg encia para um m nimo global. Al em das estimativas pontuais, se o processo {t } tem distribui c ao normal ent ao Box & Jenkins (1970), p. 228 descrevem regi oes de conan ca para os par ametros do 2 ) a fun modelo. Neste caso, se t N (0, c ao de verossimilhan ca ca,
n 2 ) L(, ,

=
t=1

2 1/2 (2 ) exp

1 2 e 2 t 2
n

2 n/2 ( ) exp

1 2 2

e2 t
t=1

2) e os valores de et s ao calculados como anteriormente. Portanto L(, , e uma fun c ao n ao linear dos par ametros. Em termos pr aticos, se o procedimento de otimiza c ao utilizado levar muitas itera c oes para convergir ou mesmo n ao convergir deve-se desconar das estimativas. Neste caso as estimativas podem ser inst aveis no sentido de que adicionando-se ou removendo-se uma ou duas observa c oes pode-se obter valores muito diferentes. Nesta situa c ao pode ser computacionalmente mais vantajoso ajustar um modelo AR aos dados mesmo que o modelo resultante tenha mais par ametros do que o modelo MA sugerido pela fun c ao de autocorrela c ao.

4.4

Ajustando Processos ARMA

Os problemas de estima c ao para modelos ARMA s ao similares aqueles para modelos MA no sentido de que um procedimento iterativo precisa ser utilizado. Isto ocorre porque os erros {t } s ao fun c oes n ao lineares complicadas de todos os coecientes 1 , . . . , p , 1 , . . . , q . Portanto os mesmos coment arios da se c ao anterior s ao v alidos para procedimentos que levam muitas itera c oes para convergir, i.e deve-se desconar das estimativas. Os residuos s ao calculados de forma an aloga ao modelo MA (ver Exerc cio 14). Outra diculdade, espec ca de modelos ARMA, e o problema de cancelamento de ra zes. Por exemplo considere o modelo ARMA(2,1) Xt = 2Xt1 2 Xt2 t1 + t que pode ser reescrito em termos do operador de retardo como (1 B )2 Xt = (1 B )t . Note como = implica em um modelo AR(1) Xt = Xt1 + t , ou seja ambos os modelos implicam exatamento no mesmo comportamento para a s erie temporal Xt .

4.5. MODELOS SAZONAIS

43

Este e um problema de identica c ao que ca ainda mais complicado em modelos de ordem mais alta. Em termos pr aticos e dif cil identicar o problema de cancelamento de ra zes a n ao ser, como j a foi dito, que o procedimento iterativo dever a ter converg encia lenta. No caso particular de um modelo ARMA(1,1) deve-se desconar quando as estimativas de e s ao muito similares. Para outros valores de p e q a u nica sugest ao para tentar minimizar o problema e n ao incluir muitos par ametros no modelo. Exemplo 4.6 : Vamos simular um processo ARMA(1,1) com ra zes similares e vericar o problema de cancelamento de ra zes. > x = arima.sim(n = 100, list(ar = 0.7, ma = -0.75)) > arima(x, order = c(1, 0, 1), include.mean = F) Call: arima(x = x, order = c(1, 0, 1), include.mean = F) Coefficients: ar1 ma1 0.7421 -0.7885 s.e. 0.3094 0.2825 sigma^2 estimated as 1.034: log likelihood = -143.57, aic = 293.13

Note como as estimativas dos coecientes est ao muito diferentes dos valores verdadeiros e os erros padr oes est ao enormes!

4.5

Modelos Sazonais

Muitas s eries temporais cont em uma componente peri odica sazonal que se repete a cada s observa c oes (s > 1). Por exemplo, com dados mensais e s = 12 tipicamente espera-se que Xt dependa de Xt12 e talvez de Xt24 al em de Xt1 , Xt2 , . . . . Neste caso, tomar a primeira diferen ca xt xt1 n ao e suciente para tornar a s erie (aproximadamente) estacion aria. A forma apropriada de diferenciar dados com padr ao sazonal acentuado e tomar diferen cas no per odo sazonal. Por exemplo, para dados mensais a primeira diferen ca sazonal e 12 xt = (1 B 12 )xt = xt xt12 e ter a variabilidade menor do que a primeira diferen ca n ao sazonal xt = xt xt1 , sendo portanto mais f acil de identicar e estimar. Em geral, uma diferen ca sazonal e denotada por s onde s e o per odo sazonal. D A D- esima diferen ca sazonal e ent ao denotada por s . Combinando-se os dois tipos ca de diferencia c ao obtem-se o operador d D s . Por exemplo, tomando-se 1 diferen simples e 1 sazonal em uma s erie mensal tem-se que 12 xt = xt xt1 xt12 + xt13

44

CAP ITULO 4. ESTIMAC AO

Box & Jenkins (1970) generalizaram o modelo ARIMA para lidar com sazonalidade e deniram um modelo ARIMA sazonal multiplicativo, denominado SARIMA, dado por (B )(B s )Wt = (B )(B s )t (4.3) onde (B ) = (1 1 B p B p ) Wt = d D s Xt

(B s ) = (1 s B s P B P s ) (B ) = (1 + 1 B + + q B q )

(B s ) = (1 + s B s + + Q B Qs ). Este modelo e chamado SARIMA multiplicativo de ordem (p, d, q )(P, D, Q)s e parece extremamente complicado ` a primeira vista mas na pr atica os valores de d e D em geral n ao ser ao maiores do que 1 e um n umero pequeno de coecientes ser a suciente. Por exemplo, com P = 1 temos que (B s ) = (1 s B s ) o que signica simplesmente que Wt depende de Wts . A s erie Wt e formada a partir da s erie original tomando-se diferen cas simples para remover a tend encia e diferen cas sazonais para remover a sazonalidade. Para xar id eias considere o modelo SARIMA(1,0,0) (0, 1, 1)12 para dados mensais. Ou seja temos um termo autoregressivo e um termo m edia m ovel sazonal modelando a primeira diferen ca sazonal. O modelo pode ser escrito como (1 B )(1 B 12 )Xt = (1 B 12 )t e desenvolvendo os produtos obtemos que Xt = Xt12 + (Xt1 Xt13 ) + t + t12 . Assim, Xt depende de Xt1 , Xt12 e Xt13 al em do erro no tempo t 12. Para nalizar, ao ajustar um modelo sazonal aos dados a primeira tarefa e especicar os valores de d e D que tornam a s erie (aproximadamente) estacion aria e remove a maior parte da sazonalidade. Como j a foi dito, estes valores raramente ser ao maiores do que 1. Posteriormente os valores de p, P , q e Q devem ser especicados com base nas fun c oes de autocorrela c ao e autocorrela c ao parcial da s erie diferenciada. Os valores de P e Q s ao especicados basicamente a partir de rk , k = s, 2s, . . . . Por exemplo, para dados mensais se r12 e grande mas r24 e pequeno isto sugere que um termo m edia m ovel sazonal pode ser adequado. Ap os ter identicado, por tentativa, o que parece ser um modelo SARIMA razo avel os par ametros ser ao estimados por algum procedimento iterativo similar ` aqueles propostos para modelos ARMA. Detalhes sobre as rotinas de estima c ao destes modelos n ao ser ao abordados aqui e podem ser obtidos em Box & Jenkins (1970).

DO MODELO 4.6. ADEQUAC AO

45

4.6

Adequa c ao do Modelo
Todos os modelos s ao errados mas alguns s ao u teis (George Box)

Ap os identicar a ordem e estimar ecientemente os par ametros de um modelo e necess ario vericar sua adequa c ao antes de utiliz a-lo por exemplo para fazer previs oes. Pode-se fazer testes de sobreajustamento, que consistem em incluir par ametros extras no modelo e vericar sua signic ancia estat stica. No caso de modelos ARMA deve-se incluir um par ametro de cada vez para evitar o problema de cancelamento de ra zes mencionado na Se c ao 4.4.

4.6.1

An alise dos Res duos

Ap os um modelo ter sido ajustado a uma s erie temporal deve-se vericar se ele fornece uma descri c ao adequada dos dados. Assim como em outros modelos estat sticos a id eia e vericar o comportamento dos res duos onde residuo = observa c ao - valor ajustado. Para os modelos vistos aqui o valor ajustado e a previs ao 1 passo a frente de modo que o res duo ca denido como o erro de previs ao 1 passo a frente. Por exemplo, em um modelo AR(1) se e a estimativa do coeciente autoregressivo ent ao o valor ajustado no tempo t e xt1 e o res duo correspondente e et = xt xt1 . Se o modelo tiver um bom ajuste espera-se que os res duos se distribuam aleatoriamente em torno de zero com vari ancia aproximadamente constante e sejam n ao correlacionados. Se a vari ancia dos res duos for crescente uma transforma c ao logar tmica nos dados pode ser apropriada. O fen omeno de n ao const ancia na vari ancia e denominado de volatilidade na literatura de s eries temporais e pode ser tratado atrav es de transforma c oes nos dados (e.g. transforma c oes de Box-Cox)1 . Al em disso, em modelos de s eries temporais os res duos est ao ordenados no tempo particularmente e e portanto natural trat a-los tamb em como uma s erie temporal. E importante que os res duos de um modelo estimado sejam serialmente (i.e. ao longo do tempo) n ao correlacionados. Evid encia de correla c ao serial nos res duos e uma indica c ao de que uma ou mais caracter sticas da s erie n ao foi adequadamente descrita pelo modelo. Consequentemente, duas maneiras obvias de vericar a adequa c ao do modelo consistem em representar gracamente os res duos e o seu correlograma. O gr aco temporal poder a revelar a presen ca de dados discrepantes, efeitos de autocorrela c ao ou padr oes c clicos enquanto que o correlograma permite uma an alise mais detalhada da estrutura de autocorrela c ao indicando poss veis termos faltantes no modelo. Ou seja, assim como em outros modelos estat sticos, a id eia e que os res duos poder ao identicar caracter sticas que n ao foram adequadamente modeladas. Por exemplo, autocorrela c oes residuais signicativas nas defasagens 1 ou 2, ou em defasagens
Uma tend encia mais recente no entanto consiste em tentar modelar simultaneamente a m edia e a vari ancia ao inv es de usar transforma c oes.
1

46

CAP ITULO 4. ESTIMAC AO

sazonais (e.g. 12 para dados mensais) s ao uma indica c ao de que mais termos m edias m oveis devem ser incluidos no modelo. Por outro lado, um valor de rk ligeiramente fora dos limites de conan ca em defasagens sem signicado obvio (e.g. k =5) n ao e indica c ao suciente para se rejeitar o modelo. O mesmo coment ario vale para as autocorrela c oes parciais dos res duos no que diz respeito ` a inclus ao de termos autoregressivos (sazonais e n ao sazonais).

4.6.2

Testes sobre os res duos

Ao inv es de olhar para as autocorrela c oes residuais individualmente pode-se testar se um grupo de autocorrela c oes e signicativamente diferente de zero atrav es das chamadas estat sticas Q. Para modelos ARMA Box & Jenkins (1970) sugeriram o uso do teste de Box-Pierce para as hip oteses H0 : (1) = = (m) = 0 sendo a estat stica de teste dada por
m

H1 : (k ) = 0, para algum k {1, . . . , m}.

Q=n
k=1

2 rk .

Na pr atica o n umero m de autocorrela c oes amostrais e tipicamente escolhido entre 15 e 30. Se o modelo ajustado for apropriado ent ao Q ter a distribui c ao aproximadamente qui-quadrado com m p q graus de liberdade. Assim, valores grandes de Q fornecem indica c ao contra a hip otese de que as autocorrela c oes s ao todas nulas, em favor da hip otese de que ao menos uma delas e diferente de zero. O teste de Box-Pierce n ao tem bom desempenho em amostras pequenas ou moderadas no sentido de que a distribui c ao se afasta da qui-quadrado. V arios testes alternativos foram sugeridos na literatura e o mais conhecido e o teste de Ljung-Box, aonde a estat stica de teste e dada por
m

Q = n(n + 2)
k=1

2 rk . nk

Sua distribui c ao amostral tamb em e aproximadamente m p q graus de liberdade.

qui-quadrado

com

Exemplo 4.7 : Considere novamente a s erie com os totais mensais de passageiros em linhas a ereas internacionais nos EUA entre 1949 e 1960 que aparece na Figura ??. Existe uma clara tend encia de crescimento bem como um padr ao sazonal ao longo dos anos. Foi feita uma transforma c ao logaritmica nos dados (esta transforma c ao e sugerida na literatura). Fa ca os gr acos da FAC amostral da s erie original, 1a diferen ca e 1a diferen ca sazonal. Os comandos abaixo podem ser utilizados e obt emse os gr acos da Figura 4.1.

DO MODELO 4.6. ADEQUAC AO > y = log(AirPassengers) > z = cbind(y, diff(y), diff(y, lag = 12)) > yl = c("No de passageiros", "Variacao mensal", "Variacao anual") > par(mfrow = c(3, 2)) > for (i in 1:3) { + plot(z[, i], main = "", xlab = "Anos", ylab = yl[i]) + m = acf(z[, i], lag.max = 36, plot = F, na.action = na.pass) + m$lag = m$lag * 12 + plot(m, main = "", xlab = "defasagem", ylab = "FAC") + }

47

No de passageiros

5.0

FAC 1950 1954 Anos 1958

0.2 0

0.4 0.8

6.0

10

15

20

25

30

35

defasagem

Variacao mensal

0.2

FAC 1950 1954 Anos 1958

0.0

0.2

0.2 0

0.4

1.0

10

15

20

25

30

35

defasagem

Variacao anual

0.2

FAC 1950 1954 Anos 1958

0.0

0.2 0

0.4

1.0

10

15

20

25

30

35

defasagem

Figura 4.1: Os gr acos anteriores indicam que precisamos tomar 1 diferen ca simples mais 1 diferen ca sazonal para tentar induzir estacionariedade aproximada. > z = diff(diff(y), lag = 12) > m = acf(z, lag.max = 36, plot = F) > m$lag = m$lag * 12 Note que h a valores grandes nas defasagens 1, 3, 12 e 23 do u ltimo gr aco. Isto pode ser uma indica c ao de que termos MA sazonais e n ao sazonais devem ser incluidos

48

CAP ITULO 4. ESTIMAC AO

> par(mfrow = c(2, 1)) > plot(z, main = "", xlab = "Anos", ylab = "") > plot(m, main = "")

0.15 1950

0.00

0.15

1952

1954

1956 Anos

1958

1960

ACF

0.4 0

0.2

0.8

10

15 Lag

20

25

30

35

Figura 4.2: Gr aco da s erie com 1 diferen ca simples e 1 sazonal mais o correlograma da s erie diferenciada. no modelo. Um modelo candidato para o logaritmo da s erie e SARIMA(0,1,1)x(0,1,1) e foi estimado usando os comandos abaixo. > m = arima(y, order = c(0, 1, 1), seasonal = list(order = c(0, + 1, 1))) > m Call: arima(x = y, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1))) Coefficients: ma1 -0.4018 s.e. 0.0896

sma1 -0.5569 0.0731

DO MODELO 4.6. ADEQUAC AO sigma^2 estimated as 0.001348: log likelihood = 244.7,

49 aic = -483.4

Como primeira verica c ao da adequa c ao do modelo vamos usar a fun c ao tsdiag() que retorna os gr acos dos residuos padronizados, o correlograma e os p-valores do teste de Ljung-Box para autocorrela c oes de ordem 1, 2, . . . . O resultado est a na Figura 4.3. > tsdiag(m)
Standardized Residuals
3 3 1 1

1950

1952

1954 Time

1956

1958

1960

ACF of Residuals
0.4 0.8 0.2 0.0

ACF

0.5 Lag

1.0

1.5

p values for LjungBox statistic


0.8 0.0 0.4

p value

4 lag

10

Figura 4.3: Residuos padronizados, correlograma dos residuos e p-valores do teste de Ljung-Box para autocorrela c oes. Compare estes p-valores com o resultado da fun c ao Box.test() que calcula as estatisticas de Box-Pierce e Ljung-Box para a hip otese nula de independ encia. > for (i in 1:10) { + b = Box.test(m$residuals, i, type = "Ljung-Box")$p.value + print(b) + } [1] 0.8610213 [1] 0.945251 [1] 0.4829255

50 [1] [1] [1] [1] [1] [1] [1] 0.3663101 0.4320234 0.4883209 0.539204 0.6328112 0.5096084 0.5502513

CAP ITULO 4. ESTIMAC AO

Testando a Normalidade dos Res duos


Para uma vari avel aleat oria X tal que E (X ) = e V ar(X ) = 2 dene-se os coecientes de assimetria e curtose como, A(X ) = E (X )3 3 e K (X ) = E (X )4 4

respectivamente. A distribui c ao normal tem assimetria 0 e curtose igual a 3. Substituindo os momentos te oricos de X pelos seus equivalente amostrais mj = 1 n
n t=1

(Xt X )j

os estimadores da assimetria e curtose s ao dados por = m3 A m3 2 e = m4 K m2 2

e respectivamente. Sob a hip otese de normalidade as vari aveis aleat orias n/6A 3) s n/24(K ao independentes e t em distribui c ao assint otica N (0, 1) e assim a estat stica 3)2 2 n(K nA + 6 24 tem distribui c ao assint otica 2 com 2 graus de liberdade e pode ser usada para testar a normalidade de X . As outras verica c oes usuais sobre os residuos tamb em devem ser feitas. Por exemplo, um histograma com curva normal superposta, o gr aco de probabilidades normais e um teste de normalidade. Os comandos abaixo podem ser utilizados no R para testar os residuos do Exemplo 4.7 e gerar a Figura 4.7. > z = m$residuals > d = seq(range(z)[1] - 3 * sd(z), range(z)[2] + 3 * sd(z), 0.001) > a = shapiro.test(z)

DO MODELO 4.6. ADEQUAC AO

51

> > > > > > >

par(mfrow = c(2, 1)) hist(z, freq = F) lines(d, dnorm(d, 0, sd(z))) qqnorm(z) qqline(z) text(-1.5, 0.05, "Teste de Shapiro-Wilk") text(-2, 0.01, paste("p-valor=", round(a$p.value, 4)))

Histogram of z
12 Density 0 4 8

0.10

0.05

0.00 z

0.05

0.10

Normal QQ Plot
Sample Quantiles 0.05 0.10

Teste de ShapiroWilk pvalor= 0.1674

Theoretical Quantiles

Figura 4.4: Histograma com curva normal superposta e normal plot dos residuos no Exemplo 7.

52

CAP ITULO 4. ESTIMAC AO

Exerc cios
1. A partir de 100 observa c oes do processo Xt = 1 Xt1 + 2 Xt2 + t foram calculadas as seguintes autocorrela c oes amostrais r1 = 0.8, r2 = 0.5 e r3 = 0.4. Obtenha estimativas para 1 e 2 . 2. Calcule as autocorrela c oes te oricas de um processo MA(Q) puramente sazonal. 3. Fa ca um esbo co do correlograma para uma s erie com estrutura MA(Q) puramente sazonal, i.e. n ao existe depend encia dentro de um per odo sazonal. 4. Para uma s erie temporal observada foi identicado o modelo ARIMA(1,1,1). (a) Escreva o modelo em termos do operador de retardo. (b) Descreva como deve ter sido o comportamento das fun c oes de autocorrela c ao e autocorrela c ao parcial da s erie original e da s erie diferenciada. 5. Escreva o modelo SARIMA(0, 0, 1) (1, 1, 0)12 em termos de operador de retardo. 6. Para uma s erie mensal observada foi identicado e estimado o modelo SARIMA(1,1,0)(0,1,0). (a) Escreva o modelo em termos de operador de retardo. (b) Descreva como deve ter sido o comportamento das fun c oes de autocorrela c ao e autocorrela c ao parcial da s erie original e da s erie diferenciada. (c) Como deve ser o comportamento esperado dos res duos em termos de suas autocorrela c oes para que o modelo seja adequado? (d) O que se deve fazer no caso de autocorrela c oes residuais signicativas nas defasagens 1, 8 e 12 ? 7. Para uma s erie observada trimestralmente foi identicado e estimado o modelo SARIMA(1,1,0)(2,1,1). (a) Escreva o modelo em termos de operador de retardo. (b) Descreva como deve ter sido o comportamento das fun c oes de autocorrela c ao e autocorrela c ao parcial da s erie original e da s erie diferenciada. (c) O que se deve fazer se a autocorrela c ao residual na defasagem 4 for signicativa ? 8. Explique como voc e estimaria os coecientes em um modelo ARMA(1,1) utilizando as duas primeiras autocorrela c oes amostrais? 9. Obtenha os estimadores de m nimos quadrados para os coecientes em um modelo AR(2). 10. Escreva as equa c oes de m nimos quadrados para o modelo AR(p). Como voc e estima a vari ancia dos erros?

DO MODELO 4.6. ADEQUAC AO

53

11. Em que condi c oes as estimativas de m nimos quadrados de um modelo AR(p) coincidir ao com as de m axima verossimilhan ca? 12. Seja o modelo AR(1) com erros normais. (a) Obtenha os EMV usando a verossimilhan ca condicional. (b) Obtenha os EMV usando a verossimilhan ca exata com
2 X1 N (0, /(1 2 )).

13. Usando as notas de aula e qualquer outra refer encia bibliogr aca fa ca um resumo da an alise de res duos em s eries temporais. 14. Explique como podem ser calculados os res duos em um modelo ARMA(p,q ).

Cap tulo 5

Previs ao
Uma das formas de utiliza c ao de um modelo ajustado e para fazer previs oes de valores futuros. Assim, se t e o per odo corrente estamos interessados em prever os valores de Xt+1 , Xt+2 , . . . . A previs ao de Xt+k , para k = 1, 2, . . . ser a denotada por x t (k ) e e denida como a esperan ca condicional de Xt+k dados todos os valores passados, i.e. x t (k ) = E (Xt+k |xt , xt1 , . . . ). (5.1)

A equa c ao acima e chamada de fun ca o de previs ao e o inteiro k e chamado de horizonte de previs ao. Pode-se mostrar que esta previs ao tem o menor erro quadr atico m edio 2 (EQM), E (Xt+k x t (k )) . Na pr atica temos um n umero nito de observa c oes e obtemos ent ao que x t (k ) = E (Xt+k |xt , . . . , x1 ) que n ao tem o EQM m nimo mas pode ser visto como uma aproxima c ao de (5.1). Note que se temos uma s erie temporal observada x1 , . . . , xn as previs oes podem ser feitas dentro do per odo amostral e comparadas com os valores observados. Esta e uma pr atica bastante comum para checar a performance preditiva do modelo. A diferen ca entre os valores previsto e observado, x t (k ) xt+k , e chamada de erro de previs ao k passos a ` frente e ser a denotado por et+k .

5.1

M etodos Univariados de Previs ao

Os m etodos descritos nesta se c ao t em um forte apelo intuitivo, decompondo uma s erie temporal em componentes de f acil interpreta c ao. Dados os recursos computacionais dispon veis atualmente eles tamb em t em a vantagem de serem extremamente simples de programar e sua utiliza c ao ter um custo computacional muito pequeno. Vamos come car com o caso mais simples, adequado para s eries localmente constantes.

5.1.1

Alisamento Exponencial Simples

Dada uma s erie temporal x1 , . . . , xn , n ao sazonal e sem tend encia sistem atica, e razo avel tomar a estimativa de xn+1 como uma soma ponderada das observa c oes passadas, i.e. x n (1) = a0 xn + a1 xn1 + . . . 54

5.1. METODOS UNIVARIADOS DE PREVISAO

55

onde {aj } s ao os pesos. Parece razo avel tamb em dar um peso maior ` as observa c oes mais recentes do que ` as observa c oes mais distantes no passado, i.e. a0 > a1 > . . . . Neste procedimento s ao adotados pesos que decaem geometricamente a uma taxa constante dados por aj = (1 )j , j = 0, 1, . . . onde 0 < < 1 e chamada de constante de alisamento. Assim, a previs ao 1 passo ` a frente em t = n ca x n (1) = xn + (1 )xn1 + (1 )2 xn2 + . . . . (5.2)

Naturalmente que na pr atica haver a um n umero nito de observa c oes passadas e a soma acima ser a tamb em nita. A id eia de que o conte udo informativo de uma observa c ao decai com a sua idade e bastante intuitivo e o par ametro est a controlando o grau de envelhecimento deste conte udo. A equa c ao (5.2) costuma ser reescrita em forma de equa c ao recursiva. Colocandose (1 ) em evid encia obt em-se que x n (1) = xn + (1 )[xn1 + (1 )xn2 + (1 )2 xn3 + . . . ] = xn + (1 ) xn1 (1) (5.3)

i.e. uma m edia ponderada entre a observa c ao mais recente e a previs ao 1 passo ` a frente anterior (no tempo t = n 1). A equa c ao (5.2) pode ainda ser reescrita na forma de corre ca o de erro. Denindo en = xn x n1 (1) o erro de previs ao 1 passo ` a frente no tempo n ent ao x n (1) = x n1 (1) + en . Ou seja, a previs ao para t = n + 1 e igual ` a previs ao para t = n que foi feita em t = n 1 mais uma propor c ao do erro cometido. A previs ao k -passos a frente e a mesma, i.e x n (k ) = x n (1), k = 2, 3, . . . .

Previs oes Dentro da Amostra


Usando x 0 (1) = x1 como previs ao inicial em t = 0 e denindo et = xt x t1 (1) os erros de previs ao 1 passo ` a frente, a equa c ao (5.3) pode ser usada recursivamente para obter as previs oes, i.e. x t (1) = xt + (1 ) xt1 (1), Na forma de corre c ao de erro as recurs oes cam x t (1) = x t1 (1) + et , t = 1, 2, . . . t = 1, 2, . . .

Especica c ao de
Vale notar que o valor de n ao depende da escala em que as observa c oes foram medidas, mas sim das propriedades da s erie temporal. O valor de deve ser especicado de modo a reetir a inu encia das observa c oes passadas nas previs oes. Valores pequenos

56

CAP ITULO 5. PREVISAO

produzem previs oes que dependem de muitas observa c oes passadas. Por outro lado, valores pr oximos de 1 levam a previs oes que dependem das observa c oes mais recentes e no caso extremo = 1 a previs ao e simplesmente a u ltima observa c ao. O valor de tamb em pode ser estimado a partir dos dados e o crit erio utilizado e a minimiza c ao da soma de quadrados dos erros de previs ao. Ou seja, dado um valor xo de e usando a equa c ao (5.3), calcule x 0 (1) = x1 , x 2 (1) = x2 + (1 ) x1 (1), . . . x 1 (1) = x1 + (1 ) x0 (1), e3 = x3 x 2 (1) e2 = x2 x 1 (1)

x n1 (1) = xn1 + (1 ) xn2 (1),

en = xn x n1 (1)

n 2 e calcule t=2 et . Repita o procedimento para valores de variando entre 0 e 1 (digamos com incrementos de 0,1) e selecione o valor que minimiza esta soma de quadrados. Na pr atica, o valor m nimo pode ocorrer muito pr oximo de um dos extremos do intervalo de varia c ao de . Isto pode ocorrer quando a soma de quadrados varia muito pouco na regi ao em torno do m nimo. Neste caso faz mais sentido utilizar valores n ao t ao extremos.

Exemplo 5.1 : No banco de dados do R, a s erie lh cont em as quantidades de um tipo de horm onio em amostras de sangue coletadas a cada 10 minutos de uma pessoa do sexo feminino (Diggle 1990). Vamos aplicar o m etodo de alisamento exponencial simples ` a esta s erie fazendo primeiro a sele c ao do valor de que minimiza a soma dos quadrados dos erros de previs ao 1 passo a frente. Na Figura 5.1 temos o gr aco desta soma de quadrados como fun c ao de e o gr aco das previs oes 1 passo ` a frente juntamente com a s erie observada. O valor otimo obtido foi = 0, 945 com a soma de erros quadrados igual a 11,86 e os seguintes comandos do R podem ser utilizados para a sele c ao de .

> AES = function(x, interval) { + e = NULL + for (alfa in interval) { + e2 = 0 + prev = x[1] + for (i in 2:length(x)) { + prev = c(prev, alfa * x[i - 1] + (1 - alfa) * prev[i + 1]) + e2 = e2 + (x[i] - prev[i])^2 + } + e = c(e, e2) + } + plot(interval, e, type = "l", xlab = expression(alpha), ylab = "Soma de quadra + e.min = min(e)

5.1. METODOS UNIVARIADOS DE PREVISAO + + + + + + } alfa = interval[e == e.min] prev = x[1] for (i in 2:length(x)) prev = c(prev, alfa * x[i - 1] + (1 alfa) * prev[i - 1]) return(list(alfa = alfa, sq2 = e.min, prev = prev))

57

> > > >

par(mfrow = c(2, 1)) m = AES(lh, seq(0.1, 0.99, 0.001)) plot(1:48, m$prev, ylab = "Hormonio", xlab = "Amostras", type = "l") points(lh)

Soma de quadrados dos erros

12.0

13.5

0.2

0.4

0.6

0.8

1.0

Hormonio

1.5 0

2.5

3.5

10

20 Amostras

30

40

Figura 5.1: Soma dos quadrados dos erros de previs ao 1 passo a frente em fun c ao de . Valores observados (pontos) e previs oes 1 passo a frente (linhas) usando o valor otimo de .

Exemplo 5.2 : O procedimento do Exemplo 5.1 foi repetido para a s erie de medidas anuais de vaz oes do Rio Nilo entre 1871 e 1970, tamb em do banco de dados do R. Os resultados est ao na Figura 5.2.

58 > > > >

CAP ITULO 5. PREVISAO par(mfrow = c(2, 1)) m = AES(Nile, seq(0.1, 0.99, 0.001)) plot(1:length(Nile), m$prev, ylab = "", xlab = "", type = "l") points(1:length(Nile), Nile)

Soma de quadrados dos erros

2100000

2700000

0.2

0.4

0.6

0.8

1.0

800 0

1000

20

40

60

80

100

Figura 5.2: Soma dos quadrados dos erros de previs ao 1 passo a frente em fun c ao de . Valores observados (pontos) e previs oes 1 passo a frente (linhas) usando o valor otimo de

5.1.2

M etodo de Holt-Winters

O procedimento de alisamento exponencial pode ser generalizado para s eries que contenham tend encia e varia c ao sazonal. Suponha por exemplo que as observa c oes s ao mensais e sejam Lt , Tt e It o n vel, a tend encia e o ndice sazonal no tempo t. Assim, Tt e o aumento ou redu c ao esperada por m es no n vel atual da s erie. Suponha que no tempo t os termos (L1 , T1 , I1 ), . . . , (Lt1 , Tt1 , It1 ) sejam conhecidos. Ent ao, ap os observar xt os termos Lt , Tt e It s ao atualizados via alisamento exponencial. Se a varia c ao sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equa c oes de atualiza c ao na forma de recorr encia s ao

5.1. METODOS UNIVARIADOS DE PREVISAO dadas por Lt = (xt /It12 ) + (1 )(Lt1 + Tt1 ) Tt = (Lt Lt1 ) + (1 )Tt1 It = (xt /Lt ) + (1 )It12

59

e as previs oes k per odos ` a frente s ao dadas por x t (k ) = (Lt + kTt )It12+k , k = 1, 2, . . . .

No caso de sazonalidade aditiva as equa c oes de atualiza c ao para o n vel e o ndice sazonal s ao modicadas para Lt = (xt It12 ) + (1 )(Lt1 + Tt1 ) It = (xt Lt ) + (1 )It12 e as previs oes k per odos ` a frente cam x t (k ) = Lt + kTt + It12+k , k = 1, 2, . . . .

Aqui temos par ametros de alisamento, , e , para cada componente da s erie que s ao em geral escolhidos no intervalo (0,1) e podem ser estimados minimizando-se a soma de quadrados dos erros de previs ao como na se c ao anterior. Aqui vale tamb em o coment ario sobre valores pr oximos aos extremos devido ` a soma de quadrados variar pouco nesta regi ao. Al em disso, estes par ametros n ao dependem da escala das observa c oes mas sim das propriedades temporais do n vel, tend encia e sazonalidade da s erie. Valem os mesmos coment arios sobre estes valores reetindo a inu encia das observa c oes passadas nas previs oes de cada componente. Para o caso particular de s eries sem varia c ao sazonal basta utilizar as equa c oes para Lt e Tt acima (sem o ndice It12 ). Ou seja, Lt = xt + (1 )(Lt1 + Tt1 ) Tt = (Lt Lt1 ) + (1 )Tt1 e a previs ao k passos ` a frente no tempo t e simplesmente Lt + kTt . Se a s erie tamb em n ao tem uma tend encia sistem atica retorna-se ` a equa c ao (5.3), ou seja Lt = xt + (1 )Lt1 e Lt e a previs ao 1 passo ` a frente ( xt (1)). Exemplo 5.3 : A vari avel UKLungDeaths cont em os n umeros mensais de mortes por doen cas do pulm ao (bronquite, esema e asma) no Reino Unido entre janeiro de 1974 e dezembro de 1979. A vari avel e composta por 3 s eries: ambos os sexos (ldeaths), sexo feminino (fdeaths) e sexo masculino (mdeaths). Aqui ser a utilizada a fun c ao HoltWinters do R que faz o alisamento exponencial de Holt-Winters com a

60

CAP ITULO 5. PREVISAO

s erie ldeaths. As constantes de alisamento ( , e ) s ao determinadas minimizando a soma dos quadrados dos erro de previs ao 1 passo ` a frente. Considere um modelo sazonal aditivo. O resultado s ao as constantes de alisamento calculadas e as Estimativas nais (em t = n) do nivel, tend encia e componentes sazonais. Pode-se tamb em obter as previs oes e intervalos de previs ao (supondo normalidade) para modelos ajustados pelo m etodo de Holt-Winters. No gr aco da Figura 5.3 temos a s erie original com a s erie suavizada mais as previs oes para os anos de 1980, 1981 e 1982 da s erie ldeaths. > data(UKLungDeaths) > m = HoltWinters(ldeaths, seasonal = "addit") > p = predict(m, n.ahead = 12, prediction.interval = T) > plot(m, p)

HoltWinters filtering
4000 Observed / Fitted 1000 1975 1500 2000 2500 3000 3500

1976

1977

1978 Time

1979

1980

1981

Figura 5.3: S erie original, s erie suavizada e previs oes para o ano de 1980 da s erie ldeaths via
m etodo de Holt-Winters.

5.2

Previs ao em Modelos ARMA

Em modelos ARMA as previs oes podem ser obtidas usando-se diretamente a equa c ao do modelo. Assumindo que a equa c ao do modelo seja conhecida a previs ao x n (k )

EM MODELOS ARMA 5.2. PREVISAO

61

e obtida substituido valores futuros dos erros por zero, valores futuros da s erie Xn+1 , Xn+2 , . . . pela sua esperan ca condicional, e valores passados de X e de pelos seus valores observados. Tomemos como exemplo o modelo SARIMA(1, 0, 0) (0, 1, 1)12 . A equa c ao do modelo e dada por (1 B )(1 B 12 )Xt = (1 + B 12 )t ou equivalentemente Xt = Xt12 + (Xt1 Xt13 ) + t + t12 . Neste caso, as previs oes 1 e 2 passos ` a frente cam x n (1) = xn11 + (xn xn12 ) + n11

x n (2) = xn10 + ( xn (1) xn11 ) + n10 . Note como o valor futuro Xn+1 foi substitu do na segunda equa c ao pela sua esperan ca condicional x n (1), i.e. a previs ao feita em t = n para t = n + 1. Previs oes para horizontes maiores podem ser obtidas recursivamente. No caso de modelos autoregressivos AR(p) n ao e dif cil vericar como ca a fun c ao de previs ao. x t (1) = 1 xt + + p xtp+1

x t (2) = 1 x t (1) + + p xtp+2 . . . x t (p + 1) = 1 x t (p) + + p x t (1) de modo que as previs oes para horizontes maiores do que p usam apenas as previs oes anteriores. Para p = 1 por exemplo segue que x t (k ) = x t (k 1) = 2 x t (k 2) = = k xt Para modelos m edias m oveis MA(q ) tamb em n ao e dif cil vericar que a equa c ao de previs ao ca x t (1) = 1 t + + q tq+1

x t (2) = 2 t + + q tq+2 . . . x t (q ) = q t x t (q + j ) = 0, ou seja, x t (k ) =


q i=k

j = 1, 2, . . .

0,

i t+ki , k = 1, . . . , q k>q

62

CAP ITULO 5. PREVISAO

Atualiza c ao das Previs oes


interessante notar tamb E em como as previs oes podem ser atualizadas conforme novas observa c oes da s erie forem obtidas. Suponha por exemplo que o valor xn+1 foi observado. Neste caso a previs ao para t = n + 2 car a condicionada em x1 , . . . , xn , xn+1 e pode ser facilmente atualizada para a nova origem n + 1. Para o modelo SARIMA visto acima a previs ao ca x n+1 (1) = E (Xn+2 |xn+1 , . . . , x1 )

= xn10 + (xn+1 xn11 ) + n10 .

(5.4)

Somando e subtraindo x n (1) no lado direito de (5.4) obtemos que x n+1 (1) = xn10 + ( xn (1) xn11 ) + (xn+1 x n (1)) + n10 = x n (2) + (xn+1 x n (1)) ou seja, a previs ao atualizada e a previs ao anterior mais uma propor c ao do erro de previs ao 1 passo ` a frente em t = n + 1.

Previs oes usando a forma MA


As previs oes tamb em podem ser obtidas reescrevendo-se o modelo como um processo m edias m oveis de ordem innita. Neste caso temos que Xn+k = n+k + 1 n+k1 + + k n + k+1 n1 + . . . e ca claro que a previs ao k passos ` a frente e dada por x n (k ) = k n + k+1 n1 + . . . . (5.5)

Note que apenas os valores n , n1 , . . . foram utilizados j a que a esperan ca dos valores futuros e igual a zero. Esta forma e particularmente u til para o c alculo da vari ancia do erro de previs ao. Da equa c ao (5.5) obtemos que o erro de previs ao k passos ` a frente e dado por xn+k x n (k ) = n+k + 1 n+k1 + + k1 n+1 e portanto a vari ancia do erro de previs ao e dada por
2 2 2 V ar(et+k ) = (1 + 1 + + k 1 ) . 2 xo, a vari O ponto importante a se notar aqui e que, para ancia do erro de previs ao aumenta com o horizonte de previs ao. Na pr atica, isto signica ter mais conan ca em previs oes de curto prazo do que em previs oes de longo prazo. At e agora n ao haviamos assumido nenhuma distribui c ao de probabilidade para os erros. Assumindo tamb em que a sequ encia {t } seja normalmente distribuida pode-se

EM MODELOS ARMA 5.2. PREVISAO

63

construir intervalos de conan ca para Xt+k sim etricos em torno das previs oes. Estes s ao chamados intervalos de previs ao e s ao dados por
k 1 j =1

x t (k ) z/2

claro que neste caso a hip E otese de normalidade precisa ser checada. Finalmente, vale notar que na pr atica os par ametros do modelo n ao s ao conhecidos de forma exata e precisam ser estimados. Os valores passados dos erros t tamb em precisam ser estimados como erros de previs ao um passo ` a frente. Assim, por exemplo para o modelo SARIMA(1, 0, 0) (0, 1, 1)12 visto acima teremos que x n (1) = xn11 + (xn xn12 ) + n11 onde o erro de previs ao 1 passo ` a frente em n 11 e dado por n11 = xn11 x n12 (1). Al em disso, os intervalos de previs ao obtidos ser ao intervalos aproximados devido a esta substitui c ao. Exemplo 5.4 : A Figura 5.4 mostra uma s erie temporal com os totais mensais de mortes por acidente nos Estados Unidos entre janeiro de 1973 e dezembro de 1978. Suponha que foi identicado o modelo SARIMA(0,1,1)x(0,1,1). Ap os a estima c ao, an alise de res duos e verica c ao da adequa c ao do modelo foram feitas previs oes para o ano de 1979, i.e. previs oes 1, 2, . . . , 12 passos ` a frente. Em julho de 1979 os valores para os primeiros 6 meses daquele ano foram disponibilizados e aparecem na Figura 5.5 juntamente com as previs oes. Note como os valores observados caram dentro dos intervalos de previs ao fornecendo assim indica c ao de que o modelo teve uma boa performance preditiva. Sendo assim, uma estrat egia inicial para o segundo semestre de 1979 consiste em simplesmente atualizar as previs oes. Os comandos do R para este exemplo s ao dados a seguir.

1 +

2 2. j

Transforma c oes
Em muitas aplica c oes a s erie modelada e na verdade uma transforma c ao dos dados originais, sendo a transforma c ao logaritmica a mais usual. Assim, tanto as previs oes pontuais quanto os intervalos de previs ao s ao obtidos para a s erie transformada e estes valores precisam ser transformados novamente para a escala original. A abordagem mais simples (e geralmente adotada) consiste simplesmente em tomar a transforma c ao inversa, por exemplo se um modelo foi ajustado para a s erie Xt = log Yt ent ao y n (k ) = exp( xn (k )) e a previs ao k passos a frente da s erie original. No entanto deve-se ter em mente que estas previs oes via transforma c ao inversa s ao em geral viesadas. Felismente os intervalos de previs ao tem boas propriedades e por exemplo quanto se toma o antilogaritmo dos limites x n (k ) z/2 var(en+k )

64

CAP ITULO 5. PREVISAO

> data(USAccDeaths) > plot(USAccDeaths, xlab = "Anos", ylab = "Numero de mortes por acidente")

Numero de mortes por acidente

7000 1973

8000

9000

10000

11000

1974

1975

1976 Anos

1977

1978

1979

Figura 5.4: Totais mensais de mortes por acidente nos Estados Unidos entre janeiro de 1973
e dezembro de 1978.

obt em-se um intervalo (geralmente assim etrico) de 100(1 )% para a previs ao pontual y n (k ). Exemplo 5.5 : Considere novamente a s erie AirPassengers e fa ca transforma c ao logaritmica nos dados (conforme sugerido na literatura). Estime um modelo SARIMA(0,1,1)x(0,1,1) usando os dados at e dezembro de 1960 e fa ca previs oes de 1 at e 12 meses ` a frente para o ano de 1961 nas 2 escalas. As previs oes e intervalos de previs ao na escala transformada s ao dados na Tabela 5.1, enquanto as previs oes, intervalos de previs ao e suas semi-amplitudes na escala original s ao dadas na Tabela 5.2.

5.3

Performance Preditiva

A id eia de vericar a adequa c ao de um modelo em termos dos erros de previs ao um passo ` a frente foi apresentada na Se c ao 4.6. Na pr atica e preciso vericar se os res duos

5.3. PERFORMANCE PREDITIVA previs ao 6.11 6.05 6.17 6.20 6.23 6.37 6.51 6.50 6.32 6.21 6.06 6.17 li 6.04 5.97 6.08 6.09 6.12 6.25 6.38 6.37 6.18 6.06 5.91 6.00 ls 6.18 6.14 6.27 6.31 6.35 6.49 6.64 6.64 6.47 6.36 6.22 6.33

65

1961 Jan 1961 Feb 1961 Mar 1961 Apr 1961 May 1961 Jun 1961 Jul 1961 Aug 1961 Sep 1961 Oct 1961 Nov 1961 Dec

Tabela 5.1: Previs oes e limites inferior (li) e superior (ls) dos intervalos de previs ao.

se comportam de maneira aleat oria (ou imprevis vel) em torno de zero e com vari ancia aproximadamente constante, al em de serem n ao correlacionados ao longo do tempo. Al em disso, dois ou mais modelos podem ser comparados segundo a sua performance preditiva, ou seja construindo-se medidas baseadas nos erros de previs ao. A maioria dos m etodos de previs ao baseia-se na id eia de minimizar somas de quadrados ou de valores absolutos dos erros de previs ao e esta e tamb em uma medida usada para comparar a adequa c ao de modelos alternativos. A id eia ent ao e comparar o erro 2 quadr atico m edio et /(n m) ou erro absoluto m edio |et |/(n m) para diferentes modelos, onde m e o n umero de par ametros a serem estimados. Uma estrat egia simples de se fazer previs oes consiste em tomar a observa c ao mais recente como a melhor previs ao de um valor futuro da s erie, i.e. x t (1) = xt . Note que esta e a previs ao 1 passo ` a frente de um passeio aleat orio. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de previs ao com aqueles do passeio aleat orio. Isto pode ser feito atrav es da chamada estat stica U de Theil denida como U=
n1 t (1))2 t=1 (xt+1 x . n1 2 t=1 (xt+1 xt )

Note que valores maiores do que 1 s ao uma indica c ao de que globalmente os erros de previs ao tendem a ser grandes em rela c ao aos erros de um passeio aleat orio. Esta n ao e uma boa caracter stica e gostariamos que o valor de U fosse sempre menor do que 1. Vale notar tamb em que neste caso os erros de previs ao est ao sendo avaliados independente da escala dos dados. Finalmente, vale notar que todas as medidas de capacidade preditiva citadas podem ser estendidas para erros de previs ao k passos a frente. Outra pr atica comum em s eries temporais consiste em estimar o modelo excluindo algumas observa c oes nais e usar o modelo estimado para fazer previs oes. Neste caso

66 prev 450.42 425.72 479.01 492.40 509.05 583.34 670.01 667.08 558.19 497.21 429.87 477.24 li 418.53 390.81 435.08 443.00 453.98 516.02 588.18 581.40 483.18 427.59 367.37 405.40 ls 484.74 463.75 527.37 547.32 570.81 659.45 763.23 765.38 644.85 578.17 503.01 561.81

CAP ITULO 5. PREVISAO prev.li 31.89 34.91 43.93 49.41 55.07 67.33 81.83 85.68 75.01 69.62 62.50 71.84 ls.prev 34.32 38.03 48.36 54.92 61.75 76.11 93.22 98.30 86.66 80.96 73.14 84.57

1961 Jan 1961 Feb 1961 Mar 1961 Apr 1961 May 1961 Jun 1961 Jul 1961 Aug 1961 Sep 1961 Oct 1961 Nov 1961 Dec

Tabela 5.2: Previs oes e limites inferior (li) e superior (ls) e semi-amplitudes dos intervalos de previs ao.

as previs oes podem ser comparadas com os valores observados. Por exemplo, para uma s erie mensal observada ao longo de 5 anos poderia-se estimar o modelo identicado usando os primeiros 4 anos e meio (54 observa c oes) e fazer previs oes para os u ltimos 6 meses.

5.4

Crit erios de Informa c ao

Em muitas aplica c oes v arios modelos podem ser julgados adequados em termos do comportamento dos res duos. Uma forma de discriminar entre estes modelos competidores e utilizar os chamados crit erios de informa ca o que levam em conta n ao apenas a qualidade do ajuste mas tamb em penalizam a inclus ao de par ametros extras. Assim, um modelo com mais par ametros pode ter um ajuste melhor mas n ao necessariamente ser a prefer vel em termos de crit erio de informa c ao. A regra b asica consiste em selecionar o modelo cujo crit erio de informa c ao calculado seja m nimo. A regra mais utilizada em s eries temporais e o chamado crit erio de informa c ao de Akaike, denotado por AIC. A deni c ao mais comumente utilizada e AIC = 2 log verossimilhan ca maximizada + 2m1 onde m e o n umero de par ametros (em modelos ARMA(p, q ) m = p + q + 1). Para dados normalmente distribuidos e usando-se estimativas de m axima verossimilhan ca para os par ametros pode-se mostrar que
2 AIC = n log( ) + 2m 2 = (1/n) onde
1

2 t.

O fator 2 e somente uma conven c ao e n ao ir a alterar a sele c ao do modelo.

5.4. CRITERIOS DE INFORMAC AO

67

Existem outros crit erios de informa c ao que s ao basicamente modica c oes do AIC na forma de penalizar a inclus ao de par ametros extras. O mais famoso deles e o crit erio de informa c ao Bayesiano, denotado por BIC e dado por BIC = 2 log verossimilhan ca maximizada + m log n. Note como este crit erio penaliza bem mais a inclus ao de par ametros do que o AIC e portanto tende a selecionar modelos mais parcimoniosos. sempre bom lembrar que estas medidas n E ao t em nenhum signicado quando olhadas individualmente, i.e. considerando-se um u nico modelo. Assim, tanto o AIC quanto o BIC podem assumir valores quaisquer, inclusive valores negativos, j a que eles dependem da forma da fun c ao de verossimilhan ca. Vale lembrar tamb em que ao usar tais crit erios para comparar modelos a estima c ao precisa ser feita no mesmo per odo amostral de modo que os modelos sejam compar aveis. Note tamb em que aumentando-se o n umero de termos autoregressivos e/ou m edias m oveis, o valor de m aumenta. Assim se a inclus ao de termos adicionais no modelo n ao melhorar sensivelmente o ajuste, ent ao o AIC e o BIC (e qualquer outro crit erio de informa c ao) ser ao maiores. Para uma revis ao geral destes e outros crit erios de informa c ao no contexto de s eries temporais ver por exemplo Priestley (1981), Cap tulo 5.

Identica c ao Revisitada
Vimos que as duas ferramentas b asicas para identica c ao de modelos da classe ARIMA s ao as autocorrela c oes e autocorrela c oes parciais amostrais. Esta etapa envolve algum grau de arbitrariedade por parte do pesquisador ao interpretar estas fun c oes, i.e. comparar subjetivamente seus valores amostrais com os correspondentes valores te oricos. Uma abordagem alternativa consiste em usar os crit erios de informa c ao de um forma mais abrangente. Neste caso, um conjunto de poss veis modelos competidores e denido a priori e aquele que minimiza o AIC ou BIC e selecionado. Por exemplo, modelos ARMA(p, q ) podem ser estimados sequencialmente variando os valores de p e q entre 0 e 3 digamos. Note que neste caso teremos 16 poss veis modelos sendo comparados e os crit erios de informa c ao s ao agora fun c oes de p e q . Analogamente, para modelos AR(p) podemos variar o valor de p, digamos entre 1 e 10. Na pr atica este procedimento pode ser aplicado de forma semi-autom atica j a que muitos pacotes estat sticos fornecem estes valores. Por em ap os um modelo ser selecionado a an alise residual ainda deve ser feita antes de se passar ` a etapa das previs oes. Outro problema de ordem pr atica e que pode haver dois ou mais modelos com AIC e/ou BIC muito similares de modo que n ao seja trivial discriminar entre eles. Nestas situa c oes Burnham & Anderson (1998), Se c ao 4.2, sugerem o uso de pesos que s ao obtidos subtraindo-se o valor associado com o melhor modelo. Os pesos relativos ao AIC s ao dados por wk exp(AIC (k )/2)

68

CAP ITULO 5. PREVISAO

sendo AIC (k ) = AIC (k ) min(AIC ) e k e a ordem do modelo. Estes pesos s ao ent ao normalizados para somarem 1 de modo que 0 < wk < 1 e a compara c ao entre os modelos ca mais f acil. Se M e o n umero total de modelos a compara c ao e ent ao baseada em wi , i = 1, . . . , M. wi = M j =1 wj Por exemplo, para modelos AR(p) os pesos relativos ao AIC s ao dados por wp exp(AIC (p)/2), p = 1, . . . , pmax

sendo AIC (p) = AIC (p) min(AIC ) e pmax deve ser especicado. Exemplo 5.6 : Na Figura 5.6 e apresentada a s erie com os totais anuais de linces canadenses capturados em armadilhas entre 1821 e 1934. Estes dados t em sido modelados na literatura ap os uma transforma c ao que consiste em tomar o logaritmo na base 10 e subtrair a m edia dos dados transformados. Vamos ajustar modelos AR(p) com p variando de 1 at e 5 e calcular os crit erios de informa c ao e os respectivos pesos para cada modelo. Os resultados est ao na Tabela 5.3. Note que h a falta de concord ancia entre os crit erios de informa c ao quanto ao melhor modelo. Isto pode ser uma indica c ao de que na verdade h a 2 modelos descrevendo bem os dados. Outro problema e que o AIC seleciona um modelo com o valor m aximo de p e isto pode indicar a necessidade de considerar mais termos autoregressivos. Repetindo o exercicio com p variando de 1 a 15 obteve-se a Tabela 5.4. p 1 2 3 4 5 AIC -242.3913 -333.0988 -332.7283 -335.6596 -335.8881 pesos AIC 0.0000 0.1057 0.0878 0.3802 0.4263 BIC -234.9189 -321.8902 -317.7835 -316.9786 -313.4709 pesos BIC 0.0000 0.8137 0.1044 0.0698 0.0121

1 2 3 4 5

Tabela 5.3: Crit erios de informa c ao AIC e BIC e respectivos pesos para modelos AR(p) ajustados a s erie Lynx.

Os comandos do R utilizados no Exemplo 5.6 seguem abaixo. > > > > > > > > + y = log10(lynx) x = y - mean(y) p = 1:15 n = length(x) crit = matrix(0, nrow = length(p), ncol = 5) colnames(crit) = c("p", "AIC", "pesos AIC", "BIC", "pesos BIC") crit[, 1] = p for (k in p) { ar = arima(x, order = c(k, 0, 0), include.mean = F)

5.5. PREVISOES USANDO TODOS OS MODELOS + + + > > > > crit[k, 2] = n * log(ar$sigma2) + 2 * (k + 1) crit[k, 4] = n * log(ar$sigma2) + (k + 1) + (k + 1) * log(n) } aicp = bicp = crit[, crit[, exp(-(crit[, 2] - min(crit[, 2]))/2) exp(-(crit[, 4] - min(crit[, 4]))/2) 3] = aicp/sum(aicp) 5] = bicp/sum(bicp) p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 AIC -242.3913 -333.0988 -332.7283 -335.6596 -335.8881 -334.4484 -338.8427 -338.8505 -338.3849 -341.8678 -354.5690 -354.7117 -353.0609 -351.0895 -349.2335 pesos AIC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0006 0.3581 0.3846 0.1685 0.0629 0.0249 BIC -234.9189 -321.8902 -317.7835 -316.9786 -313.4709 -308.2950 -308.9531 -305.2247 -301.0229 -300.7696 -309.7346 -306.1411 -300.7541 -295.0465 -289.4543 pesos BIC 0.0000 0.8100 0.1039 0.0695 0.0120 0.0009 0.0013 0.0002 0.0000 0.0000 0.0019 0.0003 0.0000 0.0000 0.0000

69

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Tabela 5.4: Crit erios de informa c ao AIC e BIC e respectivos pesos para modelos AR(p) ajustados a s erie Lynx.

Finalmente vale notar que se o n umero de modelos candidatos for muito grande e a s erie analisada muito longa o custo computacional deste m etodo pode ser muito alto. Por exemplo, em modelos SARIMA com pmax = qmax = 5, Pmax = Qmax = 2 e dmax = Dmax = 2 teremos mais de 500 modelos candidatos, sem contar poss veis transforma c oes nos dados, diferentes distribui c oes dos erros, presen ca de dados discrepantes, altera c oes estruturais, etc.

5.5

Previs oes Usando Todos os Modelos

Suponha que existem k modelos candidatos denotados por M1 , M2 , . . . , Mk e desejase fazer a previs ao de Xn+h . Tratando tanto Xn+h quanto Mi como vari aveis aleat orias ent ao pelas regras de esperan ca condicional segue que
k

x n (h) = E (Xn+h |x) =

i=1

E (Xn+h |x, Mi )P (Mi |x).

70

CAP ITULO 5. PREVISAO

Ou seja, podemos escrever a previs ao pontual como uma mistura discreta de previs oes pontuais sob cada modelo considerado. A mesma l ogica se aplica a qualquer fun c ao de Xn+h , em particular
k 2 E (Xn +h |x) = i=1 2 E (Xn +h |x, Mi )P (Mi |x).

que pode ser usado para quanticar a incerteza sobre Xn+h , i.e.
2 2 V ar(Xn+h |x) = E (Xn +h |x) [E (Xn+h |x)] k

=
i=1 k

2 2 E (Xn +h |x, Mi )P (Mi |x) [E (Xn+h |x)]

=
i=1

[V ar(Xn+h |x, Mi ) + E 2 (Xn+h |x, Mi )]P (Mi |x) [ xn (h)]2

Um procedimento para fazer previs oes usando todos os modelos estimados consiste em substituir as probabilidades P (Mi |x) pelos pesos wi padronizados. Por exemplo, para modelos autoregressivos se pmax e o n umero m aximo de defasagens ent ao
pmax

E (Xn+h |x) =

i=1

E (Xn+h |x, AR(i))wi .

5.6

Previs ao Bayesiana

Na pr atica, os m etodos de previs ao em modelos ARIMA s ao aplicados substituindose os par ametros do modelo pelas suas estimativas pontuais. Por em o fato de n ao conhecermos os valores dos par ametros e mais uma fonte de incerteza em rela c ao as previs oes e que em muitas situa c oes pode ser muito grande para ser ignorada. No contexto Bayesiano esta incerteza pode ser levada em conta j a que a previs ao de valores futuros e feita a partir da distribui c ao preditiva de Xn+h , que e dada por p(xn+h |x) = p(xn+h |x, )p( |x)d .

Neste caso, todos os poss veis valores de est ao sendo levados em conta e n ao apenas a sua estimativa pontual.

BAYESIANA 5.6. PREVISAO

71

> + + > > > > >

plot(ts(c(USAccDeaths, pacc$pred), frequency = 12, start = c(1973, 1)), xlab = "Anos", ylab = "Numero de mortes por acidente", ylim = c(6000, 12000)) abline(v = 1979 - 1/12, lty = 2) lines(pacc$pred + 1.96 * pacc$se, lty = 2) lines(pacc$pred - 1.96 * pacc$se, lty = 2) obs79 = c(7798, 7406, 8363, 8460, 9217, 9316) points(1979 + (0:5)/12, obs79, pch = "*")

Numero de mortes por acidente

10000

11000

12000

9000

** ** * *

6000 1973

7000

8000

1974

1975

1976

1977

1978

1979

1980

Anos

Figura 5.5: Previs oes para 1979 com observa c oes do primeiro semestre incluidas.

72

CAP ITULO 5. PREVISAO

lynx

0 1820

1000

2000

3000

4000

5000

6000

7000

1840

1860

1880 Time

1900

1920

Figura 5.6: Totais anuais de linces canadenses capturados em armadilhas entre 1821 e 1934.

BAYESIANA 5.6. PREVISAO

73

Exerc cios
1. No alisamento exponencial simples descreva a papel do par ametro . 2. No m etodo de Holt-Winters descreva o papel dos par ametros , e . 3. Explique em que situa c oes seriam usados os m etodos de Holt-Winters aditivo ou multiplicativo. 4. Seja o modelo MA(1), Xt = t + t1 . (a) Obtenha a previs ao 1 passo ` a frente em t = n e mostre que as previs oes k passos ` a frente para k = 2, 3, . . . s ao iguais a zero.
2 (b) Mostre que a vari ancia do erro de previs ao k passos ` a frente e dada por 2 2 para k = 1 e (1 + ) para k = 2, 3, . . . .

5. Seja o modelo Xt = 90 + t + 0, 8t1 + 0, 5t1 . (a) Obtenha as previs oes k passos ` a frente em t = n. (b) Obtenha a vari ancia do erro de previs ao k passos ` a frente. 6. Seja o modelo AR(1), Xt = Xt1 + t . (a) Mostre que a previs ao k passos ` a frente feita em t = n e dada por k xn . (b) Mostre que a vari ancia do erro de previs ao k passos ` a frente e dada por 2 2 k 2 (1 )/(1 ). 7. Para o modelo SARIMA(0, 0, 1) (1, 1, 0)12 obtenha as previs oes no tempo t = n para at e 12 per odos ` a frente em termos das observa c oes e residuos at e o tempo t = n. 8. Seja o modelo (1 B )(1 0, 2B )Xt = (1 0, 5B )t . (a) Obtenha as previs oes 1 e 2 passos ` a frente. (b) Mostre que as previs oes 3 ou mais passos ` a frente s ao dadas pela equa c ao recursiva x n (k ) = 1, 2 xn (k 1) 0, 2 xn (k 2). (c) Obtenha a vari ancia dos erros de previs ao 1, 2 e 3 passos ` a frente. (d) Obtenha a previs ao x n (2) e o erro padr ao do erro de previs ao sabendo que 2 n = 1, xn = 4, xn1 = 3 e = 2. 9. Seja o modelo ARIMA(1,0,1) para uma s erie Xt com m edia zero. (a) Reescreva o modelo na forma de choques aleat orios, i.e. Xt = t + 1 t1 + 2 t2 + . . . obtendo uma express ao geral para os coecientes j . (b) Escreva a express ao da vari ancia do erro de previs ao et (k ) = xt+k x t (k ).

74

CAP ITULO 5. PREVISAO (c) Obtenha as previs oes x t (k ) para horizontes k = 1 e k > 1.

10. Sabe-se que se Y N (, 2 ) ent ao X = exp(Y ) tem distribui c ao log-normal 2 2 2 2 + com E (X ) = exp( + /2) e V ar(X ) = e (e 1). Se foram obtidas as previs oes k passos ` a frente de Yt = log(Xt ) e assumindo que Yt e normal mostre que as previs oes na escala original s ao dadas por t (k ) = exp(Y t (k ) + Vy (k )/2) X com vari ancia t (k ) + Vy (k )) [exp(Vy (k )) 1]. exp(2Y 11. Deseja-se ajustar um modelo ARMA a uma s erie temporal estacion aria mas os gr acos das fun c oes de autocorrela c ao e autocorrela c ao parcial s ao pouco informativos. Descreva um procedimento de identica c ao alternativo (voc e tem um pacote estat stico para fazer as contas). 12. Descreva um procedimento para obter previs oes h passos ` a frente em modelos autoregressivos com n umero m aximo de defasagens igual a kmax utilizando todos os modelos estimados. Ilustre situa c oes em que as previs oes pontuais m edias devem muito similares (ou muito diferentes) das previs oes usando somente o melhor modelo.

Cap tulo 6

Modelando a Vari ancia


6.1 Introdu c ao

Nos modelos vistos at e aqui a vari ancia dos erros foi assumida constante ao longo 2 2 . Muitas s do tempo, i.e. V ar(t ) = E (t ) = eries temporais no entanto exibem per odos de grande volatilidade seguidos de per odos de relativa tranquilidade. Nestes casos, a suposi c ao de vari ancia constante (homocedasticidade) pode n ao ser apropriada. Na verdade, embora a vari ancia incondicional dos erros ainda possa ser assumida constante, sua vari ancia condicional pode estar mudando ao longo do tempo. Al em disso, em muitas situa c oes pr aticas tem-se interesse em prever a vari ancia condicional da s erie al em da s erie propriamente dita. Por exemplo, no mercado de a c oes o interesse e n ao apenas prever a taxa de retorno mas tamb em a sua vari ancia ao longo de um certo per odo. Esta vari ancia condicional e tamb em chamada de volatilidade. Algumas refer encias para este cap tulo s ao Taylor (1986), Franses (1998), e Tsay (2002). Exemplo 6.1 : Na Figura 6.1 os gr acos da esquerda apresentam as taxas de c ambio di arias da Libra Esterlina, Dolar Canadense, Marco Alem ao e Iene Japones, em rela c ao ao Dolar Americano, enquanto nos gr acos da direita est ao os logaritmos das taxas de varia c ao (retornos di arios). O per odo amostral vai de janeiro de 1991 a dezembro de 1998. Uma caracter stica comum nestes retornos e que embora as m edias pare cam ser aproximadamente constantes as vari ancias mudam ao longo do tempo. Na Figura 6.2 est ao os histogramas com uma curva normal superimposta para os mesmos dados (retornos). Pode-se notar que muitos valores aparecem nas caudas das distribui c oes. Finalmente, na Figura 6.3 temos as autocorrela c oes amostrais dos retornos e dos retornos ao quadrado. Note como existe bastante aucorrela c ao entre os retornos ao quadrado. Todas estas caracter sticas s ao em geral vericadas em s eries reais de retornos e devem ser levadas em conta pelo modelo. A id eia aqui e tentar modelar simultaneamente a m edia e a vari ancia de uma s erie temporal. Para xar id eias, suponha que um modelo AR(1), Xt = Xt1 + t foi 75

76

CAP ITULO 6. MODELANDO A VARIANCIA

0.70

z.Iene Japonesz.Marco Alemao z.Dolar Canadense z.Libra Esterlina


0 500 1000 1500 2000

y.Iene Japonesy.Marco Alemao y.Dolar Canadense y.Libra Esterlina

0.60

1.4

1.2

1.4

140

100

120

80

0.04 0

0.00

0.03

0.00

1.6

0.02 0.015

1.8

0.000

0.015 0.03

0.50

0.00

0.02

500

1000

1500

2000

Figura 6.1: Taxas de c ambio e retornos di arios em rela c ao ao Dolar Americano da Libra Esterlina, Dolar Canadense, Marco Alem ao e Iene Japones, entre janeiro de 1991 a dezembro de 1998. estimado e deseja-se fazer previs oes 1 passo ` a frente, x t (1) = E (Xt+1 |xt ) = xt . A vari ancia condicional de Xt+1 e dada por V ar(Xt+1 |xt ) = V ar(t+1 |xt ) = E (2 t+1 |xt ).
2 At e agora assumimos que E (2 ancia condicional t+1 |xt ) = , mas suponha que a vari 2 2 n ao seja constante, i.e. E (t+1 |xt ) = t+1 . Uma poss vel causa disto e que os dados se distribuem com caudas muito longas. Para facilitar a nota c ao vamos denotar por 2 = V ar ( |I It = {xt , xt1 , . . . , t , t1 , . . . }, ou seja t t t1 ).

6.2

Modelos ARCH

Existem v arias formas de especicar como a vari ancia condicional (volatilidade) varia 2 , proposta em Engle (1982), com o tempo. Uma estrat egia utilizada para modelar t

6.2. MODELOS ARCH

77

Libra Esterlina
80

Dolar Canadense

60

40

20

0.03

0.01

0.01

0.03

0 0.015

50

100

150

0.000

0.010

Marco Alemao
60

Iene Japones

60

40

20

0.03

0.01

0.01

0.03

0 0.06

20

40

0.02

0.02

Figura 6.2: Histogramas dos retornos di arios do Exemplo 6.1. consiste em assumir que ela depende dos quadrados dos erros passados, t1 , t2 , . . . atrav es de uma autoregress ao. No caso mais simples, faz-se t = vt c + 2 t1 (6.1)

onde {vt } e uma s erie puramente aleat oria com m edia zero e vari ancia igual a 1 e vt e t s ao independentes. Segue que a esperan ca e a vari ancia condicionais s ao dadas por, E (t |It1 ) = E (vt ) c + 2 t1 = 0 (6.2)

2 2 E (2 t |It1 ) = t = c + t1

Neste caso dizemos que a vari ancia segue um processo autoregressivo condicionalmente heteroced astico de ordem 1, ARCH(1). Note que e necess ario impor as restri c oes c > 0 2 e 0 para que t seja sempre positiva. Quando = 0 a vari ancia condicional e constante e t e um processo condicionalmente homoced astico. Al em disso queremos garantir a estacionariedade da autoregress ao de modo que a restri c ao imposta e0< < 1. Note tamb em que (6.2) n ao inclui um termo de erro e portanto n ao e um processo estoc astico.

78
Libra Esterlina

CAP ITULO 6. MODELANDO A VARIANCIA


Libra Esterlina^2

0.04

10

15

20

25

30

0.05 0

10

15

20

25

30

Dolar Canadense
0.04

Dolar Canadense^2

10

15

20

25

30

0.05 0

10

15

20

25

30

Marco Alemao

Marco Alemao^2

0.06

10

15

20

25

30

0.05 0

10

15

20

25

30

Iene Japones
0.00

Iene Japones^2

10

15

20

25

30

0.05 0

10

15

20

25

30

Figura 6.3: Correlogramas dos retornos e retornos ao quadrado no Exemplo 6.1. A esperan ca e vari ancia incondicionais podem ser obtidas como, E (t ) = E [E (t |It1 )] = 0

2 V ar(t ) = E (2 t ) = E [E (t |It1 )]

2 = E [c + 2 t1 ] = c + E (t1 ).

2 Se o processo e estacion ario ent ao E (2 t ) = E (t1 ) = V ar (t ) e portanto

V ar(t ) = Al em disso,

c . 1

Cov (t , t+k ) = E (t t+k ) = E [E (t t+k )|t+k1 , . . . , t1 ] = E [t E (vt+k c + 2 t+k1 )] = 0, para k > 0. Ou seja, ao postular o modelo ARCH(1) estamos assumindo que os {t } s ao n ao correlacionados. Exemplo 6.2 : Para ilustra c ao a Figura 6.4 apresenta dois processos ARCH de ordem 1 simulados a partir de uma sequ encia {vt } de 200 n umeros aleat orios i.i.d. gerados

6.2. MODELOS ARCH

79

de uma distribui c ao N (0, 1). A sequ encia {t } foi construida usando a equa c ao (6.1) com c = 1 e = 0, 8. Note como a sequ encia {t } continua tendo m edia zero mas parece ter tido um aumento de volatilidade em alguns per odos. Em um modelo AR(1), a forma como esta estrutura nos erros afeta a s erie original depende do valor do par ametro autoregressivo e duas poss veis situa c oes s ao mostradas nos gr acos inferiores da gura. Na Figura 6.5 temos o histograma dos valores {t } gerados, com uma curva normal superimposta, al em do gr aco de probabilidades normais (QQplot normal). Note como h a um excesso de valores nas caudas ocorrendo com uma frequ encia maior do que seria esperado na distribui c ao normal.
processo aleatrio
10 10 0 50 100 150 200 5 0 0 5

(t) = v(t) 1 + 0.8(t 1)2

50

100

150

200

x(t) = 0.5x(t 1) + (t)


10 10

x(t) = 0.9x(t 1) + (t)

50

100

150

200

5 0

50

100

150

200

Figura 6.4: Processos autoregressivos com erros ARCH(1) simulados. Basicamente a equa c ao (6.2) nos diz que erros grandes (ou pequenos) em valor absoluto tendem a ser seguidos por erros grandes (ou pequenos) em valor absoluto. Portanto o modelo e adequado para descrever s eries aonde a volatilidade ocorre em grupos. 2 Al em disso, na equa c ao (6.2) somando 2 t e subtraindo t de ambos os lados obtemos que 2 2 t = c + t1 + t
2 2 2 com t = 2 t t = t (vt 1). Ou seja, o modelo ARCH(1) pode ser reescrito como 2 2 se v N (0, 1)) que um AR(1) estacion ario para 2 ao normais (vt t t com erros n 1

80

CAP ITULO 6. MODELANDO A VARIANCIA

densidades

0.00 10

0.10

QQ plot Normal
quantis amostrais 5 5 3 0

0 quantis teoricos

Figura 6.5: Caracteristicas de um processo ARCH(1) simulado. t em m edia zero e vari ancia n ao constante. Portanto, a fun c ao de autocorrela c ao do 2 k processo {t } e dada por (k ) = e o correlograma amostral deve apresentar um decaimento exponencial para zero. Se o processo ARCH(1) for estacion ario n ao e dif cil calcular o seu coeciente de curtose que e dado por E (4 t) . = [V ar(t )]2
4 ) = o quarto momento do erro segue que o quarto momento Denotando por E (vt condicional e dado por 4 4 4 2 2 E (4 t |It1 ) = E (vt t |It1 ) = E (t |It1 ) = (c + t1 ) .

(se assumirmos que vt N (0, 1) ent ao = 3). Portanto, o quarto momento incondicional ca, 4 2 2 4 2 E (4 t ) = E [E (t |It1 )] = E (c + t1 + 2ct1 ). Se o processo e estacion ario de quarta ordem ent ao podemos escrever E (4 t) = 4 E (t1 ) = 4 e portanto, 4 = (c2 + 2 4 + 2c c ) = c2 1 1+ 1 + 2 4

6.2. MODELOS ARCH e nalmente, 4 = O coeciente de curtose ent ao ca, =

81

c2 (1 + ) . (1 )(1 2 )

c2 (1 + ) (1 )2 1 2 = , para 2 < 1 (1 )(1 2 ) c2 1 2

que e sempre maior do que . Ou seja, qualquer que seja a distribui c ao de vt o coeciente de curtose ser a maior do que a curtose de vt (desde que > 0 e > 1). Em particular, processos ARCH(1) t em caudas mais pesadas do que a distribui c ao normal e s ao portanto adequados para modelar s eries temporais com esta caracter stica. S eries de retornos, como as do Exemplo 6.1, frequentemente apresentam caudas mais pesados do que a normal devido ao excesso de curtose.

Previs oes da Volatilidade


Suponha que uma s erie temporal Xt segue um processo ARCH(1), i.e. Xt = vt ht , vt N (0, 1). As previs oes da volatilidade, k passos ` a frente, no tempo t = n s ao obtidas como, n (k ) = E (hn+k |In ) = c + E (X 2 h n+k1 |In ).
2 2 Para k = 1 segue que E (Xn +k1 |In ) = Xn+k1 e para k > 1 temos que 2 2 E (Xn +k1 |In ) = E (hn+k1 vn+k1 |In )

2 = E (hn+k1 |In )E (vn +k1 |In ) n (k 1) = E (hn+k1 |In ) = h

pois hn+kj e vn+kj s ao independentes. As previs oes ent ao cam, n (k ) = h


2, k = 1 c + Xn n (k 1), k = 2, 3, . . . c + h

O Modelo ARCH(p)
Estas id eias podem ser generalizadas para processos mais gerais ARCH(p) em que a vari ancia condicional depende dos quadrados de p erros passados, i.e. t = vt
2 c + 1 2 t1 + + p tp

(6.3)

e ent ao a vari ancia condicional e modelada como,


2 2 2 t = E (2 t |It1 ) = c + 1 t1 + + p tp . 2 seja sempre positiva Neste caso, para garantir que t e necess ario impor a seguintes restri c oes c > 0 e 1 0, . . . , p 0 e para garantir estacionariedade e necess ario p tamb em que as ra zes de 1 1 B p B = 0 estejam fora do c rculo unit ario. Juntando estas restri c oes equivale a impor a restri c ao c > 0 e p < 1. i=1 i

82

CAP ITULO 6. MODELANDO A VARIANCIA

Analogamente podemos reescrever o modelo ARCH(p) como um modelo AR(p) para 2 t denindo os erros t como anteriormente, i.e.
2 2 2 t = c + 1 t1 + + p tp + t . 2 (v 2 1). com t = t t

Identica c ao
A caracter stica chave dos modelos ARCH e que a vari ancia condicional dos erros t se comporta como um processo autoregressivo. Portanto deve-se esperar que os res duos de um modelo ARMA ajustado a uma s erie temporal observada tamb em sigam este padr ao caracter stico. Em particular, se o modelo ajustado for adequado ent ao a FAC e a FACP dos res duos devem indicar um processo puramente aleat orio, no entanto 2 se a FAC dos quadrados dos res duos, t , tiver um decaimento caracter stico de uma autoregress ao isto e uma indica c ao de que um modelo ARCH pode ser apropriado. A ordem p do modelo pode ser identicada atrav es da FACP dos quadrados dos res duos.

Previs oes da Volatilidade


Suponha que uma s erie temporal Xt segue um processo ARCH (p). As previs oes da volatilidade, k passos ` a frente, no tempo t = n s ao obtidas como,
p

n (k ) = E (hn+k |In ) = c + h

i=j

2 j E (Xn +kj |In ).

2 2 Para k j segue que E (Xn +kj |In ) = Xn+kj e para k > j temos que 2 2 E (Xn +kj |In ) = E (hn+kj vn+kj |In )

2 = E (hn+kj |In )E (vn +kj |In ) n (k j ) = E (hn+kj |In ) = h

j a que hn+kj e vn+kj s ao independentes.

6.3

Modelos GARCH

Uma generaliza c ao natural dos modelos ARCH consiste em assumir que a vari ancia condicional se comporta como um processo ARMA, i.e. depende tamb em de seus valores passados. Fazendo t = vt ht onde
p q

ht = c +
i=1

i 2 ti

+
j =1

j htj

segue que a esperan ca condicional de t e zero e a vari ancia condicional e 2 t = ht . Este modelo e chamado ARCH generalizado, ou GARCH, de ordem (p, q ). Aqui as restri c oes de positividade e estacionariedade impostas sobre os par ametros s ao q dadas por c > 0, i 0, i = 1, . . . , p, j 0, j = 1, . . . , q e p + < 1. i=1 i j =1 j

6.3. MODELOS GARCH

83

Embora a primeira vista pare ca um modelo mais complexo, sua vantagem sobre os modelos ARCH e basicamente a parcim onia. Assim como um modelo ARMA pode ser mais parcimonioso no sentido de apresentar menos par ametros a serem estimados do que modelos AR ou MA, um modelo GARCH pode ser usado para descrever a volatilidade com menos par ametros do que modelos ARCH. Em termos de identica c ao dos valores de p e q as ferramentas b asicas s ao mais uma vez a FAC e a FACP dos quadrados dos res duos. Assim, se o modelo ajustado for adequado a FAC e a FACP dos res duos devem indicar um processo puramente aleat orio, no entanto quando estas fun c oes s ao aplicadas aos quadrados dos res duos elas devem indicar um processo ARMA(p, q ). A identica c ao pode n ao ser muito f acil em algumas aplica c oes embora na maioria dos casos um modelo GARCH(1,1) seja suciente. Na pr atica recomenda-se tamb em tentar outros modelos de ordem baixa como GARCH(1,2) e GARCH(2,1). As previs oes da volatilidade em modelos GARCH s ao obtidas de forma similar a de um modelo ARMA. Por exemplo, ap os estimar os par ametros de um modelo GARCH(1,1) e assumindo-se que 0 = h0 = 0 pode-se construir as sequ encias 1 , . . . , t e h1 , . . . , ht e a previs ao 1 passo ` a frente da volatilidade ca
2 t (1) = c + 2 t + ht .

6.3.1

Estima c ao

Para uma s erie x1 , . . . , xn observada e um modelo GARCH(p, q ), denotando-se o vetor de par ametros por =(c, 1 , . . . , p , 1 , . . . , q ) e destacando-se a densidade conjunta das p primeiras realiza c oes segue que
n

p(x1 , . . . , xn | ) = p(x1 , . . . , xp | ) Assumindo normalidade segue que

t=p+1

p(xt |xt1 , . . . , xtp , ).

Xt |xt1 , . . . , xtp N (0, ht ) e portanto


n

p(x1 , . . . , xn | ) = p(x1 , . . . , xp | )

t=p+1

(2ht )1/2 exp

x2 t 2ht

Em geral o n umero de observa c oes ser a grande o suciente para que o termo p(x1 , . . . , xp | ) possa ser desprezado. Por exemplo, para um modelo ARCH(1) a fun c ao log-verossimilhan ca ca
n

0.5

2 2 log(2 ) + log(c + x2 t1 ) + xt /(c + xt1 ) . t=2

Note que algum algoritmo de otimiza c ao n ao linear dever a ser utilizado e nada garante sua converg encia para um otimo global. No R pode-se usar a fun c ao garch do pacote tseries para fazer a estima c ao por m axima verossimilhan ca.

84

CAP ITULO 6. MODELANDO A VARIANCIA

6.3.2

Adequa c ao

Se um modelo ARCH ou GARCH foi ajustado a uma s erie Xt n ao correlacionada ent ao os res duos padronizados s ao dados por Xt t = X ht e formam uma sequ encia i.i.d. com distribui c ao normal padr ao. Assim, a adequa c ao do modelo pode ser vericada aplicando os testes usuais de normalidade a estes residuos padronizados e os testes de aleatoriedade (Box-Pierce e Ljung-Box) aos quadrados dos res duos. Exemplo 6.3 : Na parte superior da Figura 6.6 est ao os pre cos di arios no fechamento de um indice de mercado da Alemanha (DAX), entre 1991 e 1998. O interesse e em analisar os chamados retornos dados por log(xt /xt1 ) e estes est ao no gr aco inferior da Figura 6.6. Existe evid encia na literatura que modelos GARCH(1,1) conseguem captar bem os movimentos caracter sticos dos retornos. Foi usada a fun c ao garch no

DAX

2000

5000

1992

1993

1994

1995

1996

1997

1998

retornos

0.10

0.00

1992

1993

1994

1995

1996

1997

1998

Figura 6.6: Pre cos di arios no fechamento de um indice de mercado da Alemanha (DAX),
entre 1991 e 1998 e respectivos retornos.

pacote tseries do R para ajustar um modelo GARCH(1,1). Use os comandos abaixo para estimar o modelo.

6.3. MODELOS GARCH > > > > > > library(tseries) data(EuStockMarkets) x = EuStockMarkets dax = diff(log(x))[, "DAX"] m = garch(dax, trace = F) summary(m)$coef

85

Estimate Std. Error t value Pr(>|t|) a0 4.639289e-06 7.559834e-07 6.136760 8.422159e-10 a1 6.832875e-02 1.125067e-02 6.073307 1.253022e-09 b1 8.890666e-01 1.652019e-02 53.816990 0.000000e+00 > summary(m)$j.b.test Jarque Bera Test data: Residuals X-squared = 12946.60, df = 2, p-value < 2.2e-16 > summary(m)$l.b.test Box-Ljung test data: Squared.Residuals X-squared = 0.1357, df = 1, p-value = 0.7126 Assim, o modelo ajustado obtido foi Yt = vt ht , ht = 0.00005 + 0.068Yt2 1 + 0.889ht1 sendo todos os coecientes signicativos. O teste de Ljung-Box aplicado nos quadrados dos residuos indicou aleatoriedade (p-valor = 0,71), no entanto o teste de normalidade de Jarque-Bera aplicado aos residuos rejeitou a hip otese nula (p-valor<0,001). Assim a hip otese de normalidade condicional parece estar sendo violada. Na Figura 6.7 est ao os histogramas, gr acos de probabilidades normais dos retornos e res duos do modelo GARCH(1,1) estimado, al em dos correlogramas dos quadrados dos retornos e res duos. Um fato estilizado presente em s eries temporais nanceiras e que o mercado tem baixa volatilidade quando est a em alta e alta volatilidade quando est a em baixa. Tal assimetria n ao e levada em conta pelos modelos GARCH e para contornar esta limita c ao outros modelos foram propostos na literatura. Por exemplo, no modelo EGARCH (ou GARCH exponencial) modela-se o logaritmo da volatilidade como,
2 log(t )=c+

vt N (0, 1)

t1 t1 2 + + t 1 . t1 t1

Em termos de estima c ao uma vantagem deste modelo e que os par ametros c, e s ao irrestritos j a que estamos modelando o logaritmo da volatilidade. A u nica restri c ao e < 0 pois assim a volatilidade aumenta quando t1 < 0.

86

CAP ITULO 6. MODELANDO A VARIANCIA

DAX
30

Residuos

0 10

0.10

0.05

0.00

0.05

0.0

0.2

10

DAX
0.10 5

Residuos

0.00

0.10

residuos
5 0.8

Residuos^2

10

1992

1994 Time

1996

1998

0.0 0

0.4

10

15

20

25

30

Figura 6.7: Histogramas e probabilidades normais dos retornos do indice de mercado da


Alemanha (DAX) e res duos do modelos GARCH(1,1) e correlogramas dos seus quadrados.

6.4

Volatilidade Estoc astica

2 vistas at As f ormulas para modelar t e agora foram todas determin sticas, i.e. sem uma componente de erro aleat orio. No entanto, pode ser mais razo avel assumir que a vari ancia condicional varia estocasticamente ao longo do tempo ao inv es de deterministicamente, especialmente se existem mudan cas abruptas na volatilidade (e.g. como resultado de greves, guerras, etc.).

Assim, uma alternativa aos modelos ARCH ou GARCH consiste em assumir que 2 . Em sua segue um processo estoc astico. Geralmente modela-se o logaritmo de t forma mais simples um modelo de volatilidade estoc astica (VE) e dado por
2 t

Xt = vt exp(ht /2), vt N (0, 1)

2 ht = c + ht1 + t , t N (0, )

2 ). Note que n com || < 1 e ht = log(t ao h a necessidade de restri c oes de positividade nos par ametros pois estamos modelando o logaritmo da volatilidade. O modelo pode

6.4. VOLATILIDADE ESTOCASTICA ser estendido para uma estrutura AR(p) em ht , ou seja Xt = vt exp(ht /2), vt N (0, 1)
p

87

ht = c +
i=1

2 i hti + t , t N (0, )

Propriedades
1. E (Xt ) = E (vt eht /2 ) = E (eht /2 )E (vt ) = 0, j a que ht e vt s ao independentes.
2 ) = E (eht v 2 ) = E (eht )E (v 2 ) = E (eht ). Mas, como estamos 2. V ar(Xt ) = E (Xt t t assumindo que ht e estacion aria segue que,

E (ht ) = = c/(1 )

2 /(1 2 ) e V ar(ht ) = 2 =

e a distribui c ao incondicional do log-volatilidade e ht N (, 2 ). Portanto, eht segue uma distribui c ao log-normal com par ametros e 2 cuja m edia e vari ancia s ao dados por E (eht ) = e+ V ar(e ) = (e
ht 2
2 /2

= V ar(Xt )
2

1)e2+

4) = 3 e 4 ) = E (v 4 e2ht ) = E (v 4 )E (e2ht ). Se N (0, 1) ent ao E (vt 3. E (Xt t t t 4 ) = 3E (e2ht ). Mas E (Xt

E (e2ht ) = V ar(eht ) + E 2 (eht ) = (e 1)e2+ + (e+ = e2+ (1 + e 1) = e2+2 .


2 2 2

2 /2

)2

Portanto, a curtose e dada por 3 e2+2 2 = 2+2 = 3e e que e sempre maior do que 3 pois e > 1. Um resultado mais geral e que 4 )e 2 ou seja a curtose induzida por este modelo = E (vt e sempre maior do que a curtose de vt .
2 2

88

CAP ITULO 6. MODELANDO A VARIANCIA

Exerc cios
1. Um modelo ARIMA foi identicado e estimado para uma s erie temporal observada mas h a indica c ao de que a vari ancia condicional deve ser modelada por um processo GARCH(1,1). Explique como se chegou a esta conclus ao. 2. Refa ca o exemplo da Figura 6.4 e estime um modelo AR(1) para a s erie Xt . Verique se existe estrutura autoregressiva nos quadrados dos res duos e identique um modelo ARCH para os erros. 3. Obtenha as previs oes 1, 2 e 3 passos a frente para um modelo GARCH(1,2). 4. Descreva duas vantagens de modelos EGARCH sobre modelos GARCH.

Cap tulo 7

Modelos Lineares Din amicos


A classe de modelos lineares din amicos (MLD), tamb em conhecidos como modelos de espa co de estados tem sido utilizada com sucesso em an alise e previs ao de s eries temporais. Neste cap tulo ser ao apresentadas as formas mais comumente utilizadas de MLD, maiores detalhes podem ser obtidos em West & Harrison (1997) e Pole, West, & Harrison (1994).

7.1

Introdu c ao
yt = F t t + t t = Gt t1 + t (7.1)

Um modelo linear din amico pode ser caracterizado pelo seguinte par de equa c oes

chamadas equa c oes de observa c ao e evolu c ao respectivamente, onde t denota o vetor de estados no tempo t, F e um vetor de constantes conhecidadas ou regressores, G e uma matrix de evolu c ao conhecida. Os erros t e t s ao geralmente assumidos n ao correlacionados em todos os per odos de tempo e serialmente n ao correlacionados com 2) m edia zero. Em muitas aplica c oes pr aticas pode-se assumir tamb em que t N (0, e t tem distribui c ao normal multivariada com m edia zero e matriz de vari anciacovari ancia W t . A id eia aqui e que a idade da informa c ao que se tem sobre seja levada em conta no sentido de que nossa incerteza a respeito de deve aumentar com o passar do tempo. Neste sentido, a forma do modelo e apropriada apenas localmente no tempo e e necess ario caracterizar algum tipo de evolu c ao temporal de . O que se tem ent ao e uma sequ encia de modelos ou um modelo din amico parametrizado por t (o estado do processo no tempo t). Considere um modelo em que uma vari avel y est a relacionada a uma outra vari avel X de acordo com a seguinte forma param etrica y = X + . Al em disso, a incerteza do pesquisador em rela c ao ao par ametro e descrita em termos de uma distribui c ao de probabilidades p(). 89

90

CAP ITULO 7. MODELOS LINEARES DINAMICOS

Em um per odo t qualquer, Dt representa o conjunto de informa c oes dispon veis sobre . Por simplicidade vamos assumir que Dt = {y1 , . . . , yt }. Neste sentido, D0 representa toda a informa c ao inicial (antes de observar os dados) relevante sobre incluindo a pr opria deni c ao do modelo. No tempo t 1, ap os observar y1 , . . . , yt1 , toda a informa c ao sobre o estado do processo est a resumida probabilisticamente na distribui c ao a posteriori p(t1 |Dt1 ). No tempo t, antes de observar yt , toda a informa c ao hist orica Dt1 est a resumida probabilisticamente na distribui c ao a priori de t obtida como p(t |Dt1 ) = p(t |t1 )p(t1 |Dt1 )dt1

que e atualizada ap os observar yt para a posteriori t , combinando-se com o modelo amostral p(yt |t ) via teorema de Bayes p(t |Dt ) = sendo p(yt |Dt1 ) = p(yt |t )p(t |Dt1 )dt p(yt |t )p(t |Dt1 ) p(yt |Dt1 )

e a distribui c ao preditiva de yt . Esquematicamente, t1 |Dt1 Posteriori t |Dt1 Priori Yt |Dt1 Previs ao t |D t Posteriori

Estas equa c oes fornecem um sistema de aprendizado sequencial sobre os par ametros do processo (n ao observ aveis) e tamb em uma sequ encia de distribui c oes preditivas (1 passo a frente) para as quantidades observ aveis. Por em a sua implementa c ao pr atica envolve a resolu c ao de integrais que pode ser um problema de dif cil solu c ao em casos mais gerais. Um caso particular, onde as equa c oes podem ser escritas em forma fechada, e o de modelos lineares din amicos (MLD) normais onde a distribui c ao amostral e denida pela equa c ao das observa c oes yt = Xt t + t , t N (0, Vt )

e os par ametros se relacionam em per odos sucessivos atrav es da equa c ao do sistema t = Gt1 + t , t N (0, Wt )

onde as sequ encias t e t s ao independentes, mutuamente independentes e ambas s ao independentes da informa c ao inicial 0 |D0 N (m0 , C0 ). A matriz G descreve a evolu c ao (determin stica) dos par ametros. Modelos nesta classe ser ao analisados nas pr oximas se c oes.

7.2. MODELOS POLINOMIAIS

91

7.2

Modelos Polinomiais

No MLD mais simples as observa c oes s ao representadas por yt = t + t , t N (0, Vt )

onde t e o n vel da s erie no tempo t. A evolu c ao do n vel e modelada como um passeio aleat orio simples, i.e. t = t1 + t , Estas equa c oes podem ser reescritas como yt |t N (t , Vt ) t N (0, Wt ).

t |t1 N (t1 , Wt ) e a informa c ao inicial e 0 |D0 N (m0 , C0 ). Vamos assumir por enquanto que as vari ancias Vt e Wt s ao conhecidas. Este modelo pode ser pensado como uma aproxima c ao a c ao suave do tempo (t) de modo que de Taylor de 1 ordem para uma fun (t + t) = (t) + termos de ordem mais alta e o modelo descreve os termos de ordem mais alta simplesmente como ru dos de m edia zero. Como saber ent ao se este modelo e adequado a uma particular aplica c ao? No tempo t, o valor esperado da s erie k per odos a frente condicional ao n vel atual e
k

E (Yt+k |t ) = E (t+k |t ) = E (t +

i=1

t+i |t ) = t

e denotando a m edia da distribui c ao a posteriori de t por mt ent ao a fun ca o de previs ao e constante ft (k ) = E (Yt+k |Dt ) = E [E (Yt+k |t , Dt )] = E (t |Dt ) = mt , k > 0.

Assim, este modelo e u til para previs oes de curto prazo, particularmente quando a varia c ao das observa c oes (medida por Vt ) e muito maior do que a varia c ao do n vel (medida por Wt ). Exemplo 7.1 : Foram gerados 100 valores de um modelo polinomial de primeira ordem com vari ancias constantes (Vt = V e Wt = W ). Na Figura 7.1 est ao os valores gerados com as rela c oes V /W iguais a 20, 2 e 0,2. Seguem os comandos do R para produ c ao dos gr acos. > mld.sim = function(n, V, W, mu0) { + mu = mu0 + cumsum(rnorm(n, sd = sqrt(W))) + obs = mu + rnorm(n, sd = sqrt(V)) + ts(cbind(obs, mu)) + }

92

CAP ITULO 7. MODELOS LINEARES DINAMICOS

7.2.1

An alise Sequencial e Previs oes

A m edia inicial m0 e uma estimativa pontual do n vel da s erie e a vari ancia inicial C0 mede a incerteza associada. Assumindo que t1 |Dt1 N (mt1 , Ct1 ), ent ao condicionalmente a Dt1 , t e a soma de 2 quantidades normais e independentes t1 e t e portanto e tamb em normal com m edia e vari ancia dadas por E (t |Dt1 ) = E (t1 |Dt1 ) + E (t |Dt1 ) = mt1

V ar(t |Dt1 ) = V ar(t1 |Dt1 ) + V ar(t |Dt1 ) = Ct1 + Wt = Rt Yt |Dt1 e tamb em a soma de quantidades normais independentes e portanto tem distribui c ao normal com E (Yt |Dt1 ) = E (t |Dt1 ) + E (t |Dt1 ) = mt1

V ar(Yt |Dt1 ) = V ar(t |Dt1 ) + V ar(t |Dt1 ) = Rt + Vt = Qt Ap os observar yt , a distribui c ao atualizada do n vel e obtida via teorema de Bayes combinando-se a verossimilhan ca p(yt |t , Dt1 ) = (2Vt )1/2 exp{(yt t )2 /2Vt } com a priori p(t |Dt1 ) = (2Rt )1/2 exp{(t mt1 )2 /2Rt } de modo que p(t |Dt ) exp 1 (yt t )2 (t mt1 )2 + 2 Vt Rt 1 1 1 exp 2 (V 1 + Rt ) 2t (Vt1 yt + Rt mt1 ) 2 t t
1 Ct (2 t 2t mt ) 2

exp onde

exp

1 Ct (t mt )2 2

1 mt = Ct (Vt1 yt + Rt mt1 ) 1 1 Ct = Vt1 + Rt

e todos os termos que n ao dependem de t foram colocados na constante de proporcionalidade. Portanto, t |Dt N (mt , Ct ). A m edia a posteriori pode ser reescrita de 2 formas alternativas denindo-se o coeciente adaptativo At = Ct Vt1 = Rt /Qt (0, 1) e o erro de previs ao 1 passo a frente et = yt mt1 . Assim mt = (1 At )mt1 + At yt = mt1 + At et . Note a similaridade com a equa c ao de previs ao do m etodo de alisamento exponencial simples visto no Cap tulo 5. Aqui At faz o papel da constante de alisamento por em

7.2. MODELOS POLINOMIAIS

93

agora variando no tempo. A vari ancia a posteriori tamb em pode ser reescrita como fun c ao do coeciente adaptativo como Ct = Rt A2 t Qt < Rt . Podemos utilizar as equa c oes das observa c oes e de evolu c ao para obter a distribui c ao preditiva k passos a frente. Fazendo substitui c oes sucessivas obtemos que
k

t+k = t +
j =1 k

t+j

Yt+k = t +
j =1

t+j + t+k

e como todos os termos s ao normais e independentes segue que Yt+k e tamb em normal com E (Yt+k |Dt ) = E (t |Dt ) = mt
k

V ar(Yt+k |Dt ) = Ct +

Wt+j + Vt+k
j =1

A fun c ao abaixo estima um modelo com tendencia polinomial de 1a ordem fazendo a analise sequencial usando as equa c oes dadas no texto com vari ancias xas e conhecidas. > mld = function(Y, V, W, m0, C0) { + n = length(Y) + m = C = R = Q = f = A = e = ts(rep(NA, length = n), start = start(Y)) + Y = ts(c(NA, Y), end = end(Y)) + C[1] = C0 + m[1] = m0 + for (t in 2:n) { + R[t] = C[t - 1] + W[t] + f[t] = m[t - 1] + Q[t] = R[t] + V[t] + A[t] = R[t]/Q[t] + e[t] = Y[t] - f[t] + m[t] = m[t - 1] + A[t] * e[t] + C[t] = A[t] * V[t] + } + return(list(m = m, C = C, R = R, f = f, Q = Q)) + } Exemplo 7.2 : A fun c ao mld pode ser usada para estimar sequencialmente o nivel da serie de vaz oes do rio Nilo. Primeiro vamos permitir que o nivel varie bastante ao

94

CAP ITULO 7. MODELOS LINEARES DINAMICOS

longo do tempo especicando um valor grande para W e depois reestimar com pouca varia c ao temporal (W bem pequeno). Usaremos a variancia amostral da serie como estimativa de V . Como informa c ao inicial usaremos uma estimativa do nivel igual a 1000 mas com uma grande incerteza associada. O gr aco da s erie com os n veis superimpostos aparece na Figura 7.2.

7.2.2

Vari ancias de Evolu c ao e das Observa c oes

Tipicamente, Wt e desconhecida. Sua estima c ao entretanto leva a uma intratabilidade anal tica que pode ser evitada atrav es de sua especica c ao subjetiva. O fator de desconto e o par ametro b asico que controla o grau de envelhecimento da informa c ao de uma observa c ao. Por exemplo, podemos quanticar o envelhecimento da informa c ao sobre o par ametro t como um aumento de 5% em sua vari ancia a priori (no tempo t), i.e. V ar(t |Dt1 ) = (1 + )V ar(t1 |Dt1 ) ou Rt = (1 + ) Ct1

com = 0.05. Por outro lado, informa c ao e em geral medida em termos de precis ao (o inverso da vari ancia) e podemos escrever Precis ao(t |Dt1 ) = (1 + )1 Precis ao(t1 |Dt1 )
1 1 ou Rt = (1 + )1 Ct 1 .

Nesta escala, o fator de desconto = (1 + )1 varia entre 0 e 1 e = 5% implica em 0.95. Vale notar que o fator de desconto n ao depende da escala na qual as observa c oes s ao medidas. Se = 1 ent ao n ao existe mudan ca ao longo do tempo no n vel da s erie e quanto menor e o valor de maiores s ao as altera c oes esperadas e maior e a perda de informa c ao contida em observa c oes mais antigas. Assim, para um valor xo do fator de desconto temos que Rt = Ct1 / = Ct1 + Wt ou equivalentemente Wt = Ct1 1 = Ct1 .

Como Rt = Ct1 + Wt podemos interpretar esta especica c ao intuitivamente como um aumento de incerteza, ao evoluir de t 1 para t, quanticado como uma propor c ao de Ct1 . A sequ encia de vari ancias Vt tamb em e, em geral, desconhecida embora o pesquisador possa ter alguma informa c ao a priori sobre caracter sticas desta sequ encia. Por exemplo, Vt = V (vari ancia constante e desconhecida), Vt = V kt onde os pesos kt s ao conhecidos, Vt = V k (t ) onde k () e uma fun c ao de vari ancia do n vel da p s erie ou em particular Vt = V t . Impondo-se uma particular estrutura para a sequ encia Wt e para a informa c ao inicial obtem-se um procedimento de atualiza c ao sequencial para V al em de t . Para

7.2. MODELOS POLINOMIAIS isto redene-se o modelo, agora condicionalmente em V , como yt = t + t , t N (0, V ),

95

t = t1 + t ,

0 |V, D0 N (m0 , V C0 ) n0 n0 S0 , V 1 |D0 Gama 2 2

t N (0, V Wt ), ou n0 S0 V 1 2 n0

, n e S ser sendo que m0 , C0 ao especicados. Surgiu assim mais um item na infor0 0 ma c ao inicial com n0 /2 1 E (V 1 |D0 ) = = n0 S0 /2 S0

e S0 e a estimativa pontual a priori da vari ancia V . Com esta deni c ao pode-se mostrar que a distribui c ao inicial marginal de 0 e 0 |D0 tn0 (m0 , C0 )
. com C0 = S0 C0 Se a distribui c ao a posteriori (incondicional) do n vel em t 1 e

t1 |Dt1 tnt1 (mt1 , Ct1 ) ent ao pode-se mostrar que as distribui c oes a priori, preditiva e a posteriori no tempo t s ao dadas por t |Dt1 tnt1 (mt1 , Rt ) t |Dt tnt (mt , Ct )

Yt |Dt1 tnt1 (mt1 , Qt )

onde os par ametros atualizados s ao Qt = Rt + St1 mt = mt1 + At et Ct = (St /St1 )(Rt A2 t Qt ) nt = nt1 + 1 nt St = nt1 St1 + St1 e2 t /Qt . A fun c ao mld1 abaixo faz a an alise sequencial com a vari ancia das observa c oes xa e desconhecida. A especica c ao de Wt e feita via fator de desconto. Note que agora tanto o nivel quanto a vari ancia e os graus de liberdade s ao atualizados sequencialmente. > mld1 = function(Y, delta, m0, C0, n0, S0) { + N = length(Y) + m = n = C = R = Q = S = f = A = e = rep(NA, length = N) + Y = c(NA, Y)

96 + + + + + + + + + + + + + + + + + + }

CAP ITULO 7. MODELOS LINEARES DINAMICOS C[1] = C0 m[1] = m0 S[1] = S0 n[1] = n0 for (i in 2:N) { n[i] = n[i - 1] + 1 R[i] = C[i - 1]/delta f[i] = m[i - 1] Q[i] = R[i] + S[i - 1] A[i] = R[i]/Q[i] e[i] = Y[i] - f[i] S[i] = S[i - 1] + (S[i - 1]/n[i]) * (e[i]^2/Q[i] - 1) m[i] = m[i - 1] + A[i] * e[i] C[i] = A[i] * S[i] } return(list(m = m, C = C, R = R, f = f, Q = Q, n = n, S = S, e = e))

Exemplo 7.3 : Novamente vamos examinar a s erie de vaz oes do rio Nilo, agora usando diferentes fatores de desconto na fun c ao mld1. > res1 = mld1(y, delta = 0.98, m0 = 1000, C0 = 100, n0 = 1, S0 = 0.01) > res2 = mld1(y, delta = 0.7, m0 = 1000, C0 = 100, n0 = 1, S0 = 0.01) Os gr acos na Figura 7.3 mostram a s erie original, as estimativas do nivel obtidas com descontos 0,70 e 0,98 e estas mesmas estimativas com um intervalo de 1, 5 Ct . Os gr acos foram feitos com os seguintes comandos do R, Os modelos podem ser comparados calculando-se o erro quadr atico m edio e o desvio absoluto m edio. Usando os comandos abaixo percebe-se que o modelo com fator de desconto 0,70 e melhor segundo estes crit erios. > > + + + + + > eqm = dam = rep(0, 2) for (i in 2:length(y)) { eqm[1] = eqm[1] + (y[i] - res1$m[i - 1])^2 dam[1] = dam[1] + abs(y[i] - res1$m[i - 1]) eqm[2] = eqm[2] + (y[i] - res2$m[i - 1])^2 dam[2] = dam[2] + abs(y[i] - res2$m[i - 1]) } eqm

[1] 2681716 2375484 > dam [1] 13258.47 11904.16

7.3. MODELO DE CRESCIMENTO LINEAR

97

7.3

Modelo de Crescimento Linear

Considere agora que a descri c ao local mais apropriada e uma tend encia polinomial de 2a ordem. Um modelo um pouco mais elaborado e ent ao obtido criando-se um par ametro extra para descrever o crescimento do n vel do processo observado. A equa c ao das observa c oes ca inalterada, i.e. yt = t + t , t N (0, Vt )

e a evolu c ao do n vel e do crescimento e modelada como t = t1 + t1 + 1t t = t1 + 2t . Usando a representa c ao matricial temos que o vetor de regress ao e a matriz de evolu c ao s ao dados por Xt = ( 1 0 ) e Gt = 1 1 0 1 .

Nesta nota c ao, denindo t = (t , t ) obtemos os momentos das distribui c oes a priori e preditiva como E (t |Dt1 ) = at = GE (t1 |Dt1 ) = Gmt1 = (mt1 + bt1 , bt1 )

V ar(t |Dt1 ) = Rt = GCt1 G + Wt

V ar(Yt |Dt1 ) = Qt = Xt Rt Xt + St1 .

E (Yt |Dt1 ) = ft = Xt at = mt1 + bt1

Os momentos da distribui c ao a posteriori de t s ao uma generaliza c ao matricial daqueles obtidos para o modelo anterior, E (t |Dt ) = mt = at + At et

V ar(t |Dt ) = Ct = (St /St1 )(Rt At A t Qt ) N ao e dif cil vericar que a fun c ao de previs ao e dada por ft (k ) = Xt Gk mt = mt + kbt sendo que mt e bt s ao as estimativas pontuais do n vel t e do crescimento t . Portanto, assim como no caso anterior, este modelo tamb em e apropriado para previs oes de curto prazo. As vari ancias Wt s ao mais uma vez especicadas indiretamente atrav es de um fator de desconto . Neste caso, Rt = GCt1 G / implica que Wt = GCt1 G (1 1).

98

CAP ITULO 7. MODELOS LINEARES DINAMICOS

7.4

Modelos Sazonais

Um comportamento peri odico ou c clico pode ser encontrado em v arias s eries tem porais. E importante que se consiga descrever o padr ao sazonal da s erie atrav es de quantidades que possam ser estimadas incluindo-se assim este padr ao na fun c ao previs ao. Nos modelos aqui analisados dene-se um componente sazonal descrevendo desvios sazonais em torno de um n vel dessazonalizado ou tend encia.

7.4.1

Modelos sem Crescimento

vel A id eia aqui e fazer a superposi c ao de um modelo polinomial de 1a ordem (para o n dessazonalizado) com um modelo de efeitos sazonais. As equa c oes das observa c oes e de evolu c ao s ao dadas por yt = t + t0 + t , t = t1 + t tr = t1,r+1 + t,r , t,p1 = t1,0 + t,p1 t N (0, Vt ) r = 0, , p 2

1 e o per odo sazonal da s erie. Por exemplo, com a restri c ao p r =0 tr = 0, t e onde p p = 12 para uma s erie com observa c oes mensais e p = 4 para observa c oes trimestrais. Para xar id eias, considere uma s erie trimestral e suponha que t 1 e o segundo trimestre de um determinado ano. Ent ao o vetor de par ametros consiste de 4 efeitos sazonais, um para cada trimestre,

t1 =

t0 t1 t2 t3

trim. trim. trim. trim.

2 3 4 1

A fun c ao de previs ao assume a forma ft (k ) = mt + htj onde mt e o valor esperado do n vel dessazonalizado no tempo t + k e htj e o desvio sazonal esperado em torno deste n vel. O desvio utilizado na fun c ao de previs ao e tal que j e o resto da divis ao k/p. Por exemplo, se p = 12, e t0 refere-se ao m es de janeiro ent ao a previs ao 1 passo a frente (k = 1) feita em dezembro e mt + E (t0 |Dt ), com j = 1. Se o horizonte de previs ao for k = 2 ent ao j = 2 e o desvio sazonal refere-se a fevereiro, i.e. ft (2) = mt + E (t1 |Dt ).

e ao passar de t 1 para t ocorre simplesmente uma rota c ao nos elementos deste vetor, trim. 3 t0 trim. 4 t1 t = = . t2 trim. 1 t3 trim. 2

DE FOURIER 7.5. REPRESENTAC AO

99

7.4.2

Modelos com Crescimento

Novamente a id eia e fazer a superposi c ao de um modelo para os efeitos sazonais ametro que mas agora com um modelo polinomial de 2a ordem onde se tem um par representa o crescimento do n vel dessazonalizado. O modelo pode ser escrito como yt = t + t0 + t ,
t = t1 + t

t = t1 + t1 + t tr = t1,r+1 + t,r , t,p1 = t1,0 + t,p1 com a restri c ao forma


p 1 r =0 tr

t N (0, Vt )

r = 0, , p 2

= 0, t. A fun c ao de previs ao agora assume a seguinte


p 1

ft (k ) = mt + kbt + htj , onde htj tem a mesma interpreta c ao anterior.

com
j =0

htj = 0

7.5

Representa c ao de Fourier

Uma forma alternativa de se representar padr oes c clicos e atrav es de combina c oes lineares de fun c oes peri odicas. Em particular a utiliza c ao de fun c oes trigonom etricas leva a representa c oes de Fourier da sazonalidade. O modelo (com crescimento) e representado pelas seguintes equa c oes
p/2

yt = t +
j =1

j,t + t ,

t N (0, Vt )

t = t1 + t1 + t , j,t
j,t t = t1 + t ,

e j,t = j,t1 + j,t para j = p/2. A fun c ao de previs ao e dada por


p/2 p/2

cos 2j/p sin 2j/p sin 2j/p cos 2j/p

j,t1 j,t 1

wj,t wj,t

, j = 1, . . . , p/2 1

ft (k ) =
j =1

Sjk =
j =1

[at,j cos(2jk/p) + a t,j sen(2jk/p)

. onde at,j e a ao as estimativas pontuais de coecientes de Fourier t,j e t,j t,j s Como no cap tulo anterior, as vari ancias dos erros de evolu c ao s ao especicadas indiretamente atrav es de um fator de desconto. A estrat egia recomendada em (Pole, West, & Harrison 1994) e West & Harrison (1997) consiste em especicar um fator de

100

CAP ITULO 7. MODELOS LINEARES DINAMICOS

desconto para cada componente do modelo. No modelo com uma tend encia polinomial mais um componente sazonal teremos ent ao 2 fatores de desconto. Em geral, o fator de desconto do componente sazonal e maior do que o da tend encia. Neste sentido estamos assumindo que o padr ao sazonal da s erie, embora possa estar sujeito a altera c oes, e mais est avel do que a sua tend encia.

7.6

Ilustra c ao

A Figura ?? apresenta o total de vendas trimestrais (em milhares) de perus na Irlanda entre o primeiro trimestre de 1974 e o terceiro trimestre de 1982. A s erie exibe um crescimento sistem atico ao longo de todo o per odo juntamente com um padr ao sazonal acentuado. Outra caracter stica interessante e que a forma do padr ao sazonal se alterou a partir de 1978. Vamos fazer a estima c ao sequencial de um modelo para os efeitos sazonais superpostos a uma tend encia de crescimento linear e vericar o comportamento das previs oes 1 passo a frente. Suponha que a informa c ao a priori foi acessada examinando-se as vendas dos anos anteriores a 1974. Esta informa c ao est a resumida na Tabela 7.1. Note a restri c ao de soma zero na especica c ao a priori dos efeitos sazonais e tamb em que a especica c ao equivalente em termos de fatores sazonais seria 11, 19, 19 e 11 para os fatores e (11+19+19+11)/4 = 15 para o n vel. Tabela 7.1: Informa c ao a priori.

Componente N vel Crescimento Efeito sazonal 1 Efeito sazonal 2 Efeito sazonal 3 Efeito sazonal 4 D.P. das observa c oes

M edia (Desvio padr ao) 15 (0.75) 0 (0.3) -4 (0.5) 4 (0.5) 4 (0.5) -4 (0.5) 1 com 1 g.l.

A performance preditiva do modelo foi investigada para fatores de desconto variando nos intervalos (0.9,1.0) para a tend encia e (0.6,1.0) para os fatores sazonais. Estes intervalos est ao coerentes com a id eia de que espera-se um padr ao sazonal mais est avel do que a tend encia. Entretanto os valores encontrados ap os esta busca foram 0.90 para a tend encia e 0.80 para os fatores sazonais. Uma id eia intuitiva e a altera c ao no padr ao sazonal ocorrida em 1978 deve ter contribuido para este resultado at pico. Os 2 gr acos a seguir apresentam as previs oes pontuais (1 passo a frente) juntamente com intervalos de 90% de probabilidade e os valores observados da s erie. O primeiro gr aco refere-se ao modelo est atico (ambos os fatores de desconto iguais a 1). Note que a mudan ca no padr ao sazonal ocorre muito lentamente no modelo est atico e

7.7. MODELOS DE REGRESSAO

101

no nal da s erie o padr ao estimado e apenas ligeiramente diferente do padr ao inicial. J a no modelo din amico o padr ao sazonal evolui para uma forma completamente diferTabela 7.2: Descontos 0.90 e 0.80 1.00 e 1.00 EQM 3.11 4.23 DAM 1.34 1.64 LLIK -71.1 -77.6

ente melhorando a performance preditiva. Este fato pode ser notado por inspe c ao visual e e conrmado pelos indicadores na Tabela 7.2. A explica c ao intuitiva para este fato, lembrando da deni c ao de fator de desconto, e que no modelo din amico um peso maior e dado para as observa c oes mais recentes ao fazer previs oes. Com isto a altera c ao no padr ao sazonal e incorporada mais rapidamente do que no modelo est atico. As previs oes de vendas para o quarto trimestre de 1982 e para 1983 tamb em levar ao em conta os diferentes padr oes sazonais do nal da s erie.

7.7

Modelos de Regress ao

Para completar o nosso modelo din amico podemos pensar em incluir na equa c ao das observa c oes efeitos de vari aveis regressoras. Considere por exemplo a regress ao linear da var avel yt em uma cole c ao de p vari aveis independentes X1t , . . . , Xpt . Se um termo constante for incluido no modelo ent ao X1t = 1, t. Denotando o vetor de regress ao e o vetor de coecientes de regress ao no tempo t por Xt = (X1t , . . . , Xpt ) e t = (1t , . . . , pt ) respectivamente ent ao as equa c oes do modelo s ao dadas por yt = Xt t + t , t = t1 + t , t N (0, Vt )

t N (0, Wt ).

Assim, os coecientes da regress ao evoluem segundo um passeio aleat orio, como no modelo polinomial de 1a ordem, i.e., a matriz de evolu c ao G = Ip . O vetor de regress ao e formado pelas pr oprias vari aveis regressoras e note que a equa c ao das observa c oes pode ser reescrita como
p

yt =
i=1

it Xit + t

de modo que o modelo pode ser visto como uma superposi c ao de p regress oes simples pela origem. Todas as distribui c oes envolvidas s ao an alogas aos casos anteriores e as equa c oes dadas na Se c ao 2.3 podem ser utilizadas para obter os momentos das distribui c oes a

102

CAP ITULO 7. MODELOS LINEARES DINAMICOS

priori, preditiva e a posteriori fazendo-se G = Ip . Assim, at = mt1 Rt = Ct1 + Wt ft = Xt mt1 e as outras equa c oes permanecem inalteradas. E interessante notar como ca a fun c ao de previs ao ft (k ) neste caso. Primeiro reescreva a equa c ao de evolu c ao para t+k fazendo k substitui c oes sucessivas obtendo
k

t+k = t +
j =1

t+j

de modo que at+k = mt


k

Rt+k = Ct +
j =1

Wt+j .

Ent ao, usando a equa c ao das observa c oes obtemos que ft (k ) = Xt+k mt
Qt+k = Xt+k Rt+k Xt +k + St .

Assim, a previs ao pontual k passos a frente e a pr opria fun c ao de regress ao avaliada na estimativa dos coecientes no tempo t e nos valores futuros dos regressores (que nem sempre est ao dispon veis). A sequ encia de vari ancias Wt e mais uma vez estruturada usando um fator de desconto.

7.8

Monitoramento

Ao comparar sequencialmente as previs oes com os valores observados pode-se julgar a adequa c ao relativa de modelos alternativos com base em sua performance preditiva. Observa c oes ocorrendo nas caudas da distribui c ao preditiva s ao sempre poss veis por deni c ao por em improv aveis. Quanto mais afastada em uma das caudas mais preciso ent improv avel e a observa c ao. E ao estabelecer um crit erio para julgar que tipo de inconsist encia entre observa c ao e previs ao deve ser sinalizada pelo sistema. No entanto, sinalizar uma observa c ao como improv avel apenas indica uma poss vel preciso saber em que sentido o modelo deci encia geral do modelo. E e deciente, i.e. vericar que modelos alternativos, com diferentes distribui c oes preditivas, teriam uma performance melhor. O fator de Bayes, denido a seguir, e a ferramenta utilizada para fazer esta compara c ao de modelos.

7.8. MONITORAMENTO

103

Se pA (yt |Dt1 ) e a densidade preditiva 1 passo a frente de um modelo alternativo ent ao o fator de Bayes e denido como Ht = p(yt |Dt1 ) , pA (yt |Dt1 )

i.e. a raz ao das densidades preditivas avaliadas no valor observado yt . Outra forma de comparar a performance preditiva de dois modelos e considerer um grupo de observa c oes ao inv es de uma u nica e se basear no fator de Bayes acumulado Ht (k ) = p(yt |Dt1 )p(yt1 , . . . , ytk+1 |Dtk ) p(yt , . . . , ytk+1 |Dtk ) = pA (yt , . . . , ytk+1 |Dtk ) pA (yt |Dt1 )pA (yt1 , . . . , ytk+1 |Dtk )
k 1 j =0

= Ht Ht1 (k 1) =

Htj .

Pode-se assim sinalizar evid encias de altera c ao lenta na estrutura da s erie. A id eia e que, individualmente, estas evid encias n ao s ao sucientes para se questionar as previs oes do modelo em uso mas quando consideradas conjuntamente a evid encia acumulada pode ser grande e deve ser sinalizada. A quest ao agora e como construir um sistema de monitoramento autom atico da s erie a partir destas id eias intuitivas. Quando as observa c oes est ao cada vez mais afastadas das previs oes ent ao um fator de Bayes individual Ht pode n ao ser sucientemente pequeno e precisa ser acumulado para indicar alguma evid encia contra o modelo padr ao. Neste caso, o monitor identica o grupo mais discrepante de observa c oes consecutivas calculando Vt and lt da seguinte forma, Vt = min Ht (k ) = Ht (lt )
1kt

sendo calculado sequencialmente com as seguintes recurs oes, Vt = Ht min{1, Lt1 } e lt = lt1 + 1, se Lt1 < 1 1, se Lt1 1

conforme mostrado em West (1986). O modelo padr ao e aceito como sendo satisfat orio at e a ocorr encia de um valor Lt menor do que um valor pr e-especicado < 1 (o limite inferior para aceita c ao de Lt ) quando a ocorr encia de uma descontinuidade na s erie e sinalizada. Se lt = 1 ent ao uma u nica observa c ao discrepante e identicada como a causa mais prov avel de falha, embora o in cio de uma mudan ca tamb em seja uma possibilidade. Por outro lado, lt > 1 indica que uma mudan ca come cou a ocorrer lt periods atr as em t lt + 1. Al em disso, se uma mudan ca estrutural lenta est a ocorrendo na s erie as observa c oes mais recentes indicar ao evid encia contra o modelo padr ao que n ao ser a suciente para fazer Lt < . Assim, para aumentar a sensibilidade do monitor a estas mudan cas uma descontinuidade deve ser sinalizada se lt > 3 ou 4. Para especicar o modelo alternativo assume-se que as densidades preditivas s ao normais com m edia comum ft e vari ancias Qt e Qt / onde 0 < < 1, de modo que o fator de Bayes ca Ht = 1 (yt ft )2 exp (1 ) 2Qt = 1 1 exp (1 )e2 t 2

104

CAP ITULO 7. MODELOS LINEARES DINAMICOS

onde et e o erro de previs ao um passo a frente padronizado. A escolha de pode ser facilitada reescrevendo-se o fator de Bayes como Ht = exp(0.5 log + (1 )e2 t ). Claramente Ht = 1 ou equivalentemente e2 t = (log )/(1 ) indica nenhuma evid encia para discriminar entre os modelos. O valor de , pode ser escolhido de modo a fornecer o valor m aximo de |et | que n ao indica evidence contra o modelo padr ao. Por exemplo, (0.1, 0.3) implica que a evid encia contra o modelo padr ao deve ser acumulada para 1.3 < |et | < 1.6 que s ao aproximadamente os percentil 0.90 e 0.95 distribui c ao normal padr ao. claro que para xo, a evid E encia contra o modelo padr ao aumenta com |et |. West & Harrison (1997) ilustraram como a escolha de tem pouca inu encia quando o erro se torna muito grande em rela c ao ao modelo alternativo. Este pode ser visto como um modelo geral no sentido de levar em conta v arios tipos de mudan cas al em de observa c oes discrepantes. Essencialmente, este procedimento pode ser visto como um m etodo explorat orio gerando informa c ao sobre o tipo e o per odo mais prov avel de mudan ca estrutural.

7.8. MONITORAMENTO

105

> > > > + + +

w = c(0.05, 0.5, 5) g = list(col = 1:2, xlab = "tempo", ylab = "y") par(mfrow = c(2, 2)) for (i in w) { ts.plot(mld.sim(100, 1, i, 25), gpars = g, main = paste("V/W=", 1/i)) }
V/W= 20
20 22 24 26 28 26

V/W= 2

24

20

22

20

40

60

80

100

20

40

60

80

100

tempo

tempo

V/W= 0.2

y 20 0 30

40

20

40

60

80

100

tempo

Figura 7.1: 100 valores simulados do modelo polinomial de 1a ordem com (a) V /W = 20,
(b) V /W = 2, (c) V /W = 0, 2.

106

CAP ITULO 7. MODELOS LINEARES DINAMICOS

> > > > > > > > + > > +

y = Nile n = length(y) res = mld(y, V = rep(var(y), n), W = rep(50, n), m0 = 1000, C0 = 1000) plot(y, xlab = "Anos", ylab = "Medi co ~es", type = "p") lines(res$m, col = 2) lines(res$m - 2 * sqrt(res$C), col = 2, lty = 1) lines(res$m + 2 * sqrt(res$C), col = 2, lty = 1) res = mld(y, V = rep(var(y), n), W = rep(0.05, n), m0 = 1000, C0 = 1000) lines(res$m, col = 4) legend(1940, 1350, c("obs", "W=50", "W=.05"), col = c(1, 2, 4), bty = "n")

1400

Medies

600

800

1000

1200

obs W=50 W=.05

1880

1900

1920 Anos

1940

1960

Figura 7.2:

7.8. MONITORAMENTO

107

Desconto 0.98
1400 1400

Desconto 0.70

1000

600

1880

1920 Time

1960

600 1880

1000

1920 Time

1960

Serie original
1400 1400 obs desconto=.98 desconto=.70

1000

600

1880

1920

1960

600 1880

1000

1920

1960

Figura 7.3:

Ap endice A

Lista de Distribui c oes


Neste ap endice s ao listadas as distribui c oes de probabilidade utilizadas no texto para facilidade de refer encia. S ao apresentadas suas fun c oes de (densidade) de probabilidade al em da m edia e vari ancia. Uma revis ao exaustiva de distribui c oes de probabilidades pode ser encontrada em Johnson et al. (1994), Johnson et al. (1995) e Johnson et al. (1992).

A.1

Distribui c ao Normal

X tem distribui c ao normal com par ametros e 2 , denotando-se X N (, 2 ), se sua fun c ao de densidade e dada por p(x|, 2 ) = (2 2 )1/2 exp[(x )2 /2 2 ], < x < ,

para < < e 2 > 0. Quando = 0 e 2 = 1 a distribui c ao e chamada normal padr ao. A distribui c ao log-normal e denida como a distribui c ao de eX . No caso vetorial, X = (X1 , . . . , Xp ) tem distribui c ao normal multivariada com vetor de m edias e matriz de vari ancia-covari ancia , denotando-se X N (, ) se sua fun c ao de densidade e dada por p(x|, ) = (2 )p/2 ||1/2 exp[(x ) 1 (x )/2] para Rp e positiva-denida.

A.2

A Fun c ao Gama

() =
0

x1 ex dx.

Propriedades, Usando integra c ao por partes pode-se mostrar que, ( + 1) = (), > 0. 108

GAMA A.3. DISTRIBUIC AO (1) = 1. (1/2) = ( ).

109

Para n um inteiro positivo, (n + 1) = n! e n+ 1 2 = n 1 2 n 3 2 ... 3 1 22

A.3

Distribui c ao Gama

X tem distribui c ao Gama com par ametros e , denotando-se X Ga(, ), se sua fun c ao de densidade e dada por p(x|, ) = para , > 0. E (X ) = / e V (X ) = / 2 . Casos particulares da distribui c ao Gama s ao a distribui c ao de Erlang, Ga(, 1), a distribui c ao exponencial, Ga(1, ), e a distribui c ao qui-quadrado com graus de liberdade, Ga(/2, 1/2). 1 x x e , () x > 0,

A.4

Distribui c ao Wishart

Diz-se que uma matriz aleat oria (n n) segue uma distribui c ao Wishart com par ametro e graus de liberdade, denotando-se W (, ), se sua fun c ao de densidade e dada por, p(|, ) ||( n1)/2 exp((1/2)tr()) sendo n, positiva-denida e tr(A) indica o tra co de uma matriz A. Uma propriedade u til e que AA W (AA , ).

A.5

Distribui c ao Gama Inversa


denotando-se

X tem distribui c ao Gama Inversa com par ametros e , X GI (, ), se sua fun c ao de densidade e dada por p(x|, ) = para , > 0. E (X ) = , 1 para > 1 e V (X ) = 2 , ( 1)2 ( 2) (+1) /x x e , () x > 0,

para > 2.

N ao e dif cil vericar que esta e a distribui c ao de 1/X quando X Ga(, ).

110

APENDICE A. LISTA DE DISTRIBUIC OES

A.6

Distribui c ao Wishart Invertida

Diz-se que uma matriz aleat oria (n n) segue uma distribui c ao Wishart-Invertida com par ametro e graus de liberdade, denotando-se W I (, ) se sua fun c ao de densidade e dada por, p(|, ) ||( +n+1)/2 exp((1/2)tr()) sendo n, positiva-denida e tr(A) indica o tra co de uma matriz A. N ao e dif cil 1 vericar que W (, ). Outra propriedade e que AA W I (AA , ).

A.7

Distribui c ao Beta

X tem distribui c ao Beta com par ametros e , denotando-se X Be(, ), se sua fun c ao de densidade e dada por p(x|, ) = para , > 0. E (X ) = + e V (X ) = ( + )2 ( + + 1) . ( + ) 1 x (1 x) 1 , ()( ) 0 < x < 1,

A.8

Distribui c ao de Dirichlet

O vetor aleat orio X = (X1 , . . . , Xk ) tem distribui c ao de Dirichlet com par ametros 1 , . . . , k , denotada por Dk (1 , . . . , k ) se sua fun c ao de densidade conjunta e dada por (0 ) k 1 1 1 p(x|1 , . . . , k ) = x . . . xk , 1 (1 ), . . . , (k ) para 1 , . . . , k > 0 e 0 = E (Xi ) = i , 0
k i=1 i . k

xi = 1,
i=1

V (Xi ) =

(0 i )i 2 ( + 1) , 0 0

e Cov (Xi , Xj ) =

i j 2 0 (0 +

1)

Note que a distribui c ao Beta e obtida como caso particular para k = 2.

A.9

Distribui c ao t de Student

X tem distribui c ao t de Student (ou simplesmente t) com m edia , par ametro de escala 2 e graus de liberdade, denotando-se X t (, ), se sua fun c ao de densidade e dada por p(x|, , 2 ) = (x )2 (( + 1)/2) /2 + 2 (/2)
( +1)/2

x R,

F DE FISHER A.10. DISTRIBUIC AO para > 0, R e 2 > 0. E (X ) = , para > 1 e V (X ) = 2

111

, 2

para > 2.

Um caso particular da distribui c ao t e a distribui c ao de Cauchy, denotada por 2 C (, ), que corresponde a = 1.

A.10

Distribui c ao F de Fisher

X tem distribui c ao F com 1 e 2 graus de liberdade, denotando-se X F (1 , 2 ), se sua fun c ao de densidade e dada por p(x|1 , 2 ) = ((1 + 2 )/2) 1 /2 2 /2 1 /21 2 x (2 + 1 x)(1 +2 )/2 (1 /2)(2 /2) 1

x > 0, e para 1 , 2 > 0. E (X ) = 2 , 2 2 para 2 > 2 e V (X ) =


2 ( + 2) 22 1 2 , 1 (2 4)(2 2)2

para 2 > 4.

A.11

Distribui c ao Binomial

X tem distribui c ao binomial com par ametros n e p, denotando-se X bin(n, p), se sua fun c ao de probabilidade e dada por p(x|n, p) = para n 1 e 0 < p < 1. E (X ) = np e V (X ) = np(1 p) n x p (1 p)nx , x x = 0, . . . , n

e um caso particular e a distribui c ao de Bernoulli com n = 1.

A.12

Distribui c ao Multinomial

O vetor aleat orio X = (X1 , . . . , Xk ) tem distribui c ao multinomial com par ametros n c ao de probabile probabilidades 1 , . . . , k , denotada por Mk (n, 1 , . . . , k ) se sua fun idade conjunta e dada por p(x|1 , . . . , k ) = n! xk x1 , . . . , k , x1 !, . . . , xk ! 1
k

xi = 0, . . . , n,
i=1

xi = n,

para 0 < i < 1 e k c ao binomial e um caso especial i=1 i = 1. Note que a distribui da multinomial quando k = 2. Al em disso, a distribui c ao marginal de cada Xi e binomial com par ametros n e i e E (Xi ) = ni , V (Xi ) = ni (1 i ), e Cov (Xi , Xj ) = ni j .

112

APENDICE A. LISTA DE DISTRIBUIC OES

A.13

Distribui c ao de Poisson

X tem distribui c ao de Poisson com par ametro , denotando-se X P oisson(), se sua fun c ao de probabilidade e dada por p(x|) = para > 0. E (X ) = V (X ) = . x e , x! x = 0, 1, . . .

A.14

Distribui c ao Binomial Negativa

X tem distribui c ao de binomial negativa com par ametros r e p, denotando-se X BN (r, p), se sua fun c ao de probabilidade e dada por p(x|r, p) = para r 1 e 0 < p < 1. E (X ) = r(1 p)/p e V (X ) = r(1 p)/p2 . r+x1 r p (1 p)x , x x = 0, 1, . . .

Um caso particular e quando r = 1 e neste caso diz-se que X tem distribui c ao geom etrica com par ametro p.

Refer encias
Bauwens, L., Lubrano, M. & Richard, J. (1999). Bayesian Inference in Dynamic Econometric Models. Oxford University Press. Box, G. E. P. & Jenkins, G. M. (1970). Time Series Analysis, Forecasting and Control. Holden-Day, San Francisco, California. Box, G. E. P., Jenkins, G. M. & Reinsel, G. C. (1994). Time Series Analysis: Forecasting and Control (Third ed.). Englewood Clis NJ: Prentice-Hall. Brockwell, P. & Davis, R. (1991). Time Series: Theory and Methods (2nd ed.). New York: Springer-Verlag. Burnham, K. P. & Anderson, D. R. (1998). Model Selection and Inference: A Practical Information-Theoretic Approach. Springer: New York. Diggle, P. (1990). Time Series: A Biostatistical Introduction. Oxford University Press: New York. Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom ination. Econometrica 50, 9871007. Franses, P. H. (1998). Time Series Models for Business and Economic Forecasting. Cambridge University Press. Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1994). Continuous Univariate Distributions (2nd ed.), Volume 1. John Wiley, New York. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1995). Continuous Univariate Distributions (2nd ed.), Volume 2. John Wiley, New York. Johnson, N. L., Kotz, S. & Kemp, A. W. (1992). Univariate Discrete Distributions (2nd ed.). John Wiley, New York. Kendall, M. G., Stuart, A. & Ord, J. K. (1983). Advanced theory of statistics (4th ed.), Volume 3. Grin: London. Pole, A., West, M. & Harrison, J. (1994). Applied Bayesian Forecasting and Time Series Analysis. Texts in Statistical Sciences. Chapman & Hall. Priestley, M. B. (1981). Spectral Analysis and Time Series. London: Academic Press. Taylor, S. (1986). Modelling Financial Time Series. Wiley. 113

114 Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley.

References.

West, M. & Harrison, P. J. (1997). Bayesian Forecasting and Dynamic Models. Springer Verlag, New York.