Вы находитесь на странице: 1из 34

CAPTULO 11

SERIE TIME MODELOS DE REGRESIN


En este captulo, presentamos varias ideas tiles que incorporan informacin externaen
modelos de series temporales. Comenzamos con modelos que incluyen los efectos de las
intervenciones en el comportamiento normal de las series de tiempo. Tambin consideramos
modelos que asimilan los efectos de observaciones atpicas, ya sea en la serie observada o en
los trminos de error, que son altamente inusual en relacin con el comportamiento normal.
Por ltimo, desarrollamos mtodos para buscar y tratar con correlacin-correlacin espuria
entre series que es artificial y no ayudar modelar o comprender la serie de tiempo de inters.
Veremos ese prehumedecimiento de la serie nos ayuda a encontrar relaciones significativas.

11.1 Anlisis de intervencin


La figura 11.1 muestra la grfica de tiempo de los logaritmos de millas de pasajeros de la
aerolnea en Estados Unidos desde enero de 1996 hasta mayo de 2005. La serie temporal es
muy estacional, mostrando el hecho de que el trfico areo es generalmente ms alto durante
los meses de verano y diciembre y ms bajo en los meses de invierno. Adems, el trfico
areo fue aumentando de forma algo lineal en general hasta que tuvo una cada repentina en
septiembre de 2001.

La repentina cada en el nmero de pasajeros areos en septiembre de 2001 y varios meses


despus fue provocada por los actos terroristas del 11 de septiembre de 2001, cuando cuatro
aviones fueron secuestrados, tres de los cuales se estrellaron contra las torres gemelas del
World Trade Center y el Pentgono y el cuarto en un campo rural en Pensilvania. Los ataques
terroristas de septiembre de 2001 deprimieron profundamente el trfico areo en ese perodo,
pero el trfico areo gradualmente recuper las prdidas con el paso del tiempo. Este es un
ejemplo de una intervencin que resulta en un cambio en la tendencia de una serie temporal.

El anlisis de intervencin, presentado por Box y Tiao (1975), proporciona un marco para
evaluar el efecto de una intervencin en una serie temporal en estudio. Se supone que la
intervencin afecta el proceso al cambiar la funcin o tendencia media de una serie temporal.
Las intervenciones pueden ser naturales o artificiales. Por ejemplo, algunos niveles de
poblacin animal colapsaron a un nivel muy bajo en un ao particular debido al clima
extremo en ese ao. El nivel de poblacin anual despus de la cada puede entonces ser
diferente del perodo de precrash. Otro ejemplo es el aumento del lmite de velocidad de 65
millas por hora a 70 millas por hora en una carretera interestatal. Esto puede hacer que
conducir la carretera ms peligrosa. Por otro lado, los conductores pueden permanecer en la
carretera durante un perodo de tiempo ms corto debido a la velocidad ms rpida, por lo
que el efecto neto del cambio de lmite de velocidad aumentada no est claro. El efecto del
aumento en el lmite de velocidad puede estudiarse analizando la funcin media de algunos
datos de series temporales de accidentes; por ejemplo, el nmero trimestral de accidentes
automovilsticos mortales en algn segmento de una carretera interestatal. (Tenga en cuenta
que la intervencin tambin puede cambiar la funcin de autocovarianza de la serie temporal,
pero esta posibilidad no se perseguir aqu).

Anexo 11.1 Millas de millas mensuales de EE. UU. Desde enero de 1996
hasta mayo de 2005

> win.graph(width=4.875,height=2.5,pointsize=8)
> data(airmiles)
> plot(log(airmiles),ylab='Log(airmiles)',xlab='Year')

Primero consideramos el caso simple de una sola intervencin. El modelo general para el las
series temporales {Yt}, tal vez despus de una transformacin adecuada, vienen dadas por

Yt = mt + Nt
donde mt es el cambio en la funcin media y Nt se modela como algn proceso ARIMA,
posiblemente estacional. El proceso {Nt} representa la serie de tiempo subyacente donde no
hubo intervencin. Se lo conoce como el proceso natural o imperturbado, y puede ser
estacionario o no estacionario, estacional o no estacional. Supongamos que la serie temporal
est sujeta a una intervencin que tiene lugar en el tiempo T. Antes de T, se supone que mt
es idnticamente cero. La serie de tiempo {Yt, t <T} se conoce como datos de la
preintervencin y se puede usar para especificar el modelo para el proceso no perturbado Nt.

En funcin de las consideraciones de la materia, el efecto de la intervencin en la media la


funcin a menudo se puede especificar hasta algunos parmetros. Una funcin til en esta
especificacin es la funcin de paso

St { 1, if t T
{0, otherwise

eso es 0 durante el perodo de preintervencin y 1 durante el perodo posterior a la


intervencin. La funcin de pulso

11.1.3

es igual a 1 en t = T y 0 en caso contrario. Es decir, pt es el indicador o la variable ficticia


que indica el tiempo en que se lleva a cabo la intervencin. Si la intervencin da como
resultado un cambio inmediato y permanente en la funcin media, el cambio se puede
modelar como

11.1.4

donde es el cambio permanente desconocido en el promedio debido a la intervencin.


Probar si = 0 o no es similar a probar si la poblacin significa que son iguales con los datos
en forma de dos muestras aleatorias independientes de las dos poblaciones. Sin embargo, la
principal diferencia aqu es que, en general, no se puede asumir que los datos previos y
posteriores a la intervencin son independientes e idnticamente distribuidos. La correlacin
serial inherente en los datos hace que el problema sea ms interesante pero, al mismo tiempo,
ms difcil. Si hay un retraso de las unidades de tiempo d antes de que la intervencin entre
en vigencia y d se conozca, entonces podemos especificar.

11.1.5

En la prctica, la intervencin puede afectar la funcin media gradualmente, con toda su


fuerza reflejado solo en el largo plazo. Esto se puede modelar especificando mt como un tipo
AR (1) modelo con el trmino de error reemplazado por un mltiplo del retraso 1 de St

11.1.6

con la condicin inicial m0 = 0. Despus de un poco de lgebra, se puede demostrar que

11.1.7

Con frecuencia, se selecciona en el rango 1> > 0. En ese caso, mt se aproxima a / (1 -


) para t grande, que es el cambio final (ganancia o prdida) para la funcin media. Mitad de
el cambio final se alcanza cuando 1 - t-T = 0.5; es decir, cuando t = T + log (0.5) / log ().
El registro de duracin (0.5) / log () se denomina semivida del efecto de intervencin y el
cuanto ms corto sea, ms rpido ser el ltimo cambio que sienta el sistema. La figura 11.2
muestra la vida media en funcin de , que muestra que la vida media aumenta con . De
hecho, la vida media se vuelve infinitamente grande cuando se aproxima a 1.

Figura 11.2 Vida media basada en un proceso AR (1) con entrada de


funcin de paso

Es interesante observar el caso lmite cuando = 1. Entonces mt = (T - t) para t T y 0 de


lo contrario. La grfica de secuencia de tiempo de mt muestra la forma de una rampa con
pendiente . Esta especificacin implica que la intervencin cambia la funcin media
linealmente en perodo postintervencin. Este efecto de rampa (con un retraso de unidad de
tiempo) se muestra en Figura 11.3 (c). Los efectos de intervencin de corta duracin pueden
especificarse utilizando la variable ficticia de pulso

11.1.8
Por ejemplo, si la intervencin afecta la funcin media solo en t = T, entonces

11.1.9

Los efectos de intervencin que se extinguen gradualmente se pueden especificar a travs de


la especificacin de tipo AR (1)

11.1.10

Es decir, mt = T- t para t T de modo que la media cambia inmediatamente en una cantidad


y posteriormente el cambio en la media disminuye geomtricamente por el factor comn
de ; ver la Figura 11.4 (a). Los cambios retardados pueden incorporarse rezagndose a la
funcin de pulso. Por ejemplo, si el cambio en la media tiene lugar despus de un retraso de
una unidad de tiempo y el efecto se apaga gradualmente, podemos especificar

11.1.11

Nuevamente, asumimos la condicin inicial m0 = 0. Es til escribir el modelo anterior


en trminos del operador de cambio de retroceso B, donde Bmt = mt - 1 y. Entonces .
O, podemos escribir

11.1.12

Recuperar, que se puede volver a escribir como


Figura 11.3 Algunos modelos comunes para intervenciones de respuesta
escalonada (Todos se muestran con un retraso de 1 unidad de tiempo)

Se pueden combinar varias especificaciones para modelar intervenciones ms sofisticadas

efectos. Por ejemplo,

11.1.13

representa la situacin que se muestra en el Anexo 11.4 (b) donde 1 y 2 son ambos
mayores que

cero, y

11.1.14

puede modelar situaciones como el Anexo 11.4 (c) con 1 y 2 ambas negativas. Este ltimo
caso puede modelar la situacin interesante donde una venta especial puede causar una fuerte
compra urgente, inicialmente tanto que a la venta le sigue una demanda deprimida. En
general, nosotros puede modelar el cambio en la funcin media mediante una especificacin
de tipo ARMA

11.1.15
donde (B) y (B) son algunos polinomios en B. Porque (1- b)el modelo para mt se puede
especificar en trminos de la variable ficticia de impulso o paso.

Figura 11.4 Algunos modelos comunes para intervenciones de respuesta de


pulsos (Todos se muestran con un retraso de 1 unidad de tiempo)

La estimacin de los parmetros de un modelo de intervencin puede ser llevada a cabo por
el mtodo de estimacin de mxima verosimilitud. De hecho, Yt - mt es un proceso ARIMA
estacional de modo que la funcin de verosimilitud es igual al pdf conjunto de Yt - mt, t = 1,
2, ..., n, que puede ser calculado por mtodos estudiados en el Captulo 7 o tambin por el
modelado del espacio de estado mtodos del Apndice H en la pgina 222. Ahora volvemos
a visitar los datos mensuales de pasajeros y aeroplanos. Recordar que el terrorista acta en
Septiembre de 2001 tuvo efectos deprimentes persistentes en el trfico areo. La intervencin
puede ser especificado como un proceso AR (1) con la entrada de impulsos en septiembre de
2001. Pero lo inesperado el giro de los acontecimientos en septiembre de 2001 tuvo un fuerte
efecto de enfriamiento instantneo en el aire trfico. Por lo tanto, modelamos el efecto de
intervencin (el efecto 9/11) como

Funcin
donde T indica septiembre de 2001. En esta especificacin, 0 + 1 representa la instantnea
9/11 efecto, y, para k 1, w1 (w2) da el efecto 9/11 k meses despus. Eso permanece para
especificar la estructura ARIMA estacional del proceso imperturbable subyacente. Con base
en los datos previos a la intervencin, un modelo ARIMA (0,1,1) (0,1,0) 12 fue
tentativamente especificado para el proceso imperturbado; ver la figura 11.5.

Anexo 11.5 Muestra de ACF para (1-B) (1-B12) Registro (Millas de


pasajeros areos) durante el Periodo Pre Intervencin

> acf(as.vector(diff(diff(window(log(airmiles),end=c(2001,8)),12))),lag.max=48)

Los diagnsticos de modelo del modelo ajustado sugirieron que un coeficiente MA (1)
estacional era necesaria y la existencia de algunos valores atpicos adicionales en diciembre
de 1996, Enero de 1997 y diciembre de 2002. (Los datos atpicos se analizarn con ms
detalle ms adelante; aqu los valores atpicos aditivos se pueden considerar como
intervenciones de naturaleza desconocida que tienen pulso funcin de respuesta). Por lo
tanto, el modelo se especifica como ARIMA (0,1,1) (0,1,1) 12 ms la intervencin del 11
de septiembre y tres valores atpicos aditivos. El modelo ajustado se resume en Anexo 11.6.
Anexo 11.6 Estimacin del modelo de intervencin para logaritmos de
millas areas (Los errores estndar se muestran debajo de las estimaciones)

> air.m1=arimax(log(airmiles),order=c(0,1,1),
seasonal=list(order=c(0,1,1),period=12),
xtransf=data.frame(I911=1*(seq(airmiles)==69),
I911=1*(seq(airmiles)==69)),transfer=list(c(0,0),c(1,0)),
xreg=data.frame(Dec96=1*(seq(airmiles)==12),
Jan97=1*(seq(airmiles)==13),Dec02=1*(seq(airmiles)==84)),
method='ML')
> air.m1

El diagnstico del modelo sugiri que el modelo ajustado anterior proporciona un buen ajuste
al datos. Los crculos abiertos en el grfico de serie de tiempo que se muestra en la Figura
11.7 representan el valores del modelo final estimado. Indican generalmente un buen acuerdo
entre el modelo y los datos.

Anexo 11.7 Registros de millas de pasajeros areos y valores ajustados


> plot(log(airmiles),ylab='Log(airmiles)')
> points(fitted(air.m1))

El modelo ajustado estima que la intervencin del 11 de septiembre redujo el trfico areo
en un 31% = {1 - exp (-0.0949-0.2715)} 100% en septiembre de 2001, y el trfico areo k
meses despus se redujo en {1 - exp (-0.2715 0.8139k)} 100%. La figura 11.8 muestra
los grficos estimados Efectos del 11 de septiembre en el trfico areo, que indican que el
trfico areo recuper sus prdidas hacia el finales de 2003.

Figura 11.8 Los efectos estimados del 9/11 para la serie Air Passenger

> Nine11p=1*(seq(airmiles)==69)
> plot(ts(Nine11p*(-0.0949)+

filter(Nine11p,filter=.8139,method='recursive', side=1)*
(-0.2715),frequency=12,start=1996),ylab='9/11 Effects',
type='h'); abline(h=0)

11.2 Valores atpicos


Los valores atpicos se refieren a observaciones atpicas que pueden surgir debido a la
medicin y/o errores de copia o cambios abruptos a corto plazo en el proceso subyacente.
Por series de tiempo, se pueden distinguir dos tipos de valores atpicos, a saber, valores
atpicos aditivos y valores atpicos innovadores. Estos dos tipos de valores atpicos a menudo
se abrevian como AO y IO, respectivamente. Un valor atpico aditivo ocurre en el tiempo T
si el proceso subyacente se ve perturbado aditivamente en el tiempo T para que los datos sean
iguales

11.2.1

donde {Yt} es el proceso imperturbable. A partir de ahora en esta seccin, Y 'denota el


proceso observado que puede verse afectado por algunos valores atpicos e Y el proceso
imperturbable no debera haber valores atpicos. Por lo tanto, YT = YT + A pero de lo
contrario, yt = yt entonces el tiempo la serie solo se ve afectada en el tiempo T si tiene un
valor atpico aditivo en T. Un valor atpico aditivo puede tambin se tratar como una
intervencin que tiene una respuesta de pulso en T para que mt= APt (T). Por otro lado, un
valor atpico innovador ocurre en el tiempo t si el error (tambin conocido como una
innovacin) en el tiempo t se perturba (es decir, los errores son iguales, donde et es un proceso
de ruido blanco de media cero). Entonces, pero de lo contrario. Suponer que el proceso
imperturbable es estacionario y admite una representacin MA ()
Yt et 1et 1 2et 2 + + +

En consecuencia, el proceso perturbado se puede escribir

Yt et 1et 1
2et 2 = + + + et 1et 1 2et 2 [ + + +] t T = + I

11.2.2.

donde 0 = 1 y j = 0 para j negativo. Por lo tanto, un valor atpico innovador en T perturba


a todos observaciones en y despus de T, aunque con efecto decreciente, ya que la
observacin es ms lejos del origen del valor atpico. Para detectar si una observacin es un
AO o IO, usamos la representacin AR () del proceso imperturbable para definir los
residuos:

11.2.3.
Por simplicidad, suponemos que el proceso tiene cero media y que los parmetros son
conocidos. En la prctica, los valores de parmetros desconocidos son reemplazados por sus
estimaciones de la posible datos perturbados. Bajo la hiptesis nula de que no existen valores
atpicos y para muestras grandes, este tiene un efecto insignificante en las propiedades de los
procedimientos de prueba que se describen a continuacin. Si el la serie tiene exactamente
un IO en el tiempo T, luego el residual aT = I + eT pero at = et de lo contrario. Entonces I
puede estimarse mediante w1 = at con una varianza igual a 2. Por lo tanto, una estadstica
de prueba para la prueba de un IO en T es

11.2.4.

que tiene (aproximadamente) una distribucin normal estndar bajo la hiptesis nula de que
no hay valores atpicos en la serie temporal. Cuando T se conoce de antemano, la observacin
en la pregunta se declara un valor atpico si el residual estandarizado correspondiente excede
1.96 en magnitud en el nivel de significancia del 5%. En la prctica, a menudo no hay
conocimiento previo sobre T, y la prueba se aplica a todas las observaciones. Adems,
necesitar ser estimado. Un procedimiento conservador simple es usar la regla de Bonferroni
para controlar el tasa de error general de mltiples pruebas. Dejar

11.2.5.

ser alcanzado en t = T. Entonces la observacin Tth se considera un IO si 1 excede el


superior 0.025 / n 100 percentil de la distribucin normal estndar. Este procedimiento
garantiza que hay como mximo un 5% de probabilidad de una deteccin falsa de un IO.
Tenga en cuenta que un valor atpico inflar la estimacin de mxima verosimilitud de , de
modo que si no hay ajustes para valores atpicos, el poder de la mayora de las pruebas
generalmente se reduce. Una estimacin robusta del estndar de ruido la desviacin se puede
usar en lugar de la estimacin de mxima verosimilitud para aumentar la potencia del
examen. Por ejemplo, se puede estimar de forma ms robusta por el residuo absoluto medio
veces 2/
La deteccin de un AO es ms compleja. Supongamos que el proceso admite un AO en
T y, de lo contrario, est libre de valores atpicos. Entonces se puede demostrar que

11.2.6.

donde 0 = -1 y j = 0 para j negativo. Por lo tanto, at = et para t <T, aT = A + eT, aT + 1


= -A1 + eT + 1, aT + 2 = -A2 + eT + 2, y as sucesivamente. Un estimador de mnimos
cuadrados de A

11.2.7.

donde, con la varianza de la estimacin igual a 22. Entonces podemos definir

11.2.8.

como la estadstica de prueba para probar la hiptesis nula de que la serie temporal no tiene
valores atpicos versus la hiptesis alternativa de un AO en T. Como antes, y necesitarn
estimarse.
El estadstico de prueba 2, T se distribuye aproximadamente como N (0,1) bajo el nulo
hiptesis. De nuevo, T a menudo se desconoce, y la prueba se aplica repetidamente a cada
vez punto. La regla de Bonferroni puede volver a aplicarse para controlar la tasa de error
general. Adems, la naturaleza de un valor atpico no se conoce de antemano. En el caso en
que un valor atpico

se detecta en T, se puede clasificar como IO si | 1, T | > | 2, T | y un AO de lo contrario.


Ver Chang et al. (1988) para otro enfoque para clasificar la naturaleza de un valor atpico.
Cuando se encuentra un valor atpico, se puede incorporar en el modelo y la deteccin de
valores atpicos El procedimiento puede repetirse con el modelo refinado hasta que no se
encuentren ms valores atpicos. Como primer ejemplo, simulamos una serie temporal de
longitud n = 100 del Modelo ARIMA (1,0,1) con = 0.8 y = -0.5. Luego cambiamos la
dcima observacin de -2.13 a 10 (es decir, A = 12.13); ver Anexo 11.9. Basado en la
muestra ACF, PACF y EACF, un modelo AR (1) fue identificado tentativamente. Basado en
el Bonferroni regla, las observaciones novena, dcima y undcima fueron posibles posibles
valores atpicos con las correspondientes estadsticas de prueba robustecidas siendo -3.54,
9.55 y -5.20. La prueba para IO revel que las observaciones 10 y 11 pueden ser IO, con el
correspondiente
las estadsticas de prueba robustadas son 7.11 y -6.64. Porque entre las pruebas para AO y
IO la magnitud ms grande ocurre para la prueba de AO en T = 10, la dcima observacin
fue tentativamente marcado como AO. Tenga en cuenta que la estadstica de prueba no
corroborada para AO en T = 10 es igual a 7.49, que es sustancialmente menor que el valor
de prueba ms slido de 9.55, que muestra que al reforzar la estimacin de la desviacin
estndar de ruido aumenta la potencia de la prueba. Despus de incorporar el AO en el
modelo, no se encontraron ms valores atpicos. Sin embargo, el desfase residual ACF fue
significativo, lo que sugiere la necesidad de un componente MA (1). Por lo tanto, un modelo
ARIMA (1,0,1) + AO en T = 10 se ajust a los datos. Este modelo
se encontr que no tena valores atpicos adicionales y pas todas las verificaciones de
diagnstico del modelo.

Figura 11.9 Proceso ARIMA simulado (1,0,1) con un valor aadido aditivo

> The extensive R code for the simulation and analysis of this
example may be found in the R code script file for Chapter 11.
Para un ejemplo real, volvemos al modelo estacional ARIMA (0,1,1) (0,1,1) 12 que nos
ajustamos a la serie temporal de dixido de carbono en el Captulo 10. La trama de series de
tiempo de los residuos estandarizados de este modelo, que se muestran en el Anexo 10.11 en
la pgina 238, mostraron una residual sospechosamente grande y estandarizado en
septiembre de 1998. El clculo muestra que no hay evidencia de un valor atpico aditivo, ya
que 2, t no es significativamente grande para cualquier t. Sin embargo, el robusto 1 =
max1tn | 1, t | = 3.7527, que se alcanza en t = 57, correspondiente a septiembre de 1998.
El valor crtico de Bonferroni con = 5% yn = 132 es 3.5544. Por lo tanto, nuestra 1
observada es lo suficientemente grande como para reclamar importancia para una innovacin
valor atpico en septiembre de 1998. La figura 11.10 muestra los resultados de la adaptacin
del ARIMA (0,1,1) (0,1,1) 12 modelo con un IO en t = 57 a la serie de tiempo de CO2.
Estos resultados deberan ser en comparacin con los resultados anteriores que se muestran
en el Anexo 10.10 en la pgina 237, donde el valor atpico no fue tomado en cuenta. Tenga
en cuenta que las estimaciones de y no han cambiado muy mucho, el AIC es mejor (es
decir, ms pequeo), y el efecto IO es altamente significativo. Diagnostico basados en este
modelo resultan ser excelentes, no se detectan ms valores atpicos, y

Figura 11.10 ARIMA (0,1,1) (0,1,1) 12 Modelo con IO en t = 57 para la serie


CO2

> m1.co2=arima(co2,order=c(0,1,1),seasonal=list(order=c(0,1,1),
period=12)); m1.co2
> detectAO(m1.co2); detectIO(m1.co2)
> m4.co2=arimax(co2,order=c(0,1,1),seasonal=list(order=c(0,1,1),
period=12),io=c(57)); m4.co2

11.3 Correlacin espuria


Un propsito principal de construir un modelo de series de tiempo es para pronosticar, y el
ARIMA el modelo lo hace explotando el patrn de autocorrelacin en los datos. A menudo,
el tiempo las series bajo estudio pueden estar relacionadas o dirigidas por alguna otra serie
temporal de covariables. Por ejemplo, Stige et al. (2006) encontraron que la produccin de
pasturas en frica generalmente est relacionada a algunos ndices climticos. En tales casos,
una mejor comprensin del proceso subyacente y / o se pueden lograr pronsticos ms
precisos mediante la incorporacin de covariables relevantes en el modelo de series de
tiempo.
Deje que Y = {Yt} sea la serie de tiempo de la variable de respuesta y X = {Xt} sea una
covariable series de tiempo que esperamos que ayuden a explicar o pronosticar Y. Explorar
la estructura de correlacin entre X e Y y su relacin conducida por el plomo, definimos la
covarianza cruzada funcin t, s (X, Y) = Cov (Xt, Ys) para cada par de enteros t y s.
Estacionariedad de univariado las series de tiempo pueden extenderse fcilmente al caso de
series de tiempo multivariables. Por ejemplo, X e Y son conjuntamente estables (dbilmente)
si sus medios son constantes y el la covarianza t, s (X, Y) es una funcin de la diferencia de
tiempo t - s. Para procesos estacionarios conjuntamente, la funcin de correlacin cruzada
entre X e Y en lag k se puede definir por k (X, Y) = Corr (Xt, Yt - k) = Corr (Xt + k, Yt).
Tenga en cuenta que si Y = X, la correlacin cruzada se convierte en la autocorrelacin de Y
en lag k. El coeficiente 0 (Y, X) mide el contemporneo asociacin lineal entre X e Y,
mientras que k (X, Y) mide el lineal asociacin entre Xt y la de Yt - k. Recuerde que la
funcin de autocorrelacin es una incluso funcin, es decir, k (Y, Y) = -k (Y, Y). (Esto es
porque Corr (Yt, Yt - k) = Corr (Yt - k, Yt) = Corr (Yt, Yt + k), por estacionariedad.) Sin
embargo, la funcin de correlacin cruzada generalmente no es una funcin par ya que Corr
(Xt, Yt - k) no necesita ser igual a Corr (Xt, Yt + k). Como ilustracin, considere el modelo
de regresin

(11.3.1)

donde las X son independientes, variables aleatorias distribuidas de forma idntica con
varianza y ox las e son tambin ruido blanco con varianza 0e y son independientes de las X.
Eso se puede verificar que la funcin de correlacin cruzada (CCF) k (X, Y) sea
idnticamente cero a excepcin del retraso k = -d, donde

(11.3.2)
En este caso, el CCF terico es distinto de cero en lag -d, lo que refleja el hecho de que X es
"Liderando" Y por d unidades de tiempo. El CCF se puede estimar mediante la correlacin
cruzada de la muestra funcin (CCF de muestra) definida por

(11.3.3)

donde las sumas se hacen sobre todos los datos donde los sumandos estn disponibles. los
muestra CCF se convierte en la muestra ACF cuando Y = X. La covariable X es
independiente de Y si y solo si 1 = 0, en cuyo caso la autocorrelacin de la muestra rk (X,
Y) es aproximadamente normalmente distribuido con media cero y varianza 1 / n, donde n
es el tamao de la muestra, el nmero de pares de (Xt, Yt) disponibles. Muestra de
correlaciones cruzadas que son ms grandes que en magnitud se consideran
significativamente diferentes de cero.

Hemos simulado 100 pares de (Xt, Yt) del modelo de la ecuacin (11.3.1) con d= 2, 0 = 0
y 1 = 1. Las X y e se generan como variables aleatorias normales distribuidas como N (0,1)
y N (0,0,25), respectivamente. Tericamente, el CCF debera ser entonces cero, excepto en
el desfase -2, donde es igual a 0.8944. Exposicin 11.11 muestra el CCF de muestra de los
datos simulados, que es significativo en los retardos -2 y 3. Pero el CCF de muestra en el
desfase 3 es bastante pequeo y solo marginalmente significativo. Tal falso la alarma no es
inesperada ya que la exhibicin muestra un total de 33 valores CCF de muestra de que podemos
esperar 33 0.05 = 1.65 falsas alarmas en promedio.
Figura 11.11 Correlacin cruzada de muestra a partir de la ecuacin (11.3.1) con
d=2

> win.graph(width=4.875,height=2.5,pointsize=8)
> set.seed(12345); X=rnorm(105); Y=zlag(X,2)+.5*rnorm(105)
> X=ts(X[-(1:5)],start=1,freq=1); Y=ts(Y[-(1:5)],start=1,freq=1)
> ccf(X,Y,ylab='CCF')

Aunque Xt - 2 se correlaciona con Yt, el modelo de regresin considerado anteriormente es


bastante restrictivo, ya que X e Y son series de ruido blanco. Para series temporales
estacionarias, el la variable de respuesta y la covariable estn generalmente
autocorrelacionadas, y el trmino de error del modelo de regresin generalmente tambin
est autocorrelacionado. De ah una regresin ms til el modelo es dado por

11.3.4.

donde Zt puede seguir algn modelo ARIMA (p, d, q). Incluso si los procesos X e Y son
independientes entre s (1 = 0), las autocorrelaciones en Y y X tienen la desafortunada
consecuencia de implicar que la muestra CCF ya no es aproximadamente N (0,1 / n). Bajo el
supuesto de que tanto X como Y son estacionarios y que son independientes de entre s,
resulta que la varianza muestral tiende a ser diferente de 1 / n. De hecho, se puede demostrar
que la varianza de es aproximadamente
11.3.5.

donde k (X) es la autocorrelacin de X en lag k y k (Y) se define de manera similar para


el Proceso en Y Para el refinamiento de este resultado asinttico, ver Box et al. (1994, p.413).
Suponer X e Y son ambos procesos AR (1) con coeficientes AR (1) X y Y,
respectivamente. Entonces rk (X, Y) se distribuye aproximadamente de forma normal con
cero media, pero la varianza es ahora aproximadamente igual a
11.3.6.

Cuando ambos coeficientes de AR (1) son cercanos a 1, la relacin de la varianza muestral


de rk (X, Y) al valor nominal de 1 / n se acerca al infinito. Por lo tanto, el uso incuestionable
de la regla 1 / n para decidir el significado de la muestra CCF puede conducir a muchas ms
fallas positivos que la tasa de error nominal del 5%, aunque la respuesta y el tiempo de
covariacin las series son independientes entre s. La figura 11.12 muestra algunos resultados
numricos para el caso donde X = Y = .

Anexo 11.12 Tasas de error asinttico de una prueba nominal del 5% de


Independencia para un par de procesos AR (1)

> phi=seq(0,.95,.15)
> rejection=2*(1-pnorm(1.96*sqrt((1-phi^2)/(1+phi^2))))
> M=signif(rbind(phi,rejection),2)
> rownames(M)=c('phi', 'Error Rate')
> M

El problema de la varianza inflada de los coeficientes de correlacin cruzada de la muestra


se vuelve ms agudo para los datos no estacionarios. De hecho, los coeficientes de
correlacin cruzada de la muestra puede ya no ser aproximadamente normal distribuida
incluso con una gran muestra tamao. La figura 11.13 muestra el histograma de 1000
correlaciones cruzadas de lag cero simuladas entre dos procesos IMA (1,1) independientes,
cada uno de tamao 500. Un coeficiente MA (1) de = 0.8 se us para ambos procesos
simulados. Tenga en cuenta que la distribucin de r0 (X, Y) es lejos de ser normal y
ampliamente disperso entre -1 y 1. Ver Phillips (1998) para un relevante discusin terica.

Figura 11.13 Histograma de 1000 muestras de retraso cero correlaciones


cruzadas de Dos procesos independientes de IMA (1,1) Cada uno de tamao 500

> set.seed(23457)
> correlation.v=NULL; B=1000; n=500
> for (i in 1:B) {x=cumsum(arima.sim(model=list(ma=.8),n=n))
> y=cumsum(arima.sim(model=list(ma=.8),n=n))
> correlation.v=c(correlation.v,ccf(x,y,lag.max=1,
plot=F)$acf[2])}
> hist(correlation.v,prob=T,xlab=expression(r[0](X,Y)))

Estos resultados proporcionan una idea de por qu a veces obtenemos tonteras (falsas)
correlacin entre las variables de series de tiempo. El fenmeno de la correlacin espuria era
primero estudiado sistemticamente por Yule (1926). Como ejemplo, la produccin mensual
de leche y los logaritmos de la electricidad mensual produccin en los Estados Unidos desde
enero de 1994 a diciembre de 2005 se muestran en la figura 11.14. Ambas series tienen una
tendencia al alza y son altamente estacionales.

Anexo 11.14 Produccin mensual de leche y logaritmos mensuales

Produccin de electricidad en los EE. UU.

> data(milk); data(electricity)


> milk.electricity=ts.intersect(milk,log(electricity))
> plot(milk.electricity,yax.flip=T)

El clculo muestra que estas series tienen un coeficiente de correlacin cruzada en el desfase
cero de 0.54, que es "estadsticamente significativamente diferente de cero" segn lo juzgado
contra el criterio de error estndar de. La figura 11.15 muestra las fuertes correlaciones
cruzadas entre estas dos variables en un gran nmero de retrasos. Huelga decir que es difcil
encontrar una razn plausible para la relacin entre la produccin mensual de electricidad y
la produccin mensual de leche. La no estacionariedad en la serie de produccin de leche y
en la serie de electricidad es ms probable que la causa de las correlaciones falsas encontradas
entre las dos series. La siguiente seccin contiene discusin adicional de este ejemplo.
Figura 11.15 Ejemplo de correlacin cruzada entre la produccin mensual
de leche y logaritmo de la produccin mensual de electricidad en los EE.
UU.

> ccf(as.vector(milk.electricity[,1]),
as.vector(milk.electricity[,2]),ylab='CCF')

11.4 Regresin previa al blanqueo y estocstica


En la seccin anterior, encontramos que con datos fuertemente autocorrelacionados es difcil
evaluar la dependencia entre los dos procesos. Por lo tanto, es pertinente desenredar el
asociacin lineal entre X e Y, por ejemplo, de su autocorrelacin. Un dispositivo til para
hacer esto es preencolado. Recuerde que, para el caso de X e Y estacionarios que son
independientes uno del otro, la varianza de es aproximadamente

(11.4.1)

Un examen de esta frmula revela que la varianza aproximada es 1 / n si cualquiera de las


dos (o ambos) de X o Y es un proceso de ruido blanco. En la prctica, los datos pueden ser
no estacionarios, pero pueden transformarse en ruido aproximadamente blanco al reemplazar
los datos por el residuos de un modelo ARIMA ajustado. Por ejemplo, si X sigue un ARIMA
(1,1,0) modelo sin trmino de intercepcin, luego
(11.4.2)

es ruido blanco De manera ms general, si Xt sigue algn modelo invertible ARIMA (p, d,
q), entonces admite una representacin de AR ()

formula

donde los 's son ruido blanco. El proceso de transformacin de las X a travs del filtro (B)=1
- 1B - 2B2 - se conoce como blanqueamiento o preblanqueo. Ahora podemos estudiar el
CCF entre X e Y al preblancer el Y y el X usando el mismo filtro basado en el proceso X y
luego computar el CCF de y; es decir, la Y pretensada y X. Dado que el prehumedecimiento
es una operacin lineal, cualquier relacin lineal entre las series originales se conservarn
despus del prehumedecimiento. Tenga en cuenta que hemos abusado de la terminologa, ya
que no es necesario que haya ruido blanco porque el filtro (B) est hecho a medida solo
para transformar X a un proceso de ruido blanco, no a Y. Suponemos, adems, que es
estacionario. Este enfoque tiene dos ventajas: (i) la significacin estadstica de la muestra
CCF de los datos pre-blancos pueden ser evaluados usando el punto de corte, y (ii) el terico
la contraparte de la CCF estimada es proporcional a ciertos coeficientes de regresin. Para
ver (ii), considere un modelo de regresin ms general que relacione X con Y y, sin prdida
de generalidad, suponga que ambos procesos tienen una media cero:

(11.4.3)

donde X es independiente de Z y los coeficientes son tales que el proceso es bien definido.
En este modelo, los coeficientes k podran ser distintos de cero para cualquier nmero entero
k. Sin embargo, en aplicaciones reales, la suma doblemente infinita suele ser una suma finita
para que el modelo simplifica a

(11.4.4)
que se asumir a continuacin a pesar de que conservamos la suma doblemente infinita
notacin para facilitar la exposicin. Si la sumatoria vara solo en un conjunto finito de
positivos ndices, luego X lidera Y y la covariable X sirve como un indicador lder til para
Y futuras. Aplicando el filtro (B) a ambos lados de este modelo, obtenemos

(11.4.5)

donde. El procedimiento de preblanqueo as ortogonaliza los diferentes rezagos de X en el


modelo de regresin original. Porque es un ruido blanco secuencia y es independiente del
coeficiente de correlacin cruzada terico entre y en lag k es igual. En otras palabras, la
correlacin cruzada terica de los procesos prewhitened en lag k es proporcional al
coeficiente de regresin -k.

Para un anlisis preliminar rpido, se puede realizar un preblanqueo aproximado fcilmente


primero diferenciando los datos (si es necesario) y luego ajustando un modelo AR
aproximado con el orden determinado al minimizar el AIC. Por ejemplo, para la produccin
de leche y los datos de consumo de electricidad, ambos son altamente estacionales y
contienen tendencias. Por consiguiente, se pueden diferenciar con diferenciacin regular y
diferenciacin estacional, y luego, el prehumedecimiento se puede llevar a cabo filtrando
ambas series diferenciadas por un AR modelo ajustado a los datos de leche diferenciada. La
figura 11.16 muestra el CCF de muestra entre la serie prewhitened. Ninguna de las
correlaciones cruzadas ahora es significativa excepto por lag-3, que es marginalmente
significativo. La nica correlacin cruzada significativa es probablemente una falsa alarma
ya que esperamos alrededor de 1.75 falsas alarmas de las 35 correlaciones cruzadas de
muestra examinadas. Por lo tanto, parece que la produccin de leche y el consumo de
electricidad estn en hecho no correlacionado, y el fuerte patrn de correlacin cruzada
encontrado entre la serie de datos es de hecho espuria.
Anexo 11.16 CCF de muestra de leche precocinada y produccin de
electricidad

> me.dif=ts.intersect(diff(diff(milk,12)),
diff(diff(log(electricity),12)))
> prewhiten(as.vector(me.dif[,1]),as.vector(me.dif[,2]),
ylab='CCF')

El modelo definido por la ecuacin (11.3.4) en la pgina 262 se conoce diversamente como
el modelo de funcin de transferencia, el modelo de retraso distribuido o el modelo de
regresin dinmica. La especificacin de los rezagos de la covariable que entran en el modelo
a menudo se hace por inspeccionando la funcin de correlacin cruzada de muestra basada
en los datos preencolados. Cuando el modelo parece requerir un buen nmero de rezagos de
la covariable, los coeficientes de regresin puede ser parsimoniosamente especificado a
travs de una especificacin ARMA similar al caso de anlisis de intervencin; ver Box et
al. (1994, Captulo 11) para algunos detalles. Ilustramos el mtodo a continuacin con dos
ejemplos donde parece que solo hay un retraso de la covariable necesario. La especificacin
del proceso de ruido estocstico Zt puede hacerse examinando los residuos de un ajuste por
mnimos cuadrados ordinarios (OLS) de Y en X usando las tcnicas aprendido en captulos
anteriores.
Nuestro primer ejemplo de esta seccin es un conjunto de datos de ventas y precios de una
determinada papa frita de Bluebird Foods Ltd., Nueva Zelanda. Los datos consisten en el
logaritmo transformado ventas semanales de unidades de paquetes grandes de papas fritas
estndar vendidas y el promedio semanal precio durante un perodo de 104 semanas desde el
20 de septiembre de 1998 hasta el 10 de septiembre, 2000; ver la figura 11.17. La
transformacin logartmica es necesaria porque las ventas los datos estn muy sesgados a la
derecha. Estos datos son claramente no estacionarios. Anexo 11.18 muestra que, despus de
diferenciar y usar datos preconfigurados, el CCF es significativo solo en rezago 0, sugiriendo
una fuerte relacin negativa contempornea entre el rezago 1 del precio y ventas. Los precios
ms altos estn asociados con menores ventas.

Anexo 11.17 Registro semanal (ventas) y precio de las papas fritas Bluebird

> data(bluebird)
> plot(bluebird,yax.flip=T)
Figura 11.18 Correlacin cruzada de la muestra entre las diferencias
prewhitened Registro (ventas) y precio de las papas fritas Bluebird

>
prewhiten(y=diff(bluebird)[,1],x=diff(bluebird)[,2],ylab='CCF
')

La figura 11.19 informa las estimaciones de la regresin MCO del logaritmo (ventas) en el
precio. Sin embargo, los residuos estn autocorrelacionados, como se puede ver en su
muestra de ACF y El PACF se muestra en los Anexos 11.20 y 11.21, respectivamente. De
hecho, las autocorrelaciones de muestra de los residuos son significativos para los primeros
cuatro lags, mientras que la muestra parcial las autocorrelaciones son significativas en los
rezagos 1, 2, 4 y 14.

Anexo 11.19 Estimaciones de regresin de OLS del registro (ventas) en el


precio
> sales=bluebird[,1]; price=bluebird[,2]
> chip.m1=lm(sales~price,data=bluebird)
> summary(chip.m1)

Figura 11.20 Muestra de ACF de residuos de regresin MCO de Log


(Ventas) en Price

> acf(residuals(chip.m1),ci.type='ma')

Figura 11.21 PACF muestra de residuos de regresin MCO de Log (Ventas) en Price

> pacf(residuals(chip.m1))
La muestra EACF de los residuos, que se muestra en la figura 11.22, contiene un tringulo
de ceros con un vrtice en (1,4), lo que sugiere un modelo ARMA (1,4). Por lo tanto,
encajamos un modelo de regresin de log (ventas) en el precio con un error ARMA (1,4).

Anexo 11.22 La muestra EACF de los residuos de la OLS Regresin de


Log (Ventas) en Price

> eacf(residuals(chip.m1))

Resulta que las estimaciones del coeficiente AR (1) y los coeficientes MA 1 y 3 no son
significativos, y por lo tanto un modelo que fija estos coeficientes para ser cero era
posteriormente se ajust e inform en el Anexo 11.23.

Anexo 11.23 Estimados de mxima verosimilitud de un modelo de regresin de Log


(ventas) en Price con un subconjunto MA (4) para los errores
> chip.m2=arima(sales,order=c(1,0,4),xreg=data.frame(price))
> chip.m2
> chip.m3=arima(sales,order=c(1,0,4),xreg=data.frame(price),
fixed=c(NA,0,NA,0,NA,NA,NA)); chip.m3
> chip.m4=arima(sales,order=c(0,0,4),xreg=data.frame(price),
fixed=c(0,NA,0,NA,NA,NA)); chip.m4

Tenga en cuenta que la estimacin del coeficiente de regresin en Price es similar a la del
OLS la regresin se ajustaba antes, pero el error estndar de la estimacin es
aproximadamente un 10% ms bajo que ese de la regresin MCO simple. Esto ilustra el
resultado general de que el simple OLS el estimador es consistente, pero el error estndar
asociado generalmente no es confiable.

Los residuos de este modelo ajustado por lo general pasan varios modelos de diagnstico
pruebas, excepto que el ACF residual es significativo en el retraso 14. Como resultado,
algunos Box-Ljung las estadsticas de prueba tienen valores p que bordean 0.05 cuando 14 o
ms rezagos de las autocorrelaciones residuales estn incluidos en la prueba. A pesar de que
el ACF significativo en el desfase 14 puede sugerir un efecto trimestral, no informamos un
modelo ms complejo que incluya lag 14 porque (1) 14 semanas no hacen exactamente la
cuarta parte y (2) agregan un componente estacional MA (1) del perodo 14 solo da como
resultado una mejora marginal en trminos de diagnstico del modelo. Para un segundo
ejemplo, estudiamos el impacto de un mayor precio de la gasolina en el transporte pblico
uso. El conjunto de datos consiste en el nmero mensual de abordajes en pblico transporte
en la regin de Denver, Colorado, junto con la gasolina mensual promedio precios en Denver
desde agosto de 2000 hasta marzo de 2006. Ambas variables estn sesgadas a la derecha y,
por lo tanto, se transforman logartmicamente. Como veremos a continuacin, la
transformacin logartmica tambin hace que el modelo ajustado final sea ms interpretable.
Los diagramas de series de tiempo, que se muestra en la Figura 11.24, muestra las tendencias
crecientes tanto para las variables como para la estacionalidad fluctuacin en el nmero de
abordajes. Con base en la muestra ACF y PACF, una El modelo ARIMA (2,1,0) se ajust a
los datos del precio de la gasolina. Este modelo ajustado era entonces utilizado para filtrar
los datos de abordaje antes de calcular su CCF de muestra que se muestra en Anexo 11.25.
El CCF de muestra es significativo en los rezagos 0 y 15, lo que sugiere una
contemporaneidad positiva correlacin entre el precio de la gasolina y el uso del transporte
pblico. Los sin embargo, es poco probable que el CCF significativo en el desfase 15 sea
real, ya que es difcil imaginar por qu el nmero de abordajes puede llevar el precio de la
gasolina con un desfase de 15 meses. En este caso, el enfoque preliminar rpido de
preencolado de la serie mediante el ajuste de un modelo AR largo, sin embargo, mostr que
ninguno de los CCF es significativo. Resulta que incluso despus de diferenciar los datos, el
AIC selecciona un modelo AR (16). El orden superior seleccionado acoplado con el lapso de
tiempo relativamente corto puede debilitar sustancialmente el poder de detectar correlaciones
entre las dos variables. Por cierto, este ejemplo advierte contra el simple hecho de confiar en
el AIC para seleccionar un modelo AR de alto orden para hacer el preblanqueamiento,
especialmente con datos de series de tiempo cortas.

Anexo 11.24 Logaritmos de embarques mensuales de trnsito pblico y


Precios de la gasolina en Denver, agosto de 2000 a marzo de 2006

> data(boardings)
> plot(boardings,yax.flip=T)
Anexo 11.25 CCF de muestra de registro preteido (embarque) y registro
(precio)

> m1=arima(boardings[,2],order=c(2,1,0))
> prewhiten(x=boardings[,2],y=boardings[,1],x.model=m1)

Basado en la muestra ACF, PACF y EACF de los residuos de un modelo lineal de abordajes
sobre el precio de la gasolina, un modelo estacional ARIMA (2,0,0) (1,0,0) 12 fue
tentativamente especificado para el proceso de error en el modelo de regresin. Sin embargo,
la estimacin del coeficiente 2 no fue significativo, y por lo tanto el orden de AR se redujo
a p = 1. Usando el valor atpico tcnicas de deteccin discutidas en la Seccin 11.2,
encontramos un valor atpico aditivo para marzo 2003 y un valor atpico innovador para
marzo de 2004. Debido a que la estadstica de prueba para el aditivo valor atpico tuvo una
magnitud mayor que la del valor atpico innovador (-4.09 vs. 3.65), incorpor el valor atpico
aditivo en el modelo. Diagnstico de la adaptacin posterior modelo revela que el ACF
residual fue significativo en el desfase 3, lo que sugiere el error proceso es un proceso
estacional de ARIMA (1,0,3) (1,0,0) +12. Como las estimaciones de los coeficientes 1 y
2 fueron insignificantes, fueron suprimidos del modelo ajustado final que se informa en la
figura 11.26.

Los diagnsticos del modelo ajustado final sugieren un buen ajuste a los datos. Adems, no
ms se detectaron valores atpicos. Un intervalo de confianza del 95% para el coeficiente de
regresin en Log (Price) is (0.0249, 0.139). Tenga en cuenta la interpretacin del modelo
ajustado: un 100% el aumento en el precio de la gasolina conducir a un aumento de
aproximadamente 8.2% en el transporte pblico uso.

Figura 11.26 Estimados de mxima verosimilitud de la regresin

> log.boardings=boardings[,1]
> log.price=boardings[,2]
> boardings.m1=arima(log.boardings,order=c(1,0,0),
seasonal=list(order=c(1,0,0),period=12),
xreg=data.frame(log.price))
> boardings.m1
> detectAO(boardings.m1); detectIO(boardings.m1)
> boardings.m2=arima(log.boardings,order=c(1,0,3),
seasonal=list(order=c(1,0,0),period=12),
xreg=data.frame(log.price,outlier=c(rep(0,31),1,rep(0,36))),
fixed=c(NA,0,0,rep(NA,5)))
> boardings.m2
> detectAO(boardings.m2); detectIO(boardings.m2)

> tsdiag(boardings.m2,tol=.15,gof.lag=24)

Tambin es interesante observar que al eliminar el trmino atpico de los resultados del
modelo una nueva estimacin de regresin en Log (Price) de 0.0619 con un error estndar
de 0.0372. Por lo tanto, cuando el valor atpico no se modela adecuadamente, el coeficiente
de regresin deja de ser significativo al nivel del 5%. Como se demuestra en este ejemplo,
la presencia de un valor atpico puede afectar adversamente la inferencia en el modelado de
series de tiempo.

11.5 Resumen

En este captulo, usamos informacin de otros eventos u otras series temporales para ayudar
a modelar la serie temporal de inters principal. Comenzamos con los llamados modelos de
intervencin, que intentar incorporar eventos externos conocidos que creemos que tienen un
efecto significativo en la serie de tiempo de inters. Varias formas simples pero tiles de
modelar los efectos de estas intervenciones fueron discutidas. Los valores atpicos son
observaciones que se desvan de manera bastante sustancial del patrn general de los datos.
Los modelos fueron desarrollados para detectar e incorporar valores atpicos en series de
tiempo. El material en la seccin sobre correlacin espuria ilustra cun difcil es evaluar las
relaciones entre dos series de tiempo, pero los mtodos que involucran preblanqueo se
demostr que ayuda en este sentido. Se usaron varios ejemplos sustanciales para ilustrar los
mtodos y las tcnicas discutidas.

Вам также может понравиться