Series de Tiempo

Universidad de Chile Facultad de Ciencias Fsicas y Matemticas Departame nto de Ciencias de la Compu tacin
Semestre Prim avera 2008 Tpicos en Minera de Datos
Series de Tiempo
Nombre: Gonzalo Ros Profesor: Carlos Hurtado Fecha: 14 de Noviembre de 200 8
U n ive rsid a d D e C h ile Fa c u lta d D e C ie n c ia s F sic a s y M a te m tic a s
E sc u e la d e In g e n ie ra D e p a rta m e nto d e C ie n c ia s d e la C o m p u
nd ice de Contenidos
1 Denicin Bsica de Serie de Tiem po 2 Aplicaciones de Series de Tiem po 4 5 6 7 7 7 7 7 8 8 9 9
3 Com pone ntes de una serie de tiem po: Enf oque clsico 4 As pectos Importa ntes en Series de Tiem po 4.1 Pronsticos dentro y fuera de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Pronsticos estticos y dinmicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Alcance de los pronsticos y toma de decisiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Conju ntos de entrenamie nto y evaluacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Origen jo versos origen mvil de los pronsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Conju nto de entrenami ento de tamao creciente versus conjunto de entrenamie nto de tama o constante 4.7 Metodologa de Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Evaluacin de Modelos de Series de Tiem po 10 5.1 Evalucin del desempeo predectivo: Medicin del error . . . . . . . . . . . . . . . . . . . . . . . . . 10 6 Estimacin de la Tendencia 11 6.1 Promedio Mvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 6.2 Suavizamie nto exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 7 Transformada Discreta de Fourie r: Enf oque Es pectral 7.1 Denicion Matemtica . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Calculando los Coecientes de Fourier . . . . . . . . . . 7.2 Algunas Propiedades de FN . . . . . . . . . . . . . . . . . . . . 7.3 Relacin entre los coecientes de Fourier exactos y aproximados 7.4 Aplicacin a Series de Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 12 13 13 14 16 16 16 17 17 17 17 17 18 19 19 19 19 19
8 Modelos ARIMA: Enf oque Moderno 8.1 Modelamie nto de series no estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Caminata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Modelamie nto de series estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Modelos de Media Mvil, MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.2 Modelos Autorregresi vos, AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.3 Modelos Mixtos Autorregresi vos Media Mvil, ARMA(p,q) . . . . . . . . . . . . . . 8.2.4 Modelos Autorregresi vos Integrados de Promedio Mvil, ARIMA(p,d,q) . . . . . . . . 8.3 Modelos ARIMA con variables de intervencin . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Modelos Autorregresi vos con Promedio Mvil y Entradas Exgenas, ARMAX(p,q,n) . . . . . 8.5 Modelos con varianza cambiante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.1 Modelos de Heter ocedasticidad Condicional Autorregresiva, ARCH(p) . . . . . . . . . 8.5.2 Modelos de Heter ocedasticidad Condicional Autorregresiva Generalizado, GARCH(p,q) 8.6 Vericacin en el modelo ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
9 Aut ocorrelacin 21 9.1 Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 9.2 Criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
10 Ejemplos de series de tiem po 10.1 Funcin sinusoidal . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Funcin sinusoidal con tendencia . . . . . . . . . . . . . . . . 10.3 Funcin multisi nusoidal con tendencia y componente aleatoria 10.4 Ventas mensuales de una empresa . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
23 23 25 30 34 38 38 40 41 45 46 47 47 47 47 47 48 48 48 49 49 49 50 50 50 52
11 Tcnicas de Inteligencia Computacional en Series de Tiem po 11.1 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Aplicacin de redes neuronales en series de tiempo . . . . 11.1.2 Redes ARIMA . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Deniciones del modelo . . . . . . . . . . . . . . . . . . . 11.2.2 Algoritmo de Regresin SVM . . . . . . . . . . . . . . . . 12 Modelo para un conju nto de series de tiem po 12.1 Denicin del problema . . . . . . . . . . . . . . 12.2 Algunos principios claves . . . . . . . . . . . . . . 12.2.1 Concepto de dato "normal" . . . . . . . . 12.2.2 Concepto de "distancia" . . . . . . . . . . 12.3 Caractersticas fundamentales del modelo . . . . 12.3.1 Normalizando los datos . . . . . . . . . . 12.3.2 Funcin de distancia . . . . . . . . . . . . 12.3.3 Caractersticas de la vecindad . . . . . . . 12.3.4 Independencia de los datos con el tiempo 12.3.5 Principio fundame ntal del modelo . . . . 12.3.6 Ejemplo . . . . . . . . . . . . . . . . . . . 12.4 Explicacin matemtica del modelo . . . . . . . . 12.5 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 Denicin Bsica de Ser ie de Tiempo

Se llama Series de Tiempo a un conjunto de observaciones sobre valores que toma una variable (cua ntitati va) en diferentes momentos del tiempo. Los datos se pueden comportar de diferentes formas a travs del tiempo, puede que se presente una tendencia, un ciclo; no tener una forma denida o aleatoria, variaciones estacionales (anual, semestral, etc) [2]. Las observaciones de una serie de tiempo sern denotadas por Y1 ;Y2 ,...,YT , donde Yt es el valor tomado por el proceso en el insta nte t. [3] Los modelos de series de tiempo tienen un enfoque netame nte predictivo y en ellos los pronsticos se elaborar n slo con base al comportamie nto pasado de la variable de inters. Podemos distinguir dos tipos de modelos de series de tiempo [1]: Modelos deter minis tas: se trata de mtodos de extra polacin sencillos en los que no se hace referencia a las fuentes o naturaleza de la aleatoriedad subyacente en la serie. Su simplicidad relativa generalme nte va acompaada de menor precisin. Ejemplo de modelos deterministas son los modelos de promedio mvil en los que se calcula el pronstico de la variable a partir de un promedio de los n valores inmediata mente anteriores. Modelos est ocst ico s: se basan en la descripcin simplicada del proceso aleatorio subyacente en la serie. En trmino sencillos, se asume que la serie observada Y1 , Y2 ,..., YT se extrae de un grupo de variables aleator ias con una cierta distribucin conju nta difcil de determinar, por lo que se construyen modelos aproximados que sean tiles para la generacin de pronsticos.
T La serie {Yt gt=1 podr ser estacionaria o no estacionaria [1]:
Serie no estacionari a: es aquella cuyas caracter sticas de media, varianza y covarianza cambian a travs del tiempo lo que diculta su modelamie nto. Sin embargo, en muchas ocasiones, si dicha serie es diferenciada una o ms veces la serie resulta nte ser estacionaria (procesos no estacionarios homogne os). Serie estacionari a: es aquella cuya media y varianza no cambian a travs del tiempo y cuya covarianza slo es funcin del rezago. Gracias a estas caracter sticas podremos modelar el proceso subyacente a travs de una ecuacin con coecientes jos estimados a partir de los datos pasados. Media:E(Yt ) = E(Yt+ m ) para todo t; m Varianza: (Yt ) = (Yt+ m ) para todo t; m Covarianza: cov(Yt ; Yt+ k ) = cov(Yt+ m ; Yt+ m+k ) para todo t; m; k
2 Aplicac ione s de Tiempo
Ser ies de
Hoy en da diversas organizaciones requieren conocer el comportamie nto futuro de ciertos fenmenos con el n de planicar, prevenir,es decir, se utilizan para predecir lo que ocurrir con una variable en el futuro a partir del comportamie nto de esa variable en el pasado. En las organizaciones es de mucha utilidad en predicciones a corto y mediano plazo, por ejemplo ver que ocurrira con la demanda de un cierto producto, las ventas a futuro, decisiones sobre inventario, insumos, etc [2]. Algunas de las reas de aplicacin de Series de Tiempo son [3]: Economa: Precios de un articulo, tasas de desempleo, tasa de inacin, ndice de precios, precio del dlar, precio del cobre, precios de acciones, ingreso nacional bruto, etc. Meteorologa: Cantidad de agua cada, temperatura mxima diaria, Velocidad del viento (energa elica), energa solar, etc. Geofsica: Series sismolgicas. Qumica: Viscosidad de un proceso, temperatura de un proceso. Demografa: Tasas de natalidad, tasas de mortali dad. Medicina: Electr ocardiograma, electr oencfalograma. Marketing: Series de demanda, gastos, utilidades, ventas, ofertas. Telecomunicaciones: Anlisis de seales. Trans porte: Series de tr co.
3 Componentes de un a ser ie de tiempo: clsico
Enfoqu e
Se dice que una serie de tiempo puede descomponerse en cuatro componentes (cinco si se considera una constante llamada nivel) que no son directame nte observables, de los cuales nicame nte se pueden obtener estimaciones. Estos cuatro componentes son [3,5]: Tendencia (T : represe nta el comportamie nto predomina nte de la serie. Esta puede ser denida vagamente ) como el cambio de la media a lo largo de un extenso perodo de tiempo Ciclo (C) : caracterizado por oscilaciones alrededor de la tendencia con una larga duracin, y sus factores no son claros. Por ejemplo, fenmenos climticos, que tienen ciclos que duran varios aos. Estacionalidad (E): es un movimiento peridico que se producen dentro de un periodo corto y conocido. Este componente est determinado, por ejemplo, por factores institucionales y climticos. Aleatorio (A): son movimientos errticos que no siguen un patrn especco y que obedecen a causas diversas. Este componente es prcticame nte impredecible. Este comportamie nto represe ntan todos los tipos de movimientos de una serie de tiempo que no son tendencia, variaciones estacionales ni uctuaciones cclicas.
Un modelo clsico de series de tiempo, supone que la serie Y1 ,...,YT puede ser expresada como suma o producto de sus componentes [3]: Modelo aditivo: Y(t) = T(t )+E(t)+ C(t) +A(t ) Modelo multiplicati vo: Y(t) = T(t) E(t) C(t) A(t )
4 Aspectos Impor tantes en Ser ies de Tiempo

4.1 Pronsticos dentro y muestra fuer a de la
Al hablar de pronsticos, se distingue entre proyecciones dentro y fuera de muestra. En las primeras, las proyecciones realizadas se reeren a los mismos datos que se emplearon para la construccin y calibracin del modelo (la muestra), mie ntras que en las segundas las proyecciones se reeren a datos ajenos a dicha muestra. En la bsqueda de metodologas que generen pronsticos precisos de los valores futuros de una variable, slo son relevantes las proyecciones fuera de muestra por las siguientes razones: Las proyecciones fuera de muestra replican el funcionamie nto de la herramie nta de pronsticos en la prctica, por lo que la evaluacin de su desempeo predictivo ser un referente vlido para los futuros errores de pronstico. Los modelos de prons tico se constru yen minimizando los errores dentro de muestra por lo que los errores de pronsticos intramuestrales sobrestiman el potencial pred ictivo de las herramie ntas. Un modelo con buen desempeo intramuestral podra tener un muy mal desempeo en proyecciones fuera de muestra. Esto se debe a un sobre ajuste (overtti ng) o memorizacin de los datos muestrales, con lo que el modelo resulta nte ser incapaz de responder de buena manera a nuevos valores. [1]
4.2 Pronsticos dinmicos
estticos
Los pronsticos estticos son aquellos que estn basados en la ltima informacin efectiva disponible, por lo que estn limitados a las proyecciones a un periodo hacia adela nte. Los pronsticos dinmicos son caracterizados por utilizar el ltimo pronstico disponible como dato para el siguiente pronstico, permitiendo la realizacin de proyecciones a dos y ms periodos hacia delante. [1]
4.3 Alcanc e de los decisiones
pronsticos y toma de
Todo pronstico tiene asociado un alcance, pudiendo ser ste de corto, mediano o largo plazo. Los horizontes de tiempo corres pondientes a dichos alcances dependern de la industria bajo estudio. En cuanto al atracti vo de uno u otro pronstico, ste estar sujeto al tipo de decisin que se desea tomar o de accin en desarrollo. A modo de ejemplo, en la industria del cobre, alcances convencionales y decisiones comunes en el mercado y la industria son: Ti po de pronstico Al cance Decisi ones Cortsimo Plazo Minutos, horas Operaciones especulativas Corto Plazo Das, semanas, meses, un ao Operaciones especulati vas, de cobertura y de gestin comercial Mediano Plazo Uno a seis aos Evaluacin y control de los resultados de la gestin y de los negocios de una empres a Largo Plazo 6 a 50 aos Plani cacin de la produccin y evaluacin de proyectos Relacionado con el alcance de un pronstico est su nivel de incertidu mbre. A mayor alcance del pronstico, mayor es el nivel de incertidu mbre que se debe enfre ntar. Esta consideracin no debe olvidarse al momento de tomar decisiones basadas en datos proyectados.[1]
4.4
Conjuntos de entrenamiento y evaluacin

Esperar hasta que se cuente con los valores reales para los periodos pronosticados. Por ejemplo: si, dura nte
Existen dos formas de evaluar la precisin de los pronsticos fuera de muestra:
el ao 2006, se pronostica el precio del ao siguiente, esperar hasta conocer el valor efectivo del ao 2007. Evaluar la precisin sobre la base de un conjunto de datos que previame nte se separ de la muestra disponible y que no partici p de la construccin del modelo. Al conjunto de datos empleados para la construccin del
modelo se le denomina conjunto de entrenami ento, mie ntras que el resto de los datos conforma el conju nto de evaluacin. La divisin de los datos muestrales es una decisin trascende ntal en la generacin de pronsticos ya que determi na la cantidad de datos para la construccin del modelo y la cantidad de pronsticos fuera de muestra que se podrn evaluar. La denicin del tamao y composicin de los conjuntos de entrenamie nto y evaluacin deber considerar factores tales como: Tamao total de la muestra: en muestras pequeas, grandes conjuntos de evaluacin podran comprom eter la calidad del modelo construido, si es que el conjunto de entrenamie nto no consigue un tamao que lo haga represe ntati vo. Tipo de metodologa de pronstico a emplear: disti ntas metodologas demandan conjuntos de entrenamie nto ms o menos numerosos. Represe ntatividad: los componentes del conjunto de entrenamie nto deben ser diversos para asegurar que el modelo pueda captar los diversos patrones de comportamie nto de la serie bajo estudio (por ejemplo: precios en fases depresivas, precios en fases expansivas) [1]
4.5
Origen jo verso s orige n mvil de los pronsticos
Dados los conjuntos de entrenamie nto y evaluacin, se dene como el origen de los pronsticos al ndice T correspondie nte al ltimo dato del conjunto de entrenamie nto y se dene como N al tamao del conjunto de evaluacin. Los pronsticos de origen jo, predicen la variable de inters a partir del dato T, esto es para los periodos T + 1; T + 2; :::; T + N . De este modo, para un origen jo slo se calcularn N pronsticos y slo un pronstico para cada alcance (un pronstico a un periodo, un pronstico a dos periodos, etc.), lo que es insuciente para evaluar el desempeo de una metodologa. Por el contrario, en los pronsticos de origen mvil, se actualiza sucesi vamente el origen de los pronsticos, lo que incrementa el nmero de proyecciones para cada alcance. As en la situacin recin descrita, una vez que se proyectaron los valores a partir de T, se calculan los pronsticos a partir deT + 1 (T + 2; T + 3; :::; T + N ), a par tir de T + 2 (T + 3; T + 4; :::; T + N ) y as sucesi vamente. El total de pronsticos calculados ser: N (N + 1)=2
Alcance del pronstico: H =) Nmero de evaluaciones: N H + 1 Esta ltima relacin entre el alcance de los prons ticos y el nmero de evaluaciones, nos permite dimensionar el tamao absoluto del conjunto de evaluacin. Sea H el mximo alcance de los pronsticos que se desea evaluar y sea M el nmero mnimo de evaluaciones que se desea realizar a dicho alcance, el tamao del conjunto de evaluacin estar dado por: N M +H 1
Por otra parte, el uso de origen mvil disminuye la inuencia de un determinado origen en los resultados (por ejemplo, fase depresiva de un ciclo econmico). Las ventajas del origen mvil por sobre el origen jo hacen que el origen mvil sea la tcnica preferida en evaluaciones fuera de muestr a. El empleo de origen mvil plantea la posibilidad de reestimar el modelo de pronstico en cada actualizacin. Este procedimie nto es el ms usado ya que disminuye la inuencia del conjunto de entrenamie nto original, aunque esto signique un aume nto de los clculos necesarios.[1]
4.6
Conjunto de entrenamiento de tamao creciente versus conjunto de entrenamiento de tamao constante
Al utilizar la tcnica de origen mvil, cada nueva evaluacin signica la adicin de un nuevo dato al conju nto de entrenamie nto, por lo que se puede optar entre la realizacin de proyecciones sobre la base de un conjunto de
entrenamie nto de tamao creciente o de tama o consta nte (xed size rolling window). El uso de un conjunto de entrenamie nto de tama o constante implicara que al agregar un nuevo dato, se descarte la observacin ms antigua (pruning), lo que parece recomendable si la trayectoria de precios a travs del tiempo sigue un patrn notoriamente disti nto al del pasado, situacin que parece no aplicar al caso del cobre. [1]
4.7 Jenkins
Metodologa
de
Box-
El enfoque de Box-Jenkins es una de las metodologas de uso ms amplio para el modelamie nto estocstico de series de tiempo. Es popular debido a su generalidad, ya que puede manejar cualquier serie, estacionaria o no estacionaria, y por haber sido implementado en numerosos programas computacionales. Los pasos bsicos de la metodologa de Box-Jenkins son [1]: 1. Vericar la estacionariedad de la serie. Si sta no es estacionaria , diferenciarla hasta alcanzar estacionari edad. 2. Identicar un modelo tentativo. 3. Estimar el modelo. 4. Vericar el diagnstico (si este no es adecuado, volver al paso 2). 5. Usar el modelo para pronosticar . Lo que se trata es de identicar el proceso estocstico que ha generado los datos, estimar los parmetr os que caracterizan dicho proceso, vericar que se cumplan las hiptesis que han permitido la estimacin de dichos parmetros. Si dichos supuestos no se cumplieran, la fase de vericacin sirve como retro alimentacin para una nueva fase de identicacin. Cuando se satisfagan las condiciones de partida, se puede utilizar el modelo para pronosticar. [5]
4.8 parmetros
Estimacin
de
algoritmo de mnimos cuadrados de Gauss Marquatt para algoritmo trata de minimizar la suma de cuadrados de los del modelo. El algoritmo busca si otro vector de parmetr os proceso de iteracin hasta que se alcanza u cierto criterio de
Para estimar los parmetros del modelo se utiliza un minimizar la suma de cuadrados de los residuos. Este residuos, comenzando con algn valor de los parmetros mejora el valor de la funcin objetivo y se produce un convergencia. [5]
5 Evalua cin de Mode los de Ser ies de Tiempo

5.1 Evalucin del desempeo predectivo: err or Medicin de l
Para la evaluacin del desempeo predictivo se emplean diferentes indicadores que cuantican qu tan cerca est la variable pronosticada de su serie de datos corres pondie nte. Una de las medidas ms utilizadas es el Promedio del Error Porce ntual Absoluto (MAPE) ! ! T 1 Y s Y aj 1
T
M AP E = donde
X T
t= 1
AP Et
X j T
t=1
Ytt a
100
AP E :error porce ntual absoluto. Yta :valor pronosticado de Yt . Yts :valor real de Yt . T: nmero de periodos. El MAPE mide el valor medio del error absoluto en trminos porcentuales al valor real de la variable[1]. En lugar de considerar el promedio de error porce ntual absoluto, MAX_MAPE indica el valor mximo del error del modelo respecto a la serie real, en trminos porcentuales y absolutos [6] : M AX _M AP E = M AX t j Ys Yta
t
Ya
100
Para evaluar la dispersin de los errores se puede calcular el Desvo Estndar del Error porce ntual absoluto (APE). v u u TX t 1 Desv {o Esta ndar AP E = (AP tE M AP E)2 T t=1 Otra medida del error de pronstico comnme nte empleada es la Raz Cuadrtica Media del Error (RMSE): v u T u 1X Y a )2 RM SE = (Y s t T t=1 t t donde Yta :valor pronosticado de Yt . Yts :valor real de Yt . T: nmero de periodos. El RMSE mide la dispersin de la variable simulada en el curso del tiempo, penalizando fuerteme nte los errores grandes al elevarlos al cuadrado. Esta caracter stica hace que el RMSE se recomiende cuando el costo de cometer un error es aproximad ame nte proporcional al cuadrado de dicho error. No siempre el modelo que genere pronsticos con un menor MAPE generar los pronsticos con el menor RMSE y viceversa, por lo que en la seleccin de los mejores modelos de pronstico se hace necesario establecer la medida de error a utilizar para la elaboracin del ranking de desempeo. Dado que una mala estimacin del precio fututo del cobre se traduce en una prdida de ingresos proporcional al
tamao del error, el MAPE, y no el RMSE, parece ser la medida de desempeo ms adecuada. A esto se suma la ventaja prctica del MAPE de no requerir ser acompaado por la media para dimensionar la magnitud del error. Luego, la medida de error que se emplear para identicar los modelos de mejor desempeo ser el MAP E.[1]
6 Estimacin Tend encia
de
la
Hay varios mtodos para estimar la tendencia T(t), uno de ellos es utilizar un modelo de regresin lineal. Se pueden utilizar otros tipos de regresiones, como regresin cuadrtica, logstica, exponencial, entre otros. Una forma de visualizar la tendencia, es med iante suavizamie nto de la serie. La idea central es denir a part ir de la serie observada una nueva serie que ltra o suaviza los efectos ajenos a la tendencia (estacionalidad, efectos aleatorios), de manera que podamos visualizar la tendencia. [3]
6.1
Promedio Mvil
Este mtodo de suavizamie nto es uno de los ms usados para describir la tendencia. Consiste en jar un nmero k, preferentemente impar, como 3, 5, 7, etc., y calcular los promedios de todos los grupos de k trminos consecuti vos de la serie. Se obtiene una nueva serie suavizada por promedios mviles de orden k. De este modo se tienden a anular las variaciones aleatorias. La formula est dada por Z (t) = Y (t k ) + Y (t + ::: + Y (t + k) k + 1) + ::: + Y (t) + Y (t + 1)
2 k+1 El suavizamie nto de media mvil es muy fcil de aplicar, permite visualizar la tendencia de la serie. Pero tiene dos inconvenientes: No es posible obtener estimaciones de la tendencia en extremos y no entrega un medio para hacer predicciones. Si la serie prese nta un efecto estacional de perodo k, es conveniente aplicar un suavizamie nto de media mvil de orden k. En tal caso se elimina el efecto estacional, junto con la variacin aleatoria, observndose solamente la tend encia.[3]
6.2 exponencial
Suavizamiento
Este modelo se basa en que una observacin suavizada, en tiempo t, es un promedio ponderado entre el valor actual de la serie original y el valor de la serie suavizada, en el tiempo inmediatame nte anterior. Si Y (t) represe nta la serie de tiempo original, y Z (t) la serie de tiempo suavizada, entonces lo anterior se puede escribir Z (t) = en donde es un nmero entre 0 y 1. Y (t) + (1 )Z (t 1)
Si es cercano a 1, la serie suavizada pondera ms fuerteme nte el valor original, luego ambas se parecen, y en consecuencia, el suavizamie nto es poco. Si se acerca a 1/2, se ponderan moderadame nte la serie original y la suavizada, por lo que el suavizamie nto es moderado. Si es cercano a cero, (1- ) es cercano a 1, y la serie suavizada pondera ms fuerteme nte el valor suavizado inmediatame nte anterior, por lo que el suavizado es importante. Consecuencia de la frmula anterior es que la serie suavizada se puede expresar como Z (t) = Y (t) + (1 )Y (t 1) + (1 )2 Y (t 2) + ::: + (1 )t
1
Y (1)
Es decir, cada trmino suavizado es un promedio ponderado de todos los trminos histricos de la serie original. Como est entre 0 y 1, estos nmeros se van achicando a medida que avanzan. Eso signica que a medida que nos alejamos hacia el pasado, los trmino van inuyendo cada vez menos en el trmino presente. La rapidez con que disminuye la inuencia es mayor mie ntras ms grande (cercano a 1) es . Si la serie vara lentamente, por lo general se eligen valores de cercanos a 0 (valor tpico = 0.3). En cambio, si vara brusc amente, se eligen valores de cercanos a 1 (valor tpico = 0.7). [3]
Transfor mada Discreta de Four ier : Enfoqu e Espectral
La mayora de los mtodos en series de tiempo se basan en el espacio del tiempo. Otro enfoque muy poderoso es en el espacio de frecuencia, en donde la transformada discreta de fourier tiene un papel primordial .
7.1
Denicion Matemtica
perio dica y
0
Sea L2 (a) = ff : R ! C j f es a Serie p de Fourier, la que viene dada por:
Ra
jf (t)j dt < 1 . Sea f 2 L (a) y denotamos por S[f ] a su g

2 2 p
S[f ](t) =
n=1 X
cn e 2
n = 1
in
t a
,donde los fcn gn2N son sus "coecientes de Fourier", que vienen dados por: Za t cn = 1 f (t)e 2 in a dt a 0 Ahora, sean S N [f ] las sumas parciales de la serie anterior, esto es: S N [f ](t) =
n=N X
cn e 2
n= N
in
t a
Es bien sabido que las sumas parciales de una funcin f 2 L2 (a) convergen a ella en la norma de L2 (0; a). p An ms, un teorema debido a Dirichlet seala que si adems para un punto to 2 (0; a) los lmites f (t+ ) y f (t o ) o existen, al igual que las derivadas laterales en ese punto, entonc es: S N [f ](to ) ! S[f ](t) = 1 [f (t+ ) + f (t )]
o o
2 Luego conocer la Serie de Fourier de una funcin sucienteme nte buena puede otorgar basta nte informacin sobre esta. Sin embargo, uno precisara conocer una innidad de las constantes fcn g(lo que a parte de ser costoso, salvo casos muy particulares, es imposible). En la prctica, no es necesario conocer "demasiadas" de estas constantes, por dos razones: La serie ser evaluada numricame nte, por lo que se considerar solo una suma parcial de esta. Se tiene que para f 2 L2 (a), p
n=1 P n 1 =
jcn j2 < 1, de donde cn ! 0 si jnj ! 1. Luego los nicos trmino de
inters (numrico) son los de ndice no demasiado grande. Pese a lo anterior, puede ser necesario conocer muchos cn , lo que implicara evaluar muchas integrales. Por lo tanto, para efectos prcticos, ser necesario integrar numricame nte las expresiones para estos coecientes. Esta es la motivacin original para la Transformada de Fourier Discreta (DFT), vale decir, obtener una expres in aproximada para la Serie de Fourier de una funcin a partir de un "sampleo" de datos conocidos sobre la funcin. Se ver ms adela nte que el espectro de problemas en que esta herramie nta ha resultado til es mucho ms amp lio. 7.1.1 Calculando los Coecientes de Fourier perio dica f : R ! C sobre la cual solo conocemos N valores f k a =y
Suponer que se tiene una funcin a equiespaciados en (0; a), vale decir:
1 k , k = 0; 1; :::; N N La idea es estimar N coecientes de la Serie de Fourier de f , la que se asumir converge puntualmente. Por simplicidad se supondr que N es par. As, se estimar cn para n = N=2; :::; N=2 1. De la frmula para
los coecientes de Fourier, se puede integrar media nte el Mt odo del Trapecio, lo que entrega la siguiente aproximacin para cn : cn X Yn := 1 N
N 1
yk wN
k=0
nk
, con wN = e
2 i N
,n2N
Adems, de la periodicidad de la exponencial, se verica que

N
PN
k=0
yk w
N
nk
= Yn+N , si
2
n < 0, de
donde cn y adems se verica que:

N
Yj(n) , con j(n) = n + (N
n 0) <
,n=
N=2; :::; N=2
yk =
1 X
YnN ; k = 0; ::; N w 1
nk
n=0
As, queda denido un isomorsmo:

N FN : CN ! CN ; conF N (fygk=0 ) = fYngn=01 k 1 N
, el que se llama la Transformada
de Fourier Discreta
de orden N:
7.2
Alguna s Prop iedade s de FN
Si fuk gk2Z C satisface un = un+ kN 8n; k 2 Z, se dir que es una secuencia N perio dica. Con esta denicin, N 1 N 1 N 1 es claro que dado fyk g puede extenderse como una secuencia peridica, al igual que fY g = FN (fykg ). Entre las muchas propiedades que aparecen, destacan:
k=0 k=0 k=0
1. Sean fxk g y fyk g dos secuencias N-peridicas, y sean fXn g y fYn g las secuencias asociadas a sus transf ormad as discretas. Entonces: PN 1 La secuencia denida por su Co nv olucin Circular, zk = q=0 xq yk q con k 2 Z, tiene por tra nsformada a Zn = N Xn Yn (producto trmino a trmino). La transformada de la secuencia fpk = xk yk g es Pn =
N 1 P k=0 NP1 n=0
PN
q=0
X q Yn
2. Si (Yn ) = FN (yk ), entonce s
jyk j2 = N
jYn j2
7.3
Relacin entre los coecientes de Four ier exactos y aproximados

1 X
Suponiendo que una funcin a-peridica f puede ser expresada como f (t) =
n = 1
cn e2i
t a
, y que esta serie es absolutame nte convergente, para cada t es posible reordenar sus trminos sin alterar su convergencia. Por ejemplo, se puede primero sumar sobre todos los ndices iguales a 0 mod N, luego los iguales a 1 mod N, etc. As, en particular: ! 1 N 1 1 X X X a mk nk cm wN = f k = yk = cn+qN wN N m 1 = q= 1 n=0
De esto se deduce que Yn =
P1
q= 1
cn+qN , y luego Yn cn = X
q=0
cn+qN
Con esto se obtiene que entre ms fuerteme nte decaigan a cero los coecientes cn , mejor es la aproximacin. Esto ocurre, por ejemplo, entre ms suave sea la funcin.
7.4 Aplicac in Tiempo
Ser ies
de
El uso de la transformada discreta de fourier en series de tiempo se basa en la idea de observar las frecuencias ms importa ntes, y gracar la intensidad de cada frecuencia. Este grco se llama espectograma. Si se graca la intensidad versus el periodo, que es el inverso de la frecuencia, entonces se obtiene el periodograma. Este grco nos mostrar la presencia de componentes estacionales importa ntes en la serie de tiempo, y as separar la componente estacionaria de la serie. Por ejemplo, la transformada de fourier de la funcin y=cos(2*x) en el intervalo [0,100], con un paso igual a 1, obtenemos el siguiente grco:
Podemos ver que la nica frecuencia importante se encuentra adentro del intervalo [0.3,0.35], y si observamos que cos(2*x)=cos( 2 x) y 1 = 0:318 ; luego podemos reconstruir la funcin con solo conocer este valor. Otro grco interesa nte es el error de aproximacin versus el nmero de coecientes de la transformada de fourier que se ocupan para la aproximacin. Lo que a nosotros nos interesa ver de este grco son los cambio bruscos, por lo que adems se graca su primera y segunda deri vada. Por ejemplo:
Se puede observar que cerca de la frecuencia 0.225 hay una gran intensidad, y otra de menor magnitud alrededor de la frecuancia 0.115. Estas corresponden a las componentes nmero 226 y 115, respectivame nte. Luego, si ltr amos una vecindad de estas frecuencias y las dems las eliminamos, obtenemos el siguiente resultado:
Luego, podemos observar que recuperamos casi toda la informacin de la funcin original, excepto en los bordes, que es un fenmeno numrico que ocurre con la transformada de fourier. Con estas componentes aisladas, se pueden analizar los diferentes fenmenos estacionarios que la suma dan la serie original, por lo que se pueden identicar diferentes fuentes explicati vas de la serie de tiempo.
8 Mode los Moderno
ARIMA:
Enfoqu e
Los modelos multi varia ntes o economtricos tratan de explicar el comportamie nto de una o ms variables en funcin de la evolucin de otras variables que se consideran explicati vas. Las variables explicadas por el modelo se denominan endgenas, mientras que las variables explicativas del modelo, pero no explicadas por l, se denominan predeterminadas. Entre las variables predeterminadas se distinguen dos grupos: exgenas y endgenas retardada s, estas ltimas no son explicadas por el modelo en el momento t, pero han sido explicadas por l en un mome nto anterior, por su parte, las exgenas son variables que no son explicadas por el modelo en ningn momento. Los modelos economtricos contemplan de forma explcita la informacin que aportan las variables causales del fenmeno de inters de acuerdo con una determinada teora econmica. Una ventaja de este modelo consiste en que los resultados que se generan son ms ecientes y poseen mayor poder explicativo que los modelos univariantes. Sin embargo, en estos modelos, cuando se desea realizar predicciones, el desconocimiento de los valores de las variables explicati vas en el futuro determina la necesidad de utilizar predicciones para stas, lo cual increme nta el nivel de incertidu mbre con que se realiza la prediccin economtrica. Por otro parte, cuando el futuro puede suponer una alteracin de tendencias de comportamie nto respecto al pasado reciente, es recomendable utilizar estos modelos causales para predecir a mediano plazo (1 a 5 aos). Los modelos univariantes o de series de tiempo no necesitan conocer ninguna relacin de causalidad, explicati va del comportamie nto de la variable endgena, ni en su defecto, ninguna informacin relativa al comportamie nto de otras variable explicati vas, ya que en este caso no existe este tipo de variables. Es suciente con conocer una serie temporal de la variable en estudio, para estimar el modelo que se utilizar para prede cir. La prediccin uni varia nte se utiliza, en problemas econmicos, principalme nte con dos objetivos: La prediccin de algunas variables explicati vas de un modelo causal, cuando se espera que en el futuro conserven algunas de las caractersticas de su evolucin en el pasado. La prediccin a corto plazo, debido a su gran capacidad para recoger la dinmica en el comportamie nto de la variable estudiada. Adems, en condiciones normales, cuando no existen bruscas alteraciones respecto a la experiencia reciente de la variable, estos mtodos pueden proporcionar buenas predicciones. Entre las tcnicas univaria ntes existen algunas muy sencillas, tales como el modelo autorregresi vo de primer orden, el modelo de tendencia lineal o exponencial, entre otros. Las tcnicas ms rigurosas para la prediccin univaria nte son las denominadas tcnicas o modelos Box-Jenkins, o ms concretame nte modelos ARIMA, pues las tcnicas Box-Jenkins constitu yen un conjunto ms amplio, dentro del cual los modelos ARIMA univariantes son slo una parte. [5] En la generacin de proyecciones de corto y mediano plazo, existe evidencia de un mejor desempeo de los modelos de series de tiempo. Llama la atencin el que los modelos de series de tiempo sean ms precisos en sus proyecciones que los modelos economtricos ms complejos, algunos de los cuales tienen mltiples ecuaciones y decenas de variables. Entre las razones que explican este fenmeno est la dicultad asociada a la seleccin de las variables explicati vas de un modelo estructural y la diculta d que conlleva el pronstico de las mismas, problema que podra ser an ms difcil que el pronstico de la variable de inters .[1]
8.1 Modelamiento estacionarias

8.1.1 Caminata aleator ia
de
ser ies
no
Yt =
+ Yt "t
donde, es una consta nte (dri ft) y cada perturbacin "t (error) es una variable aleatoria con distribucin normal con media cero, varianza consta nte y covarianza cero (el proceso "1 ; "2 ; ::: se denomina ruido blanco). En el modelo de caminata aleatoria ms simple (sin drift), el pronstico para Yt es su valor ms reciente. La inclusin de un drift intenta reproducir una tendencia existente en la variable de inters. En un modelo de caminata aleatoria, la varianza de Yt aume nta a travs del tiempo, lo que es propio de un
proceso no estacionario. Cuando una serie se comporta como una caminata aleatoria unitaria. [1]
se dice que sta prese nta raz
8.2 Modelamiento estacionarias
de
ser ies
Box y Jenkins han desarrollado modelos estadsticos que tienen en cuenta la dependencia existente entre los dato s. Cada observacin en un momento dado es modelada en funcin de los valores anteriores. Se modela a travs de ARIMA (Autorregresi ve Integrate Moving Average). Alguna de las caractersticas de este modelo son [2]: Tiene solamente en cuenta la pauta de serie serie de tiempo en el pasado. Ignora la informacin de variables causales. Procedimie nto tcn icame nte sosticado de prediccin de una variable. Utiliza la observacin ms reciente como valor inicial. Permite examinar el modelo ms adecuado Analiza errores recientes de pronsticos para seleccionar el ajuste apropiado para periodos futuros. Box-Jenkins es ms apropiado para predicciones a largo plazo que para corto plazo. Extrae mucha informacin de la serie de tiempo, ms que cualquier otro mt odo. 8.2.1 Modelos de Media Mvil, MA(q) Yt = + "t +
1 "t 1 q
+ ::: +
q "t
En los modelos de media mvil, el proceso se represe nta como una suma ponderada de errores actuales y anteriores. El nmero de rezagos del error considerados (q) determina el orden del modelo de media mvil. [1] 8.2.2 Modelos Autorreg resi vos, AR (p) Yt = +
1 Yt 1
+ ::: + "t
p Yt p
En los modelos autorregresi vos, el proceso se repres enta como una suma ponderada de observaciones pasadas de la variable. El nmero de rezagos (p) determina el orden del modelo autorregresi vo. [1] 8.2.3 Modelos Mixtos Autorregresi vos Media Mvil, ARM A(p,q) Yt = +
1 Yt 1
+ ::: +
p Yt p q
+ "t +
1 "t 1
+ ::: +
q "t
En estos modelos, el proceso se representa en funcin de observaciones pasadas de la variable y de los valores actuales y rezagados del error. El nmero de rezagos de la variable de inters (p) y el nmero de rezagos del error (q) determinan el orden del modelo mixto. [1] 8.2.4 Modelos Autorreg resi vos Integrados de Promedio Mvil, ARIM (p,d, q) A
Muchas series de tiempo no son estacionarias, por ejemplo el Producto Nacional Bruto o la Produccin Indu stri al. Un tipo especial de series no estacionarias, son las no estacionarias homogneas que se caracterizan porque, al ser diferenciadas una o ms veces, se vuelven estacio narias. La serie Yt ser no estacionaria homognea de orden d si Wt = d Yt es estacionaria , donde: Yt = Yt
n+1
Yt
n
Yt =
Yt
Yt
Si despus de haber diferenciado la serie Yt se consigue una serie estacionaria Wt , y dicha serie obedece a un proceso ARMA(p,q), se dice que Yt responde a un proceso ARIMA(p,d ,q):
Wt =
1 Wt 1
+ ::: +
p Wt p
+ "t +
1 "t 1
+ ::: +
q "t q
Para la correcta identicacin del modelo ARIMA represe ntativo de una serie se hace necesario [1]:
Determ inar el grado de homogeneidad
u orden de integracin
de la seri e
Para determinar el orden de integracin se utilizan herramie ntas como el correlograma y tests de raz unitar ia. Cabe mencionar que los tests de raz unitaria, como el test de Dickey-Fuller Aume ntado (ADF), tienen baja potencia prese ntando, ante situaciones de difcil discriminacin, un sesgo al no rechazo de la hiptesis nula de presencia de raz unitaria. Determ inar el orden de las partes de promedio mvil y autorregre sivas del modelo El examen de las funciones de autocorrelacin total y parcial ayuda en esta tarea, aunque habitualme nte la seleccin correcta no ser clara, por lo que se recomienda probar disti ntas formulaciones guindose por el conocimiento que se tenga del fenmeno analizado. Evaluar los disti ntos modelos const ruidos Se descartan las estructuras que arrojen coecientes no signicati vos y/o que fueron mal evaluadas de acuerdo a indicadores como el Criterio de Informacin de Schwarz (SIC). Un buen modelo tendr un buen ajuste (coe ciente de determinacin cercano a la unidad) y arrojar residuos que se comportarn como ruido blanco.
8.3 Mode los intervencin
AR IMA
con
variables
de
Existen los modelos ARIMA con variables de intervencin, en los cuales las series econmicas son afectadas por fenmenos externos, tales como cambios tecnolgicos, huelgas, cambios en medidas de poltica o econmicas, cambios en la legislacin o escala de algn impuesto, cambios metodolgicos en la medicin de las estadsticas, etc. Estos fenmenos son llamados intervenciones ya que intereren en el comportamie nto original de la serie, por lo tanto se debe evaluar su efecto e incor porarlo al modelo ARIMA a travs de variables arti ciales binarias (anlisis de intervencin). Se recurre a variables que explican la presencia de fenmenos exgenos en la serie de tiempo. Se incor poran como variables dummy en la forma de impulsos y escalones que se utilizan para repres entar cambios temporales o permane ntes en el nivel de las series debidos a eventos especiales. La no-incor poracin de variables articiales conduce a sesgos en las estimacione s de los parmetros, a elevar el error estndar residual y en ocasiones a errores en la especicacin del modelo ARIMA. La mayora de veces a priori no se conoce los fenmenos exgenos que afectan la serie de tiempo y ms bien se utiliza una primera aproximacin del modelo ARIMA para determinar la presencia de valores anmalos que son posteriorme nte incorporados al modelo. A continuacin se describen las principales variables de intervencin [5]: Variables Impulso: Recoge el efecto de fenmenos que intervienen en la serie en un nico momento T0. Esto se traduce en una variable que contiene un uno en T0 y ceros en el resto. Afecta el componente irregular de la serie. Variable escaln: Recoge el efecto de un cambio en el nivel en la serie, es decir, que contienen ceros hasta el momento T0 y unos en adela nte. Afecta el componente tendencia de la serie. Variable tendencia o rampa: Estas contienen ceros en un tramo de la serie hasta un momento T0, a part ir del cual empieza a crecer en forma ascende nte. Afecta la tendencia de la serie. Efecto calendario: Este efecto se reere al hecho de que cabe esperar un mayor nivel de actividad en aquellos meses con mayor nmero de das laborales, por lo cual hay que tomar en cuenta no solo el nmero de das de cada mes, sino tambin su diferente composicin porcentual en trminos de lunes, martes, etc., en cada mes. Efecto de la semana santa o pascua (Eas ter eect): Con este efecto se intenta represe ntar la inuencia de la festividad mvil de semana santa ejerce sobre la actividad econmica en los meses de marzo y abril. Das de comercio (Trading-D ays): Consiste en el ciclo semanal que se prese nta cuando los das de la seman a tienen un nivel de actividad disti nto, unido a la disti nta longitud de los meses; de tal modo que por ejemplo, un mes en particular podra tener un nivel de ventas superior a otro, debido nicame nte a que posee un mayor nmero de das.
8.4 Modelos ARMAX (p,q,n)
Autorr egresivos
con
Promedio
Mvil
Entrada s
Exgenas ,
Adems de componenter autorregresi vas y de medias mviles, se pueden incor porar al modelo variables externas {Xi g como regresores. Dichas variables son "externas" en el sentido de la informacin que contienen proviene de una fuente disti nta a la serie de tiempo que se desea pronosticar, y los modelos resultantes se denominan modelos ARMAX(p,q,n), donde p es la cantidad de componentes autorregresi vas, q componentes de medias mviles y n variables regresoras externas [6]. Yt = +
1 Yt 1
+ ::: +
p Yt p
+ "t + 1 "t Xn;t
+ ::: +
q "t q
1 X1;t
+ ::: +
8.5 Modelos cambiante
con
varianz a
En los modelos de series de tiempo, podemos distinguir dos tipos de pronsticos, los condicionales, que estn condicionados a la informacin disponible hasta el momento, y los no condicionales. Por ejemplo, en el modelo AR(1), el pronstico condicional de yt+1 es E(yt+1 ) = + 1 yt 1 . Este valor contrasta con el pronstico no condicional que es, simpleme nte, la media de largo plazo de la serie, . Se puede demostrar que la varia nza
1
1
del error de pronstico condicional es menor a la varianza del error de pronstico no condicional, por lo que los modelos ARIMA prese ntados se utilizarn para la generacin de pronsticos condicionales . En muchas aplicaciones (modelamie nto de la inacin, tasas de inters y rendimie ntos de acciones), la varianza condicional de una variable cambia a travs, dependiendo de la magnitud de los errores del pasado. Se observa un agrupamie nto de errores, esto es, periodos de alta volatilidad (y grandes errores) seguidos de periodos de baja volatilidad (y errores menores). La adecuada represe ntacin de las variables que muestran este tipo de heterocedasticidad requiere la denicin de un modelo para su varianza condicional. Una vez hecho esto se procede a la estimacin simultnea de los modelos de la media y de la varianza condicional. [1] 8.5.1 Modelos de Heter ocedasticidad Condicional Autorregresi va, ARCH(p)
Se basan en la existencia de una relacin entre la varianza del error y los rezagos del error al cuadrado. La cantidad de rezagos utilizada determina el orden del proceso ARCH [1]:
2 t
2 1 "t 1 p
+ ::: +
2 p "t
8.5.2
Modelos de Heter ocedasticidad
Condicional
Autorregresi
va Generalizado,
GA RCH(p,q)
Suponen una relacin entre la varianza del error, los rezagos del error al cuadrado y los rezagos de la varianza. La cantidad de rezagos utilizada determina el orden del proceso GARCH:
2 t
2 1 "t 1
+ ::: +
2 p "t p
2 1 t 1
+ ::: +
2 q
t q
Para el adecuado modelamie nto de la varianza del error se deber recurrir a herramie ntas como el correlograma de los residuos al cuadrado y tests para detec tar la presencia de heterocedasticidad condicional autor regresiva.[1]
8.6 Vericacin ARIMA
en
el
modelo
Una vez estimado el modelo ARIMA y dado que el modelo va a ser utilizado para predecir, se debe vericar que se cumplen las hiptesis de partida. El anlisis principal se centra en los residuos, pero tampoco se debe descuidar el
anlisis de la bondad del ajuste del modelo estimad o y el anlisis de los parmetros del modelo. A continuacin se citan algunos de los indicadores que se deben analizar [5]: Anlisis de los parmetro s Valores de los parmetros j j< 1 condicin de invertivilidad (coef. de medias moviles)
j j< 1 condicin de estacionariedad (coef. de aut ocorrelacion) Signicancia de los parmetros (t-Stud ent) Bondad del ajuste Error estndar de los residu os Estadstico BIC Anlisis de los residuos (ruido blanco) Anlisis grco Histograma Correlograma de los residuos Estadstico Q de Box-Pier ce: Q=T X r2 k
Este valor se compara con el valor tabular de la 2 con k grados de libertad. Si el valor calculado es mayor que el valor tabular se rechaza la hiptesis de estacio nariedad.
Autocorr elacin
Si se pretende establecer un modelo para una serie estacionaria un paso usual, luego de eliminar componentes estacionales y tendencias es estudiar la correlacin entre una observacin de la serie y las observaciones previa s. La presencia de correlaciones altas entre observaciones de la serie (autocorrelaciones) puede ser consecuencia de un comportamie nto lineal del fenmeno a travs del tiempo y nos da idea del tipo de modelo apropiado. Una forma visual de estudiar las autocorrelaciones es a travs de correlogramas. Este tipo de grca nos muestra la correlacin entre observaciones separadas por q intervalos de tiempo o lags. El proceso para calcular la autocorrelacin particiona las observaciones de la serie en dos grupos: fY1 ; Y2 ; :::; Yt q gy fY1+ q ; Y2+ q ; :::; Yt g. La correlacin es compu tada entre los dos conjuntos.
9.1
Denicin
Dado un proceso estocstico (Xt ), se dene la funcin de Auto covarianza como la funcin que relaciona los valores a diferentes instantes: (s; t) = C ov(Xs ; Xt ) = E[(X s E(Xs ))( Xt E(Xt ))]
Un proceso estocstico se dir Estrictame nte Estacionario cuando la distribuc in conju nta es invariante ante traslaciones, o sea la funcin de distribucin conju nta de cualquier subconju nto de variables es invaria nte respecto a un desplazamie nto en el tiempo. Un proceso estocstico (Xt ) se dir estacionario si se cumplen las siguientes condiciones: 1. (s; t) = (s + r; t + r)
2. E(X t ) = C 3. E(X2t ) < 1 Cuando el proceso (Xt ), es estacionario , es comn denir la auto covarianza como una funcin del desplazami ento h: (h) = C ov(Xt ; Xt+ h ) La autocorrelacin corresponde a la auto covarianza normalizada por la varianza de Xt : (h) = (h) (0)
La funcin de autocorrelacin resulta de gran utilidad para encontrar patrones repetiti vos dentro de una seal, como por ejemplo, la periodicidad de una seal enmascarada bajo el ruido o para identicar la frecuencia fundamental de una seal que no contiene dicha componente, pero aparecen numerosas frecuencias armnicas de sta. La autocorrelacin muestra la asociacin entre valores de la misma variable en diferentes periodos de tiempo (no aleatoria). La altura de la lneas en el correlograma repres enta la correlacin entre las observaciones que estn separadas por la cantidad de unidades de tiempo que aparecen en el eje horizo ntal. La correlacin para el primer rezago siempre es uno por lo que no deben tomarse en cuenta en las interpretacione s La autocorrelacin parcial identica la relacin entre los valores actuales y los valores anteriores de la serie cronolgica original, despus de quitar los efectos de las autocorrelaciones de orden inferior. El correlograma PACF de autocorrelaciones parciales puede utilizarse para determinar, dado que parece existir una relacin entre las observaciones, el orden del modelo lineal que pudiera aplicarse. Una forma recursiva de calcularla es:
(h)
h 1
si h 1 j) si h 2,3,...k
(h) (h, h) 1
j 1 j 1 h 1
(h 1, j) (h
(h 1, j) ( j) (h 1, j) (h, h) (h 1, h j) con j 1,2,..., h 1
donde (h, j)
9.2
Criterios
Si ninguna de las autocorrelaciones es signicati vamente diferente de cero, la serie es esencialme nte ruido blanc o. Si las autocorrelaciones decrecen linealme nte, pasando por el cero, o muestra un patrn cclico, pasando por cero varias veces, la serie no es estacionaria. Se tendr que diferenciarla una o ms veces antes de modelarla. Si las autocorrelaciones muestran estacionalidad, o se tiene una alza cada periodo (cada 12 meses, por ejemp lo), la serie no es estacionaria y hay que diferenciarla con un salto igual al periodo. Si las autocorrelaciones decrecen exponencialme nte hacia cero y las autocorrelaciones parciales son signicativame nte no nulas sobre un pequeo nmero de rezagos, se puede usar un modelo autoregresivo Si las autocorrelaciones parciales decrecen exponencialme nte hacia cero y las autocorrelaciones son signicativame nte no nulas sobre un pequeo nmero de rezagos, se puede usar un modelo de medias mviles Si las autocorrelaciones simples y parciales decrecen lentame nte hacia cero, pero sin alcanzar el cero, se puede usar un modelo autoregresi vo combinado con medias mviles
10
10.1
Ejemplos de ser ies de tiempo

Funcin sinusoidal
Consideremos la funcin, generada en Matl ab: x= [1:1:100]; y=cos(2*x);
Si gracamos su correlograma obtenemos:
Observamos que sus autocorrelaciones totales se van a cero, y sus autocorrelaciones parciales son signicati vas en sus dos primeras componentes, lo que indica que el modelo a usar es ARIMA(2,0,0). Al calcular el modelo obtenemos el siguiente resultad o:
Podemos observar que el modelo es exacto, ya que el error es del orden de 10 numricos.
15
; que se deben a efectos
10.2
Funcin sinusoidal con tend encia
Consideremos la funcin, generada en Matl ab: x= [1:1:100]; y= cos(2*x)+ exp(x/40) ;
Al gracar su correlograma obten emos:
Como vemos, el correlograma indica que la serie no es estacionaria, por lo que se deber diferenciar la serie. Luego de diferenciar dos veces la serie, su nuevo correlograma es:
Esto indica que se debe ocupar un modelo ARIMA(3,2,0), obteniend o el siguiente resulta do:
Nuevamente observamos que los resultados son exactos, ya que el error es del orden de 10 la serie, integrando, obtenemos:
10
: Si reconstr uimos
10.3
Funcin multisinusoidal con tend encia y componente aleatoria
Consideremos la funcin, generada en Matlab: x= [1:1:100]; y= 0.1*x+10 *cos(x*pi/3). *sin(x*pi/9). *cos(x*pi/1. 5)+1 .5*randn(1,length(x)) ;
Al observar su correlograma, obtenemos:
Como vemos, el correlograma indica que la serie no es estacionaria, por lo que se deber diferenciar la serie. Luego de diferenciar 8 veces la serie, su nuevo correlograma es:
Podemos observar que su autocorrelacin total se va a cero, pero su autocorrelacin parcial es fuertemente signi cativa en las primeras 8 componentes, y luego se observa que son menos signicati vas, pero no cero. Esto indica que se debe usar un modelo ARIMA(12,7,q), donde q se obtiene de forma emprica. Luego de probar varios valores para q, obtenemos un modelo ARIMA(12,7,6):
Podemos observar que el modelo es basta nte preciso en general, ya que hay 3 datos con un error relativo mayor al 10%, 5 datos con error del 10%, 8 datos con error del 5%, 48 datos con un 1% de error y 17 datos con un error menor al 1%. Este error es sobre la serie diferenciada 7 veces, por lo que se debe reconstruir la serie original integrando la serie obtenida, pero el error que se obtiene sigue siendo relativame nte pequeo.
10.4
Ventas mensua les de un a empresa
Se tienen las ventas mensuales de una empresa por un periodo de 50 meses. Se puede observar el siguiente grco:
Despus de hacer el anlisis de las autocorrelaciones, se decide diferenciar la serie 8 veces, obteniendo el siguiente grco:
El correlograma muestra que se debe usar un modelo ARIMA(8,8,q)
Luego de hacer las pruebas, nos quedamos con un modelo ARIMA(12,8,4), que los resultados se observan en el siguiente grco:
11 Tcnica s de Inteligencia Compu tacional Tiempo

11.1 Rede s Neuronales
en Ser ies de
Una red neuronal puede ser descrita como un modelo de regresin no lineal cuya estructura se inspira en el funcionamie nto del sistema nervioso. En trminos generales, una red consiste en un gran nmero de unid ades simples de proceso, denominas neuronas, que actan en paralelo, estan agrupadas en capas y estn conectadas media nte vnculos ponderados. Esto constituye la estructura de una red neuronal.
Cada neurona recibe inputs desde otras neuronas y genera un resultado que depende slo de la informac in localmente disponible, ya sea almacenada intername nte o plasmada en los ponderadores de las conexiones. El output generado por la neurona servir de input para otras neuronas.
La llamada funcin de activacin, es una funcin que emula el umbral presente en el sistema nervioso, que si la respuesta de una neurona no es lo suciente mente grande, entonces esta no afecta en las siguientes neuronas. Las funciones ms usuadas son la funcin escaln, signo, sigmoideal, gaussiana y lineal.
Mediante la adecuada modicacin de los ponderadores de la red, en un proceso denominado aprendiz aje, la red mejorar su desempeo en el desarrollo de la tarea para la cual fue construida. Este aprendiz aje se basa en minimizar el error de la red neuronal. Los algoritmos clsicos que se usan para el aprendiz aje de la red neuronal es el mtodo del gradie nte, gradie nte conjugado y Levenberg-Marq uardt, siendo este ltimo el que prese nta mejores resultados, ya que la convergencia es ms estable y rpida. Las redes neuronales tienen el potencial de impleme ntar funciones complejas. Se puede demostrar que una red neuronal sucientemente grande, con una estructura y ponderadores adecuados, es capaz de aproximar cualquier funcin con el nivel de precisin que se desee. El diseo de una red para resolver un problema con xito puede ser una tarea muy compleja y larga dad o la gran cantidad de decisiones de diseo que se deben tomar y la gran cantidad de parmetros que se deben denir. La enumeracin completa de todas las alternati vas no es prctica por requerir de un elevado nmero de evaluaciones, motivndose la aparicin de variadas heursticas y reglas basadas en la experiencia. Sin embargo, ninguna heurstica ha mostrado la capacidad de entregar modelos con buen desempeo predictivo en cualquier conjunto de datos. Temas como la determinacin automtica del nmero de capas o neuronas ocultas estn actualme nte bajo investigacin, lo que hace que, en la prctica, el mtodo ms comn para el diseo de redes neuronales sea el de prueba y error, cuya duracin podra ser prolongada dado que no se debe descartar una red mie ntras sta no haya completado su aprend izaje. En el desarrollo de pronsticos de series de tiempo, existen antecedentes de buenos resultados media nte el empleo combinado de modelos de series de tiempo (ARIMA) y redes neuronales. [1] 11.1.1 Aplicacin de redes neuronales en series de tiem po
El enfoque de las redes neuronales en series de tiempo, es que el valor de la serie en el tiempo T depende de forma no lineal de los valores de la serie en T-1,...,T-k, es decir: yt = f (yt ) Usualme nte, se prepr ocesan los datos, diferenciando la serie para obtener la estacionalidad, y una normal izacin para dejar la serie en el intervalo [-1,1], con la frmula: 2 y_aux = (max( y ) min( y )) max( y) mi n(y) y +
1;
:::; yt
Una estructura tpica es considerar k neuronas de entrada, que corresponde al vector (yt 1 ; :::; yt k ), una capa de n neuronas ocultas, con n menor que k, y una neurona de salida, que corresponde a yt : La coneccin ms usual es que cada una de las neuronas de entrada se conecta con todas las neuronas ocultas, y todas las neuronas
ocultas
se conectan con la neurona de salida. Usualme nte se usando la funcin sigmoide como funcin de activacin entre las neuronas, y la funcin lineal como funcin de salida. Una observacin tcnica es que se crean dos neuronas fantasmas, una en la capa de entrada y otra en la capa oculta, y siempre su respuesta es igual a 1. Esto se hace para considerar las respectivas constantes de umbral en la transferencia entre las capas. En nuestro ejemplo, consideramos 8 neuronas de entrada y 4 neuronas oculatas, donde la funcin es y= 3*sin(7*x) +5*cos(30* x) luego de diferenciarla una vez y normali zandola.
Podemos observar que hay casos el error de la red se mantiene a lo largo del tiempo. Pueden haber varias causas de este fenmen o: 1. El algoritmo de aprendiz aje cay en un mnimo local 2. La cantidad de neuronas es menor al ptimo 3. La estructura de la red no es la adecuada 4. Las funciones de activacin no es la adecuada 11.1.2 Redes ARIM A
Un modelo basta nte inter esante de redes neuronales es simular un modelo ARIMA. Por ejemplo, si deseamos simular un modelo ARIMA(4,0,0), entonces consideramos una red neuronal de una capa de entrada con 4 neuronas y una neurona de salida, con la funcin lineal como activacin. Tericame nte, el modelo matemtico es el mismo, pero en la prctica, este modelo tiene caractersticas diferentes al modelo ARIMA original. Esto se debe netame nte a la forma de entrenar el modelo, ya que el modelo ARIMA se entrana atravs de regresiones lineales, mie ntras que las redes neuronales atravs de algoritmos no lineales. Esta diferencia en el entrenamie nto implica dos diferencias importa ntes en los modelos obten idos.
Outl ay ers En el caso del entrenamie nto con regresin lineal, el modelo ARIMA es sensible a los outl ayers, convergiendo a un modelo con ruido. En el caso de las redes neuronales, como el entrenamie nto es punto a punto, si la cantidad de outlayers es menor, entonces los datos correctos arreglarn el error generado por los outl ayers, convergiendo al modelo exacto. Por ejemplo, el siguiente grco muestra una regresin exacta, ya que todos los puntos son colineales: y=2*x +10
Ahora, si agregamos 3 outl ayers, la regresin deja de ser exacta:
Si al mismo set de datos entrenamos la curva con redes neuronales, obtenemos el siguiente resulta do:
Luego, esto indica que la forma de entrenar con redes neuronales ayudar a no tomar en cuenta los dat os outl ayers, siempre y cuando sean en una proporcin pequea. Ca ntidad de parmetros En el caso del entrenamie nto con regresin lineal, el modelo ARIMA es sensible a la cantidad de parmetros, por ejemplo, si se dene la funcin: y(1)=2 ; y(2)=1 ; y(3)=5 ; y(4)=3 ; for k= 5:1:length(x ) y(k)= 0.6*y(k-1)-0. 3*y(k-2)-0.2*y(k-3)+0.7 *y(k-4)+3; end Entonces el modelo ARIMA(4,0,0) va a converger de forma exacta al modelo, pero ARIMA(5,0,0) no converge a la solucin. Es decir, es muy sensible a la precisin de la cantidad de parmetros. Por otro lado, al aplicar las redes arima al ejemplo anterior, simulando ARIMA(4,0,0), el mtodo converge a la solucin exacta, y al emular ARIMA(5,0,0), converge a otra solucin de parmetros: [1.3382, -0.7403, 0.0213, 0.8467, -0.5174, 0.7734]. Si reconstruimos esta funcin z(1)= 2; z(2)= 1; z(3)= 5; z(4)= 3; z(5)= 4.5; for k= 6:1:length(x ) z(k)=1.3382*z(k-1)-0.7403*z(k-2)+0.0213*z(k-3)+0.8467 *z(k-4)-0. 5174*z(k-5)+0. 7734;
end y gracamos ambas funciones, observamos que es la misma, pero codicada de otra forma:
En otras palabras, con esta forma de entrenar no es necesario conocer la cantidad exacta de parmetros del modelo.
11.2 Machines
Sup port
Vector
SVM fueron creados por Boser, Guyon y Vapnik en 1992. La formulacin original est moti vada por la resolucin de problemas de clasicacin, donde la idea bsica de SVM para abordar tal problema consiste en "ma pear los datos desde el espacio original a un espacio de mayor dimensin a travs de una transformacin no lineal escogida a priori, para luego contruir el hiperplano de separacin ptimo en el nuevo espacio". De esta manera, media nte la resolucin de un problema lineal en el nuevo espacio, se tiene un modelo no lineal en espacio original. En base a la misma losofa, el mtodo se extendi luego a problemas de regresin y de clustering. Desde su creacin, SVM han acaparado gran atencin terica, siendo el mtodo aplicado con xito a problemas prcticos de prediccin de series de tiempo de disti nta naturaleza. Dentro de las principales caracter sticas de SVM se cuentan [6]: la resolucin de un problema convexo y la imposibilidad de entrampamie nto en ptimos locales la represe ntacin de la solucin en base a una fraccin del total de puntos disponibles (estos puntos son llamados Sup port Vector s) la capacidad de generalizacin a nuevos datos, debido a que el algoritmo SVM encarna el principio de minimizacin del riesgo estructur al propuesto en la Teora de Aprendizaje Estadstico de Vapnik
la capacidad de modelas fenmenos no lineales media nte la ya citada transformacin de los datos desde el espacio original a un espacio de mayor dimensin, espacio en el cual se obtiene un modelo lineal que equivale a un modelo lineal en el espacio original 11.2.1 Denici ones del modelo de Kernel Un kernel se dene como una funcin K, tal que 8x; z 2 X K (x; z) = < (x); ( z) >
Funciones
donde X es el espacio de los datos de entrada (nito, general mente Rn ); y es una funcin de mapeo de los datos de entrada desde X a un espacio F de mayor dimensin, donde < , > es el producto interno de F. n Se puede probar que K(x,z) es una funcin de kernel si y slo si la matriz M=(K (x i ; xj ))i; j=1 es semidenida positiva. Alguno de los kernel ms comunes son: Lineal: K(x,x)= <x,x> Polinomial: K(x,x)=( <x,x>+1 )d RBF: K(x,x)=exp(- kx x0 k2 =2
2
Estructura
de la SVM
El modelo de SVM se puede ver como capas de nodos, en donde:
La primera capa consta de n nodos, que corresponden al vector de entra da La segunda capa consta de N nodos, que es la transformacin no lineal a base de support vector s La tercerca capa contiene 1 solo nodo, que es la pred iccin Cada capa se conecta de forma completa con la siguiente Los nodos que llegan al nodo de output se ponderan por consta ntes, que son a determinar por el modelo, y luego se suman Dura nte el proceso de aprendiz aje, la primera capa selecciona las bases K(x i ; X ); i = 1; ::; N; dentro del conjunto de bases posibles, en tanto que la segunda capa constru ye una funcin lineal en el nuevo espacio, lo que es equivalente a encontrar un modelo no lineal en el espacio de entrada. Las N bases seleccionadas son aquellas inducidas por los puntos denominados Support Vectors. Funciones de prdida El modelo que se busca es de la forma y=f(x)+e, donde f(x) es una funcin no lineal y e el error. Luego, uno desea minimizar el valor de yi f (xi )=e; para cada i, y para esto se usa una funcion de prdida. Las ms comunes son Cuadrtica: L(f(x),y )=( f(x)-y) 2 " sensible : L(f(x),y,")= 0 jf(x)-yj-" si si si si jf(x)-y j<" no jf(x)-yj<u no
H uber : L(f(x), y,u)=
1 2 2 (f(x)-y) 2 ujf(x)-yj- u 2
11.2.2
Algoritmo
de Regresin
SVM sensible es
El problema de optimizacin que encue ntra los pesos del modelo, usando funcin de prdida " 1 kwk2 2 " "
min
s:a:yi < w; (xi ) > b yi + < w; (xi ) > +b
El problema es que puede ser que no exista solucin, por lo que se reformula como
l X
2 1 min kwk +C 2
(
i=1
s:a :yi
i;
< w; (xi ) >
"+ "+
i i
yi + <
i
w; ( xi ) > +b 0; i = 1; 2; :::; l
donde C es un parmetro a jar, que represe nta el trade-o entre la complejidad y la exactitud del modelo, y el parmetro " represe nta el rango de tolerancia a los errores en el modelo. Este problema tiene solucin, y adems es convexo, por lo que los mtodos de optimizacin convergen bien a la solucin, y el planteamie nto del dual es basta nte ms sencilla que el problema primal. Una vez encontrados los pesos w, entonces nuestro modelos es: y=
N X
wi K (Xi ; x)
i=1
12 Mode lo par a un conjunto de ser ies de tiempo

Todos los modelos clsicos de series de tiempo presentados parten del supuesto que uno conoce una historia prolongada de la serie, sigue algn comportamie nto estacionario (u obtenerlo al diferenciar la serie), y se tiene una sola serie de tiempo. En muchos casos, estos supuestos no se cumplen, por lo que los modelos presentados anteriormente fallan. En esta seccin prese ntaremos una metodologa para abordar un tipo de problema de serie de tiempo basta nte diferente.
12.1 problema
Denicin
del
En muchos casos, se tiene una gran base de datos con una historia relati vame nte pequea de series de tiempo, pero la cantidad de series de tiempos diferentes es enorme. Ejemplos de estos son los bancos, que tienen la historia de sus clientes, pero en muchos casos estos son solo un par de meses. Adems, estos datos pueden presentar una variabilidad enorme, por lo que el uso de estadsticos de varia bilidad comunes como la desviacin estndar y el coeciente de variacin no sean de gran utilidad. A pesar de esta gran variabilidad, se desea hacer pronsticos a corto plazo de los valores de las disti ntas series de tiempo, pero esta prediccin debe ser diferente para cada serie de tiempo en par ticular.
12.2 claves
12.2.1
Alguno s
Concepto
principios
de dato "no rmal"
El problema principal se reduce a saber si un dato est dentro de un intervalo esperado, en otras palabras, si el valor es "normal", Pero que signica que un dato sea "normal"?. Debemos denir el concepto de "normal ":
Normal es el trmino por el que es conocido cualquier cosa que carece de diferencias signicati vas con su colectivo. Normal tambin es un trmino estadstico, que hace referencia al promedio aceptado. Pero para que algo sea "normal", debe existir un patrn a seguir, alguna regla. Ahora, para una misma caracterstica, entor no. esta regla de "normalidad" puede ir cambiando dependiendo del
Por ejemplo, algo tan cotidiano como el desayuno, el concepto de "normal puede variar dr sticamente: Un desayuno japons normal, consiste en una sopa, arroz, y un vegetal . En Chile se desayuna generalme nte caf o t, con o sin leche, acompado de tostadas con mantequilla, huevo revuelto, palta, queso o jamn. En Argentina se desayuna mate cocido, t o caf con leche, con algo dulce (medialunas, facturas, masit as dulces). Pero para los japoneses, el desayuno japons es "normal". Esto es porque todos ellos tienen tienen un comportamie nto similar. Para poder ver si un dato es normal, debemos compararlo con sus vecinos, que son los individuos que ms se parecen. Pero ahora aparece otro problema, Qu clientes se parecen entre s? Para ver si dos clientes se parecen, debemos denir una cierta "distancia" entre los clientes La vecindad de un cliente en particular sern aquellos clientes que estn ms cerca. Denamos que signica el concepto de "distancia" entre los clientes. 12.2.2 Concepto de "dis tan cia"
Para poder denir el concepto de distancia, hay que tomar una escala de comparacin. Por ejemplo: [1 2 3 4 5] se parece a [10 20 30 40 50]? [1 2 3 4 5] se parece a [2 3 2 3 2]? [1 2 3 4 5] se parece a [2 3 4 5 6]? Lo que importa para considerar la distancia no son sus valores en s, sino la forma de estos:
12.3
12.3.1
Caractersticas fund amentales del modelo

Normalizando los datos
Para hacer los datos comparables, debemos normalizarlos. La normalizacin que conserva la forma de los dato s, pero los lleva a una misma escala es X X~ = Adems, se cumple que E(X~ ) = 0 y V ar(X~ ) = 1: Aplicando esta normalizacin a los datos anteriores obten emos: [1 2 3 4 5] =) 1:2649 0:6325 0 0:6325 1:2649 [10 20 30 40 50] =)
1:2649
0:6325 0
0:6325 1:2649
[2 3 2 3 2] =)
0:7303 1:0954 1:2649
0:7303 1:0954 0:6325 1:2649
0:7303
[2 3 4 5 6] =)
0:6325 0
Ahora, los nmeros muestran lo mismo que los grcos. 12.3.2 Funcin de distancia
Ahora bien, para generalizar la distancia entre cualquier conjunto de datos, tomamos la correlacin entre los datos normal izados: Pn xi yi corr (X; Y ) = pPn i=1Pn 2 2 i=1 xi i= yi 1 La correlacin indica la fuerza y la direccin de una relacin lineal entre los datos. Aplicandolo en el ejemplo anterior: corr ([ 1:2649 corr ([ 1:2649 0:6325 0 0:6325 0:6325 0 0:6325 1:2649]; [ 1:2649 0:6325 0 0:6325 1:2649]) = 1 0:7303]) = 0
1:2649]; [ 0:7303 1:0954
0:7303 1:0954
Luego, nuestra vecindad sern aquellos clientes que tienen una correlacin cercana a 1 12.3.3 Caracte rsticas de la vecind ad
Dado que tenemos datos atravs del tiempo, estos son una serie temporal, que proviene de un proceso estocsti co discreto. Este proceso estocstico tiene una ley de probabilidad conju nta. Al tomarnos una vecindad del cliente, los vecinos tendrn una ley de probabilidad conju nta muy similar a la original, por lo menos en el intervalo de comparacin. Si promediamos todos los vecinos, obtendremos otro proceso estocstico, pero con una caractersti ca muy importa nte: P 1 E( N X ) = E(X ) P V ar (X ) V ar( N1 X)= n Luego, el proceso promedio tendr el mismo valor esperado, pero una varianza mucho menos si n es grande. Como n es el nmero de vecinos, se debe tomar el mximo valor de vecinos, pero que tengan una ley de probabili dad conju nta similar a la original. 12.3.4 Inde pendencia de los datos con el tiem po
Recordemos que lo ms importante de nuestra funcin de distancia, es que capture la "forma" de los datos. Es decir, importa el orden de los datos, pero no importa la posicin temporal de los datos: Si en el ao 2007 tengo los datos [1 2 3 4 5 6 7 8 9 10 11], mi prediccin para el mes de Diciembre ser 12. Si en el ao 2008 tengo los datos [1 2 3 4 5 6 7 8 9 10 11], mi prediccin para el mes de Diciembre ser 12. Adems, no es necesario conocer toda la historia de un cliente para predecir el valor del prximo mes, basta con una "ventana de tiempo". La memoria no es eterna, tiene una largo nito. Los hechos del pasado lejano inuyeron sobre el pasado cercano, y estos inuyen sobre el presente. Luego, al considerar una ventana de tiempo ja, y que la posicin temporal de los datos no importa, podemos "viajar al pasado"
12.3.5
Principio
fundame ntal del modelo
"Si en el pasado se conoce nuestro presente, entonces se conoce el futuro del pasado". Si tomamos una ventana de tiempo ja, con los ultimos datos del cliente, podemos comparar su comportamie nto en el pasado con otr os clientes. Al viajar al pasado, buscamos los clientes que ms se parecen en esta ventana de tiempo. Luego, la ley de probabilidad conju nta de cada una de las ventanas de tiempo se van a parecer entre s en una vecindad de la ventana. Como conosco los datos fuera de la ventana de los clientes, puedo estimar el futuro del cliente. Este estimador ser el promedio de los vecinos, ya que de esta forma se mantiene el promedio, pero la varianza disminuye, dependiende del nmero de clientes seleccionados . 12.3.6 Ejemplo
Se tiene un cliente con la serie [1 5 2 6 3 7 4 5 6 7 8 9] Consideramos la ventana de tiempo [4 5 6 7 8 9] Se tiene otro cliente con la serie [2 3 4 5 6 7 8 11 15 16 14 11] Si viajo al pasado 6 meses, la ventana de tiempo del ltimo cliente ser [2 3 4 5 6 7] Luego, la correlacin entre [4 5 6 7 8 9] y [2 3 4 5 6 7] es 1, luego este dato es un vecino, y el valor estimad o para el cliente original ser 10 Luego, este procedimiento se repite con todos los vecinos, y el valor esperado ser el promedio de las estimaciones.
12.4 modelo
Explicac in
matemtica
del
Conozco 20 meses de N clientes. Sea k el cliente que quiero predecir sus ventas en el mes 21. Si consideramos una ventana de tiempo de largo L=8, entonces tomo los meses [13 14 15 16 17 18 19 20] del cliente k. Denotemos como Xk este vector. Normalizamos este vector: X X~ k = Xk std (Xk )
k
De los dems datos consideramos los meses [10 11 12 13 14 15 16 17], ya que debemos retroceder 3 meses. Denotemos Xi el vector asociado al cliente i= k: Ahora normalizamos cada uno de estos vectores: X~ i = X X ii std (Xi )
Comparamos X~ k con cada uno de los X~ i y nos quedamos con los q vectores ms parecidos. Estos son los q vectores con la correlacin corr(X~ k ; X~ i ) ms cercana a 1, o de forma equivalente, con el menor error cuadratico. Ei =
L X
(X~ j 2 )i
X~
k
j=1
Considere q=10 vecinos. Tomamos el valor del mes 18 de cada uno de estos vecinos y los normalizamos segn el intervalo anterior, es decir: X Y~j = Yj std (Xj )
j
donde Yj es el valor en el mes 18 (ya que 21-3=18) del vecino j, y Xj es el vector de los meses [10 11 12 13 14 15 16 17] de ese vecino. Luego, tomamos el promedio de cada uno de eso Y~j :
Pq Y~ = Y~j =1 q
Repito el mismo procedimie nto, pero ahora considerando los meses [1 2 3 4 5 6 7 8], ya que 1 10 2 11 3 12 4 13 1 5 14 2 6 15 3 7 16 4 8 17 5 9 18 6 10 19 7 11 20 8 12 21 9
Luego, la nueva prediccin ser a base del mes 9=21-12. Denotemos Z j a la normalizacion de cada una de las predicciones de los vecinos, y llamemos Z al promedio de las predicciones. Ahora, promediamos ambas predicc iones: Z~ + Y~ W~ = 2 Finalme nte, la prediccin para el mes 21 del cliente k ser: P = W~ std (Xk ) + X
k
donde Xk es el vector de los meses [13 14 15 16 17 18 19 20] del cliente k El intervalo de conanza ser [Iinf donde std (Xk ) + X
k ; Isup
std (Xk ) + X
k]
s r Iinf = W~ L E 1 z s r Isup = W~ + L E 1 +z
q P j= 1
(Y~j
W~ )2 +
j= 1
(Z~j
W~ )2
2
q P j=1
q
q
1 P (Z~j W~ )2
(Y~j 2
W~ )2 +
j=1
con z=2.861, y E=
1 2 q
2 q P P L j
es la
(X~
i
j k
j j X~ )2 ; donde X~ es la componente j del vecino i normalizado, y X~ i k
componente j del cliente k normalizado. En otras palabras, E es el promedio de los errores cuadraticos medios. El intervalo de rango ser [Imin donde std (Xk ) + X
k ; Imax
i= j= 1 1
std (Xk ) + X
k]
Imin Imax
= =
min(min Y~j ; min Z~j )

j j
max(max Y~j ; max Z~j )
Obs: Recuerde que Y~j denota al j-esimo vecino de la primera ventana de tiempo, y Z~j denota al j-esimo vecino de la segunda ventana de tiempo. Para considerar las transacciones, se reemplaza la tabla de ventas por la de trans acciones, y lo dems es igual.
12.5
Resultados

Series de Tiempo

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Series de Tiempo

Загружено:

Авторское право:

Доступные форматы

Universidad de Chile Facultad de Ciencias Fsicas y Matemticas Departame nto de Ciencias de la Compu tacin

Semestre Prim avera 2008 Tpicos en Minera de Datos

Nombre: Gonzalo Ros Profesor: Carlos Hurtado Fecha: 14 de Noviembre de 200 8

U n ive rsid a d D e C h ile Fa c u lta d D e C ie n c ia s F sic a s y M a te m tic a s

9 Aut ocorrelacin 21 9.1 Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 9.2 Criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

U n ive rsid a d D e C h ile Fa c u lta d D e C ie n c ia s F sic a s y M a te m tic a s

U n ive rsid a d D e C h ile Fa c u lta d D e C ie n c ia s F sic a s y M a te m tic a s

1 Denicin Bsica de Ser ie de Tiempo

2 Aplicac ione s de Tiempo

3 Componentes de un a ser ie de tiempo: clsico

4 Aspectos Impor tantes en Ser ies de Tiempo

4.2 Pronsticos dinmicos

4.3 Alcanc e de los decisiones

Conjuntos de entrenamiento y evaluacin

Existen dos formas de evaluar la precisin de los pronsticos fuera de muestra:

Origen jo verso s orige n mvil de los pronsticos

Conjunto de entrenamiento de tamao creciente versus conjunto de entrenamiento de tamao constante

5 Evalua cin de Mode los de Ser ies de Tiempo

6 Estimacin Tend encia

Transfor mada Discreta de Four ier : Enfoqu e Espectral

Sea L2 (a) = ff : R ! C j f es a Serie p de Fourier, la que viene dada por:

jf (t)j dt < 1 . Sea f 2 L (a) y denotamos por S[f ] a su g

jcn j2 < 1, de donde cn ! 0 si jnj ! 1. Luego los nicos trmino de

Adems, de la periodicidad de la exponencial, se verica que

donde cn y adems se verica que:

Yj(n) , con j(n) = n + (N

N=2; :::; N=2

As, queda denido un isomorsmo:

, el que se llama la Transformada

Alguna s Prop iedade s de FN

2. Si (Yn ) = FN (yk ), entonce s

Relacin entre los coecientes de Four ier exactos y aproximados

De esto se deduce que Yn =

7.4 Aplicac in Tiempo

8 Mode los Moderno

8.1 Modelamiento estacionarias

se dice que sta prese nta raz

8.2 Modelamiento estacionarias

Determ inar el grado de homogeneidad

8.3 Mode los intervencin

8.4 Modelos ARMAX (p,q,n)

+ "t + 1 "t Xn;t

8.5 Modelos cambiante

Modelos de Heter ocedasticidad

8.6 Vericacin ARIMA

(h 1, j) ( j) (h 1, j) (h, h) (h 1, h j) con j 1,2,..., h 1

Ejemplos de ser ies de tiempo

Consideremos la funcin, generada en Matl ab: x= [1:1:100]; y=cos(2*x);

Si gracamos su correlograma obtenemos:

; que se deben a efectos

Funcin sinusoidal con tend encia

Consideremos la funcin, generada en Matl ab: x= [1:1:100]; y= cos(2*x)+ exp(x/40) ;

Al gracar su correlograma obten emos:

Funcin multisinusoidal con tend encia y componente aleatoria

Al observar su correlograma, obtenemos:

Ventas mensua les de un a empresa

El correlograma muestra que se debe usar un modelo ARIMA(8,8,q)

11 Tcnica s de Inteligencia Compu tacional Tiempo

Ahora, si agregamos 3 outl ayers, la regresin deja de ser exacta:

El modelo de SVM se puede ver como capas de nodos, en donde:

H uber : L(f(x), y,u)=

s:a:yi < w; (xi ) > b yi + < w; (xi ) > +b

< w; (xi ) >

12 Mode lo par a un conjunto de ser ies de tiempo