Practical implementation of nonlinear time series methods:
The TISEAN package
Se describe la aplicacin de los mtodos de anlisis no lineal de series de tiempo que se basan en el paradigma del caos determinista. Una gran variedad de algoritmos para la representacin de datos, prediccin, reduccin de ruido, la dimensin y la estimacin de Lyapunov, y prueba de linealidad se analizan con especial nfasis en las cuestiones de aplicacin y la eleccin de los parmetros. Los programas de computadora que implementan las estrategias resultantes estn disponibles al pblico, como el paquete de software TISEAN. El uso de cada algoritmo se ilustra con una aplicacin tpica. En cuanto a la formacin terica, que esencialmente se dan referencias a la literatura. El anlisis no lineal de series de tiempo se est convirtiendo en una herramienta ms y ms fiable para el estudio de la dinmica compleja de las mediciones. El concepto de pocas dimensiones, el caos ha demostrado ser fructfero en la comprensin de muchos fenmenos complejos a pesar de que los sistemas naturales muy pocos han demostrado ser determinista lowdimensional en el sentido de la teora. Con el fin de evaluar la utilidad a largo plazo del enfoque de series temporales no lineales, como inspirado por la teora del caos, ser importante que los mtodos correspondientes sean ms ampliamente accesibles. En este trabajo, aunque no es un examen adecuado en el anlisis no lineal de series de tiempo, trata de hacer una contribucin a este proceso mediante la descripcin de la aplicacin real de los algoritmos, y su uso apropiado. La mayora de los mtodos requieren la eleccin de ciertos parmetros para cada aplicacin de series de tiempo especfico. Vamos a tratar de dar orientacin a este respecto. El alcance y la seleccin de los temas de este artculo, as como las opciones de su aplicacin, que se han hecho, se corresponden con el contenido de la TISEAN paquete de software que est disponible al pblico desde http://www.mpipks-dresden.mpg.de/ ~ tisean. De hecho, este documento puede ser visto como un manual de extenderse a los programas de TISEAN. Se llena el vaco entre la documentacin tcnica y la literatura existente, proporcionando los puntos de entrada para un estudio ms exhaustivo de los antecedentes tericos. I. INTRODUCCIN Caos determinista como un concepto fundamental est ya bien establecido y descrito en una rica literatura. El mero hecho de que los sistemas simples deterministas genricamente un comportamiento temporal complica con la presencia de no linealidad ha influido en el pensamiento y la intuicin en muchos campos. Sin embargo, se ha cuestionado si la relevancia de caos para la comprensin de la hora mundial en evolucin va ms all de un paradigma puramente filosfico. Por lo tanto, mayores esfuerzos de investigacin estn dedicados a dos preguntas relacionadas. La primera pregunta es si la teora del caos se puede utilizar para obtener una mejor comprensin e interpretacin de observar el comportamiento dinmico complejo. La segunda es si la teora del caos puede dar una ventaja en la prediccin o control de una evolucin en el tiempo. Evolucin en el tiempo como una propiedad del sistema se puede medir mediante la grabacin de la serie de tiempo. Por lo tanto, no lineal, los mtodos de series de tiempo ser la clave para las respuestas de las preguntas anteriores. Este documento est destinado a fomentar el uso de tales mtodos de exploracin de un sector de la comunidad cientfica que no se limita a los tericos del caos. Una serie de algoritmos ha sido puesto a disposicin en forma de programas de ordenador por el proyecto1 TISEAN Dado que este es un territorio relativamente nuevo, el uso sin gua de los algoritmos tiene un considerable riesgo de interpretacin equivocada y los resultados ininteligibles o espurias. En el presente trabajo, las ideas esenciales detrs de los algoritmos se resumen y enlaces a la bibliografa existente se dan. Para evitar la redundancia excesiva, con el Libro2 texto y la reciente revisin, tres de la derivacin de los mtodos se mantiene al mnimo. Por otro lado, las opciones que se han hecho en la ejecucin de los programas se discuten ms a fondo, aunque esto puede parecer muy tcnico en ocasiones. Tambin se sealan las posibles alternativas a la aplicacin TISEAN. Vamos a mencionar en este punto una serie de referencias generales sobre el tema de la dinmica no lineal. A un nivel introductorio, el libro de Kaplan y Glass4 est dirigido a un pblico interdisciplinar y proporciona una buena comprensin intuitiva de los fundamentos de la dinmica. El marco terico est completamente descrito por Ott, 5, sino tambin en los libros ms antiguos de et Berge 'al.6 y Schuster.7 material ms avanzado se encuentra en el trabajo por Katok y Hasselblatt.8 Una coleccin de artculos de investigacin elaborado por Ott et al 9 cubre algunos de los aspectos ms prcticos del caos, como la sincronizacin, el control y anlisis de series temporales. El anlisis no lineal de series de tiempo basado en este paradigma terico se describe en dos monografas recientes, uno por uno y por Abarbanel10 Kantz y Schreiber.2 Mientras que el volumen anterior por lo general asume chaoticity, el ltimo libro pone cierto nfasis en las aplicaciones prcticas de series de tiempo que no se manifiestamente encontrado, ni simplemente supone que, determinista catico. Esta es la razn tambin vamos a adoptar en el presente documento. Una serie de artculos antiguos se pueden ver como las revisiones, incluyendo Grassberger et al., 11 Abarbanel et al., 12, as como Kugiumtzis et al13, 14 La aplicacin del anlisis de series temporales no lineales a las medidas del mundo real, donde el determinismo es poco probable que se presente en un sentido ms fuerte, se revisa en Schreiber.3 Aparte de estas obras, una serie de actas de congresos volmenes estn dedicados a una serie de tiempo catica, incluyendo Refs. 15-19. A. Filosofa de la aplicacin TISEAN Un nmero de personas diferentes se han acreditado para el dicho de que cada pregunta complicada tiene una respuesta sencilla que est mal. El anlisis de una serie de tiempo con un enfoque no lineal es definitivamente un problema complicado. Respuestas simples se han ofrecido repetidamente en la literatura, citando a los valores numricos de las dimensiones atractor para cualquier sistema imaginable. La implementacin actual refleja nuestro escepticismo frente a respuestas tan simples que son el resultado inevitable de la utilizacin de algoritmos de recuadro negro. As, por ejemplo, ninguno de los programas de dimensin''''en realidad se imprimir un nmero que puede ser citada como la dimensin atractor estimado. En cambio, la suma de correlacin se calcula y herramientas bsicas se proporcionan para su interpretacin. Es hasta el cientfico que hace el anlisis para poner estos resultados en su contexto adecuado e inferir qu informacin l o ella puede encontrar til y plausible. Hay que destacar que esto no es simplemente una cuestin de barras de error. Las barras de error no le diga acerca de los errores sistemticos y tampoco decir si las suposiciones subyacentes son justificadas. El proyecto TISEAN ha surgido de trabajo de los grupos de investigacin durante varios aos. Algunos de los programas se basan de hecho en el cdigo publicado en la referencia. 2. Sin embargo, todava nos gusta verlo como un punto de partida ms que un paso concluyente. En primer lugar, el anlisis no lineal de series de tiempo es an un campo en rpida evolucin, en particular con respecto a las aplicaciones. Esto implica que la seleccin de los temas de este artculo y la seleccin de los algoritmos implementados en TISEAN son muy sesgados hacia lo que sabemos ahora y encontr til hasta ahora. Sin embargo, incluso los conceptos bien establecidos, como la estimacin de dimensin y de reduccin de ruido dejan un margen considerable de alternativas a la aplicacin actual. A veces, esto se tradujo en dos o ms programas concurrentes y casi redundante entrar en el paquete. No tenemos eliminados deliberadamente, estos despidos ya que el usuario puede beneficiarse de tener una eleccin. En cualquier caso, es saludable saber que para la mayora de los algoritmos de la ltima palabra no se ha pronunciado an ni en ser. Mientras que el paquete TISEAN contiene una serie de herramientas para el anlisis lineal de series de espectro en tiempo ~, autocorrelaciones, histogramas, etc!, Estos slo son adecuados para una rpida inspeccin de los datos. ARMA estimacin espectral, o incluso son industrias en s mismos y nos referimos al lector-y el usuario de TISEAN a la literatura existente y software de las estadsticas disponibles para una ptima y actualizada a la fecha las implementaciones de estos mtodos importantes. Algunos usuarios se perder una cmoda interfaz grfica para los programas. Sentimos que en este punto el esfuerzo implementacionales extra no se justificara por la funcionalidad que se espera adicional del paquete. Se est trabajando, sin embargo, para proporcionar interfaces de las matemticas de alto nivel ~ O de las estadsticas! software. B. Cuestiones generales de clculo La base natural de formular algoritmos no lineales de series de tiempo de la teora del caos es un espacio de fases mltiples dimensiones, en lugar de la hora o el dominio de la frecuencia. Ser esencial para la dinmica global en este espacio de fase para ser no lineal con el fin de cumplir con las restricciones de nontriviality y acotacin. Slo en casos particulares, esta estructura no lineal ser fcilmente representable por una funcin no lineal global. En cambio, todas las propiedades se expresan en trminos de cantidades locales, a menudo adecuado promedios mundiales. Toda la informacin local ser obtenido de las relaciones de vecindad de varios tipos de elementos de series de tiempo. Por lo tanto, un tema recurrente de cmputo ser la de definir los vecindarios locales en el espacio de fase. Encontrar los vecinos en el espacio multidimensional es un problema comn de la geometra computacional. Estructuras multidimensionales de rboles son muy utilizados y tienen atractivas propiedades tericas. Encontrar todos los vecinos en un conjunto de vectores N toma O (log N) operaciones, tanto el conteo total de la operacin es O (n log n). Una alternativa rpida es particularmente eficaz para relativamente bajas dimensiones de estructuras incrustadas en espacios multidimensionales est dado por el cuadro con ayuda de mtodos vecino de bsqueda que puede empujar a la operacin de la cuenta regresiva para O (N) bajo ciertos supuestos. Ambos enfoques se revisan en la referencia. 20, con especial nfasis en las aplicaciones de series de tiempo. En el proyecto TISEAN, un vecino de bsqueda rpida se realiza mediante un enfoque de caja asistida, tal como se describe en la referencia. 2. No importa en qu dimensin del espacio que estamos trabajando, vamos a definir los candidatos para los vecinos ms cercanos en dos dimensiones a travs de una red de cajas iguales de tiempo. Con una rejilla de separacin e, todos los vecinos de un vector x mayor que Epsilon se encuentra en los cuadros adyacentes. Pero no todos los puntos en los cuadros adyacentes estn los vecinos, que pueden ser de hasta 2e de distancia, en dos dimensiones y arbitraria la medida en las dimensiones superiores. La bsqueda de los vecinos es un proceso en dos etapas. En primer lugar, la base de datos de la caja con ayuda tiene que ser llenado y despus de cada punto de una lista de vecinos se puede solicitar. Hay unos pocos casos en los que es aconsejable abandonar la estrategia de bsqueda rpida y vecino. Un ejemplo es el programa que hace ruido el ruido no lineal de filtrado en un flujo de datos. Se supone que empezar a filtrar poco tiempo despus de los primeros puntos se han registrado. As, la base de datos del vecino no se puede construir desde el principio. Otra excepcin es si ~ bastante corta, 500 puntos, por ejemplo!, De alta dimensin de datos se procesan. A continuacin, la sobrecarga de la bsqueda de vecino se debe evitar y en su lugar un optimizado recta O (N2) se utilizar el mtodo, como se hace en c2naive. Para un transporte, todos los programas esperan que los datos de series de tiempo en formato de columnas representadas por nmeros ASCII. La columna que se procesa puede ser especificado en la lnea de comandos. Aunque algo intil para el almacenamiento de datos, nmeros ASCII puede ser producido y ledo por la mayora de los otros programas. Todos los parmetros se pueden ajustar mediante la adicin de opciones del comando, que, en muchos programas, cambiando los valores por defecto. Obviamente, depender de la configuracin por defecto es particularmente peligroso en un campo tan sutil. Dado que casi todas las rutinas puede leer desde la entrada estndar y escribe en la salida estndar, los programas pueden ser parte de los oleoductos. Por ejemplo, se les puede llamar desde el interior de los filtros de software de grficos u otras herramientas de software que son capaces de ejecutar comandos de shell. Adems, la conversin de datos o la compresin se puede hacer sobre la marcha''''de esta manera. El lector se da cuenta de que aqu estamos hablando de las plataformas UNIX o LINUX, que parece ser el ambiente ms apropiado. Es, sin embargo, espera que la mayora de los programas ser portado a otros entornos en un futuro prximo. Para los lectores familiarizados con los programas publicados en la referencia. 2 hay que destacar que estos constituyen la base de una serie de estos programas TISEAN escrito en FORTRAN. Los programas de C, incluso si lo hacen cosas similares, son puestas en prctica con bastante independencia. Todos los programas C y C11 ahora utilizan la asignacin dinmica de almacenamiento, por ejemplo. II. representacin del Espacio de Fase Sistemas dinmicos deterministas describir la evolucin temporal de un sistema en alguna fase del espacio G, R. Que se puede expresar, por ejemplo, por medio de ecuaciones diferenciales ordinarias, x ~ t! 5F? x ~ t??, ~ 1! o en Dt discretos T5n tiempo por los mapas de la forma xn115f ~ xn!. ~ 2! Una serie de tiempo puede ser considerado como una secuencia de BSERVACIONES $ sn5s (x)% realizado con algn s medicin de la funcin (??). Desde el ~ generalmente escalar! secuencia $% sn en s mismo no representan adecuadamente el ~ multi-dimensional! espacio de fases del sistema dinmico, es necesario emplear alguna tcnica para revelar la estructura multi-dimensional utilizando los datos disponibles. A. Delay Las coordenadas del espacio ms importante fase de la tcnica de reconstruccin es el mtodo de los retrasos. Vectores en un nuevo espacio, el espacio de insercin, se forman a partir de valores de tiempo de retraso de las mediciones escalares: ~ ~ SN5 sn2 m21 t, sn2 ~ m22 t ,..., sn!. ~ 3! El nmero m de elementos que se llama la dimensin de insercin, el tiempo t es generalmente conocido como el retraso o lag. Celebrado teoremas incrustacin por Takens21 y por Sauer et al.22 estado que si la secuencia% $ sn en efecto, consiste en escalar las mediciones del estado de un sistema dinmico, entonces bajo ciertas suposiciones genericidad, la incorporacin de retardo de tiempo ofrece un uno-a- una imagen de la serie original $ x%, siempre y cuando m es lo suficientemente grande. Incrustaciones tiempo de retardo se utilizan en casi todos los mtodos descritos en este documento. La implementacin es sencilla y no requiere mayor explicacin. Si las mediciones de N escalares estn disponibles, el nmero de vectores de incrustacin es slo N2 (m21) t. Esto tiene que tenerse en cuenta para la normalizacin de las cantidades correctas en promedio. Existe una amplia literatura sobre la eleccin''ptima''de la incorporacin de parmetros m y t. Resulta, sin embargo, que lo que constituye la mejor opcin en gran medida depende de la aplicacin. Por lo tanto, a discutir la eleccin de la incorporacin de parmetros de vez en cuando junto con otros algoritmos de abajo. Una versin independiente del procedimiento de retardo ~ demora, integrar! es una herramienta importante para la inspeccin visual de los datos, a pesar de que la visualizacin se limita a dos dimensiones, o en la mayora de proyecciones bidimensionales de representaciones en tres dimensiones. Un buen desarrollo ya en dos dimensiones puede dar alguna orientacin acerca de una buena eleccin del tiempo de retardo de dimensiones superiores incrustaciones. Como ejemplo, nos muestran dos diferentes representaciones bidimensionales de coordenadas demora de un ser humano magneto-cardiograma ~ fig. 1!. Tenga en cuenta que nosotros no asumir ni afirmar que la magneto-~ o electro-! cardiograma es determinista o incluso catica. Aunque en el caso particular de las grabaciones cardaca el uso de incrustaciones retraso puede estar motivado tericamente, de 23 aos aqu slo desea utilizar la tcnica de incrustacin como una herramienta de visualizacin.
B. Incorporacin de parmetros Una opcin razonable de la importancia de retrasar las ganancias por el hecho de que siempre tenemos que lidiar con una cantidad finita de datos ruidosos. Tanto ruido y finitud nos impide tener acceso a las escalas de longitud infinitesimal, por lo que la estructura que quieren explotar debe persistir hasta las escalas ms largo posible. Dependiendo del tipo de estructura que queremos explorar que tenemos que elegir un intervalo de tiempo adecuado. La ms obvia, la demora de la unidad altamente muestra de flujo de datos dar vectores de retardo que estn concentradas alrededor de la diagonal en el espacio de inclusin y por lo tanto todas las perpendiculares a la estructura de la diagonal es casi invisible. En la referencia. 24 de la redundancia de trminos y la irrelevancia se utilizaron para caracterizar el problema: los retrasos pequeos rendimiento fuertemente correlacionados elementos vectoriales, grandes retrasos conducen a los vectores cuyos componentes son casi ~! correlacionados y los datos son por lo tanto, aparentemente ~! distribuidos al azar en el espacio de inclusin. Un buen nmero de trabajos han sido publicados en la adecuada eleccin de la demora y la dimensin de incrustacin. Hemos argumentado repeatedly11, 2,3 que una inmersin''''ptima puede-si acaso-slo se define en relacin a un propsito especfico para el cual se utiliza la incrustacin. Sin embargo, algunas herramientas cuantitativas estn disponibles para guiar la eleccin. La funcin de autocorrelacin habitual ~ Autocor, corr! y el tiempo de demora de informacin mutua ~ mutuo, as como la inspeccin visual de las representaciones de retardo con retardos distintos proporcionan informacin importante sobre los tiempos de retardo razonable, mientras que la estadstica de los vecinos falsa ~ falsas ms cercano! para obtener una orientacin sobre la incorporacin de la dimensin adecuada. Una vez ms, los parmetros''ptima''no puede ser as establecido, excepto en el contexto de una aplicacin especfica. 1. informacin mutua El tiempo de retraso de informacin mutua fue sugerida por Fraser y Swinney25 como una herramienta para determinar un plazo razonable: A diferencia de la funcin de autocorrelacin, la informacin mutua tambin tiene en cuenta las correlaciones lineales. Uno tiene que calcular S52 (i, j j pi ~ t! En j pi ~ t! IFP , ~ 4! donde por alguna particin en los nmeros reales pi es la probabilidad de para encontrar un valor de series de tiempo en el intervalo i, y pi j (t) es la probabilidad conjunta de que una observacin cae en el intervalo i-simo y el tiempo t de observacin ms tarde cae en el j-simo. En teora, esta expresin no tiene dependencia sistemtica del tamao de los elementos de la particin y se puede calcular con bastante facilidad. Existen buenos argumentos de que si el tiempo de retraso en la informacin mutua presenta un mnimo inscrito en un determinado valor de t, entonces este es un buen candidato para un periodo de tiempo razonable. Sin embargo, estos argumentos tienen que ser modificados cuando la dimensin de incrustacin superior a dos. Adems, como se hace totalmente transparente en las siguientes secciones, no todas las aplicaciones funcionan de forma ptima con el mismo plazo. Nuestra rutina mutuo utiliza la ecuacin. ~ 4!, Donde el nmero de cajas de igual tamao y el tiempo de demora mxima ha de ser suministrado. El algoritmo de adaptacin utilizados en la referencia. 25 es ms intensivo de datos. Ya que no estn realmente interesados en los valores absolutos de la informacin mutua aqu, sino ms bien en el primer mnimo, la aplicacin de un mnimo que aqu parece ser suficiente. La informacin relacionada con la inversin generalizada de orden dos se pueden definir utilizando el concepto de suma correlacin ~ Sec. VII, Refs. 26, 27!. Una estimacin de la entropa de correlacin se explica en la seccin. VII A. 2. Falso vecinos ms cercanos Un mtodo para determinar el mnimo suficiente dimensin m incorporacin fue propuesta por la perrera y cols.28 Se llama el mtodo de vecino ms cercano falsa. La idea es bastante intuitiva. Supongamos que la incorporacin de la dimensin mnima de una serie determinada de tiempo si es% $ m0. Esto significa que en un espacio de retraso m0 dimensin del atractor reconstruido es una imagen de uno-a-uno de los atractor en el espacio de fase original. En especial, las propiedades topolgicas se conservan. As, los vecinos de un punto determinado se asignan a los vecinos en el espacio de demora. Debido a la suavidad supuesto de la dinmica, los barrios de los puntos se asignan en los barrios de nuevo. Por supuesto, la forma y el dimetro de los barrios se cambia de acuerdo a los exponentes de Lyapunov. Pero supongamos ahora se insertan en un espacio m-dimensional con m, m0. Debido a esta proyeccin la estructura topolgica ya no se conserva. Los puntos se proyectan en barrios de otros puntos a los que no pertenecen a dimensiones superiores. Estos puntos se llaman los vecinos falsa. Ahora bien, si la dinmica se aplica, estos vecinos falsos no suelen asignarse a la imagen del barrio, pero en otro lugar, de modo que el dimetro promedio de''''se hace muy grande. La idea del algoritmo de falsos ms cercana es la siguiente. Para cada punto de sW i en la serie de tiempo para buscar su vecino ms cercano sW j en un espacio m-dimensional. Calcular la distancia de SIA i2sW ji. Iterar los dos puntos y calcular Ri5 usi112s j11u SIA i2sW ji . ~ 5! Si Ri supera un determinado umbral heurstico Rt, este punto se marca como uno ms cercano falsa neighbor.28 El criterio de que la dimensin de incrustacin es lo suficientemente alto es que el fraccin de puntos para los que Ri.Rt es cero, o al menos lo suficientemente pequeo. Dos ejemplos se muestran en la figura. 2. Uno de ellos es para el sistema de Lorenz ~ cruces!, Una para el sistema He'non ~ llena crculos!, y otro para una serie de tiempo He'non corrompido por el 10% de ruido blanco gaussiano ~ crculos abiertos!. Uno ve claramente que, como era de esperar, M52 es suficiente para el He'non y M53 para el sistema de Lorenz, mientras que la firma no est tan claro en el caso de ruido. La introduccin del falso concepto ms cercano vecinos y otros instrumentos ad hoc fue en parte una reaccin a la constatacin de que muchos de los resultados obtenidos para los invariantes genuino, como la dimensin de correlacin, se ha debido a las falsas advertencias del procedimiento de estimacin. En este ltimo caso, las correlaciones de serie y las pequeas fluctuaciones de la muestra puede ser fcilmente confundido con el determinismo no lineal. Resulta, sin embargo, que las cantidades ad hoc, bsicamente, sufren de los problemas, que lo mismo puede ser curada con las mismas precauciones. La ejecucin de falsos ms cercano por lo tanto, nos permite especificar una separacin mnima temporal de los vecinos vlidos. Otro software para el anlisis de los falsos vecinos ms cercanos se encuentra disponible en forma de cdigo fuente de Kennel.29 O, si usted prefiere pagar por una licencia, de la referencia. 30. C. Los componentes principales Se ha demostrado en la referencia. 22 que la tcnica de incrustacin se puede generalizar a una amplia clase de transformaciones suaves aplicados a una incorporacin de retardo de tiempo. En particular, si que la temporizacin coordenadas $% sn, entonces casi toda transformacin lineal de rango suficiente de nuevo lleva a una inmersin. Una opcin especfica de la transformacin lineal que se conoce como anlisis de componentes principales, la descomposicin de valor singular, funciones empricas ortogonales, la descomposicin Karhunen-Loe've, y probablemente otros cuantos nombres. La tcnica es bastante utilizado, por ejemplo, para reducir los datos de variables mltiples para un modo ms grandes. Hay una gran cantidad de literatura, incluyendo libros de texto como el que por Jolliffe.31 En el contexto del procesamiento de seales no lineales, la tcnica ha sido defendida entre otros por Broomhead y King.32 La idea es introducir un nuevo conjunto de vectores de la base ortonormal al incorporar el espacio de tal manera que las proyecciones sobre un determinado nmero de estas direcciones preservar la fraccin mxima de la varianza de los vectores originales. En otras palabras, el error en la toma de la proyeccin se reduce al mnimo para un nmero determinado de direcciones. La solucin de esta minimizacin problem31 conduce a un problema de valores propios. Las direcciones principales deseado puede ser obtenido como los vectores propios de la matriz de autocovarianza simtrica que se corresponden con los mayores valores propios. El enfoque alternativo y equivalente formalmente a travs de la matriz de trayectoria se utiliza en la referencia. 32. Este ltimo es numricamente ms estable, sino que implica la descomposicin de valor singular de una matriz de N N3m puntos de datos integrados en las dimensiones m, que puede superar fcilmente los recursos de cmputo para series de tiempo de hasta moderada length.33 En casi todos los algoritmos se describen a continuacin, simple incrustaciones tiempo de retardo puede ser sustituido por componentes principales. En el proyecto TISEAN ~ rutinas svd, pc!, Los componentes principales slo se proporcionan como una herramienta de visualizacin independiente y para el filtrado lineal, vase la seccin 34. E II a continuacin. En cualquier caso, primero hay que elegir una inmersin tiempo de retardo inicial y luego una serie de componentes principales para mantenerse. A los efectos de la visualizacin, la segunda es inmediatamente se limita a dos o tres a lo sumo. Con el fin de aprovechar el efecto promedio de ruido del sistema de componentes principales, es recomendable elegir un plazo mucho ms corto que uno para la incorporacin de un tiempo de retardo comn, mientras que al mismo tiempo que aumenta la dimensin de incrustacin. La experimentacin se recomienda. La Figura 3 muestra las contribuciones de los dos primeros componentes principales a los magnetocardiogram muestra en la figura. 1. D. secciones de Poincar ' De datos de alta muestra que representa el tiempo continuo de una ecuacin diferencial se llama flujo de datos. Se caracterizan por el hecho de que los errores en la direccin tangente a la trayectoria de hacer ni reducir ni aumentar de manera exponencial ~ llamada direccin marginalmente estable! y por lo tanto poseen un exponente de Lyapunov que es cero, ya que cualquier perturbacin en este sentido puede ser compensada por un simple cambio de la poca. Ya que en muchas de las tareas de anlisis de datos este sentido es de inters bajos, se debera optar por eliminarlo. El concepto terico de hacerlo se llama la seccin de Poincar. Despus de haber elegido un hiperplano (m21)-dimensional en la incorporacin de m-dimensional ~! espacio, se crea una serie de tiempo comprimido de slo las intersecciones de la trayectoria de tiempo continuo con este hiperplano en una orientacin predefinida. Estos datos son valorados mapa vector tiempo discreto como de datos. Se puede considerar la proyeccin de estos vectores (m21)-dimensional en los nmeros reales como otra funcin de medicin, por ejemplo ~, mediante el registro del valor de sn sn cuando pasa la superficie de la Poincar!, Por lo que se puede crear una serie escalar tiempo nuevo si deseable. El programa de Poincar construye una secuencia de vectores a partir de un flujo similar a escalar el conjunto de datos, si se especifica el hiperplano, la orientacin, y los parmetros de inclusin. Las intersecciones de la trayectoria discretamente muestreados con el plano de Poincar 'se calcula mediante una interpolacin de tercer orden ~ ver fig. 4!. La colocacin de la superficie de la de Poincar 'es de gran importancia para la utilidad de los resultados. Una superficie ptima maximiza el nmero de intersecciones, es decir, reduce al mnimo el intervalos de tiempo entre ellos, si al mismo tiempo, el atractor permanece conectado. Se evita las pruebas y los errores relacionados con que si se define una superficie por el cruce por cero de la derivada temporal de la seal, que es sinnimo de recolectar todos los mximos o mnimos de todo, respectivamente. Esto se hace por valores extremos. Sin embargo, este mtodo sufre ms de la ruido, ya que para los derivados de poca monta ~ es decir, cerca de los extremos! extremos adicionales pueden ser producidos por las perturbaciones. Otro aspecto de la eleccin de la superficie de la seccin es que uno debe tratar de maximizar la varianza de los datos dentro de la seccin, ya que su nivel de ruido absoluto es independiente de la seccin. Una ltima observacin: Los intervalos de tiempo entre las intersecciones son observables espacio de fase como well36 y los teoremas de la incrustacin son por lo tanto vlida. Por una serie de tiempo con picos pronunciados, a menudo le gusta estudiar la secuencia de intervalos de tiempo interspike, por ejemplo, en cardiologa de la RR- intervalos. Si estos intervalos de tiempo se construyen de una manera para obtener los intervalos de tiempo de un mapa de Poincar ", que son adecuados para reflejar la estructura determinista ~ si!. Para ver Ref. complicaciones. 36. Para que un sistema no autnomo impulsado peridicamente la mejor superficie de la seccin se da generalmente por una fase fija del trmino de conduccin, que tambin se llama una visin estroboscpica. Una vez ms la seleccin de la fase debe estar guiada por la variacin de la seal dentro de la seccin. E. SVD filtros Hay por lo menos dos razones para aplicar un filtro SVD a datos de series temporales: o, si se est trabajando con el flujo de datos, una forma implcita puede determinar el tiempo de retardo ptimo, o cuando, derivar un mapa estroboscpico de los datos de forma sincrnica muestra de un sistema impulsado peridicamente, se puede utilizar la redundancia para optimizar la relacin seal a ruido. Tanto en aplicaciones de las matemticas es el mismo: se construye la matriz de covarianza de los vectores de datos ~ por ejemplo, en un espacio de tiempo m-dimensional retraso de insercin, J5 Ci ^ sn2m1isn2m1j y 2 ^ ^ y sn2m1i sn2m1j y, ~ 6! y calcula sus vectores singulares. Entonces uno de los proyectos en los vectores m-dimensional que corresponde a la ms grande q singulares valores. Para trabajar con el flujo de datos, q debe ser por lo menos la dimensin correcta incorporacin, y considerablemente ms grande m ~ por ejemplo, m52q o ms grande. El resultado es un vector de valores de series de tiempo, y en la referencia. 22 la relacin de estos componentes para derivados de temporal, por un lado, y componentes de Fourier en el otro lado se discutieron. Si, en el caso de no autnomos, que se quiere comprimir los datos de flujo de datos de los mapas, Q51. En este caso, la redundancia del flujo est implcitamente utilizado para reducir el ruido de los datos del mapa. La SVD rutina puede ser utilizado para ambos propsitos. III. Visualizacin, no estacionariedad A. parcelas de recurrencia Parcelas de recurrencia son una herramienta til para identificar la estructura en un conjunto de datos de una manera cualitativamente resueltos en el tiempo. Esto puede ser la intermitencia ~ que se detecta tambin mediante la inspeccin directa!, la vecindad temporal de una trayectoria catica a una rbita inestable peridica, o no estacionariedad. Fueron introducidos en la referencia. 37 e investigados con mucho detalle en la referencia. 38, donde se encuentran muchas pistas sobre cmo interpretar los resultados. Nuestra rutina recurr simplemente escanea la serie de tiempo y marca cada par de ndices de tiempo (i, j) con un punto negro, cuyo correspondiente par de vectores de retardo tiene distancia <e. As, en el (i, j)-plano, los puntos negro indican la cercana. En una situacin de ergdica, los puntos deben cubrir el plano de manera uniforme, en promedio, mientras que la no estacionariedad se manifiesta por una tendencia general de los puntos para estar cerca de la diagonal. Por supuesto, el retorno a una situacin dinmica del sistema se encontraba antes se hace evidente por una regin de negro lejos de la diagonal. En la figura. 5, una parcela de recurrencia se utiliza para detectar comportamiento transitorio en el comienzo de una grabacin ms larga. A los efectos de las pruebas fijas, la trama de recurrencia no es particularmente sensible a la opcin de incrustar. El contraste de las imgenes resultantes pueden ser seleccionados por la distancia e, y el porcentaje de puntos que se deben en realidad a representar. Diversos programas de participacin de la representacin del color y la cuantificacin de las parcelas de recurrencia se presenta en formato ejecutable DOS Webber.40 La interpretacin de los patrones a menudo interesantes ms all de la deteccin y el estudio de la estacionariedad es todava una cuestin abierta. Para obtener sugerencias para el estudio de las seales no estacionarias ver ref. 3 y referencias que se dan all. B. El espacio-tiempo de separacin de parcelas Mientras que la trama muestra los tiempos de recurrencia absoluta, el grfico de separacin espacio-temporal introducida por Provenzale et al.41 se integra a lo largo de paralelos a la diagonal y por lo tanto slo se muestran los tiempos relativos. Por lo general se dibuja lneas de probabilidad constante por unidad de tiempo de un punto a un e-vecino del punto actual, cuando la distancia es d tiempo t. Esto ayuda a identificar las correlaciones temporales dentro de la serie de tiempo y es relevante para estimar un tiempo de retardo razonable, y, ms importante an, la w Theiler-ventana en la dimensin y el anlisis de Lyapunov-ver ~ Seg. VII!. , Dijo con otras palabras, muestra qu tan grande la distancia temporal entre los puntos debe ser por lo que podemos asumir que forman muestras independientes de acuerdo con la medida invariante. La rutina correspondiente del paquete TISEAN es stp, ver fig. 6. IV. PREDICCIN NO LINEAL A pensar en la previsibilidad de los datos de series de tiempo vale la pena incluso si uno no est interesado en los pronsticos a todos. La previsibilidad es una forma en que las correlaciones entre los datos expresan s mismos. Estas correlaciones pueden ser lineales, no lineales correlaciones, o incluso restricciones deterministas. Cuestiones relacionadas con los pertinentes para las predicciones a aparecer con reduccin de ruido y en las pruebas de datos sustitutos, sino tambin para el clculo de exponentes de Lyapunov de datos. La prediccin es discutido en la mayora de las series de tiempo no lineal general referencias, en particular, una buena coleccin de artculos se pueden encontrar en la referencia. 17. A. La validacin del modelo Antes de entrar en los mtodos, tenemos que discutir la forma de evaluar los resultados. La cantidad ms obvia para la cuantificacin de la previsibilidad es el error de pronstico promedio, es decir, la raz de la media RMS cuadrado ~! desviacin de la prediccin individual del valor real en el futuro. Si se calcula sobre los valores que tambin se utilizaron para construir el modelo ~ o para realizar las predicciones!, se llama el error en la muestra. Siempre es aconsejable guardar algunos datos de una prueba fuera de la muestra. Si el error fuera de la muestra es considerablemente mayor que el error en la muestra, los datos son o no estacionarias o se tiene overfitted los datos, es decir, la estructura en forma extrada de las fluctuaciones aleatorias. Un modelo con menos parmetros de entonces prestar un mejor servicio. En los casos en que la base de datos es pobre, se puede aplicar completa validacin cruzada o tomar fuera de una estadstica, es decir, uno construye tantos modelos como uno realiza las previsiones, y en cada caso, pasa por alto el punto que se quiere predecir. Por construccin, este mtodo se realiza en los enfoques locales, pero no en los mundiales. La manera ms significativa, pero al menos cuantitativa de la validacin del modelo es repetir el modelo y comparar esta serie de tiempo de sntesis de los datos experimentales. Uno empieza a formar una observ vector retraso como una condicin inicial y realiza un pronstico. Su resultado se combina con todos, pero los ltimos componentes del vector inicial a un vector nuevo retraso, y el prximo pronstico se realiza. Despus de iteraciones nm, el vector de retraso con la ensima slo contiene valores generados por el modelo y las observaciones no ms. En cuanto a la prediccin de un n-paso, el resultado ser terriblemente malo, ya que debido a la dependencia sensible a condiciones iniciales, incluso un modelo ideal crear una trayectoria divergente debido a las inexactitudes en la medicin de la condicin inicial. Sin embargo, para que el modelo sea razonable, el atractor resultante debe ser lo ms parecido a los datos observados como sea posible ~ por ejemplo, en una parcela de retraso!, Aunque no es fcil definir la similitud cuantitativa. B. lineal simple prediccin Convencionales sistemas de prediccin lineal promedio de todos los lugares en el espacio de fase al extraer las correlaciones que explotan a la previsibilidad. Tong42 promovi una extensin que se adapte a diferentes modelos lineales si el estado actual se encuentra por debajo o por encima de un umbral determinado ~ TAR, modelo de umbral autorregresivos!. Si esperamos ms de un componente ligero no lineal que se presente, es preferible hacer la aproximacin como local en el espacio de fase como sea posible. Ha habido muchas propuestas similares en la literatura sobre la manera de aprovechar una estructura local, vase, por ejemplo, ref. 43-46. El enfoque ms simple es hacer la aproximacin local, pero slo para mantener el orden cero, es decir, la aproximacin de las dinmicas a nivel local por una constante. En el paquete se incluye TISEAN como un mtodo robusto y simple: En un espacio de incorporacin de demora, todos los vecinos de sn se buscan, si queremos predecir las mediciones en el tiempo n 1k. La previsin es simplemente s n1k5 1 uUnu (sjPUn s j1k, ~ 7! es decir, la media de los futuros''''de los vecinos. Los errores de pronstico promedio obtenido con el cero de rutina ~ predecir dara resultados similares! para los datos de salida del lser utilizado en la figura. 4 en funcin del nmero k de pasos por delante de las predicciones se hacen se muestra en la fig. 7. Tambin se puede recorrer las predicciones mediante el uso de las series de tiempo como una base de datos. Adems de los parmetros de insercin, todo lo que tiene que ser especificado para las predicciones de orden cero es el tamao de los barrios. Como el movimiento difusivo por debajo del nivel de ruido no se puede predecir todos modos, tiene sentido para seleccionar los barrios que son al menos tan grande como el nivel de ruido, tal vez dos o tres veces ms grande. Por una serie de tiempo bastante limpio, esta pauta podra terminar en los barrios con muy pocos puntos. Por lo tanto, cero tambin nos permite especificar el nmero mnimo de vecinos en los que basar las predicciones. Una modificacin importante de este mtodo consiste en ampliar el entorno U hasta el infinito, sino introducir un peso depende de la distancia, s n1k5 (Jns j1kw ~ usn2sju! (Jnw ~ usn2sju! , ~ 8! donde w se llama el ncleo. Para w (z) 5Q (e2z) donde Q es la funcin escaln de Heaviside, volvemos a la ecuacin. ~ 7!. C. Encontrar rbitas peridicas inestables Como aplicacin de una simple prediccin lineal del espacio de fase, vamos a discutir un mtodo para localizar rbitas peridicas inestables incrustado en un atractor catico. Este no es el lugar para examinar los mtodos existentes para resolver este problema, algunas referencias include.47-50 El paquete TISEAN contiene una rutina que implementa el requisito de que por un perodo de la rbita de p $ s ~ n, n51 ,..., p % de un sistema dinmico como la ecuacin. ~ 2! que actan sobre vectores de retardo, s ~ n115f ~ s ~ n!, n51 ,..., p, s ~ P11 [s ~ 1. ~ 9! Con unidad de retardo, los vectores de retardo p p contener entradas diferentes escalar, y la ecuacin. ~ 9! define una raz de un sistema de ecuaciones no lineales en p p dimensiones. Bsqueda de races multidimensional no es un problema simple. El mtodo estndar de Newton tiene que ser aumentada por los trucos especiales para converger a nivel mundial. Algunos trucos en especial los medios para seleccionar las diferentes soluciones de la ecuacin. ~ 9!, Se implementan en la referencia. 50. Similar a los problemas encontrados en la reduccin de ruido no lineal, la solucin de la ecuacin. ~ 9! exactamente es particularmente problemtico, ya que f ~?? es desconocida y debe estimarse a partir de los datos. En la referencia. Soluciones de 49 aos, aproximadamente se encuentran realizando una sola iteracin del mtodo de Newton para cada punto de la serie temporal disponible. Preferimos buscar una solucin de mnimos cuadrados, minimizando (N51p es ~ ~ ~ s n112f n! i2, s ~ P11 [s ~ 1 ~ 10! en su lugar. El upo de rutina utiliza un estndar de Levenberg-Marquardt algoritmo para minimizar ~ 10!. Para ello, es necesario que f ~?? es suave. Por lo tanto, no puede usar el predictor simple no lineal basado en aproximaciones localmente constante y tenemos que utilizar una versin del ncleo suave, la ecuacin. ~ 8!, En su lugar. Con w (z) 5exp (2z2/2h2), el ancho de banda del ncleo h determina el grado de suavidad de f ~??!. Est intentando iniciar el la minimizacin de todos los segmentos de series de tiempo disponibles se producen una serie de falsos mnimos, dependiendo del valor de h. Estos tienen que ser distinguida de las verdaderas soluciones de inspeccin. Por otro lado, podemos llegar a soluciones de la ecuacin. ~ 9! que no son muy visitados en la serie de tiempo en absoluto, una ventaja importante sobre cambio cerca methods.47 Cabe sealar que, en funcin de h, siempre puede encontrar una buena mnimos de ~ 8!, incluso si no hay solucin de la ecuacin. ~ 9!, O ni siquiera una dinmica verdaderamente determinista, existe. As, el hallazgo de rbitas peridicas inestables en s mismo no es un indicador fuerte del determinismo. Podemos, sin embargo, utilizar la bicicleta o estabilidades lugares como las estadsticas de discriminacin en una prueba de linealidad; vase la seccin. VIII. Mientras que los propios rbitas se encuentran con bastante facilidad, es sorprendentemente difcil obtener estimaciones fiables de su estabilidad en presencia de ruido. En la UPO, una pequea perturbacin se repite a lo largo de la rbita y el valor propio inestable est determinada por la velocidad de su separacin de la rbita peridica. El usuario de la UPO tiene que especificar la dimensin de insercin, el periodo de ~ que tambin puede ser ms pequeo! y el ancho de banda del ncleo. Por razones de eficiencia, se puede optar por omitir pruebas con puntos muy similares. Las rbitas se cuentan como distintas cuando difieren en una cantidad determinada. La rutina se hallan las rbitas, su valor propio en expansin, y las posibles sub- perodos. La figura 8 muestra la determinacin de todo el perodo de seis rbitas a partir de 1000 se repite el mapa Henon, contaminados por Gauss 10% de ruido blanco. D. localmente prediccin lineal Si hay una buena razn para suponer que la relacin sn115f (sn) es cumplido por los datos experimentales en buena aproximacin ~ decir, dentro del 5%! para algunos f desconocido y que f es suave, las predicciones pueden ser mejoradas mediante el ajuste de modelos lineales locales. Que puede ser considerado como el local de la expansin de Taylor de las f desconocida, y se determinan fcilmente, reduciendo al mnimo s25 (sjPUn ~ S j112ansj2bn! 2, ~ 11! con respecto a la AN y BN, donde Un es el e-barrio de sn, con exclusin de sn s mismo, como antes. Entonces, la prediccin es s n115ansn1bn. El problema de minimizacin puede ser resuelto a travs de un conjunto de ecuaciones lineales acoplados, un problema estndar de lgebra lineal. Este esquema se aplica en OneStep. Para niveles de ruido moderado y longitudes de series de tiempo que esto puede dar una mejora razonable en cero y predecir. Por otra parte, como se discuti en la Seccin. VI, estos mapas lineales son necesarios para el clculo del espectro de Lyapunov. Una aproximacin lineal a nivel local se introdujo en las referencias. 45, 46. Debemos tener en cuenta que la recta de mnimos cuadrados solucin de la ecuacin. ~ 11! no siempre son ptimas y una serie de estrategias disponibles para regularizar el problema de si la matriz se convierte en cuasi-singulares y de eliminar el sesgo debido a los errores en las variables independientes'',''. Estas estrategias tienen en comn que cualquier posible mejora se compra con una complicacin considerable del procedimiento, que requiere ajustes finos de los parmetros. Nos referimos al lector a Refs. 51, 52 para materiales avanzados. En la figura. 9 se muestran las predicciones reiterado de los datos del mapa de Poincar 'del lser de CO2 ~ fig. 4! en una representacin con retraso ~ npaso en dos dimensiones!. Los datos resultantes no slo tienen la correcta distribucin marginal y el espectro de potencia, sino que tambin forman un esqueleto perfecto del atractor ruido original. Hay de los artefactos debido al ruido y la aspereza de este enfoque, pero hay buenas razones para suponer que la infraestructura de lnea, como refleja la fractalidad del sistema no perturbado. Casdagli53 sugiri el uso de modelos locales lineales como una prueba de no linealidad: Se calcula el error de pronstico promedio como una funcin del tamao de la vecindad en la que se lleva a cabo el ajuste de un millones de euros y. Si el ptimo se produce en grandes tamaos barrio, los datos se ~ en este espacio incrustacin! mejor descrito por un proceso estocstico lineal, mientras que un nivel ptimo en los tamaos ms pequeos apoya la idea de la existencia de una ecuacin no lineal casi determinista del movimiento. Este protocolo est implementado en la rutina de ll-ar, ver fig. 10. E. funcin global se ajusta Los ajustes lineales locales son muy flexibles, pero pueden ir mal en partes del espacio de fase en la que los puntos no abarcan las dimensiones del espacio disponible y que la inversa de la matriz de involucrados en la solucin de la minimizacin no existe. Por otra parte, muy a menudo un gran nmero de diferentes aplicaciones lineales es poco satisfactorio. Por lo tanto, muchos autores sugieren ajuste global de funciones no lineales a los datos, es decir, para resolver s25 (n ? Sn112f p ~ sn?? 2, ~ 12! donde fp es ahora una funcin no lineal en forma cerrada con parmetros p, con respecto a que la minimizacin que se hace. Polinomios, funciones de base radial, redes neuronales, polinomios ortogonales, y muchos otros mtodos han sido utilizados para este propsito. Los resultados dependen de hasta qu punto el elegido ansatz fp es apropiado para modelar la funcin no lineal desconocida, y de qu tan bien los datos son deterministas en absoluto. Se incluyeron los RBF rutinas y polinomio en el paquete de TISEAN, donde FP es el modelo de base radial functions54, 55 y polinomios, de 56 aos, respectivamente. La ventaja de estos dos modelos es que los parmetros p producen linealmente en la funcin f y por lo tanto se puede determinar mediante el lgebra lineal simple, y la solucin es nica. Ambas caractersticas se pierden en los modelos donde los parmetros de entrar en forma no lineal. Con el fin de hacer predicciones globales no lineal, se tiene que suministrar la dimensin de inclusin y retardo de tiempo como de costumbre. Adems, para el polinomio orden del polinomio tiene que ser dada. El programa devuelve los coeficientes del modelo. En rbf uno tiene que especificar el nmero de funciones de base que se distribuirn en los datos. El ancho de las funciones de base radial ~ Lorentzians en nuestro programa! es otro parmetro, pero como la minimizacin es tan rpido, el programa se ejecuta muchos valores y parmetros de prueba vuelve mejor. La figura 11 muestra el resultado de un ajuste a la serie lser de CO2 de tiempo ~ fig. 4! con funciones de base radial. Si los modelos globales se desean con el fin de inferir la estructura y las propiedades del sistema subyacente, que debe ser probada por la iteracin ellos. Los errores de prediccin, aunque pequeo en tamao, podra ser sistemtica y por lo tanto rechazar la trayectoria reiterado de la gama, donde los datos originales se encuentran. Puede ser til para estudiar la dependencia de la magnitud o el signo de los errores de prediccin de la posicin en el espacio de insercin, ya que los errores sistemticos se pueden reducir por un modelo diferente. Los modelos globales son atractivos porque con ellos se obtienen expresiones cerradas para la dinmica total. No hay que olvidar, sin embargo, que estos modelos describen el proceso que se observa slo en las regiones del espacio que han sido visitados por los datos. Fuera de esta rea, la forma del modelo depende exclusivamente del ansatz elegido. En particular, los polinomios divergen fuera del rango de los datos y por lo tanto puede ser inestable en la iteracin. V. REDUCCIN DE RUIDO NO LINEAL Filtrado de las seales de los sistemas no lineales requiere el uso de mtodos especiales, ya que los filtros habituales lineal espectral o de otro tipo pueden interactuar negativamente con la estructura no lineal. Seales irregulares de las fuentes no lineales muestran los espectros de autntica banda ancha y no hay ninguna justificacin para identificar cualquier componente continua en el espectro de ruido. Reduccin de ruido no lineales no se basa en la informacin de frecuencia para definir la diferencia entre seal y ruido. En cambio, la estructura en el espacio de fase reconstruido ser explotado. General de las dependencias de serie entre las mediciones de $% sn har que los vectores de retardo $% sn disponibles para llenar el espacio m- dimensional incrustacin de una manera homognea. Correlacin lineal entre las variables de Gauss al azar, por ejemplo, se distribuirn de acuerdo a una distribucin gaussiana multivariante anisotrpico. Filtrado lineal geomtrica en el espacio de fase busca identificar las direcciones principales de esta distribucin y el proyecto sobre ellos, ver Sec. E. II de reduccin de ruido no lineal tiene en cuenta que las seales no lineales se forman estructuras curvas en el espacio inmediatamente. En particular, las seales de ruido determinista forma manchada de salida colectores lower dimensional. No lineal del espacio de fases de filtrado busca identificar estructuras y proyectar sobre ellos con el fin de reducir el ruido. Existe una abundante literatura sobre los mtodos no lineales de reduccin de ruido. Dos artculos de carcter de recurso sean accesibles, uno por Kostelich y Schreiber, de 57 aos y uno por Davies.58 Remitimos al lector a estos artculos y otras referencias para la discusin de los enfoques que no se describen en el presente artculo. Aqu quiero concentrarme en dos enfoques que representan la estructura geomtrica del espacio de fases de una aproximacin local. La primera y ms simple, y lo hace con el fin constante, los ms sofisticados usos locales subespacios lineales ms correcciones de curvatura. A. Reduccin de ruido lineal simple El ms simple algoritmo no lineal de reduccin de ruido que conocemos sustituye a la coordenada central de cada vector de incorporacin del medio local de esta coordenada. Esto equivale a una aproximacin local constante de la dinmica y se basa en el supuesto de que la dinmica es continua. El algoritmo se describe en la referencia. 59, un enfoque similar se propone en la referencia. 43. En una inestable, por ejemplo, sistemas caticos, es esencial no para sustituir las coordenadas primera y la ltima incorporacin de los vectores en los promedios locales. Debido a la inestabilidad, los errores iniciales en estas coordenadas se magnifican en lugar de ser promediadas. Este esquema de reduccin de ruido se lleva a cabo con bastante facilidad. En primer lugar una inmersin tiene que ser elegido. A excepcin de los datos extremadamente muestreadas, es conveniente elegir un retardo de tiempo corto. El programa utiliza siempre perezoso unidad de retardo. La incorporacin de la dimensin m se debe elegir algo ms alto que el requerido por los teoremas de incrustacin. Luego, para cada vector incrustacin% $ sn, un entorno U e (n) se forma en el espacio de fases que contiene todos los puntos $ SN8% de tal manera que isn2sn8i , E. El radio de la e los barrios se debe tomar lo suficientemente grande como para cubrir en la medida de ruido, pero an ms pequeo que un radio de curvatura tpica. Estas condiciones no siempre se pueden cumplir al mismo tiempo, en cuyo caso se tiene que repetir el proceso con varias opciones y evaluar cuidadosamente los resultados. Si el nivel de ruido es considerablemente menor que el radio de curvatura tpica, los barrios de la radio de 2.3 veces el nivel de ruido dio los mejores resultados con datos artificiales. Para cada vector de coordenadas incorporacin SN5 (SN2 (m21) ,..., sn) ~ el tiempo de retardo se ha establecido en la unidad!, Un medio corregido s n2m / 2 se calcula un promedio de ms del barrio U e ( n): s n2m/25 1 uU e ~ n! u ( sn8PU e ~ n! sn82m / 2. ~ 13! Despus de un barrido completo a travs de las series de tiempo, todos sn mediciones se sustituyen por los valores corregidos n. s Por supuesto, para el primer y el ltimo (m21) / 2 ~ si m es impar!, Que no se tienen disponibles. La media de correccin puede ser tomado como un radio nuevo barrio para la siguiente iteracin. Tenga en cuenta que el entorno de cada punto por lo menos contiene el mismo punto. Si ese es el nico miembro, la media, la ecuacin. ~ 13!, Es simplemente la medicin sin corregir y ningn cambio se hace. As, uno puede realizar de manera segura mltiples iteraciones con valores decrecientes de correo hasta que no haya ms cambios realizados. Vamos a ilustrar el uso de este sistema con un ejemplo, una grabacin del flujo de aire por la nariz de un ser humano como un indicador de la actividad de respiracin. ~ Los datos son parte del conjunto de datos B del concurso de Santa Fe de series de tiempo realizada en 1991-1992, 17 et al.60 Rigney ver una descripcin.! El resultado de la simple reduccin de ruido no lineal se muestra en la fig. 12. B. Reduccin de ruido lineal localmente proyectiva Un mtodo ms sofisticado hace uso de la hiptesis de que se compone de los datos medidos de la salida de un sistema dinmico de baja dimensionalidad y de ruido aleatorio o highdimensional. Esto significa que en un espacio de incorporacin de forma arbitraria highdimensional la parte determinista de los datos que se encuentran en un colector de baja dimensin, mientras que el efecto del ruido es difundir los datos de este colector. Si suponemos que la amplitud del ruido es suficientemente pequeo, podemos esperar encontrar los datos distribuidos en estrecha colaboracin en torno a este colector. La idea de la proyeccin lineal esquema de reduccin de ruido es la identificacin de las mltiples y para proyectar los datos en l. Las estrategias descritas aqu se remontan a la ref. 61. Un estudio de casos reales se detalla en la referencia. 62. Supongamos que el sistema dinmico, la ecuacin. ~ 1! o la ecuacin. ~ 2!, Forman una q-dimensional M que contiene la trayectoria. De acuerdo con los teoremas de insercin, existe una imagen de uno-a-uno de los atractor en el espacio de insercin, si la dimensin de incrustacin es suficientemente alta. Por lo tanto, si la serie de tiempo medido no se corrompieron con el ruido, todos los vectores de la incorporacin sn que se encuentran dentro de otro colector de M ~ en el espacio de inclusin. Debido al ruido, esta condicin ya no se cumple. La idea del plan de reduccin de ruido a nivel local de proyeccin es que para cada sn existe una Qn correccin, con iQni pequeas, de tal manera que sn2QnPM ~ y que Qn es ortogonal a M ~. Por supuesto, una proyeccin para el colector slo puede ser un concepto razonable si los vectores estn integrados en espacios que son de dimensiones ms elevadas que el ~ manifoldM. As tenemos a un exceso de integrar en espacios de dimensin m con mq La nocin de ortogonalidad depende de la mtrica utilizada. Intuitivamente uno podra pensar en utilizar la mtrica euclidiana. Pero esto no es necesariamente la mejor opcin. La razn es que estamos trabajando con los vectores de retardo que contienen informacin temporal. As, aunque las partes medias de los dos vectores de retardo estn cerca, las partes finales poda estar lejos el uno del otro debido a la influencia de los exponentes de Lyapunov positivos, mientras que las primeras partes podran diferir debido a los negativos. Por lo tanto, suele ser conveniente para corregir la parte central de vectores de retardo y dejar que las partes exteriores en su mayora sin cambios, ya que su diferencia no es slo una consecuencia del ruido, sino tambin de la propia dinmica. Resulta que para la mayora de las aplicaciones es suficiente para fijar slo el primero y el ltimo componente de los vectores de retardo y corregir el resto. Esto se puede expresar en trminos de P tensor mtrico que se define a be61 Pi j5H1: i5j y 1, i, j, m, 0: en otro lugar, ~ 14! donde m es la dimensin de los''ms''embebido en vectores de retardo. As que tenemos que resolver el problema de minimizacin, (I ~ QiP21Qi! 5 ! min, a unos 15! con las limitaciones un i ~ sn2Qn! 1bn i 50, para i5q11 ,..., m ~ 16! y un Pan i j i j 5d, ~ 17! donde el uno i son los vectores normales de M ~ en el punto de sn 2Qn. Estas ideas se realizan en el ghkss los programas, proyectos, y el ruido en TISEAN. Mientras los dos primeros trabajos como filtros a posteriori en conjuntos de datos completos, el ltimo puede ser utilizado en un flujo de datos. Esto significa que es posible hacer las correcciones en lnea, mientras que los datos provienen de ~ Para ms detalles, vase la seccin. VC!. Los tres algoritmos mencionados anteriormente corregir los efectos de la curvatura. Esto se hace por cualquiera de las correcciones de post-procesamiento de los vectores de retardo ~ ghkss! o pre-procesamiento de los centros de masa de los barrios locales Proyecto ~!. La idea de utilizar en el programa ghkss es la siguiente. Supongamos que el colector fuera estrictamente lineal. Entonces, siempre y cuando el ruido es blanco, las correcciones en las proximidades de un punto en el colector sera el punto en todas las direcciones con igual probabilidad. Por lo tanto, si sumamos todas las correcciones Q esperamos que suman cero o ^ ~ Q & 5O). Por otro lado, si themanifold es curva, esperamos que haya una tendencia hacia el centro de curvatura (^ Q & 5Qav). Por lo tanto, para corregir esta tendencia cada correccin Q se sustituye por Q2Qav. Una estrategia diferente se usa en el proyecto de programa. Las proyecciones se realizan en un sistema de coordenadas locales, que se define por la condicin de que el promedio de los vectores en el barrio es cero. O, en otras palabras, el origen de los sistemas de coordenadas es el centro de masa ^ sn & U del barrio de U. Este centro de masa tiene un sesgo hacia el centro de la curvature.2 Por lo tanto, una proyeccin no se encuentran en la tangente en el colector, pero en una secante. Ahora podemos calcular el centro de masa de estos puntos en el barrio de sn. Llammoslo ^ ^ sn & & U. Bajo supuestos bastante leve este punto tiene el doble de la distancia desde el colector de sn ^ & U. Para corregir el sesgo es establecer el origen del sistema de coordenadas locales, hasta el punto: ^ ^ sn & & ^ sn U22 y U. La implementacin y el uso de la reduccin del ruido a nivel local se dio cuenta proyectiva como en el proyecto y ghkss se describe en detalle en las referencias. 61, 62. Recordemos aqu los parmetros ms importantes que se deben establecer de forma individual para cada serie temporal. La incorporacin de parmetros suelen ser elegidos de manera muy diferente de otras aplicaciones desde overembedding considerable puede conducir a un promedio de ruido mejor. Por lo tanto, la El retraso es de preferencia establecido en la unidad y la incorporacin de la dimensin que se elija para proporcionar compatibilidad con incrustar ventanas de longitudes razonables. Slo para datos de alta sobremuestreo ~ como el magneto-cardiograma, fig. 15, en alrededor de 1000 muestras por ciclo!, Grandes retrasos son necesarios para que una fraccin sustancial de un ciclo puede ser cubierta sin la necesidad de trabajar en prohibitivamente altos espacios de dimensin. A continuacin, uno tiene que decidir cuntas dimensiones q para salir de la variedad que supuestamente contena el atractor. La respuesta depende en parte del propsito del experimento. Proyecciones y no a paso ligero puede ser ptima en el sentido de la menor desviacin residual de la seal verdadera. Bajo error RMS puede, sin embargo, coexisten con las distorsiones de la estructura sistemtica de atraccin. As, para un clculo de la dimensin posterior, una opcin ms conservadora sera el fin. Recuerde, sin embargo, que los puntos slo se movi hacia, pero no sobre el subespacio locales lineales y un valor muy bajo de q no hace tanto dao como se puede pensar. La amplitud de ruido que se retira puede ser seleccionado en alguna medida por la eleccin del tamao de la vecindad. De hecho, no lineal, el filtrado de proyeccin se puede ver de forma independiente del fondo de los sistemas dinmicos como el filtrado por la amplitud en lugar de por la frecuencia o la forma. Para permitir una clara separacin de ruido y las direcciones de la seal a nivel local, los barrios deben ser al menos tan grande como el nivel de ruido se supone, bastante ms grande. Esto, por supuesto compite con efectos de curvatura. Para los pequeos niveles de ruido inicial, se recomienda tambin para especificar un nmero mnimo de vecinos a fin de permitir linearizaciones estable. Por ltimo, cabe sealar que en los casos ms exitosos de la filtracin se realiza dentro de los primeros uno a tres iteraciones. Yendo ms lejos, es potencialmente peligrosa ya que puede inducir a las correcciones, principalmente a la distorsin. Hay que ver la correccin eficaz en cada iteracin, y finaliza en el momento en que no disminuya sustancialmente ms. Como ejemplo de reduccin de ruido no lineal en que tratamos a los datos obtenidos a partir de una RMN lser experiment.63 ampliaciones de las representaciones de demora de dos dimensiones de los datos se muestran en la figura. 13. El panel superior muestra los datos en bruto experimental que contiene alrededor de 1,1% del ruido. En el panel inferior se produjo mediante la aplicacin de tres iteraciones del sistema de reduccin de ruido. Incorporacin de la dimensin se m57, los vectores se proyecta a dos dimensiones. El tamao de los barrios fueron elegidos de tal manera que al menos 50 vecinos se encontraron. Uno ve claramente que la estructura fractal del atractor se resuelve bastante bien. La premisa principal de este algoritmo para el trabajo es que los datos estn bien aproximada por un colector de baja dimensin. Si esto no es el caso, es impredecible lo que los resultados son creados por el algoritmo. En ausencia de un colector real, el algoritmo tiene que recoger las fluctuaciones estadsticas y falsamente las interpreta como estructura. La figura 14 muestra el resultado del programa de ghkss puro ruido gaussiano. El panel superior muestra una representacin retraso de los datos originales, la inferior muestra el resultado de aplicar el algoritmo durante 10 iteraciones. La estructura creada es puramente artificial y no tiene nada que ver con las estructuras en los datos originales. Esto significa que si se quiere aplicar uno de los algoritmos, uno tiene que estudiar cuidadosamente los resultados. Si los supuestos subyacentes a los algoritmos no se cumplen, en principio, cualquier cosa puede suceder. Hay que sealar, sin embargo, que el rendimiento del propio programa indica el comportamiento de tales espurios. Para los datos que en realidad es bien aproximada por un colector de dimensiones inferiores, las correcciones medio aplicado debe disminuir rpidamente con cada iteracin de xito. Este fue el caso con los datos de RMN de lser y, de hecho, la correccin era tan pequeo despus de tres iteraciones que se detuvo el procedimiento. Para los datos de ruido blanco, la correccin slo se redujo a una tasa que corresponde a una reduccin general del conjunto de puntos, lo que indica una falta de convergencia hacia una verdadera baja dimensionalidad mltiple. A continuacin, vamos a dar un ejemplo donde un colector de aproximacin se presente sin el determinismo puro. En ese caso, la proyeccin sobre el colector se reduce el ruido de una manera razonable. Ver ref. 64 para el material sobre los peligros de la filtracin geomtrica. C. no lineal de reduccin de ruido en un flujo de datos en la ref. 65, una serie de modificaciones del procedimiento anterior se han discutido, que permiten el uso de filtros no lineales de proyeccin en un flujo de datos. En este caso, los puntos slo en el pasado estn disponibles para la formacin de barrios. Por lo tanto, la estrategia de bsqueda vecino tiene que ser modificada. Dado que el algoritmo se describe en detalle en la referencia. 65, slo dar un ejemplo de su uso aqu. La figura 15 muestra el resultado de la reduccin de ruido no lineal en un magnetocardiogram ~ ver Figs. 1 y 3! con el ruido del programa. El mismo programa tambin se ha utilizado con xito para el Xtraction del feto ECG.66 VI. Lyapunov EXPONENTES El caos surge del crecimiento exponencial de las perturbaciones infinitesimales, junto con los mecanismos mundiales de plegado para garantizar la acotacin de las soluciones. Esta inestabilidad exponencial se caracteriza por el espectro de Lyapunov exponents.67 Si uno asume una descomposicin local del espacio de fases en las direcciones con diferentes tipos de estiramiento o contraccin, entonces el espectro de los exponentes es el medio adecuado de estos tipos de locales en todo el conjunto invariante , y por lo tanto consiste en que muchos exponentes, ya que hay direcciones del espacio. El problema ms importante en el anlisis de series de tiempo es que el espacio de fase fsica es desconocida, y que en lugar del espectro se calcula en un espacio de inclusin. As, el nmero de exponentes depende de la reconstruccin, y puede ser mayor que en el espacio de fase fsica. Como exponentes adicionales se denominan falsos, y hay varias sugerencias para evitar o them68 o para identificarlos. Por otra parte, es posible que slo como exponentes se puede determinar a partir de una serie de tiempo como est entrando en las curvas de Kaplan Yorke frmula ~ ver ms abajo!. Para dar un ejemplo simple: Considere la posibilidad de movimiento de un sistema de alta dimensin en un ciclo lmite estable. Los datos no pueden contener ninguna informacin sobre la estabilidad de esta rbita frente a las perturbaciones, mientras que estn exactamente en el ciclo lmite. Para los transentes, la situacin puede ser diferente, pero los datos no se distribuyen de acuerdo a una medida invariante y los valores numricos son por lo tanto difciles de interpretar. Aparte de estas dificultades, hay un aspecto positivo en la materia: los exponentes de Lyapunov son invariantes bajo transformaciones suaves y por lo tanto independiente de la funcin de medicin o el procedimiento de insercin. Ellos llevan una dimensin de un tiempo inverso y tienen que ser normalizados al intervalo de muestreo. A. El exponente mximo El mximo exponente de Lyapunov se puede determinar sin la construccin explcita de un modelo para la serie temporal. Una caracterizacin confiable requiere que la independencia de los parmetros de inclusin y la ley exponencial para el crecimiento de las distancias se checked69, 70 de manera explcita. Considere la posibilidad de la representacin de los datos de series de tiempo como una trayectoria en el espacio de insercin, y se supone que se observa un retorno muy cercano a un SN8 visitado sn punto. Entonces se puede considerar la distancia D05sn2sn8 como una pequea perturbacin, lo que debera crecer de forma exponencial en el tiempo. Su futuro se puede leer en la Dl5sn1l2sn81l de series de tiempo. Si se encuentra que uDlu'D0ell entonces l se ~ con probabilidad uno! el mximo exponente de Lyapunov. En la prctica, habr fluctuaciones a causa de muchos efectos, que se discuten en detalle en la referencia. 69. Basado en este entendimiento, se puede obtener un estimador robusto consistente e imparcial para el mximo exponente de Lyapunov. Si uno calcula S (e, m, t) muestra un aumento lineal con pendiente idntica para todos los m ms grande que algunos m0 y de un rango razonable de correo, entonces esta pendiente puede ser tomado como una estimacin de la mxima exponente de l1. La frmula se lleva a cabo en las rutinas de lyap-k y Lyapunov de una manera directa. ~ El programa lyap-r implementa el algoritmo muy similar de la ref. 70, donde slo el vecino ms cercano se sigue para cada punto de referencia. Adems, la norma euclidiana se usa.! Aparte de los parmetros que caracterizan la incrustacin, el barrio e tamao inicial es de relevancia: El correo ms pequeo, el de la gran rango lineal de S, si es que existe. Obviamente, el ruido y el nmero finito de puntos el lmite de datos e desde abajo. Los valores por defecto de lyap-k son bastante razonables para el mapa de datos tipo. No siempre es necesario ampliar el promedio de la ecuacin. ~ 18! sobre los datos disponibles todo, los promedios razonables se puede obtener ya con unos pocos cientos de referencia sn puntos. Si algunos de los puntos de referencia tienen muy pocos vecinos, el importe correspondiente en la ecuacin interior. ~ 18! est dominado por las fluctuaciones. Por lo tanto, se puede optar por excluir a los puntos de referencia que tienen menos de, digamos, diez vecinos. Sin embargo, la discrecin tiene que ser aplicado con este parmetro, ya que puede introducir un sesgo en contra de las regiones escasamente pobladas. Esto podra, en teora, afectar a los exponentes estimado debido a multifractality. Al igual que otras cantidades, las estimaciones de Lyapunov puede verse afectada por las correlaciones en serie entre los puntos de referencia y los vecinos. Por lo tanto, un tiempo mnimo para un2n8u pueden y deben ser especificados aqu. Ver tambin seccin. VII.Let a discutir los resultados de una tpicos. Los datos que sustentan el panel superior de la figura. 16 son los valores de los mximos de los datos lser de CO2. Desde este lser muestra de pocas dimensiones, el caos, con un nivel de ruido razonable, se observa un claro aumento lineal en este terreno semi-logartmica, lo que refleja la divergencia exponencial de trayectorias cercanas. El exponente es l'0 0,38 por iteracin ~ datos del mapa!, O, al introducir el intervalo de tiempo promedio, 0,007 por ms. En el panel inferior se muestra el resultado para el mismo sistema, pero ahora calcula en el original como el flujo de datos con una frecuencia de muestreo de 1 MHz. Como una estructura adicional, un aumento inicial empinadas y oscilaciones regulares son visibles. El aumento inicial se debe a la no normalidad y los efectos de la alineacin de las distancias en la direccin local ms inestable, y las oscilaciones son un efecto de las velocidades y densidades diferentes a nivel local por lo tanto diferentes. Ambos efectos pueden ser mucho ms dramtico en los casos menos favorables, pero siempre y cuando las oscilaciones regulares poseen un promedio lineal cada vez mayor, esto puede ser tomado como la estimacin del exponente de Lyapunov. La normalizacin de la frecuencia de muestreo, de nuevo encontramos l'0 0,007 permanentes, pero es obvio que la linealidad es menos pronunciada que para el mapa de datos tipo. Finalmente, se muestran en la figura. 17 un ejemplo de un resultado negativo: Se estudian los datos de tasa de respiracin humana usado antes. Ninguna parte lineal existe, y no se puede sacar ninguna conclusin razonable. Vale la pena considerar la figura de una escala logartmica doble con el fin de detectar un comportamiento de ley de potencia, que, con una potencia media, podran estar presentes para un crecimiento difuso de las distancias. En este ejemplo concreto, no existe una ley de poder convencer a cualquiera. B. El espectro de Lyapunov El cmputo de todo el espectro de Lyapunov requiere un esfuerzo mucho ms que el exponente mximo. Un ingrediente esencial es una estimacin de la jacobianos local, es decir, de la dinmica lineal, que gobierna el crecimiento de las perturbaciones infinitesimales. O se encuentra de ajuste directo de los modelos locales lineales de la sn115ansn1bn tipo, de tal manera que la primera fila del Jacobiano es el vector de una, y ij (J) 5 das i21, j para I52 ,..., m, donde m es la dimensin de incrustacin. La una est dada por la mnimos cuadrados s2 5 (l (sl112ansl2bn) 2 donde $% sl es el conjunto de vecinos de sn .45,71 O se construye un modelo no lineal global y calcula su jacobianos locales mediante la adopcin de derivados. En ambos de los casos, se multiplica la jacobianos uno por uno, siguiendo la trayectoria, como muchos diferentes vectores del Reino Unido en el espacio tangente como uno quiere calcular exponentes de Lyapunov. Cada pocos pasos, se aplica un procedimiento orthonormalization Gram-Schmidt para el conjunto del Reino Unido, y acumula los logaritmos de los factores de reajuste. Su promedio, en el orden del procedimiento de Gram-Schmidt, dar los exponentes de Lyapunov en orden descendente. La rutina lyap-spec usa este mtodo, que se remonta a Refs. 71 y 45, el empleo de locales lineal se ajusta Aparte del problema de los exponentes espurios, este mtodo contiene algunas otras trampas:. Se supone que existen jacobianos bien definidos, y no la prueba de su relevancia. En particular, cuando los atractores son delgados en el espacio de insercin, algunos o todos ~! de la jacobianos locales pueden estimarse muy mal. A continuacin, todo el producto puede sufrir de estas estimaciones malo y los exponentes son, en consecuencia mal. As, el enfoque no lineal global puede ser superior, si un modelo ha tenido xito, vase cap. IV. En la Tabla I se muestran los mximos exponentes de los datos lser estroboscpico de RMN en una inmersin en tres dimensiones en funcin del tamao de la vecindad. El uso global de los modelos no lineales, nos encontramos con los nmeros dados en las dos ltimas filas. Ms material se discute en la Ref.. 2. La difusin de los valores en la tabla de este conjunto de datos ms limpia refleja la dificultad de calcular los espectros de Lyapunov de la serie de tiempo, lo que tiene que hacerse con mucho cuidado. En particular, cuando el algoritmo se aplica a ciegas a los datos de un proceso aleatorio, no internamente puede comprobar la consistencia de la hiptesis de un sistema dinmico subyacente. Por lo tanto, un espectro de Lyapunov se calcula que en la actualidad carece de sentido. El clculo de la primera parte del espectro de Lyapunov permite algunas interesantes controles cruzados. Se conjetura, de 72 aos y se encuentra para ser correcta en la mayora de las situaciones fsicas, que el espectro de Lyapunov y la dimensin fractal de un atractor estn estrechamente relacionados. Si las instrucciones de la expansin y la contratacin de por lo menos en el espacio se llena continuamente y slo una dimensin fractal es parcial, entonces se puede pedir para la dimensin de un fractal ~! volumen tal que es invariante, es decir, de manera que la suma de los correspondientes exponentes de Lyapunov se desvanece, donde se pondera la ltima con la parte no entera de la dimensin: DKY5k1 (I51 k li ulk11u , ~ 19! donde k es el mximo entero tal que la suma de los exponentes ms grande k todava no negativo. DKY se conjetura para que coincida con la dimensin de la informacin. La identidad Pesin es vlido bajo las mismas hiptesis y nos permite calcular el KS-entropa: hKS5 (I51 m Q ~ li! Li. ~ 20! VII. DIMENSIONES y entropas Las soluciones de disipacin de los sistemas dinmicos no se puede llenar un volumen del espacio de fases, ya que la disipacin es sinnimo de una contraccin de elementos de volumen bajo la accin de las ecuaciones de movimiento. En cambio, las trayectorias se limitan a menores dimensiones subconjuntos que tienen medida cero en el espacio de fases. Estos subconjuntos pueden ser muy complicado, y con frecuencia poseen una estructura fractal, lo que significa que estn de una manera no trivial de auto-similares. Dimensiones generalizadas son una clase de cantidades que caracterizan a esta fractalidad. La dimensin de Hausdorff es, desde el punto de vista matemtico, el concepto ms natural para caracterizar los conjuntos fractales, de 67 aos, mientras que la dimensin de la informacin tiene en cuenta las frecuencias de las visitas relativas y por lo tanto ms atractivo para los sistemas fsicos. Finalmente, para la caracterizacin de los datos medidos, otros conceptos similares, al igual que la dimensin de correlacin, son ms tiles. Una observacin general es de gran relevancia para entender las limitaciones de cualquier mtodo numrico: las dimensiones caracterizan a un conjunto o una medida invariante cuyo apoyo es el conjunto, mientras que cualquier conjunto de datos contiene slo un nmero finito de puntos que representa el conjunto o la medida. Por definicin, la dimensin de un conjunto finito de puntos es igual a cero. Cuando se determina la dimensin del atractor numrico, podemos extrapolar a partir de escalas de longitud finita, donde las estadsticas que se aplican es insensible a la finitud de la cantidad de datos, las escalas infinitesimales, donde se define el concepto de dimensiones. Esta extrapolacin se puede fallar por muchas razones que se discuten a continuacin en parte. Las dimensiones son invariantes bajo transformaciones suaves y por lo tanto una vez ms en espacios de tiempo computable incorporacin de demora. Entropas son un concepto terico para caracterizar la informacin de la cantidad de informacin necesaria para predecir la siguiente medicin con una precisin determinada. La ms popular es la entropa de Kolmogorov-Sinai. Nosotros discutiremos aqu slo la entropa de correlacin, que se puede calcular de una manera mucho ms robusta. La aparicin de la entropa en una seccin sobre los aspectos tiene que ver con el hecho de que puede ser determinado tanto por la misma herramienta estadstica. A. dimensin de correlacin En trminos generales, la idea detrs de algunas de las dimensiones de los cuantificadores es que el peso p (e) de un tpico e-ball parte que cubre las tarifas fijadas invariante con su dimetro, como p (e) e D, donde el valor de D depende tambin de la forma precisa se define el peso. Utilizando el cuadrado de la pi probabilidad de encontrar un punto de la serie dentro de la bola, la dimensin se llama D2 dimensin de correlacin, que se calcula ms eficiente por la suma de correlacin: 73 C ~ m, e! 5 1 Npairs (J5m N (K, j2w Q ~ e2usj2sku!, ~ 21! que si son m-dimensional vectores de retardo, Npairs5 (N2m 2W) (N2m2w11) / 2 el nmero de pares de puntos cubiertos por las sumas, Q es la funcin escaln de Heaviside, y w se ver ms adelante. A escalas de longitud suficientemente pequea y cuando la incorporacin de la dimensin m supera el correlationdimension del atractor, de 74 aos C ~ m, e!} D2 e. ~ 22! Ya que uno no sabe la correlacin de dimensin antes de hacer este clculo, un control de la convergencia de los valores estimados de D2 en m. La literatura sobre la estimacin correcta y espurio de la dimensin de correlacin es enorme y esto ciertamente no es el lugar para repetir todos los argumentos. Las advertencias relevantes y las ideas falsas son revisados, por ejemplo, en las referencias. 75, 11, 76, 2. La precaucin ms importante es excluir temporalmente correlacionadas puntos de la pareja cuenta por la llamada ventana de Theiler w.75 Para llegar a ser un estimador consistente de la ~ correlacin integral de la que deriva la dimensin! la suma de correlacin debe cubrir una muestra aleatoria de los puntos dibujados de forma independiente de acuerdo con la medida invariante en el atractor. Elementos sucesivos de una serie de tiempo no suelen ser independientes. En particular, para el flujo de datos altamente muestra vectores posterior retraso estn altamente correlacionados. Theiler sugiri suprimir este efecto espurio por hacer caso omiso de todos los pares de puntos en la ecuacin. ~ 21! cuyo tiempo los ndices difieren en menos de w, donde w debe ser elegido con generosidad. Con O (N2) pares disponibles, la prdida de la O (WN) pares no es dramtico, siempre y cuando w! N. Por lo menos, las parejas con j5k tienen que ser excluidos, de 77 aos de lo contrario, el fuerte sesgo a la D250, el valor matemticamente correcto para un conjunto finito de puntos, reduce drsticamente el rango de escala. La eleccin de w, el primer cero de la funcin de auto- correlacin, a veces incluso el tiempo de decaimiento de la funcin de auto-correlacin, no son lo suficientemente grandes, ya que slo reflejan general lineal correlations.75, 76 La trama del espacio-tiempo de separacin ~ Sec. III B! proporciona un buen medio para determinar el valor suficiente para w, como se discute, por ejemplo en la referencia. 41, 2. En algunos casos, especialmente en los procesos con los espectros de la ley del inverso de potencia, la inspeccin requiere w a ser del orden de la longitud de las series de tiempo. Esto indica que los datos no muestra un atractor invariante suficiente y la estimacin de los invariantes, como exponentes de Lyapunov D2 o debe ser abandonado. Parmetros en el d2 rutinas, c2 y c2naive son como de costumbre la incorporacin de parmetros m y t, el tiempo de retardo, y la dimensin de insercin, as como la ventana de Theiler. Rpida implementacin de la suma de correlacin han sido propuestas por varios autores. A escalas de longitud pequeas, el clculo de los pares se puede hacer en O (n log n), o incluso un tiempo O (N) en lugar de O (N2) sin perder ninguno de los pares preciosos, ver ref. 20. Sin embargo, para los datos de tamao intermedio establece tambin necesitamos la suma de correlacin a escalas de longitud intermedia donde la bsqueda se convierte en vecino caro. Muchos autores han tratado de limitar el uso de los recursos informticos mediante la restriccin de una de las sumas en la ecuacin. ~ 21! a una fraccin de los puntos disponibles. Por esta prctica, sin embargo, se pierde valiosas estadsticas en las escalas de longitud pequeas, donde los puntos son tan escasos de todos modos que todos los pares son necesarios para un crecimiento estable. En la referencia. 62, ambos enfoques se combinaron por primera vez mediante el uso de un vecino de bsqueda rpida para el correo, e 0 y la restriccin de la suma de e> e 0. El TISEAN implementaciones C2 y D2 dar un paso ms y seleccione el rango de las sumas de forma individual para cada escala de longitud para ser procesados. Esto resulta de dar una importante mejora en la velocidad. El usuario puede especificar un nmero deseado de parejas que parece lo suficientemente grande como para una estimacin estable de C (e), por lo general 1000 pares es suficiente. A continuacin, las sumas se extienden a una amplia gama que garantiza que el nmero de pares, o, si esto no se puede lograr, a la serie de tiempo. En las escalas ms grandes de longitud, este intervalo puede ser ms bien pequeas y el usuario puede optar por dar un nmero mnimo de puntos de referencia para garantizar una media representativa. Sin embargo, utilizando el programa c2 el cmputo conjunto, lo cual puede a gran escala se concentra en la primera parte de la serie de tiempo, lo que parece justo para los datos fijos, nonintermittent ~ no estacionarias o datos muy intermitente por lo general no aptos para la estimacin de la correlacin dimensin de todos modos!. El programa de d2 es ms seguro con este aspecto. En vez de restringir el alcance de los importes, slo un subconjunto seleccionado al azar se utiliza. La asignacin al azar, sin embargo, requiere una estructura de programa ms sofisticado con el fin de evitar una sobrecarga en el tiempo de clculo. 1. Takens-Theiler estimador La convergencia hacia una dimensin de correlacin finito se puede comprobar mediante el trazado dependientes de la escala''efectiva''en comparacin con las dimensiones de escala de longitud de varias inmersiones. La forma ms sencilla de proceder es calcular numricamente ~! la derivada de log C (m, e) con respecto al registro e, por ejemplo, mediante la instalacin de lneas rectas con el grfico log-log de la C (E). En la figura. 18 ~ a! vemos la salida de la rutina acta c2 en los datos de RMN del lser, procesado por C2D con el fin de obtener pistas local. Por defecto, las lneas rectas se coloca sobre una octava en el correo, mayores rangos de dar resultados ms suaves. Podemos ver que en las grandes escalas, la auto-similitud se rompe debido a la extensin finita del atractor, y en escalas pequeas, pero estadsticamente significativo, sin embargo, vemos la dimensin de la incrustacin en lugar de un cido, m independiente de valor. Este es el efecto del ruido, que es de dimensin infinita, y por lo tanto ocupa un volumen en todos los espacios de inclusin. Slo en las escalas intermedias, vemos la meseta donde los resultados deseados se encuentran en buena aproximacin independiente de m y e. La regin donde se establece la ampliacin, no slo la gama seleccionada para el montaje en lnea recta, se denomina el intervalo de escala. Puesto que las fluctuaciones estadsticas en las parcelas como en la figura. 18 ~ a! muestran correlaciones caractersticas anti-~!, se ha suggested78, de 79 aos de aplicar un estimador de mxima verosimilitud para obtener los valores ptimos para la D2. El Takens-Theiler-estimador dice lo TDT e ~! 5 C ~ e! E0 e C ~ e 8! e 8 de 8 , ~ 23! y se puede obtener mediante el procesamiento de la salida de c2 por c2t. Desde C (e) est disponible slo en valores discretos $ ei, i 50 ,..., I%, que interpolar por una ley de potencia pura @ o, equivalentemente, el grfico log-log por lneas rectas: log C (e ) 5ai registro e 1BI # en medio de estos. Las integrales resultantes se pueden resolver trivialmente y se suman: E0 e C ~ e 8! e 8 de 85 (I51 Yo ebiEe i21 e i ~ E 8! Ai21 de 8 5 (I51 Yo ebi ai ~ E i ai2e i21 ai!. ~ 24! Trazado de la TDT frente a la figura e @. 18 ~ # b! es una alternativa interesante a la trama habitual pistas local, la figura. 18 ~ a!. Es tentador usar como un estimador de la''''dimensin como un cuadro negro para proporcionar un nmero uno puede citar como una dimensin. Esto implicara la suposicin injustificada de que todas las desviaciones del comportamiento de la escala exacta se debe a las fluctuaciones estadsticas. En cambio, todava se tiene que verificar la existencia de un rgimen de escala. Slo entonces, la TDT (e) evaluar en el extremo superior del rango de escala es un estimador de dimensin razonable. 2. Kernel Gaussiano correlacin integral La suma de correlacin, la ecuacin. ~ 21!, Puede ser considerada como una densidad media de los puntos donde se obtiene la densidad local de un estimador de kernel con un paso kernel Q (E2R). Una modificacin natural de los conjuntos de puntos pequeos consiste en sustituir el kernel paso fuerte por una funcin de kernel sin problemas de ancho de banda e. Un caso particularmente interesante que se ha estudiado en el literature80 est dado por el ncleo de Gauss, es decir, Q (E2R) se sustituye por e2r2/4e 2. El resultado de kernel Gaussiano correlacin suma CG (e) tiene las propiedades de escala igual a la C habitual (e). Se ha observado en la referencia. 3 que CG (e) se puede obtener de C (e) a travs de CG ~ e! 5 1 2e 2 E0 ` de ~ e ~ e2 2/4e 2 e ~ C ~ e ~!, ~ 25! sin tener que repetir todo el clculo. Si C (e) se da en los valores discretos de correo, las integrales de la ecuacin. ~ 25! puede llevarse a cabo mediante la interpolacin de forma numrica C (e) con las leyes de la potencia pura. Esto se hace en C2G que utiliza un 15 punto de Gauss-Kronrod regla para la integracin numrica. B. Informacin dimensin Otra forma de agregar peso a la e-pelotas, que es ms natural, es la probabilidad pi s mismo. El exponente de escala resultante se llama la dimensin D1 informacin. Desde la dimensin de Kaplan-Yorke de la seccin. VI es una aproximacin de la D1, D1 el clculo de las propiedades a travs de la ampliacin es relevante para la verificacin cruzada de datos altamente determinista. D1 se puede calcular a partir de una suma de correlacin modificada, donde, sin embargo, desagradables errores sistemticos ocurren. La masa fija approach81 evita estos problemas, de modo que, incluyendo las correcciones de la muestra finita, de 77 aos un estimador ms robusto que existe. En lugar de contar el nmero de puntos en una bola de uno se pregunta aqu por el correo de dimetro que debe tener una bola de contener un nmero k de puntos cuando una serie de tiempo de longitud N se da. Su ampliacin con K y N se obtiene la dimensin en el lmite de las escalas de longitud pequeas D1 ~ m! 5 lim k / N! 0 d log k / N d ^ palco ~ k / N! y . ~ 26! El c1 rutina calcula el ~ geomtrica! significa exp escala de longitud de registro e ^ (k / N) y para que los vecinos k se encuentran en N puntos de datos, en funcin de k / N. A diferencia de la suma de correlacin, correcciones finito muestra son necesarios si k es small.77 En esencia, el registro de k tiene que ser reemplazado por el C digamma funcin (k). La expresin resultante se lleva a cabo en c1. Dado M y T, la rutina vara K y N tales que el mayor rango razonable de k / N est cubierto con un esfuerzo computacional moderado. Esto significa que por 1 / N <k / N <K / N ~ por defecto: K5100, todos los puntos de N disponible se buscan para los vecinos y k es variada. De K / N, K / N <1, k5K se mantiene fija y N disminuye. El resultado de los datos de RMN lser se muestra en la figura. 18 ~ d!, que puede ser una escala agradable con D1'1 0,35 discernir. Para que sean comparables, la erivative logartmica de k / N se representa frente al exp ^ log e (k, N) y y no al revs, a pesar de k / N es la variable independiente. Es fcil detectar de nuevo la violacines de la ampliacin discutido antes: corte en las escalas grandes, el ruido a pequea escala, las fluctuaciones en escalas ms pequeas an, y un rango de escala en el medio. En este ejemplo, D1 est cerca de D2, y multifractality no se puede establecer de manera positiva. C. La entropa estimaciones La dimensin de correlacin caracteriza a la dependencia e de la suma de correlacin dentro del rango de escala. Es natural preguntarse qu podemos aprender de sus m-dependencia, una vez m es mayor que D0. El nmero de e-vecinos de un vector de retraso es una estimacin de la densidad de probabilidad local, y, de hecho, es una especie de probabilidad conjunta: Todos los componentes de la m-el vecino tiene que ser similares a los del vector real de forma simultnea . As, al aumentar m, probabilidades conjuntas que cubren grandes espacios de tiempo de participar. La escala de estas probabilidades conjuntas se refiere a la correlacin de entropa h2, de forma que, para la ampliacin de correo, tambin la dependencia de m es vlida slo asintticamente para m grande, que no llegar debido a la falta de puntos de datos. Por lo que uno va a estudiar h2 (m) vs m y tratar de extrapolar a las grandes m. La entropa de correlacin es un lmite inferior de la entropa de Kolmogorov Sina, que a su vez puede ser estimado por la suma de los exponentes de Lyapunov positivo. La unidad d2 programa produce como resultado de las estimaciones de h2 directamente, de los programas de cualquier otra cantidad que la correlacin que tiene que ser extrado por el post- procesamiento de la salida. La entropa de primer y segundo orden se pueden derivar de la produccin de C1 y C2, respectivamente. Un medio alternativo para la obtencin de estos y las entropas otro generalizado es por un enfoque de contar caja. Deje que pi es la probabilidad de encontrar el estado del sistema en la casilla I, el orden q entropa se define por el lmite de tamao de la caja pequea y gran cantidad de m (I pi q'e2mhq. ~ 28! Para evaluar (IPI q ms de una malla fina de las cajas de m @ 1 dimensiones, uso racional de la memoria es necesario: Un histograma simple sera tomar un (1 / e) de almacenamiento m. Por tanto, el boxcount programa implementa la malla de las cajas como un rbol con (1 / e) veces puntos de ramificacin. El rbol es trabajado a travs de forma recursiva para que en cada caso ms de una rama completa que existe en el almacenamiento. La versin actual no implementa correcciones muestra finito de la ecuacin. ~ 28!. VIII. PRUEBAS de no linealidad La mayora de los mtodos y las cantidades discutidas hasta ahora son ms apropiadas en los casos en que los datos muestran una fuerte y consistente firmas deterministas no lineales. Tan pronto como algo ms que una pequea cantidad moderada o mayor de ruido aditivo est presente, el comportamiento de la escala se romper y la previsibilidad ser limitado. As, hemos explorado el extremo opuesto, no lineal y determinista por completo, en lugar de los procesos estocsticos lineales clsicos. La mayor parte de la serie en tiempo real del mundo cae en ninguna de estas categoras limitantes, ya que reflejan las respuestas no lineales y componentes de eficacia estocstico, al mismo tiempo. Poco se puede hacer de muchos de estos casos con los mtodos actuales. A menudo se recomienda para tomar ventaja de la maquinaria bien fundado de los mtodos espectrales y aventurarse en un territorio no lineal slo si alentado por pruebas positivas. Esta seccin trata sobre los mtodos para establecer la evidencia estadstica de no linealidad ms all de un reajuste simple en una serie de tiempo. A. El concepto de datos sustitutos El grado de no linealidad se puede medir de varias maneras. Pero, cunto previsibilidad no lineal, por ejemplo, es necesario excluir las explicaciones ms trivial? Todos los cuantificadores de las fluctuaciones muestran la no linealidad, pero las distribuciones, o barras de error, si lo desea, no estn disponibles de forma analtica. Por tanto, es necesario el uso de tcnicas de Monte Carlo para evaluar la importancia de los resultados. Un mtodo importante en este contexto es el mtodo de sustitucin data.82 se formula una hiptesis nula, por ejemplo, que los datos han sido creadas por un proceso gaussiano estacionario lineal, y luego se intenta rechazar esta hiptesis mediante la comparacin de los resultados de la los datos de realizaciones adecuadas de la hiptesis nula. Desde el supuesto nulo no es un simple, pero deja espacio para los parmetros libres, la muestra de Monte Carlo tiene que tomar en cuenta. Un mtodo consiste en la construccin de realizaciones limitadas de la hiptesis nula. La idea es que los parmetros libres dejados por los nulos se refleja en las propiedades especficas de los datos. Por ejemplo, los coeficientes desconocidos de un proceso autorregresivo se reflejan en la funcin de autocorrelacin. Realizaciones limitadas se obtienen por azar los datos sujetos a la restriccin de que un conjunto apropiado de parmetros se mantiene fijo. Por ejemplo, los datos al azar con un periodograma dado se puede hacer al asumir fases aleatorias y tomando la transformada inversa de Fourier del periodograma dado. Datos aleatorios con la misma distribucin que un conjunto de datos puede ser generado por la permutacin de los datos al azar sin reemplazo. Pedir un espectro determinado y una distribucin dada al mismo tiempo, plantea ya una cuestin mucho ms difcil. B. iterativo mtodo de transformacin de Fourier Serie en tiempo real muy pocos los que se sospecha que muestran la no linealidad siguen una distribucin gaussiana sola vez. No Gaussianidad es el tipo ms simple de la firma no lineal, pero puede tener una razn trivial: los datos pueden haber sido distorsionados en el proceso de medicin. As, una posible hiptesis nula sera que no es un proceso gaussiano estacionario estocstico lineal que genera una secuencia% $ xn, pero las observaciones reales son sn5s (x), donde s (?) Es una funcin montona. Realizaciones limitadas de esta hiptesis nula sera necesario la generacin de secuencias aleatorias con el espectro de potencia igual ~ especificar completamente el proceso lineal! y la misma distribucin sola vez ~ especificar el efecto de la funcin de medicin! como los datos observados. La amplitud de la Transformada de Fourier ajustado ~ AAFT! mtodo propuesto en la referencia. 82 intentos de invertir la medicin de la funcin s (?) Ajustando la base de los datos a una distribucin de Gauss. A continuacin, las fases de Fourier son al azar y el cambio de escala se invierte. Como se discuti en la referencia. 83, este procedimiento est sesgado hacia un espectro ms plano ya la inversa de s (?) No se dispone de exactamente. En la misma referencia, un esquema, se indica que elimina este sesgo iterativa ajustar el espectro y la distribucin de los sustitutos. Alternativamente, los sustitutos se reajustarn los valores exactos tomadas por los datos y la transformada de Fourier es llevado a la amplitud exacta de los datos obtenidos. La discrepancia entre los dos pasos o converge a cero con el nmero de iteraciones o de una inexactitud finita que disminuye con la longitud de las series de tiempo. Los sustitutos programa realiza iteraciones hasta que no mejora se puede hacer. Las dos ltimas etapas se devuelven, una de ellas con la exacta amplitud de Fourier y una toma en los mismos valores que los datos. Para los datos no demasiado extico estas dos versiones debe ser casi idntico. La discrepancia en relacin tambin se imprime. En la figura. 19 se utiliz este procedimiento para evaluar la hiptesis de que la reduccin de ruido en los datos reportados en la figura aliento. 12 elimina un componente de ruido aditivo que es independiente de la seal. Si la hiptesis fuera cierta, igualmente podramos aadir de nuevo en la secuencia de ruido aleatorio o una versin de lo que carece de las correlaciones de la seal. En el panel superior de la figura. 19 se muestran los datos originales. En el panel inferior se tom la versin de la reduccin de ruido ~ cf. Fig. 12 de fondo! y se aade un sustituto de la secuencia de ruido se supone. El resultado es similar, pero sigue siendo significativamente diferente de la original para hacer la suposicin de aditividad inverosmil. Planes de Fourier basado en la asignacin al azar sufre de algunas advertencias debido a la suposicin de la inherente que los datos constituye un periodo de una seal peridica, que no es lo que realmente esperamos. Los artefactos se discuten posibles, por ejemplo, en la referencia. 84 y puede, en resumen, lleva al rechazo espurio de la hiptesis nula. Una precaucin que se deben tomar al usar sustitutos es para asegurarse de que el principio y el final de los datos corresponden aproximadamente en el valor y la fase. Entonces, la hiptesis de la periodicidad no es demasiado malo y no daino. Por lo general, esto equivale a la prdida de algunos puntos de la serie. Hay que sealar, sin embargo, que la rutina puede truncar los datos de algunos puntos s mismo para ser capaz de realizar la transformada rpida de Fourier que requiere el nmero de puntos que se factorizable por pequeos factores primos. C. General de aleatorizacin restringida En la referencia. 85 un mtodo general ha sido propuesto para crear datos aleatorios que cumplan con las restricciones especificadas. Con este mtodo, los artefactos y la imprecisin de los dems esquemas de aleatorizacin Fourier base se pueden evitar mediante la especificacin de la funcin de autocorrelacin en lugar de la transformada de Fourier. El primero no asume continuidad peridica. Tal vez lo ms importante, la restriccin de una hiptesis nula bastante estrecha se pueden relajar, ya que, en principio, arbitraria observables estadstica se puede imponer a los sustitutos. Una propiedad deseada de los datos tiene que ser formulada en trminos de una funcin de coste que supone un mnimo absoluto cuando la propiedad se cumple. Estados arbitrariamente cerca de este costo mnimo se puede llegar por el mtodo de recocido simulado. La funcin de coste se reduce al mnimo entre todas las permutaciones posibles de los datos. Ver ref. 85 para una descripcin del enfoque. El paquete contiene TISEAN los bloques de construccin para una biblioteca de rutinas de los datos especificados por el usuario sustituto implementar funciones de costes. Actualmente, slo la funcin de autocorrelacin con y sin continuidad peridica se han implementado. Adems, la plantilla se da a partir de la cual el usuario pudieran derivarse de su / sus propias rutinas. Un mdulo es siempre que impulsa el proceso de recocido simulado a travs de un sistema de enfriamiento exponencial. El usuario podr sustituir este mdulo por otro esquema de su su / opcin. Un mdulo que realiza permutaciones aleatorias pareja se le da lo que nos permite excluir una lista de puntos del programa de permutacin. Planes de permutacin ms sofisticados pueden ser sustituidos si se desea. Lo ms importante es la funcin de costo tiene que ser dada como otro mdulo. Los mdulos de autocorrelacin uso maxt51 tmaxuC (t) 2C (t) datau / t, donde C (t) es la funcin de autocorrelacin, con o sin continuidad peridica. En la figura. 20 se muestra un ejemplo el cumplimiento de la hiptesis nula de un proceso estocstico estacionario gaussiano reescalado lineal que ha sido contaminada por un artefacto en las muestras de 200- 220. Los planes de Fourier basado no son capaces de aplicar la parte de artefactos de la hiptesis nula. Se propagan a la estructura dada por el artefacto de manera uniforme sobre el intervalo de tiempo completo, resultando en ms espigas y menos predecible. De hecho, la hiptesis nula de un proceso estacionario estocstico gaussiano reescalado lineal puede ser rechazada al nivel del 95% de significacin con los errores de prediccin no lineal. El artefacto espurio sera un error de no linealidad. Con el programa de forma aleatoria-auto-exp-al azar, podemos excluir el artefacto del esquema de asignacin al azar y obtener una prueba correcta. Como ejemplo de una funcin de coste ms exticas, que nos muestran la asignacin al azar de 500 iteraciones del mapa He'non, fig. 21 ~ a!. Panel ~ b! muestra la salida de los sustitutos tienen el mismo espectro y la distribucin. A partir de una permutacin aleatoria ~ c!, la funcin de coste, C5 ^ ^ xn21xn y 1 & 1 ^ xn22xn xn21 2 xn y 1 ^ 2 y xn21xn 1 ^ xn22 2 xn & 1 & 1 ^ ^ xn22xn21xn xn21 2 xn 2 y 1 ^ 3 y xn21xn 1 ^ xn21 3 xn y, ~ 29! se minimiza ~ azar-generic-exp-al azar!. Lo incluye todos los mayores autocorrelaciones para lo que sera necesario para un ajuste de mnimos cuadrados con el xn ansatz 5c2axn21 2 1bxn22 y en este sentido por completo especifica la estructura de segundo grado de los datos. Los rendimientos de sonidos al azar C52400, paneles ~ c! - ~ f! corresponden a C5150, 15,0.002, respectivamente. Dado que el proceso de recocido puede llevar mucho tiempo muy CPU, es importante proporcionar un cdigo eficiente para la funcin de costo. Especificacin de t max rezagos para N puntos de datos requiere O (N max) multiplicaciones para el clculo de la funcin de costo. Una actualizacin despus de un par se ha intercambiado, sin embargo, se puede obtener con O (t max) multiplicaciones. A menudo, la suma total o supremo se puede truncar ya que despus de los primeros trminos es claro que un gran aumento de los costes es inevitable. El algoritmo de Metropolis conduccin facilita la corriente mxima permitida costo para ese propsito. El tiempo de clculo necesario para alcanzar la precisin deseada depende de la eleccin y ejecucin de la funcin de coste, sino tambin crticamente sobre el programa de recocido. Hay una vasta literatura sobre el recocido simulado que no pueden ser revisados aqu. La experimentacin con sistemas de refrigeracin deben tener en cuenta el concepto bsico de recocido simulado. En cada etapa, el sistema-en este caso el sustituto que se cree-se mantiene a una temperatura determinada''.''Al igual que en la termodinmica, la temperatura determina la probabilidad de las fluctuaciones alrededor de la media de la energa-en este caso el valor de la funcin de costo C-son . A la temperatura T, una desviacin del tamao de DC se presenta con la probabilidad de Boltzmann exp} (2DC / T). En una simulacin de la metrpoli, esto se logra mediante la aceptacin de todos los cambios hacia abajo (CC, 0), sino tambin los cambios hacia arriba con exp probabilidad (2DC / T). Aqu los cambios son combinaciones de dos seleccionados al azar los elementos de datos. La implementacin actual ofrece un esquema de enfriamiento exponencial, es decir, se baja la temperatura por un factor fijo cada vez que una de las dos condiciones se cumple: o bien un nmero determinado de cambios se ha intentado, o un nmero determinado de cambios ha sido aceptada. Estos dos nmeros y el factor de enfriamiento puede ser elegido por el usuario. Si el estado se enfra muy rpido que se atasca o se congela''''en un mnimo de falsos. Cuando esto sucede, el sistema debe ser derretido''''de nuevo y de refrigeracin se toma a un ritmo ms lento. Esto se puede hacer de forma automtica hasta una precisin de meta se alcanza. Es, sin embargo, difciles de predecir la cantidad de pasos que tomar. El comportamiento detallado del sistema sigue siendo objeto de investigacin en curso y en todos menos en los casos ms simples, la experimentacin por parte del usuario, ser necesario. Para facilitar el control de la refrigeracin, la situacin actual se escribe en un archivo cada vez que una mejora sustancial se ha hecho. Adems, el nivel de detalle de la salida de diagnstico puede ser seleccionado. D. Medicin de la no linealidad dbil En las pruebas de no linealidad, nos gustara utilizar cuantificadores que se optimizan para el lmite de linealidad dbil, que no es lo que la mayora de mtodos de series de tiempo de la teora del caos se han diseado. El esquema simple prediccin lineal ~ Sec. IV B! ha demostrado ser muy til en este contexto. Si se utiliza como un dato comparativo, cabe sealar que a veces incrustaciones aparentemente inadecuada o el tamao de barrio puede llevar a errores ms grandes que tienen grandes fluctuaciones, sin embargo, pequeo. La solucin de compromiso entre el sesgo y la varianza puede ser diferente de la situacin en la que las predicciones se desea por s mismo. El mismo razonamiento se aplica a las cantidades derivadas de la suma de correlacin. Ni el lmite de pequea escala, la escala real, o la correccin de Theiler, son formalmente necesarias en un ensayo comparativo. Sin embargo, la tentacin de interpretar los resultados en trminos de complejidad, como''''''''o dimensin debe ser resistido, a pesar de la complejidad'',''no parece tener una. Acordados significado de todos modos Aparte de los errores de prediccin promedio, hemos encontrado las estabilidades de corto rbitas peridicas ~ ver Sec. IV C! til para la deteccin de la no linealidad en las pruebas de datos sustitutos. Como alternativa a los mtodos basados en el espacio de fase, las medidas ms tradicionales de la no linealidad derivada de funciones de orden superior autocorrelacin ~ Ref. 86, de rutina autocor3! Tambin se puede considerar. Si una inversin temporal asimetra est presente, su confirmacin estadstica ~ timerev rutina! es un detector muy poderoso de nonlinearity.87 Algunas de las medidas de no linealidad dbil se comparan de manera sistemtica en la referencia. 88. IX. CONCLUSIONES Y PERSPECTIVAS El proyecto TISEAN pone a disposicin una serie de algoritmos de anlisis no lineal de series de tiempo a las personas interesadas en las aplicaciones del enfoque de los sistemas dinmicos. Para hacer un uso correcto de estos algoritmos, no es esencial tener por escrito los programas de la nada, un esfuerzo que la intencin de repuesto al usuario haciendo que TISEAN pblico. Indispensable, sin embargo, es un buen conocimiento de lo que hacen los programas, y por qu hacen lo que hacen. Esta ltima requiere una amplia informacin en el enfoque de series temporales no lineales que no pueden ser proporcionados por este trabajo, sino ms bien por los libros de texto como en las referencias. 10, 2, revisiones, 11,12,3 y el original literature.9 Aqu, nos hemos concentrado en la aplicacin real, ya que se realiza en TISEAN y en ejemplos de la utilizacin concreta de los programas. Vamos a terminar la discusin, dando algunas perspectivas sobre la labor futura. Hasta ahora, el proyecto TISEAN se ha concentrado en la situacin ms comn de una serie de tiempo nico. Mientras que para las mediciones mltiples de la misma naturaleza la mayora de los programas pueden ser modificados con un esfuerzo moderado, un marco general para la heterognea grabaciones multivariado ~ decir, la presin sangunea y latidos del corazn! No se ha establecido hasta ahora en un contexto no lineal. Sin embargo, creemos que los conceptos como la sincrona generalizada, la coherencia, o el flujo de informacin estn bien vale la pena y en algn momento deben estar disponibles para una comunidad ms amplia, incluyendo la investigacin aplicada. La experiencia inicial con mtodos de series temporales no lineales indica que algunos de los conceptos puede resultar bastante til en el futuro a formar parte de la caja de herramientas series de tiempo establecido. Para que esto suceda, la disponibilidad de los algoritmos y datos fiables sobre su uso ser esencial. La publicacin de una importante coleccin de programas a nivel de la investigacin a travs del proyecto TISEAN puede ser visto como un paso en esa direccin. Sin embargo, el potencial usuario todava tendr una experiencia considerable con el fin de hacer efectivo el derecho-las decisiones sobre la idoneidad de un mtodo particular para una serie de tiempo especfico, sobre la seleccin de parmetros, sobre la interpretacin de los resultados. Hasta cierto punto, estas decisiones podran ser guiados por un software que evala la situacin de los datos y los resultados de forma automtica. La experiencia previa con la dimensin de recuadro negro o estimadores de Lyapunov no ha sido alentadora, pero por algunos problemas especficos,''ptima'', responde, en principio, se define y se calcula de forma automtica, una vez que el criterio de optimalidad se formula. Por ejemplo, los programas de prediccin puede ser encapsulada en un marco que evala automticamente el rendimiento para una amplia gama de parmetros de insercin, etc Por supuesto, la evaluacin cuantitativa de los resultados no siempre es fcil de implementar y depende de la finalidad del estudio. Como otro ejemplo, parece razonable definir''ptima''superficies de Poincar "de la seccin y para encontrar las soluciones ptimas numricamente. Al igual que en la mayora de la literatura de series de tiempo, el tema de la estacionalidad ha entrado en la discusin slo como algo que la falta de que tiene que ser detectado a fin de evitar resultados falsos. Tomando este punto en serio a la denegacin de una fraccin importante de los problemas de series de tiempo, incluyendo los ejemplos ms destacados, es decir, la mayora de los datos de las finanzas, la meteorologa y la biologa. Est bastante claro que el mero rechazo de estos problemas difciles no es satisfactoria y que tendr que desarrollar herramientas de anlisis de realidad, entender y predecir datos no estacionarios. Algunos se han hecho sugerencias para la deteccin de control de las fluctuaciones parameters.89-92 La mayora de estos pueden ser vistos como versiones continuas del problema de clasificacin, otra aplicacin que no est debidamente representado en TISEAN todava. La publicacin de software, o las revisiones y libros de texto para el caso, en un campo en evolucin tan rpidamente como el anlisis no lineal de series de tiempo siempre tendr el carcter de una instantnea de la situacin en un momento dado. Tener las opciones o bien esperar hasta que el campo ha saturado suficiente o con el riesgo de que los programas o declaraciones, quedar obsoleto pronto, se opt por la segunda opcin. Esperamos que de este modo, puede contribuir a la evolucin de la materia. AGRADECIMIENTOS Queremos agradecer a Eckehard Olbrich, Marcus Richter, Andreas Schmitz y que han hecho contribuciones al proyecto TISEAN, y los usuarios que pacientemente hecho frente a las primeras versiones del software, en particular, Hermes, Ulrich. Damos las gracias a Leci Flepp, Tufillaro Nick, Riccardo Meucci, y Ciofini Marco por permitirnos utilizar sus datos de series temporales. Este trabajo fue apoyado por el SFB 237 de la Deutsche Forschungs gemeinschaft.
Prediction of Particulate Air Pollution using Neural Techniques
Hemos analizado la posibilidad de predecir las concentraciones horarias promedio de la atmsfera suspendida El material particulado con dimetro aerodinmico inferior a 2,5 micras (PM2.5) horas de anticipacin utilizando los datos obtenidos en el centro de Santiago, Chile. Mediante la realizacin de algunas pruebas estndar que se utiliza en el estudio de sistemas dinmicos, que son capaces de extraer algunas caractersticas de la serie temporal de datos. Utilizamos esta informacin para estimar la cantidad de datos sobre el pasado para ser utilizado como entrada para una red neuronal para predecir los valores futuros de las concentraciones de PM2.5. Se demuestra que la mejora de las predicciones es posible mediante el uso de otra red neural para reducir el ruido en la serie original. Los mejores resultados se obtienen con un tipo de red neuronal, lo que equivale a una regresin lineal. Hasta seis horas de anticipacin, las predicciones generadas de esta manera tienen errores significativamente menor que las predicciones basadas en la persistencia de la media a largo plazo de los datos. 1. Introduccin Muy a menudo tenemos los resultados de los experimentos que no pueden ser interpretadas con un modelo simple. Sin embargo, si tenemos una gran cantidad de datos medidos, el contenido de la informacin podra ser muy til para comprender los procesos subyacentes. En los ltimos aos, las herramientas se han desarrollado diversos que hacen un uso eficiente de esta informacin, permitiendo la formulacin de un modelo matemtico y / o la prediccin de valores futuros de la variable en estudio [1]. En el presente trabajo, se analizan las mediciones de una variable escalar sola toma en un punto espacial fijo y en intervalos regulares de tiempo. Nos concentramos en un tipo particular de series de tiempo, el de la contaminacin atmosfrica por material particulado con dimetro aerodinmico inferior a 2,5 mm (PM2.5), los datos obtenidos en una estacin ubicada en la ciudad de Santiago de Chile. Aqu la prediccin es muy til para que las autoridades a tomar medidas para la proteccin de la poblacin cuando los niveles superan los valores establecidos perjudiciales. A pesar de las normas vigentes en la mayora de los pases (incluido Chile) se establecen para las PM10 (partculas de menos de 10 mm de dimetro), los resultados de recientes estudios epidemiolgicos sugieren que las normas tambin se debe establecer para PM2.5 [2-4]. Los datos que se investigue cada hora los valores medios de las concentraciones de masa de las partculas obtenidas durante el perodo de otoo e invierno de 1994. Debido a las circunstancias geogrficas, climticas y de desarrollo urbano de la ciudad de Santiago, que es entre mayo y septiembre, que los ms altos niveles de contaminacin del aire se observan. La funcin de auto-correlacin muestra una periodicidad doce horas y una lenta decadencia, lo que indica la presencia de componentes deterministas en la serie. Se ha establecido que para caracterizar el proceso, el intervalo de tiempo de muestreo ptimo no es necesariamente la dada por el experimento, pero que se puede obtener mediante la evaluacin de la funcin de medio de informacin mutua, que es una medida del grado en que el resultado de una medicin de una variable determinada a cabo en el tiempo t est conectado con el resultado de una medicin de la misma variable a cabo en t1Dt tiempo [1]. Elegir el momento de la aparicin del primer mnimo de esta funcin como el intervalo de muestreo asegura, en primer lugar, que los puntos sucesivos de datos son lo suficientemente diferentes, y en segundo lugar, que no son estadsticamente independientes. Con este intervalo de tiempo, construimos una nueva serie de tiempo y calcular el porcentaje de "falsos vecinos ms cercanos" en funcin de la dimensin (definida como el nmero de puntos de datos consecutivos con el pasado para estimar el siguiente punto de datos en la serie). Un conjunto de puntos de datos se consideran como un "vecino ms cercano falsos" cuando, en la reconstruccin de las series de tiempo, que se generan correctamente por casualidad, y no a travs de la dinmica del sistema (el clculo estadstico de los falsos vecinos ms cercanos se describe con ms detalle en la seccin sobre la determinacin de la dimensin de embedding). La dimensin en la que el porcentaje de falsos vecinos ms cercanos llega a cero se define como la incorporacin de la dimensin del proceso. Este valor indica el nmero de valores pasados que tener en cuenta a fin de ser capaces de predecir el comportamiento futuro. Como han hecho otros autores con diferentes tipos de series de tiempo, hemos utilizado la informacin de la dimensin de incrustacin para fijar el nmero de entradas para alimentar un modelo de red neuronal para la prediccin diseados [5]. Dado que los modelos de redes neuronales se han utilizado como una herramienta no lineales para la prediccin de series de tiempo en una variedad de aplicaciones [6,7], se decidi investigar la posibilidad de feed-forward redes neuronales para predecir las concentraciones de PM2.5 en la atmsfera, con un nmero de entradas igual a la dimensin de inclusin y una salida, que se corresponde con el valor futuro que queremos predecir. La necesidad de incluir a las capas ocultas de neuronas ha sido analizado. Una red neuronal feedforward sin capas ocultas y una funcin de transferencia lineal corresponde a una regresin lineal. El uso de una funcin no lineal como una sigmoide o tangente hiperblica y / o la inclusin de una capa oculta con un nmero variable de neuronas se hacen de la red un dispositivo no lineal. Para implementar la red neural, la serie se divide en capacitacin y equipos de prueba. Con el conjunto de entrenamiento, los pesos que se asignan de la entrada en la salida se determinan. La eficiencia de esta asignacin se establece al comparar los valores calculados y los valores reales del conjunto de pruebas. Hemos encontrado que las mejores predicciones que pueden generar corresponden a una red neuronal sin capas ocultas. Las predicciones de ms de seis horas de anticipacin, en promedio, no mucho mejor que el promedio de desviacin de la media. Mejores predicciones se haban producido con anterioridad con las redes neuronales diseadas por ensayo y error, sin rigor con la informacin del tiempo de retardo y la incrustacin de dimensin [9]. La razn de los resultados relativamente pobres con el esquema descrito anteriormente puede ser la inexactitud en la determinacin del tiempo de retardo y la dimensin de incorporacin debido a la presencia de ruido. Se ha procedido a eliminar el ruido de los datos mediante el uso de un mtodo nuevo de la red neuronal de uso frecuente para la compresin de datos [10]. De esta manera, se ha generado una serie de tiempo ms suave para el PM2.5 de datos. Un nuevo clculo del tiempo de retraso y la dimensin de incrustacin permite el diseo de una red neuronal con menos errores de prediccin, que ahora son del mismo orden de magnitud que los obtenidos por ensayo y error. Dado que el nmero de neuronas presentes en la red que utiliza la informacin de la incorporacin de la dimensin es mucho menor que en la red implementada por ensayo y error, en el primer caso tenemos, como una ventaja prctica, que vamos a necesitar un clculo mucho menor tiempo. 2. Los datos de cada hora un promedio de PM2.5 las concentraciones en masa para el ao 1994 fueron obtenidos de forma continua por medio de un instrumento de tipo masa oscila mecnicamente equilibrio. La temperatura de la corriente de la muestra se mantiene internamente a 50 C. La fraccin de masa de las partculas PM2.5 atmsfera se compone de partculas con un dimetro aerodinmico de hasta 2,5 mm. El instrumento se realiz en la estacin A del sistema de Santiago de vigilancia pblica de calidad del aire, designado como MACAM, esta estacin se encuentra a unos 100 m NO de Casa de Gobierno (Palacio de La Moneda) en el centro de Santiago, Chile. Hemos optado por trabajar con datos de 05.01 a 09.30, porque es durante estos meses que, debido a condiciones desfavorables para la dispersin de las partculas de la atmsfera, la contaminacin del aire en Santiago alcanza los niveles ms altos. Nuestra serie de tiempo por lo tanto, tiene 3672 puntos. Valor promedio y la desviacin estndar son 71 y 45, respectivamente, en unidades de mg/m3. Hemos calculado la funcin de auto-correlacin C (T) de la serie de tiempo: C (T) 5 sobre n50 s (n) s (n1T) (1) donde s (n) es la concentracin de PM2.5 en el tiempo n, N 5 3672 y T-5 0,1,2,. . . La figura 1 muestra la trama de C (T) de los datos objeto de estudio. Podemos ver los picos a los 12, 24, 36,. . . horas, lo que indica que un determinado nivel de contaminacin tiene una tendencia a repetirse cada doce horas, al menos cualitativamente. La coherencia de mucho tiempo de la funcin de auto-correlacin es un indicador del comportamiento determinista [5]. La estructura de esta funcin de autocorrelacin se puede explicar por el hecho de que la variacin diaria de la concentracin de PM2.5 parece ser, en promedio, muy similar para todos los das de la semana durante el perodo considerado. La Figura 1 tambin muestra la grfica de la funcin de auto-correlacin despus de la reduccin de ruido (ver la seccin de filtrado de ruido). Las concentraciones medias en funcin del momento del da se muestran en la figura. 2, donde las medias se toman ms de los 153 das presente en el intervalo de estudio. Se observan dos picos de concentracin, que parecen estar relacionados con el trfico de vehculos de motor. Ya que una de las principales fuentes de PM2.5 son las emisiones de vehculos de motor, y dado que la estacin de medicin se encuentra cerca de una zona donde los atascos son frecuentes, especialmente en las horas punta de maana y tarde, la curva observada no es inesperado. El aparente retraso de la concentracin mxima en comparacin con las horas punta siempre se puede atribuir al tiempo empleado por los contaminantes a la deriva desde el origen hasta la medicin de la estacin. Una demora adicional se espera en la noche, porque despus del atardecer (alrededor de las 18:00 horas) las corrientes de conveccin atmosfrica se reduce significativamente. 3. Determinacin de la dimensin de incrustacin La dimensin de incorporacin de un sistema dinmico es una dimensin global entera que da el nmero de coordenadas necesarias para desplegar su trayectoria en el espacio de fase. Para calcular la dimensin de una serie temporal de datos experimentales, debemos determinar primero el retardo de tiempo adecuado para la muestra de datos. En general, este retardo de tiempo optimizado es diferente del tiempo de retardo en la serie de tiempo original. Una vez que tenemos este retraso de tiempo T, y despus de la eleccin de un suficientemente alto dimensin d, para cualquier punto s de datos (k), el conocimiento del vector y (k) 5 (s (k), s (k 1 T),.. ., s (k1 (d21) T)), ser suficiente para predecir la evolucin del sistema. En el espacio d-dimensional, vector y (k) tiene un vecino ms cercano YNN (k), que es el vector de la distancia euclidiana al menos a la misma. Si d es menor que dE, es muy probable que este vecino ms cercano es falsa, es decir, que corresponde a una proyeccin del espacio dEdimensional real. Incorporacin de la dimensin de dE se puede determinar mediante la bsqueda de la dimensin d por encima del cual el porcentaje de falsos vecinos ms cercanos tiende a cero. En la prctica, se ha encontrado que si la cantidad s (k1dT) 2sNN (k1dT) u / RA es del orden o mayor que 2, entonces YNN (k) es un vecino cercano falsa. Aqu SNN (k1dT) es el componente d11 de la YNN vector (k) y la AR es el valor eficaz de los datos respecto a su media. Se ha sugerido que la eleccin adecuada del tiempo de retardo T0 es el primer mnimo de la funcin de informacin mutua promedio que se compara las mediciones de la variable s en el tiempo T y n1T tiempo [1]. El promedio de la funcin de informacin mutua I (T) se define como: I (T) 5 Ss (n), s (n1T) P (s (n), s (n 1T)) log2 [(P (s (n), s (n1T )))/( P (s (n)) P (s (n (2) 1T)))] donde P (s (n)) es la probabilidad de obtener el valor s en el tiempo n y P (s (n), s (n1T)) es la probabilidad conjunta de obtener un determinado valor de la variable s en el tiempo n y algunos otro valor de s en n1T tiempo. Estas probabilidades se calculan numricamente a partir de la una y dos dimensiones histogramas de la serie, respectivamente. Para nuestros datos, I (T) se muestra en la fig. 3, que parece indicar que para la serie original, que debe elegir T 5 de 7 horas. Con este valor de tiempo de retraso, se calcula el porcentaje de falsos vecinos ms cercanos en funcin de la dimensin, la obtencin de lo que se muestra en la fig. 4. Debemos tomar la dimensin de incrustacin que para que la variable dependiente tiende a cero. Ya que en este caso la funcin se reduce rpidamente, pero no va exactamente a cero, pero se mantiene aproximadamente constante en un valor bajo, una dimensin incorporacin dE 5 4 se consider apropiado. 4. Prediccin utilizando un esquema de redes neuronales Prediccin de la concentracin de la masa de PM2.5 en el tiempo t puede ser generada a partir de la siguiente asignacin: yt 5 pies (x1, x2,..., xd) (3) donde x1 5 s (t-T), x2 5 s (t-2T),. . ., Xd 5 s (t2dT), representan mediciones consecutivas de los datos de la contaminacin. En general, para cada t discreto, una funcin diferente pies se utiliza. La forma de esta funcin se obtiene despus de ajustar un conjunto de parmetros que lo define. Los resultados de estudios recientes han demostrado la ventaja de los mtodos ms tradicionales de redes neuronales mtodos estadsticos para la prediccin de series temporales [6, 7]. Hemos analizado la posibilidad de predecir el PM2.5 de datos mediante feed-forward redes neuronales multicapa. En este caso, los flujos de informacin desde la entrada hasta la salida sin retorno, y los parmetros a ajustar son esencialmente los pesos de conexin de una capa de entrada con n unidades o neuronas, a una unidad de salida o de neuronas, con el tiempo que pasa a travs de una o ms capas ocultas con un nmero adecuado de unidades. Por lo general, los datos disponibles se dividen en un conjunto de entrenamiento (de regulacin) y un conjunto de pruebas. Los pesos ptimos se obtienen mediante el uso de "backpropagation" [8]. La calidad de la prediccin se obtiene de la actuacin con el equipo de prueba de los datos. Porcentaje de errores de las predicciones (PE) se calcular de acuerdo con PE 5 kuytp 2 ytaul kytal (4) donde YTP es el valor esperado, YTA es el valor real, y kl medio promedio en los casos de prueba. Si los pies de funcin es una funcin lineal de una combinacin lineal de las entradas, tendramos un perceptrn lineal, que es en la prctica de una regresin lineal. Espacio adicional para un buen ajuste de los datos se puede lograr mediante la introduccin de un conjunto de nodos ocultos ZTK, (k 5 1,..., N), de tal manera que ZTK 5 f (wtk1x11... 1wtkdxd un wtk0) (5) donde x1,. . ., Xd son las entradas al nodo k de la capa oculta, wtkj (j 5 1,..., D) son los pesos de conexin entre la entrada y las capas ocultas, y ZTK es la k de entrada al nodo de salida. La salida es yt 5 f (vt1zt1 1... 1 1 vtnztn vt0) (6) donde vtk son los pesos de conexin entre la capa oculta y de salida. La funcin f utiliza con mayor frecuencia es una sigmoide: 1 1 e2 (7) o una tangente hiperblica. Hemos dejado los primeros 2900 puntos de la serie de datos para la formacin, y los restantes 772 para la prueba. De acuerdo con el valor de la incorporacin de la dimensin calculada, para un intervalo de tiempo T 5 7 horas, una red neuronal con cuatro unidades en la capa de entrada y una salida se lleva a cabo. Para construir el conjunto de entrenamiento se seleccionan los puntos 1, 8, 15 y 22 para la entrada y el punto 23 como salida si queremos predecir una hora de antelacin, el punto 24 durante dos horas, etc A continuacin, aadimos los puntos 2, 9, 16 , 23 como entradas y 24 como salida durante una hora, 25 durante dos horas, etc De esta manera, se generan 2.876 casos de entrenamiento para cada una de las 24 redes diseados, uno para cada hora se espera para predecir el futuro, de un a veinticuatro horas. El equipo de prueba se genera de una manera similar, a partir del punto 2901. Despus del entrenamiento, con los pesos errores fijos, promedio sobre el conjunto de pruebas (PE) se evalan. Los resultados se muestran en la figura. 5. Hemos encontrado que las mejores predicciones se obtienen con una red sin capas ocultas, con f (X) 5 X, que corresponde a una aplicacin lineal. Para la comparacin se muestran los resultados de las predicciones generadas utilizando una red neuronal diseada por ensayo y error (sin necesidad de utilizar explcitamente los resultados de la demora de tiempo y la dimensin de embedding). Esta red (24 3 1 ensayo) tiene 24 unidades en la capa de entrada y no capa oculta. Tiempo de retardo en este caso es T 5 1 y otra vez f (X) 5 X. Esta estructura fue motivado por los estudios anteriores sobre el mismo conjunto de datos [9]. Como referencia, la desviacin media de los datos reales del valor real de la media (media dev. Significar 5 0,49) en la pantalla. Se puede observar en esta figura que las predicciones de uso de la red con 24 unidades de entrada son mejores que los obtenidos con la red con cuatro unidades de entrada. Esta diferencia puede deberse en parte al hecho de que la determinacin de la incorporacin de dimensin no es muy precisa, ya que nunca la curva para el porcentaje de vecinos ms cercanos (Fig. 4) alcanza el valor cero, probablemente debido a la presencia de ruido . La red de 24 unidades de entrada tiene una mejor oportunidad para promediar el ruido, alcanzando una mejor prediccin. Tambin podemos ver que las predicciones de importantes utilizando una red neuronal es posible slo hasta el fin de seis horas de antelacin. Teniendo en cuenta las predicciones de 1 a 6 horas de antelacin, el perceptrn con 24 entradas muestra un error promedio de 5.3% menor que el perceptrn con cuatro entradas. Hemos estudiado el efecto del uso de una tangente hiperblica como funcin de transferencia en todas las redes, pero hemos comprobado que esto no conduce a una mejora significativa con respecto a un perceptrn lineal. 5. Filtro de ruido Los resultados mostrados anteriormente indican que el conjunto de datos que estamos analizando tiene una cantidad significativa de ruido, que es probablemente generados durante el proceso de medicin. La funcin de auto-correlacin se supone que debe dar informacin til sobre el proceso subyacente, con un promedio del ruido. Por esta razn, hemos puesto en marcha un procedimiento de reduccin de ruido, que tambin se basa en tcnicas de redes neuronales. Consiste en lo siguiente: dividir la serie en grupos que contienen datos de Ng Np punto cada uno. A continuacin, el diseo de una red neuronal de tres capas que tiene Np unidades en la capa de entrada, NH (con Nh, Np) unidades en la capa oculta y las unidades de Np en la capa de salida. Aqu los grupos Ng se utilizan tanto para entrenamiento y pruebas. El objetivo es que la red para reproducir la entrada a la salida, dejando de lado los componentes de alta dimensin (que es el caso de ruido) [10]. Los resultados generados en el proceso de pruebas se pegan juntos para crear una serie con la reduccin de ruido. Tomamos Nh ser el valor ms bajo que no implica una destruccin significativa de la estructura revelada por la funcin de auto-correlacin. Hemos utilizado Np 5 24, y nos encontramos con que NH 5 6 es una eleccin apropiada. En estas condiciones, la curva de la funcin de auto-correlacin es simplemente desplazado verticalmente, como se muestra en la fig. 1. La nueva serie de tiempo tiene una distribucin ms suave, como puede verse en la figura. 6, donde se ha representado la concentracin msica de PM2.5 (mg/m3), tanto para los datos originales y los datos modificados por las primeras 200 horas del perodo en estudio. Despus de la reduccin del ruido, la curva de la variacin diaria promedio de PM2.5 concentraciones (Fig. 2) se mantiene prcticamente sin cambios. Para la nueva serie histrica de datos se ha procedido, como antes, lo que significa que hemos calculado un intervalo de tiempo nuevo y la incorporacin de la dimensin correspondiente a fin de disear la red neuronal. La nueva funcin de medio de informacin mutua se muestra en la fig. 3. Desde que (4) es ligeramente menor que yo (5), hemos optado por T 5 4. Para este tiempo de retardo se ha representado el porcentaje de falsos vecinos ms cercanos en funcin de la dimensin, la obtencin de lo que se muestra en la fig. 4. Observamos que una buena eleccin de la dimensin de incorporacin de nuevo dE 5 4, pero en este caso la estimacin parece ms fiable ya que por las dimensiones superiores, el porcentaje se queda mucho ms cerca de cero. A continuacin, proceder como con los datos originales, hemos puesto en marcha una red neuronal con cuatro entradas y una salida, y hemos ajustado los parmetros con los primeros 2900 puntos para la formacin, teniendo en cuenta el retardo de tiempo nuevo. Los errores de prediccin para el conjunto de la prueba se muestra en la figura. 7. Una vez ms, se comparan los resultados con los obtenidos mediante una red de dos capas con 24 entradas, una salida y T 5 1. Para la reduccin de ruido datos de series de la desviacin media de la media baja a 0,45, por lo que volver a mostrar esta cantidad como referencia, ya que slo los errores de prediccin ms pequeo que esto puede ser considerado de inters. Se puede observar que ahora, los errores de prediccin son ms pequeos que los obtenidos con los datos originales, y que las predicciones con los 4 31 (T 5 4) red ms cercanas a las de los 24 3 1 (T 5 1) de la red. El 24 3 1 de la red todava parece reflejar mejor la tendencia de los datos, teniendo en cuenta que la cantidad relativamente pequea de los datos disponibles no permiten una determinacin muy precisa de la dimensin de insercin, y que para poder realizar predicciones con ms de una hora en los errores de anticipacin tienden que se acumulen. Una vez ms, las predicciones con redes neuronales parecen importantes a la orden de seis horas de antelacin. Teniendo en cuenta las predicciones de 1 a 6 horas de antelacin, el perceptrn con 24 entradas muestra un error promedio de slo un 4,3% ms bajo que el perceptrn con 4 entradas. Como en el caso anterior hemos verificado que el problema en cuestin el uso de una funcin de transferencia no lineal no da mejores resultados que un perceptrn lineal. 6. Conclusin Nuestros resultados muestran que la prediccin de concentraciones de partculas contaminantes en la atmsfera de una ciudad contaminada es posible cuando se utilizan herramientas desarrolladas en el modelado de sistemas dinmicos y tcnicas de redes neuronales. La informacin extrada de la serie de tiempo PM2.5 se puede utilizar para implementar una arquitectura de red neuronal con el fin de hacer predicciones de esta cantidad durante varias horas en el futuro. Una reduccin de ruido anteriores utilizando redes neuronales de nuevo se encontr que era conveniente a fin de reducir significativamente los errores de prediccin. Una correcta determinacin de un tiempo de retardo y la dimensin ptima de la incrustacin de las series de datos en estudio ha permitido el diseo de una red neuronal para hacer predicciones en un tiempo computacional relativamente bajo. Los mejores resultados se obtuvieron con una red neuronal sin capas ocultas, lo que equivale a una regresin lineal (esto no ser el caso general, porque cuando el sistema subyacente es no lineal, una red neuronal con las capas ocultas sera ms apropiado). Hasta seis horas de anticipacin, las predicciones generadas de esta manera tienen errores considerablemente menor que las predicciones basadas en la persistencia de la media a largo plazo de los datos. Agradecimientos. Nos gustara agradecer el apoyo del Departamento de Investigacin de la Universidad de Santiago de Chile (DICYT), a travs del proyecto 049631PJ, y Fondo Nacional de Ciencia y Tecnologa (FONDECYT) a travs del proyecto 1970418. Nos gustara tambin dar las gracias a A. Trier para una lectura crtica del manuscrito.
Redes neuronales y modelos de regresin mltiple para la prediccin de PM10 en Atenas: una evaluacin comparativa. Chaloulakou A , G Grivas , Spyrellis N . Fuente Departamento de Ingeniera Qumica, Universidad Tcnica Nacional de Atenas, Atenas, Grecia. dchal@central.ntua.gr Abstracto La contaminacin atmosfrica de partculas en las zonas urbanas se considera que tiene un impacto significativo sobre la salud humana. Por lo tanto, la capacidad de hacer predicciones exactas de las concentraciones de partculas del ambiente es importante para mejorar la conciencia pblica y la gestin de la calidad del aire. Este estudio examina la posibilidad de utilizar mtodos de redes neuronales como herramientas para la materia particulada diaria media con un dimetro aerodinmico <10 micras (PM10) previsin de la concentracin, ofreciendo una alternativa a los modelos estadsticos utilizados hasta el da de hoy. Basado en un inventario de datos, en un lugar fijo el centro de Atenas, Grecia, que van en un perodo de dos aos, y el uso de variables meteorolgicas, principalmente como insumos, modelos de redes neuronales y modelos de regresin mltiple se han desarrollado y evaluado. Las estadsticas de comparacin utilizado indican que el enfoque de redes neuronales tiene una ventaja sobre los modelos de regresin, expresada tanto en trminos de error de prediccin (error cuadrtico medio valores ms bajos de 8.2-9.4%) y de la capacidad de prediccin de episodios (false valores de la frecuencia inferior de la alarma por 7 - 13%). Los resultados demuestran que las redes neuronales artificiales (RNA), debidamente capacitado y formado, pueden ofrecer soluciones adecuadas a las demandas de partculas pronstico de la contaminacin.
Pgina 1 17
Simposio europeo sobre Computer Aided Process Engineering - ESCAPE17 V. Plesu y PS Agachi (Editores) 2007 Elsevier BV Todos los derechos reservados. 1 Prediccin de la calidad del aire en Uberlndia, Brasil, con modelos lineales y redes neuronales Taisa S. Lira, Marcos, Barrozo, Adilson J. Assis Escuela de Ingeniera Qumica de la Universidad Federal de Uberlndia, Av.. Joo Naves de vila, 2121, 38408-100, interior de Minas Gerais, Brasil, e-mail: ajassis@ufu.br Abstracto La contaminacin de partculas de aire se asocia con una serie de efectos sobre la salud humana, incluidos los efectos sobre el sistema respiratorio y cardiovascular, asma y la mortalidad. Por lo tanto, el desarrollo de una previsin eficiente y de alerta temprana sistema de informacin de calidad del aire hacia el ciudadano se convierte en un evidente la necesidad y el imperativo. El objetivo de este trabajo fue investigar que capacidad de pronstico utilizando modelos lineales (como ARX, ARMAX, la salida de error y Box-Jenkins), y las redes neuronales. Fueron utilizados meteorolgicos variables y 24 h PM 10 la concentracin de hoy en da como datos de entrada. Como la produccin prevista por los modelos, la PM 24 h 10 concentracin se obtiene, con horizonte de prediccin de hasta tres das antes. Los resultados mostraron que bastante buenas estimaciones se puede lograr por todos los modelos, sino modelos de Box-Jenkins mostr un mejor ajuste y la previsibilidad. Palabras clave La calidad del aire, los modelos lineales, redes neuronales, material particulado, la salud pblica. 1. Introduccin En los ltimos aos, la calidad del aire se ha convertido en un factor importante que contribuye a la calidad de vida en reas urbanas, especialmente en zonas densamente pobladas y las zonas industrializadas. La contaminacin de partculas de aire se asocia con una serie de efectos en la salud humana, incluidos los efectos sobre los sistemas respiratorio y cardiovascular
Pgina 2 2 TSLira et al. sistemas, el asma y la mortalidad [1,2]. Prediccin a corto plazo de la calidad del aire es necesaria para tomar medidas preventivas y evasivas durante los episodios de la contaminacin atmosfrica. De esta manera, al influir en los hbitos de la gente todos los das o por la imposicin de restricciones sobre el trfico y la industria, debera ser posible para evitar medicacin excesiva, reducir la necesidad de tratamiento en el hospital e incluso prevenir las muertes prematuras [3,4]. La tendencia en los ltimos aos ha sido la utilizacin de mtodos estadsticos en lugar de ms modelos deterministas tradicionales para predecir la contaminacin del aire. Redes neuronales (NN), los modelos se han utilizado para la previsin de una amplia gama de contaminantes y sus concentraciones en diversas escalas de tiempo, con muy buenos resultados [5-8]. En su visin general de las aplicaciones de NN en las ciencias atmosfricas, Gardner y Dorling [8] en el que las redes neuronales suelen dar tan buenos o mejores resultados que los mtodos lineales. Los modelos lineales se utilizan aqu como una novedad, desde la previsin de la contaminacin del aire puede ser visto como similar a la identificacin del sistema. Las ventajas de estos modelos es que no requieren de muy exhaustiva informacin acerca de los contaminantes del aire, los mecanismos de reaccin, las condiciones meteorolgicas los parmetros o el flujo de trfico y que tienen la capacidad de permitir no lineal las relaciones entre las variables de prediccin muy diferente. Estos hechos y la calidad de los resultados que han presentado son los motivos que los hacen ms atractivo de aplicar que otros modelos. El objetivo de este trabajo fue investigar la capacidad de pronstico de la los mtodos siguientes: modelos lineales (como ARX, ARMAX, salida de error y Box-Jenkins), y las redes neuronales. Los modelos utilizados variables meteorolgicas y 24 h PM 10 la concentracin de hoy en da como datos de entrada. Dado que la produccin prevista por el modelo, la PM 24 h 10 concentracin se obtiene, con el horizonte de prediccin de hasta tres das antes. 2. Datos y la metodologa 2.1. Datos Este estudio se basa en PM 10 los datos recogidos por la concentracin de la Facultad de Qumica Ingeniera de la Universidad Federal de Uberlndia (UFU) durante los aos de 2003, 2004 y 2005. Las muestras fueron tomadas con equipos de alto volumen de muestras periodos de 24 horas, cada tres das, de acuerdo con las normas establecidas por ABNT (Asociacin Brasilea de Normas Tcnicas). El equipo est situado en la estacin central de autobuses de la ciudad de Uberlndia. Ms detalles sobre los datos metodologa de recoleccin se puede obtener en otra parte [9]. Se sabe que la concentracin de contaminante atmosfrico est fuertemente relacionada con las condiciones meteorolgicas. Los estudios sobre la influencia de la meteorologa condiciones de la concentracin de contaminantes del aire se puede ver en Elminir y Hien et al. [10,11]. Los datos meteorolgicos utilizados en el estudio fueron obtenidos en el
Pgina 3 Prediccin de la calidad del aire en Uberlndia, Brasil, el uso de modelos lineales y redes neuronales 3 estacin climtica del Instituto de Geografa de la UFU encuentra 2.07 kilometros lejos desde el lugar de PM 10 de muestreo. 2.2. Las redes neuronales NN son estructuras matemticas que hacen uso de una combinacin compleja de los pesos y las funciones para convertir las variables de entrada en una salida (prediccin). NN son capaces de aprender de los patrones que se les presentan y de los errores se comprometen en el proceso de aprendizaje, por lo que, finalmente, debe identificar los patrones de nunca antes visto (generalizacin). En el estudio actual, el perceptrn multicapa (MLP) es una adaptacin. Es el tipo ms comn de la red neuronal feedforward en la atmsfera ciencias [8]. MLP est compuesto de al menos tres capas de neuronas: la entrada capa, la capa oculta (s) y la capa de salida. La capa de entrada no juega funcin computacional sino que sirve simplemente para pasar el vector de entrada a la red. Cada unidad en la capa oculta resume sus aportaciones, los procesos con una funcin de transferencia y distribuye el resultado a la capa de salida. El entrenamiento de un MLP es el procedimiento mediante el cual los valores de los pesos individuales se determinan. Diferentes algoritmos de entrenamiento se podran aplicar para minimizar el funcin de error, pero el ms ampliamente utilizado es el algoritmo de retropropagacin [6]. Este algoritmo es otra cosa que la aplicacin de la gradiente de descenso mtodo, usando como funcin objetivo la suma de errores cuadrados entre la produccin neta y los datos de entrenamiento. 2.3. Los modelos lineales Un general de entrada-salida del modelo lineal de un sistema nico de salida con la entrada uy y la salida se puede escribir [12]: B (q) C (q) Una y (q) (t) u (t) e (t) F (q) D (q) = + (1) donde e (t) es ruido blanco y con un un b b c c d d F F n 1 1 n n 1 1 n n 1 1 n n 1 1 n n 1 1 n A (q) 1 aq aq B (q) bq bq C (q) 1 cq cq D (q) dq 1 dq F (q) 1 fq fq - - - - - - - - - - = + + + = + + = + + + = + + + = + + + ... ... ... ... ... (2)
Pgina 4 4 TSLira et al. La estructura general puede tener hasta 32 conjuntos de diferentes modelos, dependiendo de cul de los cinco polinomios A, B, C, D y F se utilizan. Sin embargo, slo cuatro posibilidades se utiliza aqu, y que se resumen en la Tabla 1. Tabla 1. Algunos modelos como casos especiales de la ecuacin (1).. Nombre del modelo estructura ARX ARMAX OE (salida-error) BJ (Box-Jenkins) Polinomios utilizados en la ecuacin (1). A, B, A, B, C B, F B, C, D, F 3. Resultados y discusin Primero de todo, un anlisis de regresin mltiple (nivel de significacin de p <0,05) aplicado a revelar los parmetros atmosfricos controlar las variaciones da a da de PM 10 . Temperatura ( o C), humedad relativa (%), precipitacin (mm), velocidad del viento (M / s), direccin del viento (grados, 0 de N) y el sol (h), adems de los das de la semana, se demostr que los parmetros ms importantes. Podran explican el 64% de las varianzas de las 24 h PM 10 concentraciones. El conjunto de datos (total = 341) ya estn normalizados (media = 0 y desviacin estndar = 1) se dividi de la siguiente manera: 2 / 3 para la formacin / valoracin y 1 / 3 para su validacin. Tenga en cuenta que la direccin del viento y las variables dicotmicas da se utiliza el seno y el coseno funciones. Esto permiti a los algoritmos neuronales para que funcione correctamente a pesar de las discontinuidades en las seales cclicas original [7]. El software se utiliza Matlab. Los modelos lineales se ajustaron mediante el sistema La identificacin de herramientas. Para el modelo de red neuronal (MLP), el algoritmo de aprendizaje utilizada fue de Levenberg-Marquardt retropropagacin (Neural Network Toolbox). Las funciones de transferencia seleccionados para las capas se tangente hiperblica para el capa oculta y lineal de la capa de salida. El nmero de neuronas en el capa oculta y de retardo de entrada para MLP, y las rdenes de los polinomios y retrasos de los modelos lineales se encuentra el ptimo de validacin cruzada. Para la evaluacin del desempeo modelos, tres medidas estadsticas, que se utilizan ms frecuentemente en la literatura, fueron seleccionados, a saber, la media de la raz cuadrados error (RMSE), el coeficiente de determinacin (R 2 ) Y el ndice de acuerdo (d). A pesar de que la R 2 tiene sus defectos conocidos en ciertas situaciones [13], esta medida fue utilizada con el fin de mantener la compatibilidad con otros los estudios. El rendimiento de todos los modelos se comparan sobre la base de la predicho y el observado PM 10 concentracin. Los resultados se resumen en la Tabla 2.
Pgina 5 Prediccin de la calidad del aire en Uberlndia, Brasil, el uso de modelos lineales y redes neuronales 5 Tabla 2. Indicadores de desempeo de los modelos ARX ARMAX OE BJ MLP RMSE 0,5078 0,5044 0,6495 0,4039 0,5424 d 0,9320 0,9318 0,8795 0,9629 0,9140 R 2 0,7799 0,7842 0,6394 0,8120 0,7591 Otras comparaciones se pueden encontrar en la figura. 1, donde los diagramas de dispersin son hechas para el actuaciones de los dos modelos: BJ y MLP. Para un grfico de dispersin, el perfecto caso de la prediccin frente a la observacin se debe mostrar de una intercepcin de cero y un unidad de la pendiente. De acuerdo a las parcelas se muestra en la Fig. 1 y el desempeo de la indicadores en el Cuadro 2, los cinco modelos mostraron una capacidad de buen pronstico para la medida PM 10 concentracin, pero Box-Jenkins modelo claramente dio lo mejor los resultados. Fig.1 Los diagramas de dispersin de observar y predecir PM 10 las concentraciones de: (a) El camionero y MLP (b). Con el fin de visualizar el rendimiento del modelo de Box-Jenkins en el estimacin de los coeficientes del polinomio y MLP en la formacin, la comparacin entre predicho frente a los datos observados se presentan en la Fig. 2. La grfica presentacin muestra a un acuerdo bastante bueno entre la prediccin y la PM observado 10 concentracin, tanto para los datos de estimacin / formacin y para la validacin de datos. 4. Conclusiones Cinco modelos para predecir la calidad del aire con fines fueron evaluados aqu con 24 h PM 10 las concentraciones y las variables meteorolgicas bsicas de la ciudad de Uberlndia (Brasil) recogidos durante los aos de 2003-2005. Los resultados mostr que bastante buenas estimaciones se puede lograr por todos los modelos, pero Box-Jenkins modelo que se presenta el mejor rendimiento. Los modelos propuestos pueden ser utilizado, entre otros, para el gobierno pblico local, como herramienta de control
Pgina 6 6 TSLira et al. del trfico urbano y tambin como un mecanismo de formulacin de polticas pblicas preventivas la poltica en las reas de salud y la movilidad urbana. Fig.2 prevista (lnea azul) frente a observados (lnea negro) datos sobre la formacin / estimacin y predicho (lnea roja) frente a los datos observados (lnea de negro) en la validacin de: (a) El camionero y MLP (b). Agradecimientos Los autores desean agradecer al Instituto de Geografa de la UFU para proporcionar los datos meteorolgicos, as como el Euclides Antonio Pereira Lima proporcionar la PM 10 Los datos de concentracin