Practical Implementation of Nonlinear Time Series Methods

Practical implementation of nonlinear time series methods:
The TISEAN package

Se describe la aplicacin de los mtodos de anlisis no lineal de series de tiempo que se basan en el paradigma del caos
determinista. Una gran variedad de algoritmos para la representacin de datos, prediccin, reduccin de ruido, la
dimensin y la estimacin de Lyapunov, y prueba de linealidad se analizan con especial nfasis en las cuestiones de
aplicacin y la eleccin de los parmetros. Los programas de computadora que implementan las estrategias resultantes
estn disponibles al pblico, como el paquete de software TISEAN. El uso de cada algoritmo se ilustra con una aplicacin
tpica. En cuanto a la formacin terica, que esencialmente se dan referencias a la literatura.
El anlisis no lineal de series de tiempo se est convirtiendo en una herramienta ms y ms fiable para el estudio de la
dinmica compleja de las mediciones. El concepto de pocas dimensiones, el caos ha demostrado ser fructfero en la
comprensin de muchos fenmenos complejos a pesar de que los sistemas naturales muy pocos han demostrado ser
determinista lowdimensional en el sentido de la teora. Con el fin de evaluar la utilidad a largo plazo del enfoque de
series temporales no lineales, como inspirado por la teora del caos, ser importante que los mtodos correspondientes
sean ms ampliamente accesibles. En este trabajo, aunque no es un examen adecuado en el anlisis no lineal de series
de tiempo, trata de hacer una contribucin a este proceso mediante la descripcin de la aplicacin real de los
algoritmos, y su uso apropiado. La mayora de los mtodos requieren la eleccin de ciertos parmetros para cada
aplicacin de series de tiempo especfico. Vamos a tratar de dar orientacin a este respecto. El alcance y la seleccin de
los temas de este artculo, as como las opciones de su aplicacin, que se han hecho, se corresponden con el contenido
de la TISEAN paquete de software que est disponible al pblico desde http://www.mpipks-dresden.mpg.de/ ~ tisean.
De hecho, este documento puede ser visto como un manual de extenderse a los programas de TISEAN. Se llena el vaco
entre la documentacin tcnica y la literatura existente, proporcionando los puntos de entrada para un estudio ms
exhaustivo de los antecedentes tericos.
I. INTRODUCCIN
Caos determinista como un concepto fundamental
est ya bien establecido y descrito en una rica
literatura. El mero hecho de que los sistemas
simples deterministas genricamente un
comportamiento temporal complica con la
presencia de no linealidad ha influido en el
pensamiento y la intuicin en muchos campos.
Sin embargo, se ha cuestionado si la relevancia de
caos para la comprensin de la hora mundial en
evolucin va ms all de un paradigma puramente
filosfico. Por lo tanto, mayores esfuerzos de
investigacin estn dedicados a dos preguntas
relacionadas. La primera pregunta es si la teora del
caos se puede utilizar para obtener una mejor
comprensin e interpretacin de observar el
comportamiento dinmico complejo. La segunda es
si la teora del caos puede dar una ventaja en la
prediccin o control de una evolucin en el tiempo.
Evolucin en el tiempo como una propiedad del
sistema se puede medir mediante la grabacin de la
serie de tiempo. Por lo tanto, no lineal, los mtodos
de series de tiempo ser la clave para las respuestas
de las preguntas anteriores. Este documento est
destinado a fomentar el uso de tales mtodos de
exploracin de un sector de la comunidad cientfica
que no se limita a los tericos del caos. Una serie de
algoritmos ha sido puesto a disposicin en forma de
programas de ordenador por el proyecto1 TISEAN
Dado que este es un territorio relativamente nuevo,
el uso sin gua de los algoritmos tiene un
considerable riesgo de interpretacin equivocada y
los resultados ininteligibles o espurias. En el
presente trabajo, las ideas esenciales detrs de los
algoritmos se resumen y enlaces a la bibliografa
existente se dan. Para evitar la redundancia
excesiva, con el Libro2 texto y la reciente revisin,
tres de la derivacin de los mtodos se mantiene al
mnimo. Por otro lado, las opciones que se han
hecho en la ejecucin de los programas se discuten
ms a fondo, aunque esto puede parecer muy
tcnico en ocasiones. Tambin se sealan las
posibles alternativas a la aplicacin TISEAN.
Vamos a mencionar en este punto una serie de
referencias generales sobre el tema de la dinmica
no lineal. A un nivel introductorio, el libro de Kaplan
y Glass4 est dirigido a un pblico interdisciplinar y
proporciona una buena comprensin intuitiva de los
fundamentos de la dinmica. El marco terico est
completamente descrito por Ott, 5, sino tambin en
los libros ms antiguos de et Berge 'al.6 y Schuster.7
material ms avanzado se encuentra en el trabajo
por Katok y Hasselblatt.8 Una coleccin de artculos
de investigacin elaborado por Ott et al 9 cubre
algunos de los aspectos ms prcticos del caos,
como la sincronizacin, el control y anlisis de series
temporales.
El anlisis no lineal de series de tiempo basado en
este paradigma terico se describe en dos
monografas recientes, uno por uno y por
Abarbanel10 Kantz y Schreiber.2 Mientras que el
volumen anterior por lo general asume chaoticity, el
ltimo libro pone cierto nfasis en las aplicaciones
prcticas de series de tiempo que no se
manifiestamente encontrado, ni simplemente
supone que, determinista catico. Esta es la razn
tambin vamos a adoptar en el presente
documento. Una serie de artculos antiguos se
pueden ver como las revisiones, incluyendo
Grassberger et al., 11 Abarbanel et al., 12, as como
Kugiumtzis et al13, 14 La aplicacin del anlisis de
series temporales no lineales a las medidas del
mundo real, donde el determinismo es poco
probable que se presente en un sentido ms fuerte,
se revisa en Schreiber.3 Aparte de estas obras, una
serie de actas de congresos volmenes estn
dedicados a una serie de tiempo catica, incluyendo
Refs. 15-19.
A. Filosofa de la aplicacin TISEAN
Un nmero de personas diferentes se han acreditado
para el dicho de que cada pregunta complicada tiene
una respuesta sencilla que est mal. El anlisis de
una serie de tiempo con un enfoque no lineal es
definitivamente un problema complicado.
Respuestas simples se han ofrecido repetidamente
en la literatura, citando a los valores numricos de
las dimensiones atractor para cualquier sistema
imaginable. La implementacin actual refleja nuestro
escepticismo frente a respuestas tan simples que son
el resultado inevitable de la utilizacin de algoritmos
de recuadro negro. As, por ejemplo, ninguno de los
programas de dimensin''''en realidad se imprimir
un nmero que puede ser citada como la dimensin
atractor estimado.
En cambio, la suma de correlacin se calcula y
herramientas bsicas se proporcionan para su
interpretacin. Es hasta el cientfico que hace el
anlisis para poner estos resultados en su contexto
adecuado e inferir qu informacin l o ella puede
encontrar til y plausible. Hay que destacar que esto
no es simplemente una cuestin de barras de error.
Las barras de error no le diga acerca de los errores
sistemticos y tampoco decir si las suposiciones
subyacentes son justificadas.
El proyecto TISEAN ha surgido de trabajo de los
grupos de investigacin durante varios aos. Algunos
de los programas se basan de hecho en el cdigo
publicado en la referencia. 2.
Sin embargo, todava nos gusta verlo como un punto
de partida ms que un paso concluyente. En primer
lugar, el anlisis no lineal de series de tiempo es an
un campo en rpida evolucin, en particular con
respecto a las aplicaciones. Esto implica que la
seleccin de los temas de este artculo y la seleccin
de los algoritmos implementados en TISEAN son muy
sesgados hacia lo que sabemos ahora y encontr til
hasta ahora. Sin embargo, incluso los conceptos bien
establecidos, como la estimacin de dimensin y de
reduccin de ruido dejan un margen considerable de
alternativas a la aplicacin actual.
A veces, esto se tradujo en dos o ms programas
concurrentes y casi redundante entrar en el paquete.
No tenemos eliminados deliberadamente, estos
despidos ya que el usuario puede beneficiarse de
tener una eleccin. En cualquier caso, es saludable
saber que para la mayora de los algoritmos de la
ltima palabra no se ha pronunciado an ni en ser.
Mientras que el paquete TISEAN contiene una serie
de herramientas para el anlisis lineal de series de
espectro en tiempo ~, autocorrelaciones,
histogramas, etc!, Estos slo son adecuados para una
rpida inspeccin de los datos. ARMA estimacin
espectral, o incluso son industrias en s mismos y nos
referimos al lector-y el usuario de TISEAN a la
literatura existente y software de las estadsticas
disponibles para una ptima y actualizada a la fecha
las implementaciones de estos mtodos
importantes.
Algunos usuarios se perder una cmoda interfaz
grfica para los programas. Sentimos que en este
punto el esfuerzo implementacionales extra no se
justificara por la funcionalidad que se espera
adicional del paquete. Se est trabajando, sin
embargo, para proporcionar interfaces de las
matemticas de alto nivel
~ O de las estadsticas! software.
B. Cuestiones generales de clculo La base natural de
formular algoritmos no lineales de series de tiempo
de la teora del caos es un espacio de fases mltiples
dimensiones, en lugar de la hora o el dominio de la
frecuencia. Ser esencial para la dinmica global en
este espacio de fase para ser no lineal con el fin de
cumplir con las restricciones de nontriviality y
acotacin. Slo en casos particulares, esta estructura
no lineal ser fcilmente representable por una
funcin no lineal global. En cambio, todas las
propiedades se expresan en trminos de cantidades
locales, a menudo adecuado promedios mundiales.
Toda la informacin local ser obtenido de las
relaciones de vecindad de varios tipos de elementos
de series de tiempo. Por lo tanto, un tema
recurrente de cmputo ser la de definir los
vecindarios locales en el espacio de fase. Encontrar
los vecinos en el espacio multidimensional es un
problema comn de la geometra computacional.
Estructuras multidimensionales de rboles son muy
utilizados y tienen atractivas propiedades tericas.
Encontrar todos los vecinos en un conjunto de
vectores N toma O (log N) operaciones, tanto el
conteo total de la operacin es O (n log n). Una
alternativa rpida es particularmente eficaz para
relativamente bajas dimensiones de estructuras
incrustadas
en espacios multidimensionales est dado por el
cuadro con ayuda de mtodos vecino de bsqueda
que puede empujar a la operacin de la cuenta
regresiva para O (N) bajo ciertos supuestos. Ambos
enfoques se revisan en la referencia. 20, con especial
nfasis en las aplicaciones de series de tiempo. En el
proyecto TISEAN, un vecino de bsqueda rpida se
realiza mediante un enfoque de caja asistida, tal
como se describe en la referencia. 2.
No importa en qu dimensin del espacio que
estamos trabajando, vamos a definir los candidatos
para los vecinos ms cercanos en dos dimensiones a
travs de una red de cajas iguales de tiempo. Con
una rejilla de separacin e, todos los vecinos de un
vector x mayor que Epsilon se encuentra en los
cuadros adyacentes. Pero no todos los puntos en los
cuadros adyacentes estn los vecinos, que pueden
ser de hasta 2e de distancia, en dos dimensiones y
arbitraria la medida en las dimensiones superiores.
La bsqueda de los vecinos es un proceso en dos
etapas. En primer lugar, la base de datos de la caja
con ayuda tiene que ser llenado y despus de cada
punto de una lista de vecinos se puede solicitar. Hay
unos pocos casos en los que es aconsejable
abandonar la estrategia de bsqueda rpida y
vecino. Un ejemplo es el programa que hace ruido el
ruido no lineal de filtrado en un flujo de datos. Se
supone que empezar a filtrar poco tiempo despus
de los primeros puntos se han registrado.
As, la base de datos del vecino no se puede
construir desde el principio. Otra excepcin es si ~
bastante corta, 500 puntos, por ejemplo!, De alta
dimensin de datos se procesan.
A continuacin, la sobrecarga de la bsqueda de
vecino se debe evitar y en su lugar un optimizado
recta O (N2) se utilizar el mtodo, como se hace en
c2naive.
Para un transporte, todos los programas esperan
que los datos de series de tiempo en formato de
columnas representadas por nmeros ASCII. La
columna que se procesa puede ser especificado en la
lnea de comandos. Aunque algo intil para el
almacenamiento de datos, nmeros ASCII puede ser
producido y ledo por la mayora de los otros
programas. Todos los parmetros se pueden ajustar
mediante la adicin de opciones del comando, que,
en muchos programas, cambiando los valores por
defecto. Obviamente,
depender de la configuracin por defecto es
particularmente peligroso en un campo tan sutil.
Dado que casi todas las rutinas puede leer desde la
entrada estndar y escribe en la salida estndar, los
programas pueden ser parte de los oleoductos. Por
ejemplo, se les puede llamar desde el interior de los
filtros de software de grficos u otras herramientas
de software que son capaces de ejecutar comandos
de shell. Adems, la conversin de datos o la
compresin se puede hacer sobre la marcha''''de
esta manera. El lector se da cuenta de que aqu
estamos hablando de las plataformas UNIX o LINUX,
que parece ser el ambiente ms apropiado.
Es, sin embargo, espera que la mayora de los
programas ser portado a otros entornos en un
futuro prximo.
Para los lectores familiarizados con los programas
publicados en la referencia. 2 hay que destacar que
estos constituyen la base de una serie de estos
programas TISEAN escrito en FORTRAN.
Los programas de C, incluso si lo hacen cosas
similares, son puestas en prctica con bastante
independencia. Todos los programas C y C11 ahora
utilizan la asignacin dinmica de almacenamiento,
por ejemplo.
II. representacin del Espacio de Fase
Sistemas dinmicos deterministas describir
la evolucin temporal de un sistema en alguna fase
del espacio G, R. Que se puede expresar, por
ejemplo, por medio de ecuaciones diferenciales
ordinarias,
x ~ t! 5F? x ~ t??, ~ 1!
o en Dt discretos T5n tiempo por los mapas de la
forma
xn115f ~ xn!. ~ 2!
Una serie de tiempo puede ser considerado como
una secuencia de BSERVACIONES $ sn5s (x)%
realizado con algn s medicin de la funcin (??).
Desde el ~ generalmente escalar! secuencia $% sn
en s mismo no representan adecuadamente el ~
multi-dimensional! espacio de fases del sistema
dinmico, es necesario emplear alguna tcnica para
revelar la estructura multi-dimensional utilizando
los datos disponibles.
A. Delay Las coordenadas del espacio ms
importante fase de la tcnica de reconstruccin es el
mtodo de los retrasos. Vectores en un nuevo
espacio, el espacio de insercin, se forman a partir
de valores de tiempo de retraso de las mediciones
escalares:
~ ~ SN5 sn2 m21 t, sn2 ~ m22 t ,..., sn!. ~ 3!
El nmero m de elementos que se llama la
dimensin de insercin, el tiempo t es generalmente
conocido como el retraso o lag.
Celebrado teoremas incrustacin por Takens21 y
por Sauer et al.22 estado que si la secuencia% $ sn
en efecto, consiste en escalar las mediciones del
estado de un sistema dinmico, entonces bajo
ciertas suposiciones genericidad, la incorporacin
de retardo de tiempo ofrece un uno-a- una imagen
de la serie original $ x%, siempre y cuando m es lo
suficientemente grande.
Incrustaciones tiempo de retardo se utilizan en casi
todos los mtodos descritos en este documento. La
implementacin es sencilla y no requiere mayor
explicacin. Si las mediciones de N escalares estn
disponibles, el nmero de vectores de incrustacin
es slo N2 (m21) t. Esto tiene que tenerse en cuenta
para la normalizacin de las cantidades correctas en
promedio. Existe una amplia literatura sobre la
eleccin''ptima''de la incorporacin de parmetros
m y t. Resulta, sin embargo, que lo que constituye la
mejor opcin en gran medida depende de la
aplicacin. Por lo tanto, a discutir la eleccin de la
incorporacin de parmetros de vez en cuando junto
con otros algoritmos de abajo.
Una versin independiente del procedimiento de
retardo ~ demora, integrar! es una herramienta
importante para la inspeccin visual de los datos, a
pesar de que la visualizacin se limita a dos
dimensiones, o en la mayora de proyecciones
bidimensionales de representaciones en tres
dimensiones. Un buen desarrollo ya en dos
dimensiones puede dar alguna orientacin acerca de
una buena eleccin del tiempo de retardo de
dimensiones superiores incrustaciones. Como
ejemplo, nos muestran dos diferentes
representaciones bidimensionales de coordenadas
demora de un ser humano magneto-cardiograma ~
fig. 1!. Tenga en cuenta que nosotros no asumir ni
afirmar que la magneto-~ o electro-! cardiograma es
determinista o incluso catica. Aunque en el caso
particular de las grabaciones cardaca el uso de
incrustaciones retraso puede estar motivado
tericamente, de 23 aos aqu slo desea utilizar la
tcnica de incrustacin como una herramienta de
visualizacin.

B. Incorporacin de parmetros
Una opcin razonable de la importancia de retrasar las
ganancias por el hecho de que siempre tenemos que
lidiar con una cantidad finita de datos ruidosos.
Tanto ruido y finitud nos impide tener acceso a las
escalas de longitud infinitesimal, por lo que la
estructura que quieren explotar debe persistir hasta
las escalas ms largo posible. Dependiendo del tipo
de estructura que queremos explorar que tenemos
que elegir un intervalo de tiempo adecuado. La ms
obvia, la demora de la unidad altamente muestra de
flujo de datos dar vectores de retardo que estn
concentradas alrededor de la diagonal en el espacio
de inclusin y por lo tanto todas las perpendiculares
a la estructura de la diagonal es casi invisible. En la
referencia. 24 de la redundancia de trminos y la
irrelevancia se utilizaron para caracterizar el
problema: los retrasos pequeos rendimiento
fuertemente correlacionados elementos vectoriales,
grandes retrasos conducen a los vectores cuyos
componentes son casi ~! correlacionados y los datos
son por lo tanto, aparentemente ~! distribuidos al
azar en el espacio de inclusin.
Un buen nmero de trabajos han sido publicados en
la adecuada eleccin de la demora y la dimensin de
incrustacin. Hemos argumentado repeatedly11, 2,3
que una inmersin''''ptima puede-si acaso-slo se
define en relacin a un propsito especfico para el
cual se utiliza la incrustacin. Sin embargo, algunas
herramientas cuantitativas estn disponibles para
guiar la eleccin.
La funcin de autocorrelacin habitual ~ Autocor,
corr! y el tiempo de demora de informacin mutua ~
mutuo, as como la inspeccin visual de las
representaciones de retardo con retardos distintos
proporcionan informacin importante sobre los
tiempos de retardo razonable, mientras que la
estadstica de los vecinos falsa ~ falsas ms cercano!
para obtener una orientacin sobre la incorporacin
de la dimensin adecuada.
Una vez ms, los parmetros''ptima''no puede ser
as establecido, excepto en el contexto de una
aplicacin especfica.
1. informacin mutua
El tiempo de retraso de informacin mutua fue
sugerida por Fraser y Swinney25 como una
herramienta para determinar un plazo razonable: A
diferencia de la funcin de autocorrelacin, la
informacin mutua tambin tiene en cuenta las
correlaciones lineales. Uno tiene que calcular
S52 (i, j
j pi ~ t! En
j pi ~ t!
IFP
, ~ 4!
donde por alguna particin en los nmeros reales pi
es la probabilidad de
para encontrar un valor de series de tiempo en el
intervalo i, y pi j (t) es la probabilidad conjunta de
que una observacin cae en el intervalo i-simo y el
tiempo t de observacin ms tarde cae en el j-simo.
En teora, esta expresin no tiene dependencia
sistemtica del tamao de los elementos de la
particin y se puede calcular con bastante facilidad.
Existen buenos argumentos de que si el tiempo de
retraso en la informacin mutua presenta un mnimo
inscrito en un determinado valor de t, entonces este
es un buen candidato para un periodo de tiempo
razonable. Sin embargo, estos argumentos tienen
que ser modificados cuando la dimensin de
incrustacin superior a dos. Adems, como se hace
totalmente transparente en las siguientes secciones,
no todas las aplicaciones funcionan de forma ptima
con el mismo plazo. Nuestra rutina mutuo utiliza la
ecuacin. ~ 4!, Donde el nmero de cajas de igual
tamao y el tiempo de demora mxima ha de ser
suministrado. El algoritmo de adaptacin utilizados
en la referencia. 25 es ms intensivo de datos.
Ya que no estn realmente interesados en los
valores absolutos de la informacin mutua aqu, sino
ms bien en el primer mnimo, la aplicacin de un
mnimo que aqu parece ser suficiente.
La informacin relacionada con la inversin
generalizada de orden dos se pueden definir
utilizando el concepto de suma correlacin ~ Sec. VII,
Refs.
26, 27!. Una estimacin de la entropa de correlacin
se explica en la seccin. VII A.
2. Falso vecinos ms cercanos
Un mtodo para determinar el mnimo suficiente
dimensin m incorporacin fue propuesta por la
perrera y cols.28 Se llama el mtodo de vecino ms
cercano falsa. La idea es bastante intuitiva.
Supongamos que la incorporacin de la dimensin
mnima de una serie determinada de tiempo si es% $
m0. Esto significa que en un espacio de retraso m0
dimensin del atractor reconstruido es una imagen
de uno-a-uno de los atractor en el espacio de fase
original.
En especial, las propiedades topolgicas se
conservan. As, los vecinos de un punto determinado
se asignan a los vecinos en el espacio de demora.
Debido a la suavidad supuesto de la dinmica, los
barrios de los puntos se asignan en los barrios de
nuevo. Por supuesto, la forma y el dimetro de los
barrios se cambia de acuerdo a los exponentes de
Lyapunov.
Pero supongamos ahora se insertan en un espacio
m-dimensional con m, m0. Debido a esta proyeccin
la estructura topolgica ya no se conserva. Los
puntos se proyectan en
barrios de otros puntos a los que no pertenecen a
dimensiones superiores. Estos puntos se llaman los
vecinos falsa. Ahora bien, si la dinmica se aplica,
estos vecinos falsos no suelen asignarse a la imagen
del barrio, pero en otro lugar, de modo que el
dimetro promedio de''''se hace muy grande.
La idea del algoritmo de falsos ms cercana es la
siguiente.
Para cada punto de sW
i en la serie de tiempo para buscar su vecino ms
cercano sW
j en un espacio m-dimensional. Calcular la distancia
de SIA
i2sW
ji. Iterar los dos puntos y calcular Ri5
usi112s j11u
SIA
i2sW
ji
. ~ 5!
Si Ri supera un determinado umbral heurstico Rt,
este punto se marca como uno ms cercano falsa
neighbor.28 El criterio de que la dimensin de
incrustacin es lo suficientemente alto es que el
fraccin de puntos para los que Ri.Rt es cero, o al
menos lo suficientemente pequeo. Dos ejemplos se
muestran en la figura. 2. Uno de ellos es para el
sistema de Lorenz ~ cruces!, Una para el sistema
He'non ~ llena
crculos!, y otro para una serie de tiempo He'non
corrompido por el 10% de ruido blanco gaussiano ~
crculos abiertos!. Uno ve claramente que, como era
de esperar, M52 es suficiente para el He'non y M53
para el sistema de Lorenz, mientras que la firma no
est tan claro en el caso de ruido.
La introduccin del falso concepto ms cercano
vecinos y otros instrumentos ad hoc fue en parte una
reaccin a la constatacin de que muchos de los
resultados obtenidos para los invariantes genuino,
como la dimensin de correlacin, se ha debido a las
falsas advertencias del procedimiento de estimacin.
En este ltimo caso, las correlaciones de serie y las
pequeas fluctuaciones de la muestra puede ser
fcilmente confundido con el determinismo no
lineal. Resulta, sin embargo, que las cantidades ad
hoc, bsicamente, sufren de los problemas, que lo
mismo puede ser curada con las mismas
precauciones. La ejecucin de falsos ms cercano
por lo tanto, nos permite especificar una separacin
mnima temporal de los vecinos vlidos.
Otro software para el anlisis de los falsos vecinos
ms cercanos se encuentra disponible en forma de
cdigo fuente de Kennel.29 O, si usted prefiere pagar
por una licencia, de la referencia. 30.
C. Los componentes principales
Se ha demostrado en la referencia. 22 que la tcnica
de incrustacin se puede generalizar a una amplia
clase de transformaciones suaves aplicados a una
incorporacin de retardo de tiempo. En particular, si
que la temporizacin coordenadas $% sn, entonces
casi toda transformacin lineal de rango suficiente
de nuevo lleva a una inmersin.
Una opcin especfica de la transformacin lineal
que se conoce como anlisis de componentes
principales, la descomposicin de valor singular,
funciones empricas ortogonales, la descomposicin
Karhunen-Loe've, y probablemente otros cuantos
nombres. La tcnica es bastante utilizado, por
ejemplo, para reducir los datos de variables
mltiples para un modo ms grandes. Hay una gran
cantidad de literatura, incluyendo libros de texto
como el que por Jolliffe.31 En el contexto del
procesamiento de seales no lineales, la tcnica ha
sido defendida entre otros por Broomhead y King.32
La idea es introducir un nuevo conjunto de vectores
de la base ortonormal al incorporar el espacio de tal
manera que las proyecciones sobre un determinado
nmero de estas direcciones preservar la fraccin
mxima
de la varianza de los vectores originales. En otras
palabras, el error en la toma de la proyeccin se
reduce al mnimo para un nmero determinado de
direcciones. La solucin de esta minimizacin
problem31
conduce a un problema de valores propios. Las
direcciones principales deseado puede ser obtenido
como los vectores propios de la matriz de
autocovarianza simtrica que se corresponden con
los mayores valores propios.
El enfoque alternativo y equivalente formalmente a
travs de la matriz de trayectoria se utiliza en la
referencia. 32. Este ltimo es numricamente ms
estable, sino que implica la descomposicin de valor
singular
de una matriz de N N3m puntos de datos integrados
en las dimensiones m, que puede superar fcilmente
los recursos de cmputo para series de tiempo de
hasta moderada length.33
En casi todos los algoritmos se describen a
continuacin, simple incrustaciones tiempo de
retardo puede ser sustituido por componentes
principales.
En el proyecto TISEAN ~ rutinas svd, pc!, Los
componentes principales slo se proporcionan como
una herramienta de visualizacin independiente y
para el filtrado lineal, vase la seccin 34. E II a
continuacin. En cualquier
caso, primero hay que elegir una inmersin tiempo
de retardo inicial y luego una serie de componentes
principales para mantenerse. A los efectos de la
visualizacin, la segunda es inmediatamente se
limita a dos o tres a lo sumo. Con el fin de
aprovechar el efecto promedio de ruido del sistema
de componentes principales, es recomendable elegir
un plazo mucho ms corto que
uno para la incorporacin de un tiempo de retardo
comn, mientras que al mismo tiempo que aumenta
la dimensin de incrustacin. La experimentacin se
recomienda. La Figura 3 muestra las contribuciones
de los dos primeros componentes principales a los
magnetocardiogram
muestra en la figura. 1.
D. secciones de Poincar '
De datos de alta muestra que representa el tiempo
continuo de una ecuacin diferencial se llama flujo
de datos. Se caracterizan por el hecho de que los
errores en la direccin tangente a la
trayectoria de hacer ni reducir ni aumentar de
manera exponencial ~ llamada direccin
marginalmente estable! y por lo tanto poseen un
exponente de Lyapunov que es cero, ya que
cualquier perturbacin en este sentido puede ser
compensada por un simple cambio de la poca. Ya
que en muchas de las tareas de anlisis de datos este
sentido es de inters bajos, se debera optar por
eliminarlo. El concepto terico de hacerlo se llama la
seccin de Poincar. Despus de haber elegido un
hiperplano (m21)-dimensional en la incorporacin de
m-dimensional ~! espacio, se crea una serie de
tiempo comprimido de slo las intersecciones de la
trayectoria de tiempo continuo con este hiperplano
en una orientacin predefinida.
Estos datos son valorados mapa vector tiempo
discreto como de datos. Se puede considerar la
proyeccin de estos vectores (m21)-dimensional en
los nmeros reales como otra funcin de medicin,
por ejemplo ~, mediante el registro del valor de sn sn
cuando pasa la superficie de la Poincar!, Por lo que
se puede crear una serie escalar tiempo nuevo si
deseable. El programa de Poincar construye una
secuencia de vectores a partir de un flujo similar a
escalar el conjunto de datos, si se especifica el
hiperplano, la orientacin, y los parmetros de
inclusin. Las intersecciones de la trayectoria
discretamente muestreados con el plano de Poincar
'se calcula mediante una interpolacin de tercer
orden ~ ver fig. 4!.
La colocacin de la superficie de la de Poincar 'es de
gran importancia para la utilidad de los resultados.
Una superficie ptima maximiza el nmero de
intersecciones, es decir, reduce al mnimo el
intervalos de tiempo entre ellos, si al mismo tiempo,
el atractor permanece conectado. Se evita las
pruebas y los errores relacionados con que si se
define una superficie por el cruce por cero de la
derivada temporal de la seal, que es sinnimo de
recolectar todos los mximos o mnimos de todo,
respectivamente. Esto se hace por valores extremos.
Sin embargo, este mtodo sufre ms de la
ruido, ya que para los derivados de poca monta ~ es
decir, cerca de los extremos! extremos adicionales
pueden ser producidos por las perturbaciones.
Otro aspecto de la eleccin de la superficie de la
seccin es que uno debe tratar de maximizar la
varianza de los datos dentro de la seccin, ya que su
nivel de ruido absoluto es independiente de la
seccin. Una ltima observacin: Los intervalos de
tiempo entre las intersecciones son observables
espacio de fase como well36 y los teoremas de la
incrustacin son por lo tanto vlida. Por una serie de
tiempo con picos pronunciados, a menudo le gusta
estudiar la secuencia de intervalos de tiempo
interspike, por ejemplo, en cardiologa de la RR-
intervalos.
Si estos intervalos de tiempo se construyen de una
manera para obtener los intervalos de tiempo de un
mapa de Poincar ", que son adecuados para reflejar
la estructura determinista ~ si!. Para ver Ref.
complicaciones.
36.
Para que un sistema no autnomo impulsado
peridicamente la mejor superficie de la seccin se
da generalmente por una fase fija del trmino de
conduccin, que tambin se llama una visin
estroboscpica.
Una vez ms la seleccin de la fase debe estar guiada
por la variacin de la seal dentro de la seccin.
E. SVD filtros
Hay por lo menos dos razones para aplicar un filtro
SVD a datos de series temporales: o, si se est
trabajando con el flujo de datos, una forma implcita
puede determinar el tiempo de retardo ptimo, o
cuando,
derivar un mapa estroboscpico de los datos de
forma sincrnica muestra de un sistema impulsado
peridicamente, se puede utilizar la redundancia
para optimizar la relacin seal a ruido.
Tanto en aplicaciones de las matemticas es el
mismo: se construye la matriz de covarianza de los
vectores de datos ~ por ejemplo, en un espacio de
tiempo m-dimensional retraso de insercin,
J5 Ci ^ sn2m1isn2m1j y 2 ^ ^ y sn2m1i sn2m1j y, ~ 6!
y calcula sus vectores singulares. Entonces uno de los
proyectos en los vectores m-dimensional que
corresponde a la ms grande q singulares valores.
Para trabajar con el flujo de datos, q debe ser por lo
menos la dimensin correcta incorporacin, y
considerablemente ms grande m ~ por ejemplo,
m52q o ms grande. El resultado es un vector de
valores de series de tiempo, y en la referencia. 22 la
relacin de estos componentes para
derivados de temporal, por un lado, y componentes
de Fourier en el otro lado se discutieron. Si, en el
caso de no autnomos, que se quiere comprimir los
datos de flujo de datos de los mapas,
Q51. En este caso, la redundancia del flujo est
implcitamente utilizado para reducir el ruido de los
datos del mapa. La SVD rutina puede ser utilizado
para ambos propsitos.
III. Visualizacin, no estacionariedad
A. parcelas de recurrencia
Parcelas de recurrencia son una herramienta til
para identificar la estructura en un conjunto de
datos de una manera cualitativamente resueltos en
el tiempo. Esto puede ser la intermitencia ~ que se
detecta tambin mediante la inspeccin directa!,
la vecindad temporal de una trayectoria catica a
una rbita inestable peridica, o no estacionariedad.
Fueron introducidos en la referencia. 37 e
investigados con mucho detalle en la referencia. 38,
donde se encuentran muchas pistas sobre cmo
interpretar los resultados. Nuestra rutina recurr
simplemente escanea la serie de tiempo y marca
cada par de ndices de tiempo (i, j) con un punto
negro, cuyo correspondiente par de vectores de
retardo tiene distancia <e. As, en el (i, j)-plano, los
puntos negro indican la cercana. En una situacin de
ergdica, los puntos deben cubrir el plano de
manera uniforme, en promedio, mientras que la no
estacionariedad se manifiesta por una tendencia
general de los puntos para estar cerca de la diagonal.
Por supuesto, el retorno a una situacin dinmica del
sistema se encontraba antes se hace evidente por
una regin de negro lejos de la diagonal.
En la figura. 5, una parcela de recurrencia se utiliza
para detectar comportamiento transitorio en el
comienzo de una grabacin ms larga.
A los efectos de las pruebas fijas, la trama de
recurrencia no es particularmente sensible a la
opcin de incrustar. El contraste de las imgenes
resultantes pueden ser seleccionados por la distancia
e, y el porcentaje de puntos que se deben en
realidad a representar. Diversos programas de
participacin de la representacin del color y la
cuantificacin de las parcelas de recurrencia se
presenta en formato ejecutable DOS Webber.40 La
interpretacin de los patrones a menudo
interesantes ms all de la deteccin y el estudio de
la estacionariedad es todava una cuestin abierta.
Para obtener sugerencias para el estudio de las
seales no estacionarias ver ref. 3 y referencias que
se dan all.
B. El espacio-tiempo de separacin de parcelas
Mientras que la trama muestra los tiempos de
recurrencia absoluta, el grfico de separacin
espacio-temporal introducida por Provenzale et al.41
se integra a lo largo de paralelos a la diagonal y por
lo tanto slo se muestran los tiempos relativos. Por
lo general se dibuja lneas de probabilidad constante
por unidad de tiempo de un punto a un e-vecino del
punto actual, cuando la distancia es d tiempo t. Esto
ayuda a identificar las correlaciones temporales
dentro de la serie de tiempo y es relevante para
estimar un tiempo de retardo razonable, y, ms
importante an, la w Theiler-ventana en la
dimensin y el anlisis de Lyapunov-ver ~
Seg. VII!. , Dijo con otras palabras, muestra qu tan
grande la distancia temporal entre los puntos debe
ser por lo que podemos asumir que forman muestras
independientes de acuerdo con la
medida invariante. La rutina correspondiente del
paquete TISEAN es stp, ver fig. 6.
IV. PREDICCIN NO LINEAL
A pensar en la previsibilidad de los datos de series de
tiempo vale la pena incluso si uno no est interesado
en los pronsticos a todos. La previsibilidad es una
forma en que las correlaciones entre los datos
expresan
s mismos. Estas correlaciones pueden ser lineales,
no lineales correlaciones, o incluso restricciones
deterministas. Cuestiones relacionadas con los
pertinentes para las predicciones a aparecer con
reduccin de ruido y en las pruebas de datos
sustitutos, sino tambin para el clculo de
exponentes de Lyapunov de datos. La prediccin es
discutido en la mayora de las series de tiempo no
lineal general
referencias, en particular, una buena coleccin de
artculos se pueden encontrar en la referencia. 17.
A. La validacin del modelo
Antes de entrar en los mtodos, tenemos que
discutir la forma de evaluar los resultados. La
cantidad ms obvia para la cuantificacin de la
previsibilidad es el error de pronstico promedio, es
decir, la raz de la media RMS cuadrado ~! desviacin
de la prediccin individual del valor real en el futuro.
Si se calcula sobre los valores que tambin se
utilizaron para construir el modelo ~ o
para realizar las predicciones!, se llama el error en la
muestra. Siempre es aconsejable guardar algunos
datos de una prueba fuera de la muestra. Si el error
fuera de la muestra es considerablemente mayor
que el error en la muestra, los datos son o no
estacionarias o se tiene overfitted los datos, es decir,
la estructura en forma extrada de las fluctuaciones
aleatorias. Un modelo con menos parmetros de
entonces
prestar un mejor servicio. En los casos en que la base
de datos es pobre, se puede aplicar completa
validacin cruzada o tomar fuera de una estadstica,
es decir, uno construye tantos modelos como uno
realiza las previsiones, y en cada caso, pasa por alto
el punto que se quiere predecir.
Por construccin, este mtodo se realiza en los
enfoques locales, pero no en los mundiales.
La manera ms significativa, pero al menos
cuantitativa de la validacin del modelo es repetir el
modelo y comparar esta serie de tiempo de sntesis
de los datos experimentales. Uno empieza a formar
una
observ vector retraso como una condicin inicial y
realiza un pronstico. Su resultado se combina con
todos, pero los ltimos componentes del vector
inicial a un vector nuevo retraso, y el prximo
pronstico se realiza. Despus de iteraciones nm, el
vector de retraso con la ensima slo contiene
valores generados por el modelo y las observaciones
no ms. En cuanto a la prediccin de un n-paso, el
resultado ser terriblemente malo, ya que debido a
la dependencia sensible a condiciones iniciales,
incluso un modelo ideal crear una trayectoria
divergente debido a las inexactitudes en la medicin
de la condicin inicial. Sin embargo, para que el
modelo sea razonable, el atractor resultante debe
ser lo ms parecido a los datos observados como sea
posible ~ por ejemplo, en una parcela de retraso!,
Aunque no es fcil definir la similitud cuantitativa.
B. lineal simple prediccin
Convencionales sistemas de prediccin lineal
promedio de todos los lugares en el espacio de fase
al extraer las correlaciones que explotan a la
previsibilidad. Tong42 promovi una extensin que
se adapte a diferentes modelos lineales si el estado
actual se encuentra por debajo o por encima de un
umbral determinado ~ TAR, modelo de umbral
autorregresivos!. Si esperamos ms de un
componente ligero no lineal que se presente, es
preferible hacer la aproximacin como local en el
espacio de fase como sea posible. Ha habido muchas
propuestas similares en la literatura sobre la manera
de aprovechar una estructura local, vase, por
ejemplo, ref. 43-46. El enfoque ms simple es hacer
la aproximacin local, pero slo para mantener el
orden cero, es decir, la aproximacin de las
dinmicas a nivel local por una constante. En el
paquete se incluye TISEAN como un mtodo robusto
y simple: En un espacio de incorporacin de demora,
todos los vecinos de sn se buscan, si queremos
predecir las mediciones en el tiempo n 1k. La
previsin es simplemente
s
n1k5
1
uUnu (sjPUn
s j1k, ~ 7!
es decir, la media de los futuros''''de los vecinos. Los
errores de pronstico promedio obtenido con el cero
de rutina ~ predecir dara resultados similares! para
los datos de salida del lser utilizado en la figura. 4
en funcin del nmero k de pasos por delante de las
predicciones se hacen se muestra en la fig. 7.
Tambin se puede recorrer las predicciones
mediante el uso de las series de tiempo como una
base de datos.
Adems de los parmetros de insercin, todo lo que
tiene que ser especificado para las predicciones de
orden cero es el tamao de los barrios.
Como el movimiento difusivo por debajo del nivel de
ruido no se puede predecir todos modos, tiene
sentido para seleccionar los barrios que son al
menos tan grande como el nivel de ruido, tal vez dos
o tres veces ms grande. Por una serie de tiempo
bastante limpio, esta pauta podra terminar en los
barrios con muy pocos puntos.
Por lo tanto, cero tambin nos permite especificar el
nmero mnimo de vecinos en los que basar las
predicciones.
Una modificacin importante de este mtodo
consiste en ampliar el entorno U hasta el infinito,
sino introducir un peso depende de la distancia,
s
n1k5
(Jns j1kw ~ usn2sju!
(Jnw ~ usn2sju!
, ~ 8!
donde w se llama el ncleo. Para w (z) 5Q (e2z)
donde Q es
la funcin escaln de Heaviside, volvemos a la
ecuacin. ~ 7!.
C. Encontrar rbitas peridicas inestables
Como aplicacin de una simple prediccin lineal del
espacio de fase, vamos a discutir un mtodo para
localizar rbitas peridicas inestables incrustado en
un atractor catico. Este no es el lugar para examinar
los mtodos existentes para resolver este problema,
algunas referencias include.47-50 El paquete TISEAN
contiene una rutina que implementa el requisito de
que por un perodo de la rbita de p $ s ~ n, n51 ,...,
p % de un sistema dinmico como la ecuacin. ~ 2!
que actan sobre vectores de retardo,
s ~
n115f ~ s ~ n!, n51 ,..., p, s ~ P11 [s ~ 1. ~ 9!
Con unidad de retardo, los vectores de retardo p p
contener entradas diferentes escalar, y la ecuacin. ~
9! define una raz de un sistema de ecuaciones no
lineales en p p dimensiones. Bsqueda de races
multidimensional no es un problema simple. El
mtodo estndar de Newton tiene que ser
aumentada por los trucos especiales para converger
a nivel mundial.
Algunos trucos en especial los medios para
seleccionar las diferentes soluciones de la ecuacin.
~ 9!, Se implementan en la referencia. 50. Similar a
los problemas encontrados en la reduccin de ruido
no lineal, la solucin de la ecuacin. ~ 9!
exactamente es particularmente problemtico, ya
que f ~?? es desconocida y debe estimarse a partir
de los datos. En la referencia. Soluciones de 49 aos,
aproximadamente se encuentran realizando una sola
iteracin del mtodo de Newton para cada punto de
la serie temporal disponible. Preferimos buscar una
solucin de mnimos cuadrados, minimizando
(N51p es ~ ~ ~ s n112f n! i2, s ~ P11 [s ~ 1 ~ 10!
en su lugar. El upo de rutina utiliza un estndar de
Levenberg-Marquardt algoritmo para minimizar ~
10!. Para ello, es necesario que f ~?? es suave. Por lo
tanto, no puede usar el predictor simple no lineal
basado en aproximaciones localmente constante y
tenemos que utilizar una versin del ncleo suave, la
ecuacin. ~ 8!, En su lugar.
Con w (z) 5exp (2z2/2h2), el ancho de banda del
ncleo h determina el grado de suavidad de f ~??!.
Est intentando iniciar el
la minimizacin de todos los segmentos de series de
tiempo disponibles se producen una serie de falsos
mnimos, dependiendo del valor de h. Estos tienen
que ser distinguida de las verdaderas soluciones de
inspeccin. Por otro lado, podemos llegar a
soluciones de la ecuacin. ~ 9! que no son muy
visitados en la serie de tiempo en absoluto, una
ventaja importante sobre cambio cerca methods.47
Cabe sealar que, en funcin de h, siempre puede
encontrar una buena mnimos de ~ 8!, incluso si no
hay solucin de la ecuacin. ~ 9!, O ni siquiera una
dinmica verdaderamente determinista, existe. As,
el hallazgo de rbitas peridicas inestables en s
mismo no es un indicador fuerte del determinismo.
Podemos, sin embargo, utilizar la bicicleta o
estabilidades lugares como las estadsticas de
discriminacin en una prueba de linealidad;
vase la seccin. VIII. Mientras que los propios
rbitas se encuentran con bastante facilidad, es
sorprendentemente difcil obtener estimaciones
fiables de su estabilidad en presencia de ruido. En la
UPO, una pequea perturbacin se repite a lo largo
de la rbita y el valor propio inestable est
determinada por la velocidad de su separacin de la
rbita peridica.
El usuario de la UPO tiene que especificar la
dimensin de insercin, el periodo de ~ que tambin
puede ser ms pequeo! y el ancho de banda del
ncleo. Por razones de eficiencia, se puede optar por
omitir pruebas con puntos muy similares. Las rbitas
se cuentan como distintas cuando difieren en una
cantidad determinada. La rutina se hallan las rbitas,
su valor propio en expansin, y las posibles sub-
perodos.
La figura 8 muestra la determinacin de todo el
perodo de seis rbitas a partir de 1000 se repite el
mapa Henon, contaminados por Gauss 10% de ruido
blanco.
D. localmente prediccin lineal
Si hay una buena razn para suponer que la relacin
sn115f (sn) es cumplido por los datos
experimentales en buena aproximacin ~ decir,
dentro del 5%! para algunos f desconocido y que f
es suave, las predicciones pueden ser mejoradas
mediante el ajuste de modelos lineales locales. Que
puede ser considerado como el local de la expansin
de Taylor de las f desconocida, y se determinan
fcilmente, reduciendo al mnimo
s25 (sjPUn
~ S j112ansj2bn! 2, ~ 11!
con respecto a la AN y BN, donde Un es el e-barrio
de sn, con exclusin de sn s mismo, como antes.
Entonces, la prediccin es
s
n115ansn1bn. El problema de minimizacin puede
ser resuelto a travs de un conjunto de ecuaciones
lineales acoplados, un problema estndar de lgebra
lineal. Este esquema se aplica en OneStep.
Para niveles de ruido moderado y longitudes de
series de tiempo que esto puede dar una mejora
razonable en cero y predecir.
Por otra parte, como se discuti en la Seccin. VI,
estos mapas lineales son necesarios para el clculo
del espectro de Lyapunov. Una aproximacin lineal
a nivel local se introdujo en las referencias. 45, 46.
Debemos tener en cuenta que la recta de mnimos
cuadrados solucin de la ecuacin.
~ 11! no siempre son ptimas y una serie de
estrategias disponibles para regularizar el problema
de si la matriz se convierte en cuasi-singulares y de
eliminar el sesgo debido a los errores en las
variables independientes'',''. Estas estrategias tienen
en comn que cualquier posible mejora se compra
con una complicacin considerable del
procedimiento, que requiere ajustes finos de los
parmetros. Nos referimos al lector a Refs. 51, 52
para materiales avanzados.
En la figura. 9 se muestran las predicciones
reiterado de los datos del mapa de Poincar 'del
lser de CO2 ~ fig. 4! en una representacin con
retraso ~ npaso en dos dimensiones!. Los datos
resultantes no slo tienen la correcta distribucin
marginal y el espectro de potencia, sino que tambin
forman un esqueleto perfecto del atractor ruido
original. Hay de los artefactos debido al ruido y la
aspereza de este enfoque, pero hay buenas razones
para suponer que la infraestructura de lnea, como
refleja la fractalidad del sistema no perturbado.
Casdagli53 sugiri el uso de modelos locales
lineales como una prueba de no linealidad: Se
calcula el error de pronstico promedio como una
funcin del tamao de la vecindad en la que se lleva
a cabo el ajuste de un millones de euros y. Si el
ptimo se produce en grandes tamaos barrio, los
datos se ~ en este espacio incrustacin! mejor
descrito por un proceso estocstico lineal, mientras
que un nivel ptimo en los tamaos ms pequeos
apoya la idea de la existencia de una ecuacin no
lineal casi determinista del movimiento. Este
protocolo est implementado en la rutina de ll-ar,
ver fig. 10.
E. funcin global se ajusta
Los ajustes lineales locales son muy flexibles, pero
pueden ir mal en partes del espacio de fase en la que
los puntos no abarcan las dimensiones del espacio
disponible y que la inversa de la matriz de
involucrados en la solucin de la minimizacin no
existe. Por otra parte, muy a menudo un gran
nmero de diferentes aplicaciones lineales es poco
satisfactorio. Por lo tanto, muchos autores sugieren
ajuste global de funciones no lineales a los datos, es
decir, para resolver
s25 (n
? Sn112f p ~ sn?? 2, ~ 12!
donde fp es ahora una funcin no lineal en forma
cerrada con parmetros p, con respecto a que la
minimizacin que se hace. Polinomios, funciones de
base radial, redes neuronales, polinomios
ortogonales, y muchos otros mtodos han sido
utilizados para este propsito. Los resultados
dependen de hasta qu punto el elegido ansatz fp es
apropiado para modelar la funcin no lineal
desconocida, y de qu tan bien los datos son
deterministas en absoluto.
Se incluyeron los RBF rutinas y polinomio en el
paquete de TISEAN, donde FP es el modelo de base
radial functions54, 55 y polinomios, de 56 aos,
respectivamente. La ventaja de estos dos modelos es
que los parmetros p producen linealmente en la
funcin f y por lo tanto se puede determinar
mediante el lgebra lineal simple, y la solucin es
nica. Ambas caractersticas se pierden en los
modelos donde los parmetros de entrar en forma
no lineal.
Con el fin de hacer predicciones globales no lineal,
se tiene que suministrar la dimensin de inclusin y
retardo de tiempo como de costumbre.
Adems, para el polinomio orden del polinomio
tiene que ser dada. El programa devuelve los
coeficientes del modelo. En rbf uno tiene que
especificar el nmero de funciones de base que se
distribuirn en los datos. El ancho de las funciones
de base radial ~ Lorentzians en nuestro programa!
es otro parmetro, pero como la minimizacin es tan
rpido, el programa se ejecuta muchos valores y
parmetros de prueba vuelve mejor. La figura 11
muestra el resultado de un ajuste a la serie lser de
CO2 de tiempo ~ fig. 4! con funciones de base
radial.
Si los modelos globales se desean con el fin de
inferir la estructura y las propiedades del sistema
subyacente, que debe ser probada por la iteracin
ellos. Los errores de prediccin, aunque pequeo en
tamao, podra ser sistemtica y por lo tanto
rechazar la trayectoria reiterado de la gama, donde
los datos originales se encuentran.
Puede ser til para estudiar la dependencia de la
magnitud o el signo de los errores de prediccin de
la posicin en el espacio de insercin, ya que los
errores sistemticos se pueden reducir por un
modelo diferente. Los modelos globales son
atractivos porque con ellos se obtienen expresiones
cerradas para la dinmica total. No hay que olvidar,
sin embargo, que estos modelos describen el
proceso que se observa slo en las regiones del
espacio que han sido visitados por los datos. Fuera
de esta rea, la forma del modelo depende
exclusivamente del ansatz elegido. En particular, los
polinomios divergen fuera del rango de los datos y
por lo tanto puede ser inestable en la iteracin.
V. REDUCCIN DE RUIDO NO LINEAL
Filtrado de las seales de los sistemas no lineales
requiere el uso de mtodos especiales, ya que los
filtros habituales lineal espectral o de otro tipo
pueden interactuar negativamente con la estructura
no lineal.
Seales irregulares de las fuentes no lineales
muestran los espectros de autntica banda ancha y
no hay ninguna justificacin para identificar
cualquier componente continua en el espectro de
ruido. Reduccin de ruido no lineales no se basa en
la informacin de frecuencia para definir la
diferencia entre seal y ruido. En cambio, la
estructura en el espacio de fase reconstruido ser
explotado.
General de las dependencias de serie entre las
mediciones de $% sn har que los vectores de
retardo $% sn disponibles para llenar el espacio m-
dimensional incrustacin de una manera
homognea. Correlacin lineal entre las variables de
Gauss al azar, por ejemplo, se distribuirn de
acuerdo a una distribucin gaussiana multivariante
anisotrpico. Filtrado lineal geomtrica en el
espacio de fase busca identificar las direcciones
principales de esta distribucin y el proyecto sobre
ellos, ver Sec. E. II de reduccin de ruido no lineal
tiene en cuenta que las seales no lineales se forman
estructuras curvas en el espacio inmediatamente. En
particular, las seales de ruido determinista forma
manchada de salida colectores lower dimensional.
No lineal del espacio de fases de filtrado busca
identificar estructuras y proyectar sobre ellos con el
fin de reducir el ruido.
Existe una abundante literatura sobre los mtodos
no lineales de reduccin de ruido. Dos artculos de
carcter de recurso sean accesibles, uno por
Kostelich y Schreiber, de 57 aos y uno por
Davies.58 Remitimos al lector a estos artculos y
otras referencias para la discusin de los enfoques
que no se describen en el presente artculo.
Aqu quiero concentrarme en dos enfoques que
representan la estructura geomtrica del espacio de
fases de una aproximacin local.
La primera y ms simple, y lo hace con el fin
constante, los ms sofisticados usos locales
subespacios lineales ms correcciones de curvatura.
A. Reduccin de ruido lineal simple
El ms simple algoritmo no lineal de reduccin de
ruido que conocemos sustituye a la coordenada
central de cada vector de incorporacin del medio
local de esta coordenada. Esto equivale a una
aproximacin local constante de la dinmica y se
basa en el supuesto de que la dinmica es continua.
El algoritmo se describe en la referencia. 59, un
enfoque similar se propone en la referencia. 43. En
una inestable, por ejemplo, sistemas caticos, es
esencial no para sustituir las coordenadas primera y
la ltima incorporacin de los vectores en los
promedios locales. Debido a la inestabilidad, los
errores iniciales en estas coordenadas se magnifican
en lugar de ser promediadas.
Este esquema de reduccin de ruido se lleva a cabo
con bastante facilidad.
En primer lugar una inmersin tiene que ser elegido.
A excepcin de los datos extremadamente
muestreadas, es conveniente elegir un retardo de
tiempo corto. El programa utiliza siempre perezoso
unidad de retardo. La incorporacin de la dimensin
m se debe elegir algo ms alto que el requerido por
los teoremas de incrustacin. Luego, para cada
vector incrustacin% $ sn, un entorno U
e (n) se forma en el espacio de fases que contiene
todos los puntos $ SN8% de tal manera que
isn2sn8i
, E. El radio de la e los barrios se debe tomar lo
suficientemente grande como para cubrir en la
medida de ruido, pero an ms pequeo que un
radio de curvatura tpica. Estas condiciones no
siempre se pueden cumplir al mismo tiempo, en
cuyo caso se tiene que repetir el proceso con varias
opciones y evaluar cuidadosamente los resultados.
Si el nivel de ruido es considerablemente menor que
el radio de curvatura tpica, los barrios de la radio
de 2.3 veces el nivel de ruido dio los mejores
resultados con datos artificiales. Para cada vector de
coordenadas incorporacin SN5 (SN2 (m21) ,..., sn)
~ el tiempo de retardo se ha establecido en la
unidad!, Un medio corregido
s
n2m / 2 se calcula un promedio de ms del barrio
U
e (
n):
s
n2m/25
1
uU
e ~
n! u (
sn8PU
e ~
n!
sn82m / 2. ~ 13!
Despus de un barrido completo a travs de las
series de tiempo, todos sn mediciones se sustituyen
por los valores corregidos n. s Por supuesto, para el
primer y el ltimo (m21) / 2 ~ si m es impar!, Que
no se tienen disponibles. La media de correccin
puede ser tomado como un radio nuevo barrio para
la siguiente iteracin. Tenga en cuenta que el
entorno de cada punto por lo menos contiene el
mismo punto. Si ese es el nico miembro, la media,
la ecuacin. ~ 13!, Es simplemente la medicin sin
corregir y ningn cambio se hace.
As, uno puede realizar de manera segura mltiples
iteraciones con valores decrecientes de correo hasta
que no haya ms cambios realizados.
Vamos a ilustrar el uso de este sistema con un
ejemplo, una grabacin del flujo de aire por la nariz
de un ser humano como un indicador de la actividad
de respiracin. ~ Los datos son parte del conjunto
de datos B del concurso de Santa Fe de series de
tiempo realizada en 1991-1992, 17 et al.60 Rigney
ver una descripcin.! El resultado de la simple
reduccin de ruido no lineal se muestra en la fig. 12.
B. Reduccin de ruido lineal localmente proyectiva
Un mtodo ms sofisticado hace uso de la hiptesis
de que se compone de los datos medidos de la salida
de un sistema dinmico de baja dimensionalidad y
de ruido aleatorio o highdimensional. Esto significa
que en un espacio de incorporacin de forma
arbitraria highdimensional la parte determinista de
los datos que se encuentran en un colector de baja
dimensin, mientras que el efecto del ruido es
difundir los datos de este colector. Si suponemos
que la amplitud del ruido es suficientemente
pequeo, podemos esperar encontrar los datos
distribuidos en estrecha colaboracin en torno a este
colector. La idea de la proyeccin lineal esquema de
reduccin de ruido es la identificacin de las
mltiples y para proyectar los datos en l. Las
estrategias descritas aqu se remontan a la ref. 61.
Un estudio de casos reales se detalla en la
referencia. 62.
Supongamos que el sistema dinmico, la ecuacin.
~ 1! o la ecuacin. ~ 2!, Forman una
q-dimensional M que contiene la trayectoria. De
acuerdo con los teoremas de insercin, existe una
imagen de uno-a-uno de los atractor en el espacio de
insercin, si la dimensin de incrustacin es
suficientemente alta. Por lo tanto, si la serie de
tiempo medido no se corrompieron con el ruido,
todos los vectores de la incorporacin sn que se
encuentran dentro de otro colector de M ~ en el
espacio de inclusin. Debido al ruido, esta
condicin ya no se cumple. La idea del plan de
reduccin de ruido a nivel local de proyeccin es
que para cada sn existe una Qn correccin, con iQni
pequeas, de tal manera que sn2QnPM ~ y que Qn
es ortogonal a M ~. Por supuesto, una proyeccin
para el colector slo puede ser un concepto
razonable si los vectores estn integrados en
espacios que son de dimensiones ms elevadas que
el ~ manifoldM. As tenemos a un exceso de
integrar en espacios de dimensin m con mq
La nocin de ortogonalidad depende de la mtrica
utilizada.
Intuitivamente uno podra pensar en utilizar la
mtrica euclidiana.
Pero esto no es necesariamente la mejor opcin. La
razn es que estamos trabajando con los vectores de
retardo que contienen informacin temporal. As,
aunque las partes medias de los dos vectores de
retardo estn cerca, las partes finales poda estar
lejos el uno del otro debido a la influencia de los
exponentes de Lyapunov positivos, mientras que las
primeras partes podran diferir debido a los
negativos. Por lo tanto, suele ser conveniente para
corregir la parte central de vectores de retardo y
dejar que las partes exteriores en su mayora sin
cambios, ya que su diferencia no es slo una
consecuencia del ruido, sino tambin de la propia
dinmica. Resulta que para la mayora de las
aplicaciones es suficiente para fijar slo el primero
y el ltimo componente de los vectores de retardo y
corregir el resto. Esto se puede expresar en trminos
de P tensor mtrico que se define a be61
Pi j5H1: i5j y 1, i, j, m,
0: en otro lugar, ~ 14!
donde m es la dimensin de los''ms''embebido en
vectores de retardo.
As que tenemos que resolver el problema de
minimizacin,
(I
~ QiP21Qi! 5
!
min, a unos 15!
con las limitaciones
un i ~ sn2Qn! 1bn i 50, para i5q11 ,..., m ~ 16!
y
un Pan i j i j 5d, ~ 17!
donde el uno i son los vectores normales de M ~ en
el punto de sn
2Qn.
Estas ideas se realizan en el ghkss los programas,
proyectos, y el ruido en TISEAN. Mientras los dos
primeros trabajos como filtros a posteriori en
conjuntos de datos completos, el ltimo puede ser
utilizado en un flujo de datos. Esto significa que es
posible hacer las correcciones en lnea, mientras que
los datos provienen de ~ Para ms detalles, vase la
seccin. VC!. Los tres algoritmos mencionados
anteriormente corregir los efectos de la curvatura.
Esto se hace por cualquiera de las correcciones de
post-procesamiento de los vectores de retardo ~
ghkss! o pre-procesamiento de los centros de masa
de los barrios locales
Proyecto ~!.
La idea de utilizar en el programa ghkss es la
siguiente.
Supongamos que el colector fuera estrictamente
lineal. Entonces, siempre y cuando el ruido es
blanco, las correcciones en las proximidades de un
punto en el colector sera el punto en todas las
direcciones con igual probabilidad.
Por lo tanto, si sumamos todas las correcciones Q
esperamos que suman cero o ^ ~ Q & 5O). Por otro
lado, si themanifold es curva, esperamos que haya
una tendencia hacia el centro de curvatura (^ Q &
5Qav). Por lo tanto, para corregir esta tendencia
cada correccin Q se sustituye por Q2Qav.
Una estrategia diferente se usa en el proyecto de
programa.
Las proyecciones se realizan en un sistema de
coordenadas locales, que se define por la condicin
de que el promedio de los vectores en el barrio es
cero. O, en otras palabras, el origen de los sistemas
de coordenadas es el centro de masa ^ sn & U del
barrio de U. Este centro de masa tiene un sesgo
hacia el centro de la curvature.2 Por lo tanto, una
proyeccin no se encuentran en la tangente en el
colector, pero en una secante. Ahora podemos
calcular el centro de masa de estos puntos en el
barrio de sn. Llammoslo ^ ^ sn & & U. Bajo
supuestos bastante leve este punto tiene el doble de
la distancia desde el colector de sn ^ & U. Para
corregir el sesgo es establecer el origen del sistema
de coordenadas locales, hasta el punto: ^ ^ sn & & ^
sn U22 y U.
La implementacin y el uso de la reduccin del
ruido a nivel local se dio cuenta proyectiva como en
el proyecto y ghkss se describe en detalle en las
referencias. 61, 62. Recordemos aqu los parmetros
ms importantes que se deben establecer de forma
individual para cada serie temporal. La
incorporacin de parmetros suelen ser elegidos de
manera muy diferente de otras aplicaciones desde
overembedding considerable puede conducir a un
promedio de ruido mejor. Por lo tanto, la
El retraso es de preferencia establecido en la unidad
y la incorporacin de la dimensin que se elija para
proporcionar compatibilidad con incrustar ventanas
de longitudes razonables. Slo para datos de alta
sobremuestreo ~ como el magneto-cardiograma, fig.
15, en alrededor de 1000 muestras por ciclo!,
Grandes retrasos son necesarios para que una
fraccin sustancial de un ciclo puede ser cubierta
sin la necesidad de trabajar en prohibitivamente
altos espacios de dimensin. A continuacin, uno
tiene que decidir cuntas dimensiones q para salir
de la variedad que supuestamente contena el
atractor. La respuesta depende en parte del
propsito del experimento. Proyecciones y no a
paso ligero puede ser ptima en el sentido de la
menor desviacin residual de la seal verdadera.
Bajo error RMS puede, sin embargo, coexisten con
las distorsiones de la estructura sistemtica de
atraccin. As, para un clculo de la dimensin
posterior, una opcin ms conservadora sera el fin.
Recuerde, sin embargo, que los puntos slo se
movi hacia, pero no sobre el subespacio locales
lineales y un valor muy bajo de q no hace tanto
dao como se puede pensar.
La amplitud de ruido que se retira puede ser
seleccionado en alguna medida por la eleccin del
tamao de la vecindad. De hecho, no lineal, el
filtrado de proyeccin se puede ver de forma
independiente del fondo de los sistemas dinmicos
como el filtrado por la amplitud en lugar de por la
frecuencia o la forma. Para permitir una clara
separacin de ruido y las direcciones de la seal a
nivel local, los barrios deben ser al menos tan
grande como el nivel de ruido se supone, bastante
ms grande. Esto, por supuesto compite con efectos
de curvatura. Para los pequeos niveles de ruido
inicial, se recomienda tambin para especificar un
nmero mnimo de vecinos a fin de permitir
linearizaciones estable.
Por ltimo, cabe sealar que en los casos ms
exitosos de la filtracin se realiza dentro de los
primeros uno a tres iteraciones. Yendo ms lejos, es
potencialmente peligrosa ya que puede inducir a las
correcciones, principalmente a la distorsin. Hay
que ver la correccin eficaz en cada iteracin, y
finaliza en el momento en que no disminuya
sustancialmente ms.
Como ejemplo de reduccin de ruido no lineal en
que tratamos a los datos obtenidos a partir de una
RMN lser experiment.63 ampliaciones de las
representaciones de demora de dos dimensiones de
los datos se muestran en la figura. 13. El panel
superior muestra los datos en bruto experimental
que contiene alrededor de 1,1% del ruido. En el
panel inferior se produjo mediante la aplicacin de
tres iteraciones del sistema de reduccin de ruido.
Incorporacin de la dimensin se m57, los vectores
se proyecta a dos dimensiones. El tamao de los
barrios fueron elegidos de tal manera que al menos
50 vecinos se encontraron. Uno ve claramente que
la estructura fractal del atractor se resuelve bastante
bien.
La premisa principal de este algoritmo para el
trabajo es que los datos estn bien aproximada por
un colector de baja dimensin.
Si esto no es el caso, es impredecible lo que los
resultados son creados por el algoritmo. En ausencia
de un colector real, el algoritmo tiene que recoger
las fluctuaciones estadsticas y falsamente las
interpreta como estructura. La figura 14 muestra el
resultado del programa de ghkss puro ruido
gaussiano. El panel superior muestra una
representacin retraso de los datos originales, la
inferior muestra el resultado de aplicar el algoritmo
durante 10 iteraciones.
La estructura creada es puramente artificial y no
tiene nada que ver con las estructuras en los datos
originales. Esto significa que si se quiere aplicar
uno de los algoritmos, uno tiene que estudiar
cuidadosamente los resultados. Si los supuestos
subyacentes a los algoritmos no se cumplen, en
principio, cualquier cosa puede suceder.
Hay que sealar, sin embargo, que el rendimiento
del propio programa indica el comportamiento de
tales espurios. Para los datos que en realidad es bien
aproximada por un colector de dimensiones
inferiores, las correcciones medio aplicado debe
disminuir rpidamente con cada iteracin de xito.
Este fue el caso con los datos de RMN de lser y, de
hecho, la correccin era tan pequeo despus de tres
iteraciones que se detuvo el procedimiento. Para los
datos de ruido blanco, la correccin slo se redujo a
una tasa que corresponde a una reduccin general
del conjunto de puntos, lo que indica una falta de
convergencia hacia una verdadera baja
dimensionalidad mltiple. A continuacin, vamos a
dar un ejemplo donde un colector de aproximacin
se presente sin el determinismo puro. En ese caso, la
proyeccin sobre el colector se reduce el ruido de
una manera razonable. Ver ref. 64 para el material
sobre los peligros de la filtracin geomtrica.
C. no lineal de reduccin de ruido en un flujo de
datos en la ref. 65, una serie de modificaciones del
procedimiento anterior se han discutido, que
permiten el uso de filtros no lineales de proyeccin
en un flujo de datos. En este caso, los puntos slo en
el pasado estn disponibles para la formacin de
barrios.
Por lo tanto, la estrategia de bsqueda vecino tiene
que ser modificada. Dado que el algoritmo se
describe en detalle en la referencia.
65, slo dar un ejemplo de su uso aqu. La figura 15
muestra el resultado de la reduccin de ruido no
lineal en un magnetocardiogram ~ ver Figs. 1 y 3!
con el ruido del programa.
El mismo programa tambin se ha utilizado con
xito para el Xtraction del feto ECG.66
VI. Lyapunov EXPONENTES
El caos surge del crecimiento exponencial de las
perturbaciones infinitesimales, junto con los
mecanismos mundiales de plegado para garantizar
la acotacin de las soluciones. Esta inestabilidad
exponencial se caracteriza por el espectro de
Lyapunov exponents.67 Si uno asume una
descomposicin local del espacio de fases en las
direcciones con diferentes tipos de estiramiento o
contraccin, entonces el espectro de los exponentes
es el medio adecuado de estos tipos de locales en
todo el conjunto invariante , y por lo tanto consiste
en que muchos exponentes, ya que hay direcciones
del espacio.
El problema ms importante en el anlisis de series
de tiempo es que el espacio de fase fsica es
desconocida, y que en lugar del espectro se calcula
en un espacio de inclusin. As, el nmero de
exponentes depende de la reconstruccin, y puede
ser mayor que en el espacio de fase fsica. Como
exponentes adicionales se denominan falsos, y hay
varias sugerencias para evitar o them68 o para
identificarlos. Por otra parte, es posible que slo
como exponentes se puede determinar a partir de
una serie de tiempo como est entrando en las
curvas de Kaplan Yorke frmula ~ ver ms abajo!.
Para dar un ejemplo simple: Considere la
posibilidad de movimiento de un sistema de alta
dimensin en un ciclo lmite estable.
Los datos no pueden contener ninguna informacin
sobre la estabilidad de esta rbita frente a las
perturbaciones, mientras que estn exactamente en
el ciclo lmite. Para los transentes, la situacin
puede ser diferente, pero los datos no se distribuyen
de acuerdo a una medida invariante y los valores
numricos son por lo tanto difciles de interpretar.
Aparte de estas dificultades, hay un aspecto positivo
en la materia: los exponentes de Lyapunov son
invariantes bajo transformaciones suaves y por lo
tanto independiente de la funcin de medicin o el
procedimiento de insercin. Ellos llevan una
dimensin de un tiempo inverso y tienen que ser
normalizados al intervalo de muestreo.
A. El exponente mximo
El mximo exponente de Lyapunov se puede determinar
sin la construccin explcita de un modelo para la serie
temporal. Una caracterizacin confiable requiere que la
independencia de los parmetros de inclusin y la ley
exponencial para el crecimiento de las distancias se
checked69, 70 de manera explcita. Considere la
posibilidad de la representacin de los datos de series
de tiempo como una trayectoria en el espacio de
insercin, y se supone que se observa un retorno muy
cercano a un SN8 visitado sn punto. Entonces se puede
considerar la distancia D05sn2sn8 como una pequea
perturbacin, lo que debera crecer de forma
exponencial en el tiempo. Su futuro se puede leer en la
Dl5sn1l2sn81l de series de tiempo. Si se encuentra que
uDlu'D0ell entonces l se ~ con probabilidad uno! el
mximo exponente de Lyapunov. En la prctica, habr
fluctuaciones a causa de muchos efectos, que se
discuten en detalle en la referencia. 69. Basado en este
entendimiento, se puede obtener un estimador robusto
consistente e imparcial para el mximo exponente de
Lyapunov. Si uno calcula S (e, m, t) muestra un aumento
lineal con pendiente idntica para todos los m ms
grande que algunos m0 y de un rango razonable de
correo, entonces esta pendiente puede ser tomado
como una estimacin de la mxima exponente de l1.
La frmula se lleva a cabo en las rutinas de lyap-k y
Lyapunov de una manera directa. ~ El programa lyap-r
implementa el algoritmo muy similar de la ref. 70,
donde slo el vecino ms cercano se sigue para cada
punto de referencia. Adems, la norma euclidiana se
usa.! Aparte de los parmetros que caracterizan la
incrustacin, el barrio e tamao inicial es de relevancia:
El correo ms pequeo, el de la gran
rango lineal de S, si es que existe. Obviamente, el ruido
y el nmero finito de puntos el lmite de datos e desde
abajo. Los valores por defecto de lyap-k son bastante
razonables para el mapa de datos tipo. No siempre es
necesario ampliar el promedio de la ecuacin. ~ 18!
sobre los datos disponibles todo, los promedios
razonables se puede obtener ya con unos pocos cientos
de referencia sn puntos. Si algunos de los puntos de
referencia tienen muy pocos vecinos, el importe
correspondiente en la ecuacin interior. ~ 18! est
dominado por las fluctuaciones.
Por lo tanto, se puede optar por excluir a los puntos de
referencia que tienen menos de, digamos, diez vecinos.
Sin embargo, la discrecin tiene que ser aplicado con
este parmetro, ya que puede introducir un sesgo en
contra de las regiones escasamente pobladas. Esto
podra, en teora, afectar a los exponentes estimado
debido a multifractality.
Al igual que otras cantidades, las estimaciones de
Lyapunov puede verse afectada por las correlaciones en
serie entre los puntos de referencia y los vecinos. Por lo
tanto, un tiempo mnimo para un2n8u pueden y deben
ser especificados aqu. Ver tambin seccin. VII.Let a
discutir los resultados de una tpicos. Los datos que
sustentan el panel superior de la figura. 16 son los
valores de los mximos de los datos lser de CO2. Desde
este lser muestra de pocas dimensiones, el caos, con
un nivel de ruido razonable, se observa un claro
aumento lineal en este terreno semi-logartmica, lo que
refleja la divergencia exponencial de trayectorias
cercanas. El exponente es l'0 0,38 por iteracin ~ datos
del mapa!, O, al introducir el intervalo de tiempo
promedio, 0,007 por ms. En el panel inferior se muestra
el resultado para el mismo sistema, pero ahora calcula
en el original como el flujo de datos con una frecuencia
de muestreo de 1 MHz. Como una estructura adicional,
un aumento inicial empinadas y oscilaciones regulares
son visibles. El aumento inicial se debe a la no
normalidad y los efectos de la alineacin de las
distancias en la direccin local ms inestable, y las
oscilaciones son un efecto de las velocidades y
densidades diferentes a nivel local por lo tanto
diferentes. Ambos efectos pueden ser mucho ms
dramtico en los casos menos favorables, pero siempre
y cuando las oscilaciones regulares poseen un promedio
lineal cada vez mayor, esto puede ser tomado como la
estimacin del exponente de Lyapunov. La
normalizacin de la frecuencia de muestreo, de nuevo
encontramos l'0 0,007 permanentes, pero es obvio que
la linealidad es menos pronunciada que para el mapa de
datos tipo. Finalmente, se muestran en la figura. 17 un
ejemplo de un resultado negativo: Se estudian los datos
de tasa de respiracin humana usado antes. Ninguna
parte lineal existe, y no se puede sacar ninguna
conclusin razonable.
Vale la pena considerar la figura de una escala
logartmica doble con el fin de detectar un
comportamiento de ley de potencia, que, con una
potencia media, podran estar presentes para un
crecimiento difuso de las distancias. En este ejemplo
concreto, no existe una ley de poder convencer a
cualquiera.
B. El espectro de Lyapunov
El cmputo de todo el espectro de Lyapunov requiere
un esfuerzo mucho ms que el exponente mximo. Un
ingrediente esencial es una estimacin de la jacobianos
local, es decir, de la dinmica lineal, que gobierna el
crecimiento de las perturbaciones infinitesimales. O se
encuentra de ajuste directo de los modelos locales
lineales de la sn115ansn1bn tipo, de tal manera que la
primera fila del Jacobiano es el vector de una, y ij (J)
5 das
i21, j para I52 ,..., m, donde m es la dimensin de
incrustacin.
La una est dada por la mnimos cuadrados s2 5 (l
(sl112ansl2bn) 2 donde $% sl es el conjunto de vecinos
de sn .45,71 O se construye un modelo no lineal global y
calcula su jacobianos locales mediante la adopcin de
derivados. En ambos de los casos, se multiplica la
jacobianos uno por uno, siguiendo la trayectoria, como
muchos diferentes vectores del Reino Unido en el
espacio tangente como uno quiere calcular exponentes
de Lyapunov. Cada pocos pasos, se aplica un
procedimiento orthonormalization Gram-Schmidt para
el conjunto del Reino Unido, y acumula los logaritmos
de los factores de reajuste. Su promedio, en el orden
del procedimiento de Gram-Schmidt, dar los
exponentes de Lyapunov en orden descendente. La
rutina lyap-spec usa este mtodo, que se remonta a
Refs. 71 y 45, el empleo de locales lineal se ajusta
Aparte del problema de los exponentes espurios, este
mtodo contiene algunas otras trampas:. Se supone que
existen jacobianos bien definidos, y no la prueba de su
relevancia.
En particular, cuando los atractores son delgados en el
espacio de insercin, algunos o todos ~! de la
jacobianos locales pueden estimarse muy mal. A
continuacin, todo el producto puede sufrir de estas
estimaciones malo y los exponentes son, en
consecuencia mal. As, el enfoque no lineal global puede
ser superior, si un modelo ha tenido xito, vase cap. IV.
En la Tabla I se muestran los mximos exponentes de
los datos lser estroboscpico de RMN en una
inmersin en tres dimensiones en funcin del tamao
de la vecindad. El uso global de los modelos no lineales,
nos encontramos con los nmeros dados en las dos
ltimas filas. Ms material se discute en la Ref.. 2. La
difusin de los valores en la tabla de este conjunto de
datos ms limpia refleja la dificultad de calcular los
espectros de Lyapunov de la serie de tiempo, lo que
tiene que hacerse con mucho cuidado. En particular,
cuando el algoritmo se aplica a ciegas a los datos de un
proceso aleatorio, no internamente puede comprobar la
consistencia de la hiptesis de un sistema dinmico
subyacente. Por lo tanto, un espectro de Lyapunov se
calcula que en la actualidad carece de sentido.
El clculo de la primera parte del espectro de Lyapunov
permite algunas interesantes controles cruzados. Se
conjetura, de 72 aos y se encuentra para ser correcta
en la mayora de las situaciones fsicas, que el espectro
de Lyapunov y la dimensin fractal de un atractor estn
estrechamente relacionados. Si las instrucciones de la
expansin y la contratacin de por lo menos en el
espacio se llena continuamente y slo una dimensin
fractal es parcial, entonces se puede pedir para la
dimensin de un fractal ~! volumen tal que es
invariante, es decir, de manera que la suma de los
correspondientes exponentes de Lyapunov se
desvanece, donde se pondera la ltima con la parte no
entera de la dimensin:
DKY5k1
(I51
k li
ulk11u
, ~ 19!
donde k es el mximo entero tal que la suma de los
exponentes ms grande k todava no negativo. DKY se
conjetura para que coincida con la dimensin de la
informacin.
La identidad Pesin es vlido bajo las mismas hiptesis y
nos permite calcular el KS-entropa:
hKS5 (I51
m
Q ~ li! Li. ~ 20!
VII. DIMENSIONES y entropas
Las soluciones de disipacin de los sistemas dinmicos
no se puede llenar un volumen del espacio de fases, ya
que la disipacin es sinnimo de una contraccin de
elementos de volumen bajo la accin de las ecuaciones
de movimiento. En cambio, las trayectorias se limitan a
menores dimensiones subconjuntos que tienen medida
cero en el espacio de fases. Estos subconjuntos pueden
ser muy complicado, y con frecuencia poseen una
estructura fractal, lo que significa que estn de una
manera no trivial de auto-similares. Dimensiones
generalizadas son una clase de cantidades que
caracterizan a esta fractalidad. La dimensin de
Hausdorff es, desde el punto de vista matemtico, el
concepto ms natural para caracterizar los conjuntos
fractales, de 67 aos, mientras que la dimensin de la
informacin tiene en cuenta las frecuencias de las
visitas relativas y por lo tanto ms atractivo para los
sistemas fsicos. Finalmente, para la caracterizacin de
los datos medidos, otros conceptos similares, al igual
que la dimensin de correlacin, son ms tiles. Una
observacin general es de gran relevancia para
entender las limitaciones de cualquier mtodo
numrico: las dimensiones caracterizan a un conjunto o
una medida invariante cuyo apoyo es el conjunto,
mientras que cualquier conjunto de datos contiene slo
un nmero finito de puntos que representa el conjunto
o la medida. Por definicin, la dimensin de un conjunto
finito de puntos es igual a cero. Cuando se determina la
dimensin del atractor numrico, podemos extrapolar a
partir de escalas de longitud finita, donde las
estadsticas que se aplican es insensible a la finitud de la
cantidad de datos, las escalas infinitesimales, donde se
define el concepto de dimensiones. Esta extrapolacin
se puede fallar por muchas razones que se discuten a
continuacin en parte. Las dimensiones son invariantes
bajo transformaciones suaves y por lo tanto una vez
ms en espacios de tiempo computable incorporacin
de demora.
Entropas son un concepto terico para caracterizar la
informacin de la cantidad de informacin necesaria
para predecir la siguiente medicin con una precisin
determinada. La ms popular es la entropa de
Kolmogorov-Sinai. Nosotros discutiremos aqu slo la
entropa de correlacin, que se puede calcular de una
manera mucho ms robusta. La aparicin de la entropa
en una seccin sobre los aspectos tiene que ver con el
hecho de que puede ser determinado tanto por la
misma herramienta estadstica.
A. dimensin de correlacin
En trminos generales, la idea detrs de algunas de las
dimensiones de los cuantificadores es que el peso p (e)
de un tpico e-ball parte que cubre las tarifas fijadas
invariante con su dimetro, como
p (e) e D, donde el valor de D depende tambin de la
forma precisa se define el peso. Utilizando el cuadrado
de la pi probabilidad de encontrar un punto de la serie
dentro de la bola, la dimensin se llama D2 dimensin
de correlacin, que se calcula ms eficiente por la suma
de correlacin: 73
C ~ m, e! 5
1
Npairs
(J5m
N
(K, j2w
Q ~ e2usj2sku!, ~ 21!
que si son m-dimensional vectores de retardo, Npairs5
(N2m 2W) (N2m2w11) / 2 el nmero de pares de
puntos cubiertos por las sumas, Q es la funcin escaln
de Heaviside, y w se ver ms adelante. A escalas de
longitud suficientemente pequea y cuando la
incorporacin de la dimensin m supera el
correlationdimension del atractor, de 74 aos
C ~ m, e!} D2 e. ~ 22!
Ya que uno no sabe la correlacin de dimensin antes
de hacer este clculo, un control de la convergencia de
los valores estimados de D2 en m.
La literatura sobre la estimacin correcta y espurio de la
dimensin de correlacin es enorme y esto ciertamente
no es el lugar para repetir todos los argumentos. Las
advertencias relevantes y las ideas falsas son revisados,
por ejemplo, en las referencias. 75, 11, 76, 2. La
precaucin ms importante es excluir temporalmente
correlacionadas puntos de la pareja cuenta por la
llamada ventana de Theiler w.75 Para llegar a ser un
estimador consistente de la ~ correlacin integral de la
que deriva la dimensin! la suma de correlacin debe
cubrir una muestra aleatoria de los puntos dibujados de
forma independiente de acuerdo con la medida
invariante en el atractor. Elementos sucesivos de una
serie de tiempo no suelen ser independientes. En
particular, para el flujo de datos altamente muestra
vectores posterior retraso estn altamente
correlacionados.
Theiler sugiri suprimir este efecto espurio por hacer
caso omiso de todos los pares de puntos en la ecuacin.
~ 21! cuyo tiempo los ndices difieren en menos de w,
donde w debe ser elegido con generosidad. Con O (N2)
pares disponibles, la prdida de la O (WN) pares no es
dramtico, siempre y cuando w! N. Por lo menos, las
parejas con j5k tienen que ser excluidos, de 77 aos de
lo contrario, el fuerte sesgo a la D250, el valor
matemticamente correcto para un conjunto finito de
puntos, reduce drsticamente el rango de escala. La
eleccin de w, el primer cero de la funcin de auto-
correlacin, a veces incluso el tiempo de decaimiento
de la funcin de auto-correlacin, no son lo
suficientemente grandes, ya que slo reflejan general
lineal correlations.75, 76 La trama del espacio-tiempo
de separacin ~ Sec. III B!
proporciona un buen medio para determinar el valor
suficiente para w, como se discute, por ejemplo en la
referencia. 41, 2. En algunos casos, especialmente en
los procesos con los espectros de la ley del inverso de
potencia, la inspeccin requiere w a ser del orden de la
longitud de las series de tiempo.
Esto indica que los datos no muestra un atractor
invariante suficiente y la estimacin de los invariantes,
como exponentes de Lyapunov D2 o debe ser
abandonado.
Parmetros en el d2 rutinas, c2 y c2naive son como de
costumbre la incorporacin de parmetros m y t, el
tiempo de retardo, y la dimensin de insercin, as
como la ventana de Theiler.
Rpida implementacin de la suma de correlacin han
sido propuestas por varios autores. A escalas de
longitud pequeas, el clculo de los pares se puede
hacer en O (n log n), o incluso un tiempo O (N) en lugar
de O (N2) sin perder ninguno de los pares preciosos, ver
ref. 20. Sin embargo, para los datos de tamao
intermedio establece tambin necesitamos la suma de
correlacin a escalas de longitud intermedia donde la
bsqueda se convierte en vecino caro. Muchos autores
han tratado de limitar el uso de los recursos
informticos mediante la restriccin de una de las
sumas en la ecuacin. ~ 21! a una fraccin de los puntos
disponibles. Por esta prctica, sin embargo, se pierde
valiosas estadsticas en las escalas de longitud
pequeas, donde los puntos son tan escasos de todos
modos que todos los pares son necesarios para un
crecimiento estable. En la referencia. 62, ambos
enfoques se combinaron por primera vez mediante el
uso de un vecino de bsqueda rpida para el correo, e 0
y la restriccin de la suma de e> e 0. El TISEAN
implementaciones C2 y D2 dar un paso ms y seleccione
el rango de las sumas de forma individual para cada
escala de longitud para ser procesados. Esto resulta de
dar una importante mejora en la velocidad. El usuario
puede especificar un nmero deseado de parejas que
parece lo suficientemente grande como para una
estimacin estable de C (e), por lo general 1000 pares es
suficiente. A continuacin, las sumas se extienden a una
amplia gama que garantiza que el nmero de pares, o, si
esto no se puede lograr, a la serie de tiempo. En las
escalas ms grandes de longitud, este intervalo puede
ser ms bien pequeas y el usuario puede optar por dar
un nmero mnimo de puntos de referencia para
garantizar una media representativa. Sin embargo,
utilizando el programa c2 el cmputo conjunto, lo cual
puede a gran escala se concentra en la primera parte de
la serie de tiempo, lo que parece justo para los datos
fijos, nonintermittent ~ no estacionarias o datos muy
intermitente por lo general no aptos para la estimacin
de la correlacin dimensin de todos modos!. El
programa de d2 es ms seguro con este aspecto. En vez
de restringir el alcance de los importes, slo un
subconjunto seleccionado al azar se utiliza. La
asignacin al azar, sin embargo, requiere una estructura
de programa ms sofisticado con el fin de evitar una
sobrecarga en el tiempo de clculo.
1. Takens-Theiler estimador
La convergencia hacia una dimensin de
correlacin finito se puede comprobar mediante el
trazado dependientes de la escala''efectiva''en
comparacin con las dimensiones de escala de
longitud de varias inmersiones. La forma ms
sencilla de proceder es calcular numricamente ~! la
derivada de log C (m, e) con respecto al registro e,
por ejemplo, mediante la instalacin de lneas rectas
con el grfico log-log de la C (E). En la figura. 18 ~
a! vemos la salida de la rutina acta c2 en los datos
de RMN del lser, procesado por C2D con el fin de
obtener pistas local.
Por defecto, las lneas rectas se coloca sobre una
octava en el correo, mayores rangos de dar
resultados ms suaves. Podemos ver que en las
grandes escalas, la auto-similitud se rompe debido a
la extensin finita del atractor, y en escalas
pequeas, pero estadsticamente significativo, sin
embargo, vemos la dimensin de la incrustacin en
lugar de un cido, m independiente de valor. Este es
el efecto del ruido, que es de dimensin infinita, y
por lo tanto ocupa un volumen en todos los espacios
de inclusin. Slo en las escalas intermedias, vemos
la meseta donde los resultados deseados se
encuentran en buena aproximacin independiente de
m y e. La regin donde se establece la ampliacin,
no slo la gama seleccionada para el montaje en
lnea recta, se denomina el intervalo de escala.
Puesto que las fluctuaciones estadsticas en las
parcelas como en la figura. 18 ~ a! muestran
correlaciones caractersticas anti-~!, se ha
suggested78, de 79 aos de aplicar un estimador de
mxima verosimilitud para obtener los valores
ptimos para la D2. El Takens-Theiler-estimador
dice lo
TDT e ~! 5
C ~ e!
E0
e C ~ e 8!
e 8
de 8
, ~ 23!
y se puede obtener mediante el procesamiento de la
salida de c2 por c2t.
Desde C (e) est disponible slo en valores
discretos $ ei, i 50 ,..., I%, que interpolar por una
ley de potencia pura @ o, equivalentemente, el
grfico log-log por lneas rectas: log C (e ) 5ai
registro e 1BI # en medio de estos. Las integrales
resultantes se pueden resolver trivialmente y se
suman:
E0
e C ~ e 8!
e 8
de 85 (I51
Yo
ebiEe i21
e i
~ E 8! Ai21 de 8
5 (I51
Yo ebi
ai
~ E i
ai2e i21
ai!. ~ 24!
Trazado de la TDT frente a la figura e @. 18 ~ # b!
es una alternativa interesante a la trama habitual
pistas local, la figura. 18 ~ a!. Es tentador usar
como un estimador de la''''dimensin como un
cuadro negro para proporcionar un nmero uno
puede citar como una dimensin. Esto implicara la
suposicin injustificada de que todas las
desviaciones del comportamiento de la escala
exacta se debe a las fluctuaciones estadsticas. En
cambio, todava se tiene que verificar la existencia
de un rgimen de escala. Slo entonces, la TDT (e)
evaluar en el extremo superior del rango de escala
es un estimador de dimensin razonable.
2. Kernel Gaussiano correlacin integral
La suma de correlacin, la ecuacin. ~ 21!, Puede
ser considerada como una densidad media de los
puntos donde se obtiene la densidad local de un
estimador de kernel con un paso kernel Q (E2R).
Una modificacin natural de los conjuntos de
puntos pequeos consiste en sustituir el kernel paso
fuerte por una funcin de kernel sin problemas de
ancho de banda e. Un caso particularmente
interesante que se ha estudiado en el literature80
est dado por el ncleo de Gauss, es decir, Q (E2R)
se sustituye por e2r2/4e 2. El resultado de kernel
Gaussiano correlacin suma CG (e) tiene las
propiedades de escala igual a la C habitual (e). Se
ha observado en la referencia. 3 que CG (e) se
puede obtener de C (e) a travs de
CG ~ e! 5
1
2e 2 E0
`
de ~ e ~ e2 2/4e 2
e ~ C ~ e ~!, ~ 25!
sin tener que repetir todo el clculo. Si C (e) se da
en los valores discretos de correo, las integrales de
la ecuacin. ~ 25! puede llevarse a cabo mediante la
interpolacin de forma numrica C (e) con las leyes
de la potencia pura. Esto se hace en C2G que utiliza
un 15 punto de Gauss-Kronrod regla para la
integracin numrica.
B. Informacin dimensin
Otra forma de agregar peso a la e-pelotas, que es
ms natural, es la probabilidad pi s mismo. El
exponente de escala resultante se llama la
dimensin D1 informacin. Desde la dimensin de
Kaplan-Yorke de la seccin. VI es una
aproximacin de la D1, D1 el clculo de las
propiedades a travs de la ampliacin es relevante
para la verificacin cruzada de datos altamente
determinista. D1 se puede calcular a partir de una
suma de correlacin modificada, donde, sin
embargo, desagradables errores sistemticos
ocurren. La masa fija approach81 evita estos
problemas, de modo que, incluyendo las
correcciones de la muestra finita, de 77 aos un
estimador ms robusto que existe.
En lugar de contar el nmero de puntos en una bola
de uno se pregunta aqu por el correo de dimetro
que debe tener una bola de contener un nmero k de
puntos cuando una serie de tiempo de longitud N se
da. Su ampliacin con K y N se obtiene la
dimensin en el lmite de las escalas de longitud
pequeas
D1 ~ m! 5 lim
k / N! 0
d log k / N
d ^ palco ~ k / N! y
. ~ 26!
El c1 rutina calcula el ~ geomtrica! significa exp
escala de longitud de registro e ^ (k / N) y para que
los vecinos k se encuentran en N puntos de datos, en
funcin de k / N. A diferencia de la suma de
correlacin, correcciones finito muestra son
necesarios si k es small.77 En esencia, el registro de
k tiene que ser reemplazado por el C digamma
funcin (k). La expresin resultante se lleva a cabo
en c1.
Dado M y T, la rutina vara K y N tales que el
mayor rango razonable de k / N est cubierto con un
esfuerzo computacional moderado. Esto significa
que por 1 / N <k / N <K / N ~ por defecto: K5100,
todos los puntos de N disponible se buscan para los
vecinos y k es variada. De K / N, K / N <1, k5K se
mantiene fija y N disminuye. El resultado de los
datos de RMN lser se muestra en la figura. 18 ~ d!,
que puede ser una escala agradable con D1'1 0,35
discernir. Para que sean comparables, la erivative
logartmica de k / N se representa frente al exp ^ log
e (k, N) y y no al revs, a pesar de k / N es la
variable independiente. Es fcil detectar de nuevo la
violacines de la ampliacin discutido antes: corte
en las escalas grandes, el ruido a pequea escala, las
fluctuaciones en escalas ms pequeas an, y un
rango de escala en el medio. En este ejemplo, D1
est cerca de D2, y multifractality no se puede
establecer de manera positiva.
C. La entropa estimaciones
La dimensin de correlacin caracteriza a la
dependencia e de la suma de correlacin dentro del
rango de escala. Es natural preguntarse qu
podemos aprender de sus m-dependencia, una vez
m es mayor que D0. El nmero de e-vecinos de un
vector de retraso es una estimacin de la densidad
de probabilidad local, y, de hecho, es una especie de
probabilidad conjunta: Todos los componentes de la
m-el vecino tiene que ser similares a los del vector
real de forma simultnea . As, al aumentar m,
probabilidades conjuntas que cubren grandes
espacios de tiempo de participar.
La escala de estas probabilidades conjuntas se
refiere a la correlacin de entropa h2, de forma que,
para la ampliacin de correo, tambin la
dependencia de m es vlida slo asintticamente
para m grande, que no llegar debido a la falta de
puntos de datos. Por lo que uno va a estudiar h2 (m)
vs m y tratar de extrapolar a las grandes m. La
entropa de correlacin es un lmite inferior de la
entropa de Kolmogorov Sina, que a su vez puede
ser estimado por la suma de los exponentes de
Lyapunov positivo.
La unidad d2 programa produce como resultado de
las estimaciones de h2 directamente, de los
programas de cualquier otra cantidad que la
correlacin que tiene que ser extrado por el post-
procesamiento de la salida.
La entropa de primer y segundo orden se pueden
derivar de la produccin de C1 y C2,
respectivamente. Un medio alternativo para la
obtencin de estos y las entropas otro generalizado
es por un enfoque de contar caja. Deje que pi es la
probabilidad de encontrar el estado del sistema en la
casilla I, el orden q entropa se define por el lmite
de tamao de la caja pequea y gran cantidad de m
(I
pi
q'e2mhq. ~ 28!
Para evaluar (IPI
q ms de una malla fina de las cajas de m @ 1
dimensiones,
uso racional de la memoria es necesario: Un
histograma simple sera tomar un (1 / e) de
almacenamiento m. Por tanto, el boxcount programa
implementa la malla de las cajas como un rbol con
(1 / e) veces puntos de ramificacin. El rbol es
trabajado a travs de forma recursiva para que en
cada caso ms de una rama completa que existe en
el almacenamiento. La versin actual no
implementa correcciones muestra finito de la
ecuacin. ~ 28!.
VIII. PRUEBAS de no linealidad
La mayora de los mtodos y las cantidades
discutidas hasta ahora son ms apropiadas en los
casos en que los datos muestran una fuerte y
consistente firmas deterministas no lineales. Tan
pronto como algo ms que una pequea cantidad
moderada o mayor de ruido aditivo est presente, el
comportamiento de la escala se romper y la
previsibilidad ser limitado. As, hemos explorado
el extremo opuesto, no lineal y determinista por
completo, en lugar de los procesos estocsticos
lineales clsicos. La mayor parte de la serie en
tiempo real del mundo cae en ninguna de estas
categoras limitantes, ya que reflejan las respuestas
no lineales y componentes de eficacia estocstico, al
mismo tiempo. Poco se puede hacer de muchos de
estos casos con los mtodos actuales. A menudo se
recomienda para tomar ventaja de la maquinaria
bien fundado de los mtodos espectrales y
aventurarse en un territorio no lineal slo si
alentado por pruebas positivas. Esta seccin trata
sobre los mtodos para establecer la evidencia
estadstica de no linealidad ms all de un reajuste
simple en una serie de tiempo.
A. El concepto de datos sustitutos
El grado de no linealidad se puede medir de varias
maneras. Pero, cunto previsibilidad no lineal, por
ejemplo, es necesario excluir las explicaciones ms
trivial? Todos los cuantificadores de las
fluctuaciones muestran la no linealidad, pero las
distribuciones, o barras de error, si lo desea, no
estn disponibles de forma analtica. Por tanto, es
necesario el uso de tcnicas de Monte Carlo para
evaluar la importancia de los resultados. Un mtodo
importante en este contexto es el mtodo de
sustitucin data.82 se formula una hiptesis nula,
por ejemplo, que los datos han sido creadas por un
proceso gaussiano estacionario lineal, y luego se
intenta rechazar esta hiptesis mediante la
comparacin de los resultados de la los datos de
realizaciones adecuadas de la hiptesis nula. Desde
el supuesto nulo no es un simple, pero deja espacio
para los parmetros libres, la muestra de Monte
Carlo tiene que tomar en cuenta. Un mtodo
consiste en la construccin de realizaciones
limitadas de la hiptesis nula. La idea es que los
parmetros libres dejados por los nulos se refleja en
las propiedades especficas de los datos. Por
ejemplo, los coeficientes desconocidos de un
proceso autorregresivo se reflejan en la funcin de
autocorrelacin.
Realizaciones limitadas se obtienen por azar los
datos sujetos a la restriccin de que un conjunto
apropiado de parmetros se mantiene fijo. Por
ejemplo, los datos al azar con un periodograma
dado se puede hacer al asumir fases aleatorias y
tomando la transformada inversa de Fourier del
periodograma dado.
Datos aleatorios con la misma distribucin que un
conjunto de datos puede ser generado por la
permutacin de los datos al azar sin reemplazo.
Pedir un espectro determinado y una distribucin
dada al mismo tiempo, plantea ya una cuestin
mucho ms difcil.
B. iterativo mtodo de transformacin de Fourier
Serie en tiempo real muy pocos los que se sospecha
que muestran la no linealidad siguen una distribucin
gaussiana sola vez. No Gaussianidad es el tipo ms
simple de la firma no lineal, pero puede tener una razn
trivial: los datos pueden haber sido distorsionados en el
proceso de medicin. As, una posible hiptesis nula
sera que no es un proceso gaussiano estacionario
estocstico lineal que genera una secuencia% $ xn, pero
las observaciones reales son sn5s (x), donde s (?) Es una
funcin montona.
Realizaciones limitadas de esta hiptesis nula sera
necesario la generacin de secuencias aleatorias con el
espectro de potencia igual ~ especificar completamente
el proceso lineal! y la misma distribucin sola vez ~
especificar el efecto de la funcin de medicin! como
los datos observados. La amplitud de la Transformada
de Fourier ajustado ~ AAFT! mtodo propuesto en la
referencia. 82 intentos de invertir la medicin de la
funcin s (?) Ajustando la base de los datos a una
distribucin de Gauss. A continuacin, las fases de
Fourier son al azar y el cambio de escala se invierte.
Como se discuti en la referencia. 83, este
procedimiento est sesgado hacia un espectro ms
plano ya la inversa de s (?) No se dispone de
exactamente.
En la misma referencia, un esquema, se indica que
elimina este sesgo iterativa ajustar el espectro y la
distribucin de los sustitutos. Alternativamente, los
sustitutos se reajustarn los valores exactos tomadas
por los datos y la transformada de Fourier es llevado a
la amplitud exacta de los datos obtenidos. La
discrepancia entre los dos pasos o converge a cero con
el nmero de iteraciones o de una inexactitud finita que
disminuye con la longitud de las series de tiempo. Los
sustitutos programa realiza iteraciones hasta que no
mejora se puede hacer. Las dos ltimas etapas se
devuelven, una de ellas con la exacta amplitud de
Fourier y una toma en los mismos valores que los datos.
Para los datos no demasiado extico estas dos versiones
debe ser casi idntico. La discrepancia en relacin
tambin se imprime.
En la figura. 19 se utiliz este procedimiento para
evaluar la hiptesis de que la reduccin de ruido en los
datos reportados en la figura aliento. 12 elimina un
componente de ruido aditivo que es independiente de
la seal. Si la hiptesis fuera cierta, igualmente
podramos aadir de nuevo en la secuencia de ruido
aleatorio o una versin de lo que carece de las
correlaciones de la seal. En el panel superior de la
figura. 19 se muestran los datos originales. En el panel
inferior se tom la versin de la reduccin de ruido ~ cf.
Fig. 12 de fondo! y se aade un sustituto de la secuencia
de ruido se supone. El resultado es similar, pero sigue
siendo significativamente diferente de la original para
hacer la suposicin de aditividad inverosmil.
Planes de Fourier basado en la asignacin al azar sufre
de algunas advertencias debido a la suposicin de la
inherente que los datos constituye un periodo de una
seal peridica, que no es lo que realmente esperamos.
Los artefactos se discuten posibles, por ejemplo, en la
referencia. 84 y puede, en resumen, lleva al rechazo
espurio de la hiptesis nula. Una precaucin que se
deben tomar al usar sustitutos es para asegurarse de
que el principio y el final de los datos corresponden
aproximadamente en el valor y la fase. Entonces, la
hiptesis de la periodicidad no es demasiado malo y no
daino. Por lo general, esto equivale a la prdida de
algunos puntos de la serie. Hay que sealar, sin
embargo, que la rutina puede truncar los datos de
algunos puntos s mismo para ser capaz de realizar la
transformada rpida de Fourier que requiere el nmero
de puntos que se factorizable por pequeos factores
primos.
C. General de aleatorizacin restringida
En la referencia. 85 un mtodo general ha sido
propuesto para crear datos aleatorios que cumplan con
las restricciones especificadas. Con este mtodo, los
artefactos y la imprecisin de los dems esquemas de
aleatorizacin Fourier base se pueden evitar mediante
la especificacin de la funcin de autocorrelacin en
lugar de la transformada de Fourier. El primero no
asume continuidad peridica.
Tal vez lo ms importante, la restriccin de una
hiptesis nula bastante estrecha se pueden relajar, ya
que, en principio, arbitraria observables estadstica se
puede imponer a los sustitutos. Una propiedad deseada
de los datos tiene que ser formulada en trminos de
una funcin de coste que supone un mnimo absoluto
cuando la propiedad se cumple. Estados
arbitrariamente cerca de este costo mnimo se puede
llegar por el mtodo de recocido simulado. La funcin
de coste se reduce al mnimo entre todas las
permutaciones posibles de los datos. Ver ref. 85 para
una descripcin del enfoque.
El paquete contiene TISEAN los bloques de construccin
para una biblioteca de rutinas de los datos especificados
por el usuario sustituto implementar funciones de
costes. Actualmente, slo la funcin de autocorrelacin
con y sin continuidad peridica se han implementado.
Adems, la plantilla se da a partir de la cual el usuario
pudieran derivarse de su / sus propias rutinas. Un
mdulo es siempre que impulsa el proceso de recocido
simulado a travs de un sistema de enfriamiento
exponencial. El usuario podr sustituir este mdulo por
otro esquema de su su / opcin. Un mdulo que realiza
permutaciones aleatorias pareja se le da lo que nos
permite excluir una lista de puntos del programa de
permutacin. Planes de permutacin ms sofisticados
pueden ser sustituidos si se desea.
Lo ms importante es la funcin de costo tiene que ser
dada como otro mdulo. Los mdulos de
autocorrelacin uso
maxt51
tmaxuC (t) 2C (t) datau / t, donde C (t) es la funcin de
autocorrelacin, con o sin continuidad peridica.
En la figura. 20 se muestra un ejemplo el cumplimiento
de la hiptesis nula de un proceso estocstico
estacionario gaussiano reescalado lineal que ha sido
contaminada por un artefacto en las muestras de 200-
220. Los planes de Fourier basado no son capaces de
aplicar la parte de artefactos de la hiptesis nula. Se
propagan a la estructura dada por el artefacto de
manera uniforme sobre el intervalo de tiempo
completo, resultando en ms espigas y menos
predecible.
De hecho, la hiptesis nula de un proceso estacionario
estocstico gaussiano reescalado lineal puede ser
rechazada al nivel del 95% de significacin con los
errores de prediccin no lineal. El artefacto espurio
sera un error de no linealidad. Con el programa de
forma aleatoria-auto-exp-al azar, podemos excluir el
artefacto del esquema de asignacin al azar y obtener
una prueba correcta.
Como ejemplo de una funcin de coste ms exticas,
que nos muestran la asignacin al azar de 500
iteraciones del mapa He'non, fig. 21 ~ a!. Panel ~ b!
muestra la salida de los sustitutos tienen el mismo
espectro y la distribucin. A partir de una permutacin
aleatoria ~ c!, la funcin de coste,
C5 ^ ^ xn21xn y 1 & 1 ^ xn22xn xn21
2 xn y 1 ^ 2 y xn21xn
1 ^ xn22
2 xn & 1 & 1 ^ ^ xn22xn21xn xn21
2 xn 2 y 1 ^ 3 y xn21xn
1 ^ xn21
3 xn y, ~ 29!
se minimiza ~ azar-generic-exp-al azar!. Lo
incluye todos los mayores autocorrelaciones para lo que
sera necesario para un ajuste de mnimos cuadrados
con el xn ansatz
5c2axn21
2 1bxn22 y en este sentido por completo especifica la
estructura de segundo grado de los datos. Los
rendimientos de sonidos al azar
C52400, paneles ~ c! - ~ f! corresponden a C5150,
15,0.002, respectivamente.
Dado que el proceso de recocido puede llevar mucho
tiempo muy CPU, es importante proporcionar un cdigo
eficiente para la funcin de costo. Especificacin de t
max rezagos para N puntos de datos requiere O (N max)
multiplicaciones para el clculo de la funcin de costo.
Una actualizacin despus de un par se ha
intercambiado, sin embargo, se puede obtener con O (t
max) multiplicaciones. A menudo, la suma total o
supremo se puede truncar ya que despus de los
primeros trminos es claro que un gran aumento de los
costes es inevitable. El algoritmo de Metropolis
conduccin facilita la corriente mxima permitida costo
para ese propsito.
El tiempo de clculo necesario para alcanzar la precisin
deseada depende de la eleccin y ejecucin de la
funcin de coste, sino tambin crticamente sobre el
programa de recocido. Hay una vasta literatura sobre el
recocido simulado que no pueden ser revisados aqu. La
experimentacin con sistemas de refrigeracin deben
tener en cuenta el concepto bsico de recocido
simulado.
En cada etapa, el sistema-en este caso el sustituto que
se cree-se mantiene a una temperatura
determinada''.''Al igual que en la termodinmica, la
temperatura determina la probabilidad de las
fluctuaciones alrededor de la media de la energa-en
este caso el valor de la funcin de costo C-son . A la
temperatura T, una desviacin del tamao de DC se
presenta con la probabilidad de Boltzmann exp} (2DC /
T). En una simulacin de la metrpoli, esto se logra
mediante la aceptacin de todos los cambios hacia
abajo (CC, 0), sino tambin los cambios hacia arriba con
exp probabilidad (2DC / T). Aqu los cambios son
combinaciones de dos seleccionados al azar los
elementos de datos. La implementacin actual ofrece
un esquema de enfriamiento exponencial, es decir, se
baja la temperatura por un factor fijo cada vez que una
de las dos condiciones se cumple: o bien un nmero
determinado de cambios se ha intentado, o un nmero
determinado de cambios ha sido aceptada. Estos dos
nmeros y el factor de enfriamiento puede ser elegido
por el usuario. Si el estado se enfra muy rpido que se
atasca o se congela''''en un mnimo de falsos. Cuando
esto sucede, el sistema debe ser derretido''''de nuevo y
de refrigeracin se toma a un ritmo ms lento. Esto se
puede hacer de forma automtica hasta una precisin
de meta se alcanza. Es, sin embargo, difciles de
predecir la cantidad de pasos que tomar. El
comportamiento detallado del sistema sigue siendo
objeto de investigacin en curso y en todos menos en
los casos ms simples, la experimentacin por parte del
usuario, ser necesario. Para facilitar el control de la
refrigeracin, la situacin actual se escribe en un
archivo cada vez que una mejora sustancial se ha hecho.
Adems, el nivel de detalle de la salida de diagnstico
puede ser seleccionado.
D. Medicin de la no linealidad dbil En las pruebas de
no linealidad, nos gustara utilizar cuantificadores que
se optimizan para el lmite de linealidad dbil, que no es
lo que la mayora de mtodos de series de tiempo de la
teora del caos se han diseado. El esquema simple
prediccin lineal ~ Sec. IV B! ha demostrado ser muy til
en este contexto. Si se utiliza como un dato
comparativo, cabe sealar que a veces incrustaciones
aparentemente inadecuada o el tamao de barrio
puede llevar a errores ms grandes que tienen grandes
fluctuaciones, sin embargo, pequeo. La solucin de
compromiso entre el sesgo y la varianza puede ser
diferente de la situacin en la que las predicciones se
desea por s mismo. El mismo razonamiento se aplica a
las cantidades derivadas de la suma de correlacin. Ni el
lmite de pequea escala, la escala real, o la correccin
de Theiler, son formalmente necesarias en un ensayo
comparativo. Sin embargo, la tentacin de interpretar
los resultados en trminos de complejidad, como''''''''o
dimensin debe ser resistido, a pesar de la
complejidad'',''no parece tener una. Acordados
significado de todos modos
Aparte de los errores de prediccin promedio, hemos
encontrado las estabilidades de corto rbitas peridicas
~ ver Sec. IV C! til para la deteccin de la no linealidad
en las pruebas de datos sustitutos. Como alternativa a
los mtodos basados en el espacio de fase, las medidas
ms tradicionales de la no linealidad derivada de
funciones de orden superior autocorrelacin ~ Ref. 86,
de rutina autocor3! Tambin se puede considerar. Si
una inversin temporal asimetra est presente, su
confirmacin estadstica ~ timerev rutina! es un
detector muy poderoso de nonlinearity.87 Algunas de
las medidas de no linealidad dbil se comparan de
manera sistemtica en la referencia. 88.
IX. CONCLUSIONES Y PERSPECTIVAS
El proyecto TISEAN pone a disposicin una serie de
algoritmos de anlisis no lineal de series de tiempo a las
personas interesadas en las aplicaciones del enfoque de
los sistemas dinmicos. Para hacer un uso correcto de
estos algoritmos, no es esencial tener por escrito los
programas de la nada, un esfuerzo que la intencin de
repuesto al usuario haciendo que TISEAN pblico.
Indispensable, sin embargo, es un buen conocimiento
de lo que hacen los programas, y por qu hacen lo que
hacen. Esta ltima requiere una amplia informacin en
el enfoque de series temporales no lineales que no
pueden ser proporcionados por este trabajo, sino ms
bien por los libros de texto como en las referencias. 10,
2, revisiones, 11,12,3 y el original literature.9 Aqu, nos
hemos concentrado en la aplicacin real, ya que se
realiza en TISEAN y en ejemplos de la utilizacin
concreta de los programas.
Vamos a terminar la discusin, dando algunas
perspectivas sobre la labor futura. Hasta ahora, el
proyecto TISEAN se ha concentrado en la situacin ms
comn de una serie de tiempo nico. Mientras que para
las mediciones mltiples de la misma naturaleza la
mayora de los programas pueden ser modificados con
un esfuerzo moderado, un marco general para la
heterognea grabaciones multivariado ~ decir, la
presin sangunea y latidos del corazn! No se ha
establecido hasta ahora en un contexto no lineal. Sin
embargo, creemos que los conceptos como la sincrona
generalizada, la coherencia, o el flujo de informacin
estn bien vale la pena y en algn momento deben
estar disponibles para una comunidad ms amplia,
incluyendo la investigacin aplicada.
La experiencia inicial con mtodos de series temporales
no lineales indica que algunos de los conceptos puede
resultar bastante til en el futuro a formar parte de la
caja de herramientas series de tiempo establecido. Para
que esto suceda, la disponibilidad de los algoritmos y
datos fiables sobre su uso ser esencial. La publicacin
de una importante coleccin de programas a nivel de la
investigacin a travs del proyecto TISEAN puede ser
visto como un paso en esa direccin. Sin embargo, el
potencial usuario todava tendr una experiencia
considerable con el fin de hacer efectivo el derecho-las
decisiones sobre la idoneidad de un mtodo particular
para una serie de tiempo especfico, sobre la seleccin
de parmetros, sobre la interpretacin de los
resultados. Hasta cierto punto, estas decisiones podran
ser guiados por un software que evala la situacin de
los datos y los resultados de forma automtica. La
experiencia previa con la dimensin de recuadro negro
o estimadores de Lyapunov no ha sido alentadora, pero
por algunos problemas especficos,''ptima'', responde,
en principio, se define y se calcula de forma automtica,
una vez que el criterio de optimalidad se formula. Por
ejemplo, los programas de prediccin puede ser
encapsulada en un marco que evala automticamente
el rendimiento para una amplia gama de parmetros de
insercin, etc Por supuesto, la evaluacin cuantitativa
de los resultados no siempre es fcil de implementar y
depende de la finalidad del estudio. Como otro ejemplo,
parece razonable definir''ptima''superficies de
Poincar "de la seccin y para encontrar las soluciones
ptimas numricamente.
Al igual que en la mayora de la literatura de series de
tiempo, el tema de la estacionalidad ha entrado en la
discusin slo como algo que la falta de que tiene que
ser detectado a fin de evitar resultados falsos. Tomando
este punto en serio a la denegacin de una fraccin
importante de los problemas de series de tiempo,
incluyendo los ejemplos ms destacados, es decir, la
mayora de los datos de las finanzas, la meteorologa y
la biologa. Est bastante claro que el mero rechazo de
estos problemas difciles no es satisfactoria y que
tendr que desarrollar herramientas de anlisis de
realidad, entender y predecir datos no estacionarios.
Algunos se han hecho sugerencias para la deteccin de
control de las fluctuaciones parameters.89-92 La
mayora de estos pueden ser vistos como versiones
continuas del problema de clasificacin, otra aplicacin
que no est debidamente representado en TISEAN
todava.
La publicacin de software, o las revisiones y libros de
texto para el caso, en un campo en evolucin tan
rpidamente como el anlisis no lineal de series de
tiempo siempre tendr el carcter de una instantnea
de la situacin en un momento dado. Tener las opciones
o bien esperar hasta que el campo ha saturado
suficiente o con el riesgo de que los programas o
declaraciones, quedar obsoleto pronto, se opt por la
segunda opcin. Esperamos que de este modo, puede
contribuir a la evolucin de la materia.
AGRADECIMIENTOS
Queremos agradecer a Eckehard Olbrich, Marcus
Richter, Andreas Schmitz y que han hecho
contribuciones al proyecto TISEAN, y los usuarios que
pacientemente hecho frente a las primeras versiones
del software, en particular, Hermes, Ulrich. Damos las
gracias a Leci Flepp, Tufillaro Nick, Riccardo Meucci, y
Ciofini Marco por permitirnos utilizar sus datos de series
temporales. Este trabajo fue apoyado por el SFB 237 de
la Deutsche Forschungs gemeinschaft.

Prediction of Particulate Air Pollution using Neural Techniques

Hemos analizado la posibilidad de predecir las concentraciones horarias promedio de la atmsfera suspendida
El material particulado con dimetro aerodinmico inferior a 2,5 micras (PM2.5) horas de anticipacin
utilizando los datos obtenidos en el centro de Santiago, Chile.
Mediante la realizacin de algunas pruebas estndar que se utiliza en el estudio de sistemas dinmicos, que son capaces
de extraer algunas caractersticas de la serie temporal de datos. Utilizamos esta informacin para estimar la cantidad de
datos sobre el pasado para ser utilizado como entrada para una red neuronal para predecir los valores futuros de las
concentraciones de PM2.5. Se demuestra que la mejora de las predicciones es posible mediante el uso de otra red
neural para reducir el ruido en la serie original. Los mejores resultados se obtienen con un tipo de red neuronal, lo que
equivale a una regresin lineal. Hasta seis horas de anticipacin, las predicciones generadas de esta manera tienen
errores significativamente menor que las predicciones basadas en la persistencia de la media a largo plazo de los datos.
1. Introduccin
Muy a menudo tenemos los resultados de los experimentos que no pueden ser interpretadas con un modelo simple. Sin
embargo, si tenemos una gran cantidad de datos medidos, el contenido de la informacin podra ser muy til para
comprender los procesos subyacentes. En los ltimos aos, las herramientas se han desarrollado diversos que hacen un
uso eficiente de esta informacin, permitiendo la formulacin de un modelo matemtico y / o la prediccin de valores
futuros de la variable en estudio [1]. En el presente trabajo, se analizan las mediciones de una variable escalar sola toma
en un punto espacial fijo y en intervalos regulares de tiempo. Nos concentramos en un tipo particular de series de
tiempo, el de la contaminacin atmosfrica por material particulado con dimetro aerodinmico inferior a 2,5 mm
(PM2.5), los datos obtenidos en una estacin ubicada en la ciudad de Santiago de Chile. Aqu la prediccin es muy til
para que las autoridades a tomar medidas para la proteccin de la poblacin cuando los niveles superan los valores
establecidos perjudiciales. A pesar de las normas vigentes en la mayora de los pases (incluido Chile) se establecen para
las PM10 (partculas de menos de 10 mm de dimetro), los resultados de recientes estudios epidemiolgicos sugieren
que las normas tambin se debe establecer para PM2.5 [2-4]. Los datos que se investigue cada hora los valores medios
de las concentraciones de masa de las partculas obtenidas durante el perodo de otoo e invierno de 1994. Debido a las
circunstancias geogrficas, climticas y de desarrollo urbano de la ciudad de Santiago, que es entre mayo y septiembre,
que los ms altos niveles de contaminacin del aire se observan.
La funcin de auto-correlacin muestra una periodicidad doce horas y una lenta decadencia, lo que indica la presencia
de componentes deterministas en la serie. Se ha establecido que para caracterizar el proceso, el intervalo de tiempo de
muestreo ptimo no es necesariamente la dada por el experimento, pero que se puede obtener mediante la evaluacin
de la funcin de medio de informacin mutua, que es una medida del grado en que el resultado de una medicin de una
variable determinada a cabo en el tiempo t est conectado con el resultado de una medicin de la misma variable a
cabo en t1Dt tiempo [1]. Elegir el momento de la aparicin del primer mnimo de esta funcin como el intervalo de
muestreo asegura, en primer lugar, que los puntos sucesivos de datos son lo suficientemente diferentes, y en segundo
lugar, que no son estadsticamente independientes. Con este intervalo de tiempo, construimos una nueva serie de
tiempo y calcular el porcentaje de "falsos vecinos ms cercanos" en funcin de la dimensin (definida como el nmero
de puntos de datos consecutivos con el pasado para estimar el siguiente punto de datos en la serie). Un conjunto de
puntos de datos se consideran como un "vecino ms cercano falsos" cuando, en la reconstruccin de las series de
tiempo, que se generan correctamente por casualidad, y no a travs de la dinmica del sistema (el clculo estadstico de
los falsos vecinos ms cercanos se describe con ms detalle en la seccin sobre la determinacin de la dimensin de
embedding). La dimensin en la que el porcentaje de falsos vecinos ms cercanos llega a cero se define como la
incorporacin de la dimensin del proceso.
Este valor indica el nmero de valores pasados que tener en cuenta a fin de ser capaces de predecir el comportamiento
futuro. Como han hecho otros autores con diferentes tipos de series de tiempo, hemos utilizado la informacin de la
dimensin de incrustacin para fijar el nmero de entradas para alimentar un modelo de red neuronal para la prediccin
diseados [5].
Dado que los modelos de redes neuronales se han utilizado como una herramienta no lineales para la prediccin de
series de tiempo en una variedad de aplicaciones [6,7], se decidi investigar la posibilidad de feed-forward redes
neuronales para predecir las concentraciones de PM2.5 en la atmsfera, con un nmero de entradas igual a la
dimensin de inclusin y una salida, que se corresponde con el valor futuro que queremos predecir. La necesidad de
incluir a las capas ocultas de neuronas ha sido analizado. Una red neuronal feedforward sin capas ocultas y una funcin
de transferencia lineal corresponde a una regresin lineal. El uso de una funcin no lineal como una sigmoide o tangente
hiperblica y / o la inclusin de una capa oculta con un nmero variable de neuronas se hacen de la red un dispositivo
no lineal. Para implementar la red neural, la serie se divide en capacitacin y equipos de prueba. Con el conjunto de
entrenamiento, los pesos que se asignan de la entrada en la salida se determinan. La eficiencia de esta asignacin se
establece al comparar los valores calculados y los valores reales del conjunto de pruebas. Hemos encontrado que las
mejores predicciones que pueden generar corresponden a una red neuronal sin capas ocultas. Las predicciones de ms
de seis horas de anticipacin, en promedio, no mucho mejor que el promedio de desviacin de la media. Mejores
predicciones se haban producido con anterioridad con las redes neuronales diseadas por ensayo y error, sin rigor con
la informacin del tiempo de retardo y la incrustacin de dimensin [9]. La razn de los resultados relativamente pobres
con el esquema descrito anteriormente puede ser la inexactitud en la determinacin del tiempo de retardo y la
dimensin de incorporacin debido a la presencia de ruido. Se ha procedido a eliminar el ruido de los datos mediante el
uso de un mtodo nuevo de la red neuronal de uso frecuente para la compresin de datos [10]. De esta manera, se ha
generado una serie de tiempo ms suave para el PM2.5 de datos. Un nuevo clculo del tiempo de retraso y la dimensin
de incrustacin permite el diseo de una red neuronal con menos errores de prediccin, que ahora son del mismo orden
de magnitud que los obtenidos por ensayo y error.
Dado que el nmero de neuronas presentes en la red que utiliza la informacin de la incorporacin de la dimensin es
mucho menor que en la red implementada por ensayo y error, en el primer caso tenemos, como una ventaja prctica,
que vamos a necesitar un clculo mucho menor tiempo.
2. Los datos de cada hora un promedio de PM2.5 las concentraciones en masa para el ao 1994 fueron obtenidos de
forma continua por medio de un instrumento de tipo masa oscila mecnicamente equilibrio.
La temperatura de la corriente de la muestra se mantiene internamente a 50 C. La fraccin de masa de las partculas
PM2.5 atmsfera se compone de partculas con un dimetro aerodinmico de hasta 2,5 mm. El instrumento se realiz
en la estacin A del sistema de Santiago de vigilancia pblica de calidad del aire, designado como MACAM, esta estacin
se encuentra a unos 100 m NO de Casa de Gobierno (Palacio de La Moneda) en el centro de Santiago, Chile.
Hemos optado por trabajar con datos de 05.01 a 09.30, porque es durante estos meses que, debido a condiciones
desfavorables para la dispersin de las partculas de la atmsfera, la contaminacin del aire en Santiago alcanza los
niveles ms altos. Nuestra serie de tiempo por lo tanto, tiene 3672 puntos. Valor promedio y la desviacin estndar son
71 y 45, respectivamente, en unidades de mg/m3.
Hemos calculado la funcin de auto-correlacin
C (T) de la serie de tiempo:
C (T) 5 sobre
n50
s (n) s (n1T) (1)
donde s (n) es la concentracin de PM2.5 en el tiempo n, N 5 3672 y T-5 0,1,2,. . .
La figura 1 muestra la trama de C (T) de los datos objeto de estudio. Podemos ver los picos a los 12, 24, 36,. . . horas, lo
que indica que un determinado nivel de contaminacin tiene una tendencia a repetirse cada doce horas, al menos
cualitativamente. La coherencia de mucho tiempo de la funcin de auto-correlacin es un indicador del comportamiento
determinista [5]. La estructura de esta funcin de autocorrelacin se puede explicar por el hecho de que la variacin
diaria de la concentracin de PM2.5 parece ser, en promedio, muy similar para todos los das de la semana durante el
perodo considerado. La Figura 1 tambin muestra la grfica de la funcin de auto-correlacin despus de la reduccin
de ruido (ver la seccin de filtrado de ruido). Las concentraciones medias en funcin del momento del da se muestran
en la figura. 2, donde las medias se toman ms de los 153 das presente en el intervalo de estudio. Se observan dos picos
de concentracin, que parecen estar relacionados con el trfico de vehculos de motor.
Ya que una de las principales fuentes de PM2.5 son las emisiones de vehculos de motor, y dado que la estacin de
medicin se encuentra cerca de una zona donde los atascos son frecuentes, especialmente en las horas punta de
maana y tarde, la curva observada no es inesperado. El aparente retraso de la concentracin mxima en comparacin
con las horas punta siempre se puede atribuir al tiempo empleado por los contaminantes a la deriva desde el origen
hasta la medicin de la estacin. Una demora adicional se espera en la noche, porque despus del atardecer (alrededor
de las 18:00 horas) las corrientes de conveccin atmosfrica se reduce significativamente.
3. Determinacin de la dimensin de incrustacin
La dimensin de incorporacin de un sistema dinmico es una dimensin global entera que da el nmero de
coordenadas necesarias para desplegar su trayectoria en el espacio de fase. Para calcular la dimensin de una serie
temporal de datos experimentales, debemos determinar primero el retardo de tiempo adecuado para la muestra de
datos.
En general, este retardo de tiempo optimizado es diferente del tiempo de retardo en la serie de tiempo original. Una vez
que tenemos este retraso de tiempo T, y despus de la eleccin de un suficientemente alto dimensin d, para cualquier
punto s de datos (k), el conocimiento del vector y (k) 5 (s (k), s (k 1 T),.. ., s (k1 (d21) T)), ser suficiente para predecir la
evolucin del sistema. En el espacio d-dimensional, vector y (k) tiene un vecino ms cercano YNN (k), que es el vector de
la distancia euclidiana al menos a la misma. Si d es menor que dE, es muy probable que este vecino ms cercano es falsa,
es decir, que corresponde a una proyeccin del espacio dEdimensional real. Incorporacin de la dimensin de dE se
puede determinar mediante la bsqueda de la dimensin d por encima del cual el porcentaje de falsos vecinos ms
cercanos tiende a cero. En la prctica, se ha encontrado que si la cantidad s (k1dT) 2sNN (k1dT) u / RA es del orden o
mayor que 2, entonces YNN (k) es un vecino cercano falsa. Aqu SNN (k1dT) es el componente d11 de la YNN vector (k) y
la AR es el valor eficaz de los datos respecto a su media.
Se ha sugerido que la eleccin adecuada del tiempo de retardo T0 es el primer mnimo de la funcin de informacin
mutua promedio que se compara las mediciones de la variable s en el tiempo T y n1T tiempo
[1]. El promedio de la funcin de informacin mutua I (T) se define como:
I (T) 5 Ss (n), s (n1T) P (s (n), s (n
1T)) log2 [(P (s (n), s (n1T )))/( P (s (n)) P (s (n (2)
1T)))]
donde P (s (n)) es la probabilidad de obtener el valor s en el tiempo n y P (s (n), s (n1T)) es la probabilidad conjunta de
obtener un determinado valor de la variable s en el tiempo n y algunos otro valor de s en n1T tiempo.
Estas probabilidades se calculan numricamente a partir de la una y dos dimensiones histogramas de la serie,
respectivamente. Para nuestros datos, I (T) se muestra en la fig. 3, que parece indicar que para la serie original, que debe
elegir T 5 de 7 horas. Con este valor de tiempo de retraso, se calcula el porcentaje de falsos vecinos ms cercanos en
funcin de la dimensin, la obtencin de lo que se muestra en la fig. 4. Debemos tomar la dimensin de incrustacin que
para que la variable dependiente tiende a cero. Ya que en este caso la funcin se reduce rpidamente, pero no va
exactamente a cero, pero se mantiene aproximadamente constante en un valor bajo, una dimensin incorporacin dE 5
4
se consider apropiado.
4. Prediccin utilizando un esquema de redes neuronales
Prediccin de la concentracin de la masa de PM2.5 en el tiempo t puede ser generada a partir de la siguiente
asignacin:
yt 5 pies (x1, x2,..., xd) (3)
donde x1 5 s (t-T), x2 5 s (t-2T),. . ., Xd 5 s (t2dT),
representan mediciones consecutivas de los datos de la contaminacin. En general, para cada t discreto, una funcin
diferente pies se utiliza. La forma de esta funcin se obtiene despus de ajustar un conjunto de parmetros que lo
define.
Los resultados de estudios recientes han demostrado la ventaja de los mtodos ms tradicionales de redes neuronales
mtodos estadsticos para la prediccin de series temporales [6, 7].
Hemos analizado la posibilidad de predecir el PM2.5 de datos mediante feed-forward redes neuronales multicapa. En
este caso, los flujos de informacin desde la entrada hasta la salida sin retorno, y los parmetros a ajustar son
esencialmente los pesos de conexin de una capa de entrada con n unidades o neuronas, a una unidad de salida o de
neuronas, con el tiempo que pasa a travs de una o ms capas ocultas con un nmero adecuado de unidades. Por lo
general, los datos disponibles se dividen en un conjunto de entrenamiento (de regulacin) y un conjunto de pruebas.
Los pesos ptimos se obtienen mediante el uso de "backpropagation" [8]. La calidad de la prediccin se obtiene de la
actuacin con el equipo de prueba de los datos. Porcentaje de errores de las predicciones (PE) se calcular de acuerdo
con
PE 5
kuytp 2 ytaul
kytal
(4)
donde YTP es el valor esperado, YTA es el valor real, y kl medio promedio en los casos de prueba.
Si los pies de funcin es una funcin lineal de una combinacin lineal de las entradas, tendramos un perceptrn lineal,
que es en la prctica de una regresin lineal.
Espacio adicional para un buen ajuste de los datos se puede lograr mediante la introduccin de un conjunto de nodos
ocultos ZTK, (k 5 1,..., N), de tal manera que
ZTK 5 f (wtk1x11... 1wtkdxd un wtk0) (5)
donde x1,. . ., Xd son las entradas al nodo k de la capa oculta, wtkj (j 5 1,..., D) son los pesos de conexin entre la entrada
y las capas ocultas, y ZTK es la k de entrada al nodo de salida. La salida es
yt 5 f (vt1zt1 1... 1 1 vtnztn vt0) (6)
donde vtk son los pesos de conexin entre la capa oculta y de salida.
La funcin f utiliza con mayor frecuencia es una sigmoide:
1 1 e2 (7)
o una tangente hiperblica.
Hemos dejado los primeros 2900 puntos de la serie de datos para la formacin, y los restantes 772 para la prueba.
De acuerdo con el valor de la incorporacin de la dimensin calculada, para un intervalo de tiempo T 5 7 horas, una red
neuronal con cuatro unidades en la capa de entrada y una salida se lleva a cabo. Para construir el conjunto de
entrenamiento se seleccionan los puntos 1, 8, 15 y 22 para la entrada y el punto 23 como salida si queremos predecir
una hora de antelacin, el punto 24 durante dos horas, etc A continuacin, aadimos los puntos 2, 9, 16 , 23 como
entradas y 24 como salida durante una hora, 25 durante dos horas, etc De esta manera, se generan 2.876 casos de
entrenamiento para cada una de las 24 redes diseados, uno para cada hora se espera para predecir el futuro, de un a
veinticuatro horas. El equipo de prueba se genera de una manera similar, a partir del punto 2901. Despus del
entrenamiento, con los pesos errores fijos, promedio sobre el conjunto de pruebas (PE) se evalan. Los resultados se
muestran en la figura. 5. Hemos encontrado que las mejores predicciones se obtienen con una red sin capas ocultas, con
f (X) 5 X, que corresponde a una aplicacin lineal. Para la comparacin se muestran los resultados de las predicciones
generadas utilizando una red neuronal diseada por ensayo y error (sin necesidad de utilizar explcitamente los
resultados de la demora de tiempo y la dimensin de embedding). Esta red (24 3 1 ensayo) tiene 24 unidades en la capa
de entrada y no capa oculta.
Tiempo de retardo en este caso es T 5 1 y otra vez f (X) 5 X.
Esta estructura fue motivado por los estudios anteriores sobre el mismo conjunto de datos [9]. Como referencia, la
desviacin media de los datos reales del valor real de la media (media dev. Significar 5 0,49) en la pantalla.
Se puede observar en esta figura que las predicciones de uso de la red con 24 unidades de entrada son mejores que los
obtenidos con la red con cuatro unidades de entrada. Esta diferencia puede deberse en parte al hecho de que la
determinacin de la incorporacin de dimensin no es muy precisa, ya que nunca la curva para el porcentaje de vecinos
ms cercanos (Fig. 4) alcanza el valor cero, probablemente debido a la presencia de ruido . La red de 24 unidades de
entrada tiene una mejor oportunidad para promediar el ruido, alcanzando una mejor prediccin. Tambin podemos ver
que las predicciones de importantes utilizando una red neuronal es posible slo hasta el fin de seis horas de antelacin.
Teniendo en cuenta las predicciones de 1 a 6 horas de antelacin, el perceptrn con 24 entradas muestra un error
promedio de 5.3% menor que el perceptrn con cuatro entradas.
Hemos estudiado el efecto del uso de una tangente hiperblica como funcin de transferencia en todas las redes, pero
hemos comprobado que esto no conduce a una mejora significativa con respecto a un perceptrn lineal.
5. Filtro de ruido
Los resultados mostrados anteriormente indican que el conjunto de datos que estamos analizando tiene una cantidad
significativa de ruido, que es probablemente generados durante el proceso de medicin. La funcin de auto-correlacin
se supone que debe dar informacin til sobre el proceso subyacente, con un promedio del ruido. Por esta razn, hemos
puesto en marcha un procedimiento de reduccin de ruido, que tambin se basa en tcnicas de redes neuronales.
Consiste en lo siguiente: dividir la serie en grupos que contienen datos de Ng Np punto cada uno. A continuacin, el
diseo de una red neuronal de tres capas que tiene Np unidades en la capa de entrada, NH (con Nh, Np) unidades en la
capa oculta y las unidades de Np en la capa de salida.
Aqu los grupos Ng se utilizan tanto para entrenamiento y pruebas. El objetivo es que la red para reproducir la entrada a
la salida, dejando de lado los componentes de alta dimensin (que es el caso de ruido) [10]. Los resultados generados en
el proceso de pruebas se pegan juntos para crear una serie con la reduccin de ruido. Tomamos Nh ser el valor ms bajo
que no implica una destruccin significativa de la estructura revelada por la funcin de auto-correlacin. Hemos
utilizado Np 5 24, y nos encontramos con que NH 5 6 es una eleccin apropiada. En estas condiciones, la curva de la
funcin de auto-correlacin es simplemente desplazado verticalmente, como se muestra en la fig. 1. La nueva serie de
tiempo tiene una distribucin ms suave, como puede verse en la figura. 6, donde se ha representado la concentracin
msica de PM2.5 (mg/m3), tanto para los datos originales y los datos modificados por las primeras 200 horas del
perodo en estudio. Despus de la reduccin del ruido, la curva de la variacin diaria promedio de PM2.5
concentraciones (Fig. 2) se mantiene prcticamente sin cambios.
Para la nueva serie histrica de datos se ha procedido, como antes, lo que significa que hemos calculado un intervalo de
tiempo nuevo y la incorporacin de la dimensin correspondiente a fin de disear la red neuronal.
La nueva funcin de medio de informacin mutua se muestra en la fig. 3. Desde que (4) es ligeramente menor que yo
(5), hemos optado por T 5 4. Para este tiempo de retardo se ha representado el porcentaje de falsos vecinos ms
cercanos en funcin de la dimensin, la obtencin de lo que se muestra en la fig. 4. Observamos que una buena eleccin
de la dimensin de incorporacin de nuevo dE 5 4, pero en este caso la estimacin parece ms fiable ya que por las
dimensiones superiores, el porcentaje se queda mucho ms cerca de cero.
A continuacin, proceder como con los datos originales, hemos puesto en marcha una red neuronal con cuatro entradas
y una salida, y hemos ajustado los parmetros con los primeros 2900 puntos para la formacin, teniendo en cuenta el
retardo de tiempo nuevo. Los errores de prediccin para el conjunto de la prueba se muestra en la figura. 7. Una vez
ms, se comparan los resultados con los obtenidos mediante una red de dos capas con 24 entradas, una salida y T 5 1.
Para la reduccin de ruido datos de series de la desviacin media de la media baja a 0,45, por lo que volver a mostrar
esta cantidad como referencia, ya que slo los errores de prediccin ms pequeo que esto puede ser considerado de
inters.
Se puede observar que ahora, los errores de prediccin son ms pequeos que los obtenidos con los datos originales,
y que las predicciones con los 4 31 (T 5 4)
red ms cercanas a las de los 24 3 1 (T 5 1)
de la red. El 24 3 1 de la red todava parece reflejar mejor la tendencia de los datos, teniendo en cuenta que la cantidad
relativamente pequea de los datos disponibles no permiten una determinacin muy precisa de la dimensin de
insercin, y que para poder realizar predicciones con ms de una hora en los errores de anticipacin tienden que se
acumulen.
Una vez ms, las predicciones con redes neuronales parecen importantes a la orden de seis horas de antelacin.
Teniendo en cuenta las predicciones de 1 a 6 horas de antelacin, el perceptrn con 24 entradas muestra un error
promedio de slo un 4,3% ms bajo que el perceptrn con 4 entradas.
Como en el caso anterior hemos verificado que el problema en cuestin el uso de una funcin de transferencia no lineal
no da mejores resultados que un perceptrn lineal.
6. Conclusin
Nuestros resultados muestran que la prediccin de concentraciones de partculas contaminantes en la atmsfera de una
ciudad contaminada es posible cuando se utilizan herramientas desarrolladas en el modelado de sistemas dinmicos y
tcnicas de redes neuronales. La informacin extrada de la serie de tiempo PM2.5 se puede utilizar para implementar
una arquitectura de red neuronal con el fin de hacer predicciones de esta cantidad durante varias horas en el futuro.
Una reduccin de ruido anteriores utilizando redes neuronales de nuevo se encontr que era conveniente a fin de
reducir significativamente los errores de prediccin. Una correcta determinacin de un tiempo de retardo y la dimensin
ptima de la incrustacin de las series de datos en estudio ha permitido el diseo de una red neuronal para hacer
predicciones en un tiempo computacional relativamente bajo.
Los mejores resultados se obtuvieron con una red neuronal sin capas ocultas, lo que equivale a una regresin lineal (esto
no ser el caso general, porque cuando el sistema subyacente es no lineal, una red neuronal con las capas ocultas sera
ms apropiado). Hasta seis horas de anticipacin, las predicciones generadas de esta manera tienen errores
considerablemente menor que las predicciones basadas en la persistencia de la media a largo plazo de los datos.
Agradecimientos. Nos gustara agradecer el apoyo del Departamento de Investigacin de la Universidad de Santiago de
Chile (DICYT), a travs del proyecto 049631PJ, y Fondo Nacional de Ciencia y Tecnologa (FONDECYT) a travs del
proyecto 1970418. Nos gustara tambin dar las gracias a A. Trier para una lectura crtica del manuscrito.

Redes neuronales y modelos de regresin mltiple
para la prediccin de PM10 en Atenas: una
evaluacin comparativa.
Chaloulakou A , G Grivas , Spyrellis N .
Fuente
Departamento de Ingeniera Qumica, Universidad Tcnica Nacional de Atenas, Atenas, Grecia.
dchal@central.ntua.gr
Abstracto
La contaminacin atmosfrica de partculas en las zonas urbanas se considera que tiene un impacto significativo
sobre la salud humana. Por lo tanto, la capacidad de hacer predicciones exactas de las concentraciones de
partculas del ambiente es importante para mejorar la conciencia pblica y la gestin de la calidad del aire. Este
estudio examina la posibilidad de utilizar mtodos de redes neuronales como herramientas para la materia
particulada diaria media con un dimetro aerodinmico <10 micras (PM10) previsin de la concentracin,
ofreciendo una alternativa a los modelos estadsticos utilizados hasta el da de hoy. Basado en un inventario de
datos, en un lugar fijo el centro de Atenas, Grecia, que van en un perodo de dos aos, y el uso de variables
meteorolgicas, principalmente como insumos, modelos de redes neuronales y modelos de regresin mltiple se
han desarrollado y evaluado. Las estadsticas de comparacin utilizado indican que el enfoque de redes
neuronales tiene una ventaja sobre los modelos de regresin, expresada tanto en trminos de error de prediccin
(error cuadrtico medio valores ms bajos de 8.2-9.4%) y de la capacidad de prediccin de episodios (false
valores de la frecuencia inferior de la alarma por 7 - 13%). Los resultados demuestran que las redes neuronales
artificiales (RNA), debidamente capacitado y formado, pueden ofrecer soluciones adecuadas a las demandas de
partculas pronstico de la contaminacin.

Pgina 1
17

Simposio europeo sobre Computer Aided Process Engineering - ESCAPE17
V. Plesu y PS Agachi (Editores)
2007 Elsevier BV Todos los derechos reservados.
1
Prediccin de la calidad del aire en Uberlndia, Brasil, con
modelos lineales y redes neuronales
Taisa S. Lira, Marcos, Barrozo, Adilson J. Assis
Escuela de Ingeniera Qumica de la Universidad Federal de Uberlndia, Av.. Joo Naves de
vila, 2121, 38408-100, interior de Minas Gerais, Brasil, e-mail: ajassis@ufu.br
Abstracto
La contaminacin de partculas de aire se asocia con una serie de efectos sobre la salud humana,
incluidos los efectos sobre el sistema respiratorio y cardiovascular, asma y
la mortalidad. Por lo tanto, el desarrollo de una previsin eficiente y de alerta temprana
sistema de informacin de calidad del aire hacia el ciudadano se convierte en un
evidente la necesidad y el imperativo. El objetivo de este trabajo fue investigar que
capacidad de pronstico utilizando modelos lineales (como ARX, ARMAX, la salida de error
y Box-Jenkins), y las redes neuronales. Fueron utilizados meteorolgicos
variables y 24 h PM
10
la concentracin de hoy en da como datos de entrada. Como
la produccin prevista por los modelos, la PM 24 h
10
concentracin se obtiene, con
horizonte de prediccin de hasta tres das antes. Los resultados mostraron que bastante
buenas estimaciones se puede lograr por todos los modelos, sino modelos de Box-Jenkins
mostr un mejor ajuste y la previsibilidad.
Palabras clave
La calidad del aire, los modelos lineales, redes neuronales, material particulado, la salud pblica.
1. Introduccin
En los ltimos aos, la calidad del aire se ha convertido en un factor importante que contribuye a la
calidad de vida en reas urbanas, especialmente en zonas densamente pobladas y
las zonas industrializadas. La contaminacin de partculas de aire se asocia con una serie de efectos
en la salud humana, incluidos los efectos sobre los sistemas respiratorio y cardiovascular

Pgina 2
2
TSLira et al.
sistemas, el asma y la mortalidad [1,2]. Prediccin a corto plazo de la calidad del aire es
necesaria para tomar medidas preventivas y evasivas durante los episodios de
la contaminacin atmosfrica. De esta manera, al influir en los hbitos de la gente todos los das o por
la imposicin de restricciones sobre el trfico y la industria, debera ser posible para evitar
medicacin excesiva, reducir la necesidad de tratamiento en el hospital e incluso prevenir
las muertes prematuras [3,4].
La tendencia en los ltimos aos ha sido la utilizacin de mtodos estadsticos en lugar de ms
modelos deterministas tradicionales para predecir la contaminacin del aire. Redes neuronales
(NN), los modelos se han utilizado para la previsin de una amplia gama de contaminantes
y sus concentraciones en diversas escalas de tiempo, con muy buenos resultados [5-8]. En
su visin general de las aplicaciones de NN en las ciencias atmosfricas, Gardner y
Dorling [8] en el que las redes neuronales suelen dar tan buenos o mejores
resultados que los mtodos lineales. Los modelos lineales se utilizan aqu como una novedad,
desde la previsin de la contaminacin del aire puede ser visto como similar a la identificacin del sistema.
Las ventajas de estos modelos es que no requieren de muy exhaustiva
informacin acerca de los contaminantes del aire, los mecanismos de reaccin, las condiciones meteorolgicas
los parmetros o el flujo de trfico y que tienen la capacidad de permitir no lineal
las relaciones entre las variables de prediccin muy diferente. Estos hechos y la
calidad de los resultados que han presentado son los motivos que los hacen ms
atractivo de aplicar que otros modelos.
El objetivo de este trabajo fue investigar la capacidad de pronstico de la
los mtodos siguientes: modelos lineales (como ARX, ARMAX, salida de error y
Box-Jenkins), y las redes neuronales. Los modelos utilizados variables meteorolgicas
y 24 h PM
10
la concentracin de hoy en da como datos de entrada. Dado que la produccin prevista
por el modelo, la PM 24 h
10
concentracin se obtiene, con el horizonte de
prediccin de hasta tres das antes.
2. Datos y la metodologa
2.1. Datos
Este estudio se basa en PM
10
los datos recogidos por la concentracin de la Facultad de Qumica
Ingeniera de la Universidad Federal de Uberlndia (UFU) durante los aos de
2003, 2004 y 2005. Las muestras fueron tomadas con equipos de alto volumen de muestras
periodos de 24 horas, cada tres das, de acuerdo con las normas establecidas por
ABNT (Asociacin Brasilea de Normas Tcnicas). El equipo est situado en
la estacin central de autobuses de la ciudad de Uberlndia. Ms detalles sobre los datos
metodologa de recoleccin se puede obtener en otra parte [9].
Se sabe que la concentracin de contaminante atmosfrico est fuertemente relacionada con
las condiciones meteorolgicas. Los estudios sobre la influencia de la meteorologa
condiciones de la concentracin de contaminantes del aire se puede ver en Elminir y Hien
et al. [10,11]. Los datos meteorolgicos utilizados en el estudio fueron obtenidos en el

Pgina 3
Prediccin de la calidad del aire en Uberlndia, Brasil, el uso de modelos lineales y
redes neuronales
3
estacin climtica del Instituto de Geografa de la UFU encuentra 2.07 kilometros lejos
desde el lugar de PM
10
de muestreo.
2.2. Las redes neuronales
NN son estructuras matemticas que hacen uso de una combinacin compleja de
los pesos y las funciones para convertir las variables de entrada en una salida (prediccin). NN
son capaces de aprender de los patrones que se les presentan y de los errores
se comprometen en el proceso de aprendizaje, por lo que, finalmente, debe identificar los patrones de
nunca antes visto (generalizacin).
En el estudio actual, el perceptrn multicapa (MLP) es una adaptacin. Es el
tipo ms comn de la red neuronal feedforward en la atmsfera
ciencias [8]. MLP est compuesto de al menos tres capas de neuronas: la entrada
capa, la capa oculta (s) y la capa de salida. La capa de entrada no juega
funcin computacional sino que sirve simplemente para pasar el vector de entrada a la red.
Cada unidad en la capa oculta resume sus aportaciones, los procesos con una funcin de transferencia
y distribuye el resultado a la capa de salida.
El entrenamiento de un MLP es el procedimiento mediante el cual los valores de los pesos individuales
se determinan. Diferentes algoritmos de entrenamiento se podran aplicar para minimizar el
funcin de error, pero el ms ampliamente utilizado es el algoritmo de retropropagacin [6].
Este algoritmo es otra cosa que la aplicacin de la gradiente de descenso
mtodo, usando como funcin objetivo la suma de errores cuadrados entre la produccin neta
y los datos de entrenamiento.
2.3. Los modelos lineales
Un general de entrada-salida del modelo lineal de un sistema nico de salida con la entrada uy
y la salida se puede escribir [12]:
B (q)
C (q)
Una y (q) (t)
u (t)
e (t)
F (q)
D (q)
=
+
(1)
donde e (t) es ruido blanco y con
un
un
b
b
c
c
d
d
F
F
n
1
1
n
n
1
1
n
n
1
1
n
n
1
1
n
n
1
1
n
A (q) 1 aq
aq
B (q) bq
bq
C (q) 1 cq
cq
D (q) dq 1
dq
F (q) 1 fq
fq
-
-
-
-
-
-
-
-
-
-
= +
+ +
=
+ +
= +
+ +
= +
+ +
= +
+ +
...
...
...
...
...
(2)

Pgina 4
4
TSLira et al.
La estructura general puede tener hasta 32 conjuntos de diferentes modelos, dependiendo de
cul de los cinco polinomios A, B, C, D y F se utilizan. Sin embargo, slo cuatro
posibilidades se utiliza aqu, y que se resumen en la Tabla 1.
Tabla 1. Algunos modelos como casos especiales de la ecuacin (1)..
Nombre del modelo
estructura
ARX
ARMAX
OE (salida-error)
BJ (Box-Jenkins)
Polinomios
utilizados en la ecuacin (1).
A, B,
A, B, C
B, F
B, C, D, F
3. Resultados y discusin
Primero de todo, un anlisis de regresin mltiple (nivel de significacin de p <0,05)
aplicado a revelar los parmetros atmosfricos controlar las variaciones da a da
de PM
10
. Temperatura (
o
C), humedad relativa (%), precipitacin (mm), velocidad del viento
(M / s), direccin del viento (grados, 0 de N) y el sol (h), adems de los das
de la semana, se demostr que los parmetros ms importantes. Podran
explican el 64% de las varianzas de las 24 h PM
10
concentraciones.
El conjunto de datos (total = 341) ya estn normalizados (media = 0 y desviacin estndar
= 1) se dividi de la siguiente manera: 2 / 3 para la formacin / valoracin y 1 / 3 para su validacin.
Tenga en cuenta que la direccin del viento y las variables dicotmicas da se utiliza el seno
y el coseno funciones. Esto permiti a los algoritmos neuronales para que funcione correctamente
a pesar de las discontinuidades en las seales cclicas original [7].
El software se utiliza Matlab. Los modelos lineales se ajustaron mediante el sistema
La identificacin de herramientas. Para el modelo de red neuronal (MLP), el algoritmo de aprendizaje
utilizada fue de Levenberg-Marquardt retropropagacin (Neural Network Toolbox).
Las funciones de transferencia seleccionados para las capas se tangente hiperblica para el
capa oculta y lineal de la capa de salida. El nmero de neuronas en el
capa oculta y de retardo de entrada para MLP, y las rdenes de los polinomios y
retrasos de los modelos lineales se encuentra el ptimo de validacin cruzada.
Para la evaluacin del desempeo modelos, tres medidas estadsticas, que
se utilizan ms frecuentemente en la literatura, fueron seleccionados, a saber, la media de la raz
cuadrados error (RMSE), el coeficiente de determinacin (R
2
) Y el ndice de
acuerdo (d). A pesar de que la R
2
tiene sus defectos conocidos en ciertas situaciones
[13], esta medida fue utilizada con el fin de mantener la compatibilidad con otros
los estudios. El rendimiento de todos los modelos se comparan sobre la base de la
predicho y el observado PM
10
concentracin. Los resultados se resumen en la
Tabla 2.

Pgina 5
Prediccin de la calidad del aire en Uberlndia, Brasil, el uso de modelos lineales y
redes neuronales
5
Tabla 2. Indicadores de desempeo de los modelos
ARX
ARMAX
OE
BJ
MLP
RMSE
0,5078
0,5044
0,6495
0,4039
0,5424
d
0,9320
0,9318
0,8795
0,9629
0,9140
R
2
0,7799
0,7842
0,6394
0,8120
0,7591
Otras comparaciones se pueden encontrar en la figura. 1, donde los diagramas de dispersin son hechas para el
actuaciones de los dos modelos: BJ y MLP. Para un grfico de dispersin, el perfecto
caso de la prediccin frente a la observacin se debe mostrar de una intercepcin de cero y un
unidad de la pendiente. De acuerdo a las parcelas se muestra en la Fig. 1 y el desempeo de la
indicadores en el Cuadro 2, los cinco modelos mostraron una capacidad de buen pronstico para
la medida PM
10
concentracin, pero Box-Jenkins modelo claramente dio lo mejor
los resultados.
Fig.1 Los diagramas de dispersin de observar y predecir PM
10
las concentraciones de: (a) El camionero y MLP (b).
Con el fin de visualizar el rendimiento del modelo de Box-Jenkins en el
estimacin de los coeficientes del polinomio y MLP en la formacin, la comparacin
entre predicho frente a los datos observados se presentan en la Fig. 2. La grfica
presentacin muestra a un acuerdo bastante bueno entre la prediccin y la
PM observado
10
concentracin, tanto para los datos de estimacin / formacin y para la
validacin de datos.
4. Conclusiones
Cinco modelos para predecir la calidad del aire con fines fueron evaluados aqu con 24 h
PM
10
las concentraciones y las variables meteorolgicas bsicas de la ciudad de
Uberlndia (Brasil) recogidos durante los aos de 2003-2005. Los resultados
mostr que bastante buenas estimaciones se puede lograr por todos los modelos, pero
Box-Jenkins modelo que se presenta el mejor rendimiento. Los modelos propuestos pueden ser
utilizado, entre otros, para el gobierno pblico local, como herramienta de control

Pgina 6
6
TSLira et al.
del trfico urbano y tambin como un mecanismo de formulacin de polticas pblicas preventivas
la poltica en las reas de salud y la movilidad urbana.
Fig.2 prevista (lnea azul) frente a observados (lnea negro) datos sobre la formacin / estimacin y
predicho (lnea roja) frente a los datos observados (lnea de negro) en la validacin de: (a) El camionero y MLP
(b).
Agradecimientos
Los autores desean agradecer al Instituto de Geografa de la UFU para proporcionar
los datos meteorolgicos, as como el Euclides Antonio Pereira Lima
proporcionar la PM
10
Los datos de concentracin

Practical Implementation of Nonlinear Time Series Methods

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Practical Implementation of Nonlinear Time Series Methods

Загружено:

Авторское право:

Доступные форматы

Practical implementation of nonlinear time series methods:

The TISEAN package

Вам также может понравиться