Вы находитесь на странице: 1из 6

Prediccin de los ciclos de El Nio

Israel Cendrero Snchez


I.T.T.Telemtica Universidad Carlos III de Madrid Leganes,Madrid,Espaa

Beatriz Lpez Moreno


I.T.T.Telemtica Universidad Carlos III de Madrid Leganes,Madrid,Espaa

100055713@alumnos.uc3m.es

100048024@alumnos.uc3m.es
Un proceso tpico de minera de datos consta de los siguientes pasos generales:

ABSTRACT
Este anlisis se ha realizado con una serie de datos recolectados por la matriz del Tropical Atmosphere Ocean (TAO) que fue desarrollada por el programa internacional de Tropical Ocean Global Atmosphere (TOGA). El TAO consiste en cerca de 70 boyas amarradas que se extienden sobre el ecuador Pacfico, con variables de medidas oceanogrficas y de superficie meteorolgica, que son crticas para mejorar la deteccin, entender y prediccin de variaciones climticas de las estaciones interanuales que se originan en los trpicos, mas especficamente aquellas relacionadas con los ciclos de El Nio/Southern Oscillation (ENSO).

1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. 2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). 3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema. 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. 5. Evaluar los resultados contrastndolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

1. INTRODUCION
En climatologa se denomina El Nio a un sndrome climtico, errticamente cclico, que consiste en un cambio en los patrones de movimientos de las masas de aire provocando, en consecuencia, un retardo en la cintica de las corrientes marinas "normales", desencadenando el calentamiento de las aguas sudamericanas; provoca estragos a escala mundial, afectando a Amrica del Sur, Indonesia y Australia. El nombre cientfico del fenmeno es Oscilacin del Sur El Nio (El Nio-Southern Oscillation, ENSO, por sus siglas en ingls). Es un fenmeno con ms de once milenios de historia climtica. Para tratar con los datos de este estudio se ha utilizado minera de datos se define como la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos.

1.1 Objetivos
Con este estudio se pretende seguir los pasos definidos en la minera de datos y aplicarlos a un pequeo conjunto de datos y sacar algunas conclusiones. Una vez obtenidas esas conclusiones veremos la importancia de la minera de datos no solo para fines comerciales como conocer los hbitos de compra de los usuarios, sino que tambin puede ser muy importante para

ser capaces de predecir cambios climticos que pueden desencadenar en tornados, terremotos o tsunamis.

boya: Identificador de la boya medidas.

que tom las

da: da en el que se tomaron las medidas. latitud: latitud en la que se encuentra la boya en la que se tomaron las medidas, hay que tenerla en cuenta porque las boyas se mueven alrededor de diferentes localizaciones. Longitud: longitud en la que se encuentra la boya en la que se tomaron las medidas, hay que tenerla en cuenta porque las boyas se mueven alrededor de diferentes localizaciones. vientos_zonales: Si el valor es negativo sern vientos que vienen del oeste, y si son positivos del este. vientos_meridionales: Si el valor es negativo sern vientos que vienen del oeste, y si son positivos del este. humedad_relativa temperatura_aire s_s_temp: temperatura medida en una superficie a una profundidad de 500 metros.

Lo cual puede infundir al error de que la minera de datos puede predecir catstrofes naturales. Pero nada ms lejos de ello, puede hacer que se tengan en cuenta muchos factores, que aunque bien parezcan que son de casualidad, si aplicamos correctamente la potencia de una buena base de datos, puede hacernos ver que estamos delante de una catstrofe natural, o muy cerca de ella.

2. ATRIBUTOS
Como se ha comentado anteriormente, el segundo paso para realizar el estudio es determinar qu datos poseemos, como se van a tomar etc. En este caso contamos con muestras que tienen 9 atributos. Estos datos fueron obtenidos por las boyas colocadas en la matriz citada anteriormente. Cada boya mide la temperatura del aire, la humedad relativa, el viento en la superficie, la temperatura de la superficie del mar y las temperaturas medidas en una profundidad de 500 metros y en algunas medidas de las boyas, precipitaciones y la radiacin solar. Los datos consisten en las siguientes variables: da, latitud, longitud, los vientos zonales (oeste<0, este>0), vientos meridionales(sur<0, norte>0), humedad relativa, temperatura del aire, la temperatura de la superficie del mar y temperaturas a una profundidad de 500 metros. La eleccin de estos atributos se hizo acorde a los requerimientos de la investigacin acerca de los periodos de El Nio. No es tarea fcil el elegir los atributos para un conjunto de datos, ya que ellos van a darnos toda la informacin necesaria., ni nos tienen que aportar datos de ms ni datos de menos. Entre ellos podran incluirse datos que no son tan deterministas como por ejemplo, el cambio de migracin de las aves y el porqu de ello. No se incluye porque va directamente relacionado con los cambios de vientos, humedades y temperaturas, y eso son ya atributos propios de esta minera de datos A continuacin presentaremos uno a uno los atributos utilizados dando una breve explicacin de cada uno de ellos.

2.2 Anlisis de los atributos


Una vez analizados los distintos atributos utilizados, pasamos al tercer paso que consiste en estudiar estos parmetros para poder crear modelos matemticos que nos permiten llegar a una conclusin.

2.2.1 Latitud
Como hemos dicho anteriormente los valores de latitud se tienen en cuenta debido a que es posible que las boyas se muevan durante la toma de medidas. Observando la media con un valor de 0,935 determinamos que los valores de latitud estn en torno a un grado de la localizacin aproximada.

Figura 1. Histograma sobre la latitud.

2.1

Declaracin de atributos

2.2.2 Longitud
A pesar de que las medidas de la latitud de las boyas no han variado mucho, vemos como esto no sucede con los datos relativos a la longitud que en algunos casos pueden encontrarse a 5 grados de distancia de la localizacin aproximada en la que se deberan encontrar las boyas.

2.2.4 Humedad relativa


Podemos ver como los valores de humedad relativa se encuentran entre unos valores tpicamente entre 65% y 90%. La media se encuentra en torno al 80% de humedad, lo que vemos lgico ya que las zonas de observacin son zonas con clima tropical donde la humedad es muy alta.

Figura 2. Histograma sobre la longitud. Figura 5. Histograma sobre la humedad relativa.

2.2.3 Vientos zonales y vientos meridionales


Podemos ver que la velocidad de ambos vientos flucta en unos valores entre -10 m/s y 10 m/s. Concentrndose la mayora de valores de los vientos zonales en torno a los 3 m/s de componente oeste y los vientos meridionales con valores medios de 1m/s con componente este.

2.2.5 Temperatura del aire y temperatura de la superficie del mar.


La temperatura del aire y de la superficie del mar fluctan entre los 22 y 30 grados Celsius. Con una media de 27, tambin es una temperatura muy alta teniendo en cuenta el lugar de las observaciones.

Figura 6. Histograma sobre la temperatura del aire. Figura 3. Histograma sobre los vientos zonales.

Figura 7. Histograma sobre la temperatura de la superficie del mar.

Figura 4. Histograma sobre los vientos meridionales.

2.2.6 Otros atributos


Hay otros atributos que se han tenido en cuenta pero que no han sido comentados debido a que no son muy relevantes para este estudio, como pueden ser el identificador de la boya o la fecha. Para el atributo de los aos podemos destacar que los datos pertenecen a aos entre 1980 y 1998 y que la mayora fueron tomados al final. Y recogidos de igual manera para todos los das y meses del ao. Pero estos datos no aportan informacin alguna a nuestro estudio.

En la grafica que relaciona ambos vientos podemos ver como no existe una relacin lineal y que existe una gran concentracin de puntos.

3.2 Temperatura del aire / Temperatura subterrnea

En cuanto a los atributos no incluidos pero mencionados en la introduccin, no se incluyeron por lo que antes ha sido justificado. Dichos atributos como la migracin de las aves, se excluyeron de la investigacin inicial, por la importancia de estos en el archivo final. Ya que su migracin depende de todo esos parmetros ya mencionados, no intervienen directamente en la resolucin del anlisis.

Figura 9. Grafica con x=temperatura_aire e y=s_s_temp.

3. ANLISIS
Como ya se ha comentado, el cuarto paso para llevar a cabo un estudio sobre la minera de datos es realizar un anlisis de las variables usadas para el estudio y extraer las primeras conclusiones. Al contrario que con los vientos, podemos ver como en este caso si existe una relacin lineal bastante fuerte entre las dos temperaturas recogidas por las boyas. Vemos que son resultados lgicos ya que la temperatura del aire influye en la temperatura del mar, pudiendo originar un cambio brusco el movimiento no controlado de corrientes martimas debidos a estos cambios.

3.1 Vientos _ meridionales/Vientos _ zonales 4. DESARROLLO ANALTICO


A continuacin realizamos una comparacin utilizando distintos algoritmos de clasificacin , los hemos entrenado usando el 66% de los datos para training y utilizando el 33% restante para la fase de test. Realizaremos una breve explicacin de cada uno de los algoritmos utilizados y finalmente obtendremos una tabla comparativa en la que rellenaremos el error cuadrtico medio obtenido por cada algoritmo y atributo a considerar. Comenzaremos con un algoritmo basado en rboles de decisin como los que hemos visto en clase, en concreto utilizaremos el REPTree.

Figura 8. Grafica y=Vientos_Zonales.

con

x=Vientos_Meridionales

REPTree - Construye un rbol de decisin usando la ganancia de informacin y realiza una poda de error reducido. Solamente ordena una vez los valores de los atributos numricos. Los valores ausentes se manejan RepTree Latitud Longitud Zon_Winds Mer_Winds Humidity Air_Temp S_s_Temp Valor del atributo
3.5562 % 14.557% 58.6621 % 62.8441 % 57.409 % 23.8222 % 19.2357 %

Observando la tabla se puede ver que para todos los atributos elegidos, los distintos clasificadores tienen un porcentaje de xito no muy elevado. Con el que peor resultado se obtiene es con la longitud, quizs porque sea el atributo que ms depende de todos los dems, y por lo tanto el ms variable. Con los que distintas temperaturas puede ser porque la similares debido a la tomado las medidas. mejor resultado se obtiene es con las del aire y la superficie bajo del mar, mayora de medidas sern bastante climatologa del lugar donde se han

dividiendo las instancias correspondientes en segmentos . Tabla correspondiente al algoritmo RepTree: Otro algoritmo distinto ser el Ibk de los llamados algoritmos basados en instancias u holgazanes ya que realizan poco trabajo durante la fase de aprendizaje.

Adems tambin se obtiene buen resultado con la longitud y latitud debido a que como hemos dicho anteriormente las boyas estn amarradas y pueden variar ligeramente su posicin pero no es lo normal. Tabla correspondiente al algoritmo LeastMedSq: LeastMedSq Latitud Valor del atributo
62.7521% 82.6106 % 76.893 % 86.1004 % 90.7593 % 41.8691 % 35.5348 %

Ibk o K Vecinos Ms Cercanos - Cuando se le proporciona una nueva instancia, este algoritmo busca -entre las que se utilizaron durante el entrenamiento- las K instancias ms parecidas, y clasifica la instancia en la clase de mayor frecuencia entre estas K instancias. Utiliza la distancia Euclidiana para medir similitud entre instancias. En esta investigacin se utiliz K = 3. Tabla correspondiente al algoritmo Ibk: Ibk Latitud Longitud Zon_Winds Mer_Winds Humidity Air_Temp S_s_Temp Valor del atributo
17.8824% 66.9318 % 85.3745 % 94.0044 % 100.5801 % 59.0858 % 50.261 %

Longitud Zon_Winds Mer_Winds Humidity Air_Temp S_s_Temp

Cabe destacar que los algoritmos que ha obtenido mayor precisin, es el REPTree.

Algoritmo LeastMedSq Implementa una regresin lineal LeastMedSq utilizando la clasificacin por regresin lineal para formar predicciones. Las funciones LeastMedSq se generan a partir de un muestreo de datos aleatorio. La regresin ajustada con el error cuadrtico medio ms bajo se elige como el modelo final.

5. CONCLUSIONES
Finalmente podemos concluir que las tcnicas de prediccin que nos aporta la minera de datos pueden ser muy importantes en algunos casos. El ciclo de las llamadas Oscilaciones del Sur El Nio durante los aos 1982-1983 fueron las mas fuertes del siglo 20, y crearon muchos problemas en todo el mundo. En algunos lugares del mundo como Per y los Estados Unidos experimentaron inundaciones destructivas de las lluvias que se incrementaron mientras que las reas del oeste del Pacfico experimentaron sequas y incendios devastadores. El ciclo ENSO no lo predijo ni lo detect hasta que ya estaba en la cumbre. Esto hizo pensar a los expertos en la necesidad de un observatorio del ocano como lo es la matriz TAO que lleven a cabo estudios de larga escala en las interacciones del ocano y la atmsfera. La matriz TAO provee dato en tiempo real de investigaciones climticas, predicciones meteorolgicas y cientficas por todo el mundo. Previsiones para las temperaturas del ocano pacifico para uno o dos aos en adelante se pueden hacer hoy en da gracias a los datos aportados por el ENSO. Estas previsiones son posibles gracias a las boyas amarradas, a pruebas de temperaturas y medidas del nivel del mar que realizan voluntarios.

6. REFERENCIAS
[1] http://es.wikipedia.org/wiki/El_Ni%C3% [2] http://es.wikipedia.org/wiki/Data_mining [3] http://kdd.ics.uci.edu/databases/el_nino/el_nino.data.

Вам также может понравиться