Вы находитесь на странице: 1из 6

InstitutoTecnolgico de Puebla

Del 08 al 12 de octubre de 2007, Puebla, Pue., Mxico

Minera de Datos
I. Olmos-Pineda1, J. A. Gonzalez-Bernal2 1 Universidad Politcnica de Puebla 3er. Carril del Ejido Serrano S/N, San Mateo Cuanal, Puebla, 72640, Mxico ivanop_rkl@yahoo.com.mx Instituto Nacional de Astrofsica, ptica y Electrnica Luis Enrique Erro No. 1., Sta. Mara Tonantzintla, Puebla, Mxico jagonzalez@inaoep.mx Resumen: En este trabajo se presenta una breve introduccin a la minera de datos y al proceso de extraccin de conocimiento en bases de datos. La finalidad es dar un panorama general sobre los pasos involucrados en la extraccin de conocimiento, que incluyen desde el pre-procesamiento de los datos, pasando por la bsqueda o extraccin de patrones, hasta la evaluacin, interpretacin y visualizacin de los resultados. Finalmente se expone un ejemplo del mundo real en el cual se ha empleado con xito la minera de datos. un principio, el anlisis se realizaba de forma manual, empleando tcnicas estadsticas. Sin embargo, actualmente esta forma de anlisis resulta inviable por la gran cantidad de datos que puede contener una BD moderna, adems de que existen una gran cantidad de formatos para los datos, como tablas (bases de datos relacionales), secuencias [3], grafos [4], imgenes [6], audio, lo cual aumenta la complejidad de un anlisis manual. Bajo estas circunstancias es como surge la Minera de Datos (MD), que es un proceso automtico semiautomtico que busca descubrir patrones ocultos en un conjunto de datos y que adems, sean potencialmente tiles para los usuarios de la BD ([1] y [3]). En la MD se contemplan diversas estrategias para identificar diferentes tipos de patrones, como son rboles de clasificacin, redes neuronales, redes bayesianas, tcnicas de asociacin, entre otros [8]. El objetivo en todo proceso de MD es obtener patrones de inters para el usuario final. Para lograrlo, es necesario preparar correctamente a los datos para procesarlos, elegir un mtodo adecuado para extraer los patrones deseados y finalmente, determinar como evaluar los patrones encontrados. Estas etapas han sido organizadas en un esquema conocido como el proceso de descubrimiento de conocimiento en base de datos (KDD, por sus siglas en ingls), en el cual se identifican tres grandes bloques: pre-procesamiento, bsqueda / identificacin de patrones y evaluacin. En este trabajo se presenta una breve explicacin del proceso KDD, describiendo brevemente cada una de las etapas. Finalmente se presenta un caso para la deteccin automtica de leucemias agudas aplicando el proceso KDD y la minera de datos.
Pag.
2

Introduccin
Las bases de datos (BD) surgieron como respuesta a la necesidad de almacenar datos en un sistema de cmputo [1]. Al inicio de la era de las computadoras (dcada de los 60s), la dimensin de las bases de datos se limitaba a unos cuantos KBytes, sujeto a las restricciones tecnolgicas de la poca, por lo que su aplicacin a diversos dominios tanto cientficos como del mundo real fue limitado. Sin embargo, con el avance de la tecnologa, pasamos de poder almacenar unos cuantos Kbytes a cientos de GigasBytes, lo que ha permitido extender su uso a dominios que antes eran impensables. No obstante, el aumento en la dimensin de las bases de datos ha trado como consecuencia la necesidad de nuevas herramientas de administracin y anlisis que permitan lidiar con la basta cantidad de datos [2]. El anlisis de datos es una tarea que consiste en buscar o encontrar tendencias o variaciones de comportamiento en los datos, de tal manera que esta informacin resulte de utilidad para los usuarios finales. A estas tendencias o variaciones se le conocen como patrn [2]. Si los patrones son tiles y de relevancia para el dominio, entonces se le llama conocimiento. En

InstitutoTecnolgico de Puebla

Del 08 al 12 de octubre de 2007, Puebla, Pue., Mxico

Etapas en el Proceso KDD


El proceso KDD, ilustrado en la Figura 1, esta dividido en una serie de pasos, desde la seleccin y limpieza de la BD hasta la evaluacin e interpretacin de los resultados.
DATOS LIMPIOS Y SELECCIONADOS BASE DE DATOS SELECCION LIMPIEZA BASE DE DATOS SELECCIONADA PREPARACIN DE DATOS

en la fuente de informacin, errores provocados por los sistemas de cmputo, entre otros. Estos problemas deben eliminarse antes de cualquier proceso de minera de datos, ya que pueden afectar a la precisin de los resultados o incluso, el algoritmo de minera puede construir patrones a partir de un conjunto de datos incorrectos. Para estos casos, se deben de implementar una serie de estrategias que corrijan tales problemas. Lamentablemente no existe una nica solucin, ya que dependiendo del tipo de datos ser la estrategia a implementar. Por ejemplo, considere una tabla R con n registros definida sobre un conjunto de atributos {A1, , Am} en donde existe un registro <v1, , vs-1, vs, vs+1, , vn> en el cual el valor del atributo s es desconocido (es decir, vs = ?). Una estrategia para solucionar este problema sera simplemente eliminar dicho registro . Sin embargo, en el caso de que ste registro sea muy valioso o significativo, se buscara otra forma de solucionar el problema, como por ejemplo, estimar el posible valor para vs a travs de la media.

TRANSFORMACIN DE DATOS

MINERA DE DATOS

EVALUACIN DE PATRONES PATRONES ENCONTRADOS CONOCIMIENTO

DATOS FORMATEADOS
CONOCIMIENTO PREVIO

Fig. 1 Esquema del Proceso KDD.

En la Figura 1 se observa que las primeras etapas del proceso KDD se abocan a limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a buscar y el algoritmo de Minera de Datos a utilizar. A esta etapa se le conoce como preprocesamiento. Posteriormente, aparece la etapa de minera de datos, en la cual se buscan o descubren los patrones ocultos en los datos, los cuales pasan a una etapa de evaluacin, en donde se determina la validez y confiabilidad de dichos patrones. Al final de todo este proceso, se obtienen una serie de patrones llamados conocimiento. A continuacin describiremos a mayor detalle cada una de las etapas. Preprocesamiento En esta etapa los datos son preparados para el proceso de Minera de Datos. Dicha etapa se divide en tres pasos bsicos. Seleccin y Limpieza En el mudo real, existen muchas bases de datos que tienen diversos problemas, como son valores faltantes, ruido (valores que por alguna causa no son correctos), inconsistencias (valores que no corresponden a los dominios de los atributos que son contradictorios con otros datos de la misma BD), errores de captura, errores

RUIDO

Regin de Inters

a)

b)

Fig. 2 Ejemplos de imagenes de clulas con leucemia.

Otro problema comn que se presenta en un conjunto de datos es el ruido. Por ejemplo, considere una BD de imgenes mdicas tomadas a travs de un microscopio ptico. La calidad de las imgenes depende de muchos factores, como es la preparacin de las muestras, la ptica del microscopio, la calidad de la cmara digital, entre otros. Dependiendo de estas variables, se pueden obtener imgenes como la mostrada en la Figura 2 a), en donde aparecen manchas que no son propias de las caractersticas de las clulas. En estos casos se deben de buscar filtros (dentro del rea del procesamiento digital de imgenes) que permitan remover estas imperfecciones, de tal manera que al momento de

Pag.

InstitutoTecnolgico de Puebla

Del 08 al 12 de octubre de 2007, Puebla, Pue., Mxico

trabajar con las clulas, estas imperfecciones no alteren al proceso de minera de datos. Por otro lado, la seleccin es una estrategia til cuando la dimensin de la BD es muy alta. Entre ms grande sea una BD, los tiempos de respuesta pueden llegar a ser prohibitivos. En estos casos se opta por no trabajar directamente con todos los datos, sino con un subconjunto de los datos originales, llamada muestra. El problema con esta estrategia es garantizar que los datos contenidos en la muestra sean representativos con respecto al total del conjunto. Lamentablemente esta condicin no es fcil de garantizar, por lo que se ha optado por construir no solo una, sino un conjunto de muestras con las cuales trabajar (construidas a travs de un proceso aleatorio). Como consecuencia, por cada muestra se obtendr un conjunto de patrones, los cuales tendrn que compararse y evaluarse con respecto a los resultados encontrados a partir de otras muestras [2]. Preparacin de Datos En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no sern relevantes para el proceso de minera de datos. Por ejemplo, considere la imagen de la Figura 2 b), donde la tarea consiste en identificar caractersticas especficas de las clulas que representan leucemia. En este caso, toda la imagen como tal no nos interesa, slo la regin que delimita a la clula (regin de inters). Por tanto, es necesario extraer esta regin del resto de la imagen, a travs de tcnicas de segmentacin [9]. Es importante mencionar que no todas las bases de datos requerirn aplicar cada uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de datos representada por la tabla R, si todos los atributos son importantes y adems, todos los registros son significativos, despus de eliminar cualquier inconsistencia o ruido el proceso se brincara a la siguiente etapa, sin pasar por la preparacin de datos. Transformacin de Datos Cada algoritmo que se desarrolla siempre establece el tipo y estructura de los datos que admite. Por ejemplo, un algoritmo de ordenamiento como quicksort admite con entrada un arreglo de nmeros, por lo que no es posible utilizarlo para ordenar imgenes. De la misma

forma, los algoritmos de minera de datos siempre definen un formato y estructura para sus entradas. Si para la tarea que se esta resolviendo se determina utilizar un algoritmo de minera de datos y los datos no coinciden con la entrada admitida por el algoritmo, entonces se procede a transformarlos. No obstante en cualquier proceso de transformacin, cierta cantidad de la informacin de los datos originales se pierde. Por tanto, un punto fundamental en este proceso es perder la menor cantidad de la informacin de los datos. Por ejemplo, considere que se utilizar un algoritmo de clasificacin como C4.5 para construir un rbol que permita clasificar a las clulas como linfoblsticas y mieloblsticas (las dos familias de leucemia). Dado que el algoritmo C4.5 admite como entrada una tabla, se requerir transformar a las clulas a este formato. Esta transformacin no es trivial, ya que en primera instancia no existe ningn tipo de relacin natural entre una imagen y una tabla. Sin embargo, si se analiza las caractersticas de cualquier clula, se podr observar que estas tienen propiedades como un rea (en pixeles), un dimetro, convexidad, gama de color, un nmero de grumos entre otras. Estas propiedades se pueden utilizar como atributos de una tabla, donde cada registro correspondera a una clula especfica, as como se ilustra en la Figura 3.
AREA DIAMETRO GRUMOS

321

456

974

Fig. 3 Ejemplo de cmo transformar una imagen de una clula a una tabla.

Minera de Datos La MD es la parte central del proceso KDD, en la cual se buscan o encuentran patrones de inters para el usuario. Los patrones descubiertos pueden ser subgrafos, reglas de asociacin, rboles de clasificacin, una red neuronal entrenada, entre otros. Para entender el alcance de la MD, hay que comprender que tipo de tareas se pueden realizar. Para ello, se

Pag.

InstitutoTecnolgico de Puebla

Del 08 al 12 de octubre de 2007, Puebla, Pue., Mxico

identifican caractersticas comunes que sirven para agrupar las tareas de MD, que son: Tipos de BD sobre las que se hace MD: aqu se identifica sobre que tipos de bases de datos se trabaja, como data warehouses, bases de datos relacionales, espaciales, temporales, secuenciales, entre otras. Esto permite identificar la estructura de los datos a trabajar. Tipo de conocimiento minado: se determina la estructura del conocimiento a identificar, que pueden ser caracterizaciones, reglas de asociacin, rboles de clasificacin, redes neuronales. Los patrones descubiertos pueden ser descriptivos, es decir, muestran la serie de hechos bajo los cuales se sustenta el patrn, como son los rboles de clasificacin, reglas de clasificacin, entre otros. Sin embargo, existen mtodos que no son descriptivos, simplemente dan el resultado final sin que el usuario pueda conocer el porque del resultado. Ejemplo de estos sistemas son las redes neuronales (a estos sistemas se les ve como cajas negras, se conoce la entrada y la salida pero no se entiende que pasa en el interior). Tipo de tcnica utilizada: aqu se define si se utilizan tcnicas estadsticas de aprendizaje automtico. Dominios de aplicacin: clasificacin basada en los dominios de trabajo, que pueden ser qumicos, biolgicos como el DNA, tericos, entre otros.

artificial, aprendizaje automtico, entre otras, tal como se ilustra en la Figura 4.


Sistema de Toma De Decisiones Estadstica

Recuperacin informacin

Minera de Datos

Aprendizaje Automtico

Inteligencia Artificial Bases de Datos

Cmputo Paralelo

Fig. 4 La Minera de Datos y su relacin con otras reas de conocimiento.

Evaluacin de Patrones En la etapa de evaluacin se extraen los patrones con mayor importancia para el usuario final. Para lograrlo, es necesario establecer parmetros que nos permitan comparar la calidad de un patrn con respecto a otro. La medida ms usual para evaluar patrones es el porcentaje de precisin, en el cual dado un conjunto de datos D y un patrn P, se determina el porcentaje de casos en donde el patrn P es vlido correcto con respecto al total de casos en D. Por ejemplo, considere el caso de una escuela con 200 alumnos, en los cuales se ha encontrado una regla de clasificacin que dice: si el alumno tiene un promedio superior a 8 y tiene como mximo 3 faltas en un cuatrimestre, entonces es un alumno que no reprueba ninguna materia. Para verificar la validez de esta regla, es necesario determinar para cuantos alumnos en D aplicara la regla, es decir, cuantos alumnos tienen un promedio mayor a 8, no faltan ms de 3 veces y no reprueban (soporte) y del nmero obtenido, determinar en cuantos dado el antecedente, se cumple la consecuencia (confianza) [2]. Para nuestro ejemplo, si existen 45 alumnos que cumplen con un promedio superior a 8, no faltan ms de 3 veces en un cuatrimestre y 50 alumnos que adems no reprueban, entonces el soporte de la regla es de 50/200 = 25%. Por otro lado, si de ellos solo 45 alumnos cumples que si tienen promedio superior a 8 y no faltan mas de 3 veces, entonces no reprueban, se obtendra una confianza de 45/50 = 90%.

Otro aspecto importante en toda tarea de MD es identificar si se van a buscar o descubrir patrones. En un proceso de bsqueda, la minera de datos parte de un conjunto de datos D y un patrn a buscar S. La tarea consiste en identificar si existen subestructuras en D que sean idnticas o similares a S. Por otro lado, si la tarea se aboca a descubrir patrones ocultos, entonces se parte de un conjunto de datos D y a partir de estos datos, se identifican caractersticas comunes en los mismos. Debido a que la MD emplea conocimientos que se han desarrollado en diferentes reas de investigacin, se ha convertido en un rea multidisciplinaria, en la que intervienen conceptos de bases de datos, inteligencia

Pag.

InstitutoTecnolgico de Puebla

Del 08 al 12 de octubre de 2007, Puebla, Pue., Mxico

Otro aspecto muy importante en todo proceso de evaluacin de patrones es determinar el umbral a partir del cual un patrn es vlido. Por ejemplo, para el ejemplo de la BD de la escuela, un 90% de confianza puede resultar muy bueno para detectar a los alumnos que difcilmente reprueban. Sin embargo, si cambiamos de dominio de trabajo ese mismo 90% puede ser malo. Por ejemplo, considere el caso en el cual se est tratando de construir un modelo que permita predecir si un paciente, a partir de su cuadro clnico, es susceptible a sufrir algn tipo de cncer. Para este tipo de dominios, un 90% no es suficiente, requirindose niveles muy cercanos al 100%. Por tanto, la exigencia en la precisin de los resultados esta sujeto al dominio de trabajo y el uso que se le dar al conocimiento minado. En la siguiente seccin se presenta un caso real en el cual se ha aplicado con xito el proceso de minera de datos.

limitada. Aunado a esto, factores como el cansancio, condiciones de luz, problemas visuales en el experto, entre otros merman la precisin del diagnstico inicial. Por otro lado, un estudio de citometra de flujo no es barato, lo que provoca que en pases en desarrollo como Mxico los estudios en ocasiones no se puedan llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de apoyo al diagnstico mdico que sean confiables y adems, de bajo costo. Con respuesta a esta necesidad, se esta desarrollando una investigacin en el cual participan investigadores del INAOE IMSS UPP para crear una herramienta para la deteccin de leucemia aguda a partir de un anlisis morfolgico de imgenes digitales. En este sistema, el objetivo es extraer caractersticas de las clulas que permitan construir modelos que sirvan para clasificar nuevas muestras. Para lograrlo, se propuso una metodologa basada en el proceso KDD, as como se muestra en la Figura 5.
Digitalizacin Seleccin Limpieza

Clasificacin de Leucemias Agudas empleando Minera de Datos


La Leucemia es una enfermedad que se caracteriza por alterar el proceso madurativo de las clulas que conforman a la sangre (glbulos rojos, glbulos blancos, plaquetas y plasma), provocando una proliferacin descontrolada de clulas sanguneas inmaduras. Esta proliferacin se origina a nivel de la mdula sea [5]. En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue la siguiente metodologa. El estudio inicia con un anlisis morfolgico de las muestras por medio del experto, el cual identifica ciertas caractersticas que le hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las muestras son turnadas a un estudio de citometra de flujo, el cual sirve para definir el tipo de leucemia (leucemia linfoblstica LLA- o mieloblstica -LMA) y el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a las caractersticas de la enfermedad. Lamentablemente este procedimiento sufre de varios inconvenientes: el anlisis por observacin es un proceso susceptible a errores, ya que la capacidad de la visin humana para detectar detalles pequeos es
Muestras

Base de Datos de Imgenes Digitales

Base de Datos Seleccionada

Segmentacin

Clulas
CONOCIMIENTO CLASIFICACIN DE LEUCEMIA AGUDA

Evaluacin

PATRONES

Minera de Datos Clasificacin Extraccin de Caractersticas

CLASIFICACION

Nuevas Muestras

Fig. 5 Clasificacin de leucemias agudas.

El proceso inicia capturando las imgenes a travs de un microscopio ptico de alta calidad, el cual cuenta con una cmara digital. De este proceso se obtiene una base de imgenes, en donde se seleccionan las de mayor calidad (que contengan caractersticas representativas de la enfermedad). Ese proceso es realizado en conjunto con los expertos del dominio.

Pag.

InstitutoTecnolgico de Puebla

Del 08 al 12 de octubre de 2007, Puebla, Pue., Mxico

Una vez seleccionadas las imgenes, se procede a limpiarlas, empleando una serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se procede a una etapa de segmentacin, en la cual se extraen exclusivamente las regiones de inters de cada imagen. Cabe hacer mencin que en este proceso intervienen los expertos, ya que una imagen puede contener diferentes tipos de clulas donde no todas son representativas de la leucemia. Al mismo tiempo, los expertos en el domino realizaron un proceso de clasificacin, identificando el tipo y subtipo de la muestra. Esta informacin fue de gran utilidad para el proceso de minera de datos. Despus de la segmentacin, se transformaron las clulas a un formato de tabla (seleccin de caractersticas, Figura 5), donde se extrajeron caractersticas como el dimetro, media de los valores en tonos de gris, entropa, anisotropa, correlacin, rea, convexidad, entre otros parmetros. Esta transformacin fue necesaria, ya que diversos algoritmos de clasificacin, como redes neuronales, rboles de clasificacin como C4.5 requieren este formato. A partir de las caractersticas extradas, se probaron diferentes algoritmos. Es importante mencionar que se utilizaron tanto algoritmos descriptivos como no descriptivos, ya que los expertos en el dominio no solo estaban interesados en conocer las clases, sino adems, en identificar las caractersticas de definen a cada clase. Este procedimiento se pudo llevar a cabo gracias a la clasificacin de las muestras que realizaron los expertos en el proceso de seleccin. Actualmente, el proyecto se encuentra en la fase de evaluacin de resultados, en donde se han alcanzado clasificaciones con una precisin promedio superior al 90% (para familias como subfamilias). De acerado a los expertos, estos resultados son muy alentadores, considerando que la precisin alcanzada por los expertos a travs de un anlisis morfolgico ronda el 40%. Este es un claro ejemplo en el cual el proceso KDD y la minera de datos se han usado para identificar patrones complejos, que pueden llegar a tener un fuerte impacto en la sociedad.

Conclusiones
La minera de datos es un proceso que permite a un usuario extraer conocimiento de sus datos y que pueden ser tiles para la toma de decisiones. Debido a que en muchos casos los datos de entrada contienen diferentes tipos de problemas, se ha creado el proceso KDD, el cual organiza de forma esquemtica cada una de las etapas necesarias para extraer patrones de calidad. Este esquema incluye desde la seleccin y limpieza de los datos hasta tcnicas para la evaluacin de patrones, donde la minera de datos se ubica en el centro del proceso. La minera de datos es una herramienta muy poderosa, sin embargo, es necesario tener un conocimiento sobre los datos, de tal forma que permita seleccionar los mejores mtodos para el proceso de minera.

Referencias
[1] [2] Silberschatz, Abraham, Korth, Henry F. y Sudarshan, S. Fundamentos de Bases de Datos. McGrawHill, 4a Ed., 2002. Ian H. Witten and Eibe Frank. Data Mining, Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers. Second Edition, 2005. Sanghamitra Bandyopadhyay, Ujjwal Maulik, Lawrence B. Holder and Diane J. Cook (Eds). Advanced Methods for Knowledge Discovery from Complex Data. Springer, 2005. Olmos, Ivan; Gonzalez, Jesus A. and Osorio, Mauricio. Mining Common Patterns on Graphs. International Conference on Computational Intelligence and Security, Lecture Notes in Artificial Intelligence, Vol. 3802, 41-48, Springer Verlag, 2005. McKenzie Shirlyn B. Hematologa Clnica. Editorial el Manual Moderno, Segunda Edicin. 2000. Morales Gonzalez, B. Aurora. Extraccin de Caractersticas de Imgenes de Clulas de Mdula sea para la Clasificacin de Leucemias Agudas. Tesis de Maestra. Instituto Nacional de Astrofsica, ptica y Electrnica, 2006. Galindo Domnguez, M. Coral, Gonzlez, Jess A., Altamirano Robles, Leopoldo, Olmos Pineda, Ivan. Descriptive characteristics Generation and Selection for Acute Leukemia Subtype Classification from Bone Marrow Digital Images. To appear in proccedings of 6th Mexican International Conference 2007. Mitchel, Tom M. Machine Learning. McGraw-Hill, 1997. Pratt, William K. Digital Image Processing. Third Edition, John Wiley & Sons, Inc. 2001.

[3]

[4]

[5] [6]

[7]

[8] [9]

Pag.

Вам также может понравиться