Вы находитесь на странице: 1из 10

MINERA DE DATOS COMO HERRAMIENTA EN LA OBTENCIN DE CONOCIMIENTO Ing.

Nancy Rosalva Amador Lpez Escuela de Postgrado Facultad de Ciencias Exactas y Tecnologa nancy.amador@gmail.com Resumen Con este artculo se pretende dar una breve descripcin de la importancia de la minera de datos en todas las areas del conocimiento, su proceso y sus aplicaciones, ya que sta nos permite la extraccin de informacin valiosa de las organizaciones con el objeto de analizar la informacin de inters de entre grandes cantidades de datos almacenados, cuyo resultado del anlisis nos permitan tomar decisiones acertadas para el mejoramiento del servicio prestado por la institucin. A lo largo del artculo usted podr encontrar definiciones precisas acerca de los datos, la minera, los mineros, la minera de datos, informacin, etc., que nos permitir ahondar el tema y el entendimiento de lo que se quiere abordar. El proceso, sus caractersticas, tcnicas y herramientas que se utilizan en la minera de datos, nos permitir descubrir cmo paso a paso se puede llegar a su aplicacin con el objeto de obtener un resultado que concluya con el descubrimiento de informacin valiosa con la finalidad del mejoramiento de la organizacin.

Palabras clave: Minera de datos, patrones, descubrimiento del conocimiento. 1. Introduccin Segn (Vallejos, 2006), en los ltimos aos, se ha experimentado un gran crecimiento en el almacenamiento de la informacin, de generar y recolectar datos, debido al gran poder de procesamiento e incremento de las capacidades de las computadoras y la tecnologa, su bajo costo a ocasionado que las organizaciones puedan disponer de una gran cantidad y variedad de datos relativos a su actividad diaria, y se han dado cuenta del potencial que tiene esta informacin para el apoyo a la gestin. Sin embargo, dentro de estas enormes cantidades de datos existe una gran cantidad de informacin oculta, de gran importancia estratgica para el cumplimiento de sus objetivos, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta informacin oculta se logra con la Minera de Datos (Data Mining), la cual utiliza tcnicas y herramientas sofisticadas como la inteligencia artificial, redes neuronales, redes bayesianas, etc., para descubrir patrones, relaciones dentro de los datos permitiendo la creacin de modelos, o representaciones abstractas de la realidad, a travs del descubrimiento del conocimiento

(KDD, por sus siglas en ingls), el cual se encarga de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados (Vallejos, 2006). Es as, que el valor de los datos reside en la informacin que se puede extraer de ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin de los fenmenos que nos rodean, empleando mtodos avanzados para la explotacin de datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa y de servicio, reducen costos y mejoran la satisfaccin del cliente (Vallejos, 2006). 2. Definiciones Datos: Son hechos que describen sucesos y entidades."Datos" es una palabra en plural que se refiere a ms de un hecho. A un hecho simple se le denomina "data-tem" o elemento de dato. Los datos son comunicados por varios tipos de smbolos tales como las letras del alfabeto, nmeros, movimientos de labios, puntos y rayas, seales con la mano, dibujos, etc. Estos smbolos se pueden ordenar y reordenar de forma utilizable y se les denomina informacin (DAmbrosio, 2011). Informacin: Es una coleccin de hechos significativos y pertinentes, para el organismo u organizacin que los percibe. Informacin es un conjunto de datos significativos y pertinentes que describan sucesos o entidades (DAmbrosio, 2011). Minera: Es la extraccin de productos metlicos, y de productos no metlicos de la mina (Gomez, 1989) . Mineros de datos: Los mineros de datos son programas que de manera automtica y sin intervencin humana encuentran similitudes, situaciones interesantes y desviaciones en una base de datos (Guzmn, 2005). Minera de Datos: El descubrimiento eficiente de informacin valiosa, no-obvia de una gran coleccin de datos, cuyo objetivo es: ayudar a buscar situaciones interesantes con los criterios correctos, complementar una labor que hasta ahora se ha considerado intelectual y de alto nivel, privativa de los gerentes, planificadores y administradores (Perez, 2008). Otra definicin de la minera de datos: Es un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos (Gonzales, 2008). Podemos ver un nuevo concepto de minera de datos: Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos. La minera de datos rene ventajas de varias reas del conocimiento como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos (Vallejos, 2006). 3. Orgenes de la Minera de Datos

(Vallejos, 2006), hace referencia a los orgenes de la Minera de Datos como una herramienta en la bsqueda de informacin valiosa para ser procesada, de tal forma que sta coadyuve en la toma de decisiones. Desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology, etc. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y Descubrimiento del conocimientos (KDD de sus siglas en ingls). A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta (Vallejos, 2006). La data mining es la etapa de descubrimiento en el proceso de KDD: Paso consistente en el uso de algoritmos concretos que generan una enumeracin de patrones a partir de los datos preprocesados. Aunque se suelen usar indistintamente los trminos KDD y Minera de Datos (Vallejos, 2006). 4. Descripcin del Proceso de Minera Segn (Vallejos, 2006), el proceso de la minera de datos es un ciclo, debido a que los resultados obtenidos pueden alimentar dicho proceso; intervienen, principalmente, cuatro pasos que se describen a continuacin. y Denir el problema. Definir el problema a resolver de la gran cantidad de datos existentes en las Bases de Datos o almacn de informacin de donde se debe obtener los datos. Los usuarios de la informacin debern identificar los problemas del negocio, y las reas en donde los datos pueden dar valor agregado a la empresa, esto es: a raz de un problema surge la necesidad de analizar a detalle los datos de la empresa para poder encontrar posibles soluciones al mismo, o bien, informacin que haga que las decisiones tomadas sean lo ms certeras posibles. Asimismo, es importante identificar las reas en donde la informacin es muy cambiante, pero primordial para la competitividad de la empresa. Para esto pueden manejarse diferentes criterios, no se puede decir especficamente cules son los correctos debido a que esto depende de las caractersticas de la empresa, pero el objetivo a perseguir es determinar los criterios, ideas, normas y cuestionamientos que fungirn como entrada para el proceso de minera e datos. y Preparar los datos. De la gran cantidad de datos se debe seleccionar solamente lo referente al tema de investigacin de tal forma que estos datos queden seleccionados en un rea especfica. El usuario para analizar la informacin histrica seleccionar el algoritmo o algoritmos adecuados de minera. Posteriormente, estos algoritmos son traducidos a programas mineros que realizarn las bsquedas con los criterios previamente definidos. Existen varias dificultades que pueden interferir con el resultado que se obtenga del anlisis y esto es porque los datos e pueden encontrar en diferentes formas, formatos y en mltiples sistemas, aunado a que pueden provenir de fuentes

internas o externas; para resolver este problema actualmente se ha hecho uso de data warehouse, que pretender reunir los datos mas importantes de la empresa en una especie de base de datos corporativa, la cual requiere una gran cantidad de gigabytes, no siempre disponible en las organizaciones, sin embargo, es posible hacer minera de datos sin necesidad de tener el data warehouse, pero es muy importante tener claro que la informacin deber estar lo ms uniforme y congruente posible, ya que mucho depende de esto la certidumbre de los resultados que arroje. y Algoritmo de Minera de Datos para Explorar los datos. Una vez terminada la preparacin de los datos, se comienza a interactuar con herramientas o algoritmos de minera de datos que le permitir realizar la exploracin de los datos. Incorporar la informacin obtenida a travs del proceso de minera de datos al proceso de toma de decisiones; as como presentar los hallazgos encontrados a los responsables de las operaciones de forma que la informacin obtenida pueda integrarse en los procesos de la empresa y pueda aplicarse en la solucin de los problemas. Anlisis de datos. Se realizar el anlisis de los datos reportados por la herramienta o algoritmo utilizado por la minera de datos. Medir los resultados: Medir el valor de los hallazgos encontrados, que se proporcionan al tomador de decisiones con relacin a la solucin de los problemas identificados y a los criterios definidos en el primer punto. Toma de decisiones. Los resultados encontrados le ayudarn en la toma de decisiones.

Figura N1:Visualizacin del Proceso de la minera de datos


Fuente: Bsqueda de Patrones de Comportamiento en Cubos de Datos

5. Caractersticas de la Minera de Datos Las herramientas de la minera de datos pueden analizar y procesar grandes cantidades de informacin rpidamente. Debido a la gran cantidad de datos es necesario utilizar procesamiento en paralelo.

Al indagar o explorar los datos se descubre conocimientos valiosos e inesperados. La minera de datos suele tener una arquitectura cliente-servidor. Los datos se pueden encontrar en las profundidades de las BD o almacenes de datos que pueden contener informacin almacenada durante varios aos. Los datos o informacin pueden encontrarte en grandes Bases de datos, almacenamientos de datos en texto plano, en fuentes de internet, intranet, etc.

6. Tcnicas de la Minera de Datos La minera de datos utiliza las siguientes tcnicas: Tcnicas predictivas: Utiliza tcnicas estadsticas, buscando un modelo legible Regresin y series temporales Anlisis discriminante Mtodos bayesianos Algoritmos genticos Arboles de decisin Redes neuronales

Tcnicas descriptivas: - Clustering y segmentacin - Escalonamiento - Reglas de asociacin y dependencia - Anlisis exploratorio de datos - Reduccin de la dimensin

Figura N3: Tcnicas de la Minera de Datos

(Dr. Luis A. Marn Llanes), detalla de forma breve algunas tcnicas de Minera de Datos: y Redes neuronales (Neural Networks) Las redes neuronales son tcnicas predictivas que permiten modelar el proceso de forma similar al funcionamiento del cerebro humano, la capacidad de aprender a partir de nuevas experiencias. Estas tcnicas han tenido un desarrollo impresionante en la ltima dcada, tienen como objetivo fundamental sustituir la funcin de un experto humano. y Almacenamiento de datos (Data Warehousing) El almacenamiento de datos se define como un proceso de organizacin de grandes cantidades de datos de diversos tipos "guardados" en la organizacin, con el objetivo de facilitar la recuperacin de la misma con fines analticos. El almacenamiento de datos tiene una gran importancia en el proceso de minera de datos dado que permite la recuperacin o al menos la referencia a determinados conjuntos de datos de importancia para un proceso de toma de decisin dado. Anlisis exploratorio de datos (Exploratory Data Analysis (EDA)) La tcnica de anlisis exploratorio de datos en la minera de datos, tienen como objetivo determinar las relaciones entre los datos. Las tcnicas exploratorias tienen un fuerte componente computacional abarcando desde los mtodos estadsticos simples a los ms avanzados como las tcnicas de exploracin de multivariables diseadas para identificar patrones en conjunto de datos multivariables. 7. Herramientas para la realizacin de la minera de datos: Existen varias herramientas ya diseadas para realizar la minera de datos, algunas de ellas son opensource o libres y otras con licencia, entre las herramientas de uso libre tenemos las siguientes: y Weka. Es una herramienta de minera de datos en cdigo abierto. sta se compone de tres herramientas: a) Explorer para probar rpidamente diferentes algoritmos, preprocesado, seleccin de atributos y visualizacin; b) Para ejecutar mltiples algoritmos y anlisis de bases de datos; y c) KanowledgeFlow para el diseo visual de experimentos. y RapidMiner, es otra herramienta abierta de minera con un intuitivo y potente interfaz grafico. Ha sido desarrollada en java e incluye weka. Falcon Fraud Manager, herramienta utilizada en grandes instituciones para la deteccin de fraudes financieros, herramienta de distribucin bajo licencia.

Advanced Scout, es un software que emplea tcnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). 8. Aplicaciones de la Minera de Datos y

La minera de datos puede ser aplicada en todas las areas del conocimiento, en este caso podemos ver ejemplos donde se ha aplicado la minera de datos con diversos dominios y objetivos para observar su potencial. Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan principalmente rboles y reglas de decisin, reglas de asociacin, redes neuronales, redes bayesianas, conjuntos aproximados, algoritmos de agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y lgica difusa. (Turmero, 2011) muestra detalla algunos ejemplos donde es aplicada la minera de datos. y En el Gobierno: El FBI analizar las bases de datos comerciales para detectar terroristas. En el 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que en el Departamento de Justicia se introducir gran cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin donde se utilizar la minera de datos para descubrir la informacin requerida que le permita encontrar indicios de terrorismo. En la Empresa: Deteccin de fraudes en las tarjetas de crdito. En 2001, las instituciones financieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon basado en la minera de datos ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo -aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito. Descubriendo el porqu de la desercin de clientes de una compaa operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban

ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. y Hbitos de compra en supermercados: Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas. Prediciendo el tamao de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar. La versin final se desempea tan bien como un experto humano con la ventaja de que se adapta ms fcilmente a los cambios porque es constantemente reentrenada con datos actuales. y En la Universidad. Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad. y En Investigaciones Espaciales: Proyecto SKYCAT: Durante seis aos, el Second Palomar Observatory Sky Survey coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos

esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. Con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars1 son difciles de encontrar y permiten saber ms acerca de los orgenes del universo. y En los Clubes Deportivos: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea tcnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls2 de Chicago jugaban contra los Knicks3, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes.

Qusars: Los Cusares son objetos lejanos que emiten grandes cantidades de energa, con radiaciones similares a las de las estrellas. Los cusares son centenares de miles de millones de veces ms brillantes que las estrellas. 2 Los Bulls: Es un equipo de baloncesto profesional de la NBA con sede en Chicago -Illinois. 3 Knicks: Es una franquicia de baloncesto de la NBA

9. Conclusiones Como podemos observar la minera de datos es utilizada en todas las areas del conocimeinto actual, dado que con su aplicacin permite obtener enormes beneficios con la extraccin de la informacin de grandes cantidades de datos guardados en bases de datos, texto, pdf, y otros. Con la minera de datos podemos explorar la informacin almacenada con el objeto de detectar patrones y modelos de comportamiento, de tal forma que sta informacin obtenida nos sirva en la toma de decisiones de las organizaciones. 10. Referencias bibliogrficas
D Ambrosio, S. (s.f.). Monografias . Recuperado el 16 de 06 de 2011, de http://www.monografias.com/trabajos14/datos/datos.shtml Dr. Luis A. Marn Llanes, L. J. La mineria de Datos como herramienta en el proceso de la inteligencia artificial. La Habana - Cuba: Viceministerio de Informacin cientifica y tecnologica. Gomez, J. S. (1989). De minera, metalrgica y comercio de metales. Espaa: Ediciones Universidad de Salamanca. Gonzales, C. P. (2008). Minera e Datos: Tcnicas y herramientas. Madrid Espaa: Area Universitaria. Guzmn, A. A. (2005). Estado del Arte y de la prctica en la mineria de datos, Analisis y Critica. Instituto Politecnico Nacional - Centro de Investigacin en computacin (3), 7. Martinez, L. G. (s.f.). Busqueda de patrones de comportamiento en Cubos de datos. Centro de Investigacin en Computacin , 10. Perez, L. C. (2008). Minera de Datos Tecnicas y Herramientas (1ra. Edicion ed.). Tomson Ediciones Paraninfo S.A. Turmero, I. (2011). Mineria de Datos. Vallejos, S. (2006). Mineria de Datos. Corrientes - Argentina, Argentina.

Вам также может понравиться