Академический Документы
Профессиональный Документы
Культура Документы
INTRODUCCIN
En la actualidad existen grandes cantidades de informacin relacionada con una amplia gama de temas
(ejemplos, consumidores de productos, pacientes, clientes, proveedores, empresas, gobierno, etc.). De
acuerdo a la mayora de las predicciones, un gran porcentaje de la informacin humana estar disponible
en la Web. Estas enormes cantidades de datos plantean un gran desafo, es decir, la bsqueda de una
utilidad de toda esta informacin para que sea ms til [Garofalakis et al., 1999].
Por tal motivo las personas estn expuestas a una gran cantidad de informacin que est disponible para
el estudio. Hoy en da tambin hay una gran cantidad de aplicaciones y servicios que estn disponibles a
travs de Internet y que generan aun ms informacin sobre los usuarios de estas (chats, ventas, etc.),
sin embargo, mucha de esa informacin no es til para muchas personas, pero en el rea de minera de
datos, toda la informacin disponible en las Organizaciones y en el Internet representa una oportunidad
de trabajo y es posible obtener informacin relevante [Ponce et al., 2009].
El Descubrimiento de Conocimiento y Minera de Datos son herramientas poderosas de anlisis de datos.
El rpido crecimiento que ha tenido estas tecnologas en los ltimos aos exige un anlisis urgente de su
impacto social.
Los trminos "Descubrimiento de Conocimiento" y "Data Minera" se utilizan para describir la extraccin
de informacin no trivial, previamente desconocida e informacin potencialmente til de los datos
[Wahlstrom y Roddick, 2000], El termino Descubrimiento del Conocimiento es un concepto ms amplio
que describe el proceso de bsqueda de grandes volmenes de datos para patrones que se pueden
considerar los conocimientos acerca de los datos. La rama ms conocida del descubrimiento de
conocimiento es la minera de datos.
Alberto muestra una pirmide de la informacin la cual est conformada por cinco niveles, donde se
muestra como los datos se pueden convertir en sabidura. Los niveles son ruido, datos, informacin,
conocimiento y sabidura (ver Figura 1).
http://etherpad.proyectolatin.org/up/a22cdb790e78bb80157d47a119ab583a.JPG
Figura 1. Pirmide de la Informacin [Hernndez, 2013].
El ruido representa la base de la pirmide, este representa cadena de caracteres sin sentido, significado
ni orden, cuya naturaleza se desconoce.
El segundo nivel est representado por los Datos, en este nivel el ruido adquiere un significado, aqu una
cadena de caracteres puede significar un nombre, sexo, una direccin y las cadenas de nmeros pueden
representar telfonos, edad, sueldo, costo de un artculo, etc.
La Informacin la podemos encontrar en el nivel tres de esta pirmide, en este momento los datos
adquieren un mayor significado y aparecen tambin alguna relaciones directas, por ejemplo podemos
decir Juan vive en Mxico y su telfono es 551234567, podemos conocer el costo de un articulo
especfico, etc.
El cuarto nivel representa la informacin transformada en conocimiento el cual forma parte esencial para
el proceso de la toma de decisiones.
Por ltimo tenemos el nivel de la Sabidura que representa la cima de la pirmide que tambin representa
el metaconocimiento y lo podemos definir como: El conjunto de informacin, hechos y reglas sobre un
dominio especfico.
La minera de datos nace por la necesidad de nuevas herramientas para analizar la informacin que da a
da se convierte en grandes cantidades de datos para su anlisis.
http://etherpad.proyectolatin.org/up/3a267f68de0cc54bbbd7f5b1e8b9821f.JPG
PREPROCESAMIENTO
DE LOS DATOS
Consiste en la seleccin, limpieza, enriquecimiento, reduccin y transformacin de datos que puede
aplicarse para remover el ruido y corregir inconsistencias.
Para cumplir la transformacin de datos se usa la normalizacin ya que puede aumentar la exactitud y
eficiencia de los algoritmos de explotacin de datos involucrando la medida de distancias.
Mtodos de preprocesamiento
Limpieza de datos
Reduccin de datos
Datos incompletos
o Los atributos de inters pueden no estar siempre disponibles
o Existen datos que pueden no estar incluidos por ser considerados muy importantes al ser ingresados.
o Existen datos relevantes que pueden no ser grabados debido a mal entendidos o fallas en los equipos
o Las modificaciones de la Base de Datos puede ser pasada por alto
o Los datos faltantes en algunos atributos
Datos con ruido
o La forma o instrumento de recoleccin de datos podra ser o estar defectuosa
o Puede haber errores producidos por el humano o la PC al momento de ingresar datos
o Limitaciones tecnolgicas
Datos inconsistentes
o Datos incompletos pueden resultar debido a inconsistencias en las conversiones de nombres o
cdigos usados
o Tuplas duplicadas tambin requieren limpieza ya que es un error frecuente
Las tcnicas de preprocesamiento de datos colaboran al aumento de calidad de los mismos y por lo tanto
ayudan a mejorar la exactitud y eficiencia del subsecuente proceso de explotacin de datos. De tal
manera que un adecuado preprocesamiento de los datos constituye un paso importante en el proceso del
descubrimiento del conocimiento en las bases de datos (Knowledge Discovery in Databases) por lo que
es importante la deteccin de anomalas en los datos rectificndolos y reduciendo los datos a ser
analizados, lo cual puede significar importantes beneficios en la toma de decisiones.
El proceso del descubrimiento de conocimiento en las bases de datos se puede observar en el siguiente
diagrama:
http://etherpad.proyectolatin.org/up/8a41a7ae24cf87a461746fc5b3e4723b.JPG
Los procesos correspondientes al preprocesamiento de datos son:
Limpieza de datos
Integracin de datos
Transformacin de datos
Reduccin de datos
Limpieza de datos: se relaciona con los datos incompletos, con ruido e inconsistentes, por lo cual los
procesos de limpieza intentan llenar valores faltantes suavizar el ruido al identificar valores fuera de
rango, corregir inconsistencias, tambin busca las correlaciones ocultas en los datos, identifica los
orgenes de datos que son ms precisos y determina qu columnas son las ms adecuadas para el
anlisis.
Algunos mtodos clsicos para la limpieza de datos son:
o Ignorar la tupla
o Llenar el valor manualmente
o Usar constante global para llenar valores faltantes
o Usar el valor promedio para completar el valor faltante
o Usar la media de los atributos para todos los ejemplos pertenecientes a la misma clase de la tupla en
cuestin
o Usar el valor ms probable para complotar el valor faltante
Generalizacin de los datos: consiste en tomar datos de bajo nivel o informacin primitiva y
reemplazarlos por un concepto de nivel superior a travs del uso de jerarquas conceptuales.
Normalizacin: el objetivo es escalar los atributos de tal manera que caigan dentro de un pequeo
y especifico rango como puede ser de -1 a 0 y de 0 a 1
Construccin de atributos: consiste en insertar nuevos atributos y aadirlo al conjunto actual para
facilitar el proceso de explotacin de datos.
Reduccin de datos
Disminuye el tamao de los mismos, agregando o eliminando caractersticas redundantes o realizando
clustering.
Las tcnicas de reduccin se aplican para obtener una representacin reducida del conjunto de datos que
es mucho menor en volumen, pero mantiene la integridad de los datos originales.
Las estrategias para la reduccin son:
Compresin de datos: se utilizan mecanismos de codificacin para reducir la longitud de los datos
Encajado
Anlisis de histogramas
Anlisis de cluster
Discretizacin: basada en la entropa(grado de conocimiento que se tiene de las cosas)
Reglas de asociacin
Las reglas de asociacin dentro de la Minera de Datos encuentran asociaciones o correlaciones a travs
de grandes conjuntos de datos. El descubrimiento de relaciones de inters puede ayudar en muchos
procesos de toma de decisin dentro de las organizaciones, tales como diseo de catalogo, marketing,
anlisis de perdidas, etc.
Un ejemplo tpico de reglas de asociacin de Minera de Datos es el anlisis de la canasta del mercado.
Este proceso analiza los hbitos de los compradores encontrando asociaciones entre los diferentes
productos de los clientes en base a sus compras.
El descubrimiento de tales asociaciones puede ayudar a vendedores en la estrategia de mercado o
hallando cuales productos los clientes compran juntos.
Algunas preguntas asociadas a este tema son:
1.- Como es posible hallar estas reglas, para grandes cantidades de datos donde estos son
transaccionales o relacionales?
2.- Cada regla de asociacin es siempre la de mayor inters?
3.- Como es posible guiar el proceso de minera para detectar dichas asociaciones?.
4.- Que lenguaje de construccin es til para definir consultas con DM asociadas?
OLAP-OLTP
OLTP (On-line transaction processing): Bases de Datos orientadas al procesamiento de transacciones
donde se define el comportamiento habitual de un entorno operacional de gestin:
1.
Altas, bajas, cambios y consultas
2.
Consultas rpidas y escuetas
3.
Poco volumen de informacin
4.
Transacciones rpidas
5.
Gran nivel de concurrencia
OLAP (on-line analytied process): Bases de datos orientadas al procesamiento analtico que determina
el comportamiento de un sistema de anlisis de datos y elaboracin de informacin:
1.
Solo consultas
2.
Consultas pesadas y no predecibles
3.
Gran volumen de informacin histrica
4.
Operaciones lentas
http://etherpad.proyectolatin.org/up/efd41be37073c4bedf0351bba9f7213f.JPG
Arquitectura de un
Sistema Tpico de
Minera de Datos
En el inicio del procesamiento de datos el tratamiento de informacin se realizaba mediante archivos
secuenciales donde se almacenaban los datos que se procesaran, lo que a la larga implicaba el
tratamiento de archivos completos por los programas de aplicacin. Con la necesidad del procesamiento
de datos surgi un gran avance en los sistemas computacionales de procesamientos de datos, lo que
llevo a que dichos sistemas se hicieran de gran importancia por lo que las empresas comenzaron a
reconocer que la informacin era un recurso corporativo de gran valor por lo que comenzaron a presionar
a los sistemas de informacin para la gestin en cuanto a la utilizacin de la potencia de la computadora
para producir informacin a partir de los datos corporativos.
Lo que comenz con la demanda de los sistemas de bases de datos, los que garantizaran ms
efectivamente el acceso a los datos y su manipulacin, cuyo fundamento era una estructura jerrquica de
los datos. Permitiendo la recuperacin de mltiples registros asociados con un registro nico de otro
archivo. Inmediatamente despus, se desarrollaron los sistemas de base de datos en redes que
soportaron interrelaciones entre registros de archivos diferentes mucho ms complejas. [7]
En el siguiente diagrama se muestra la arquitectura de un Sistema Tpico de Minera de Datos
http://etherpad.proyectolatin.org/up/188e02e28f4070db7b6448331fbd4a68.JPG
En donde:
La Base de datos es un repositorio de informacin como lo son datawarehouse y hoja de clculo, entre
otras.
El servidor de base de datos se utiliza en los sistemas en red para obtener la informacin en el proceso
de minera de datos en el que se encuentre.
Base de conocimiento: referente al conocimiento del dominio para guiar la bsqueda, evaluar los
patrones, meta-datos y obtencin de conocimiento previo de los datos
Algoritmo de minera de datos: Permite realizar diferentes tipos de anlisis como la caracterizacin,
asociacin, clasificacin, anlisis de grupos, evolucin y anlisis de desviaciones.
La evaluacin de patrones: son medidas para conocer la importancia de los patrones e interactuando con
el algoritmo de minera de datos gua la bsqueda hacia patrones interesantes.
Interfaz grfica: permite la interaccin con el usuario, permite la eleccin de la tarea de minera de daos,
provee la informacin para enfocar la bsqueda, ayuda a evaluar los patrones, explorar los patrones
encontrados y la base de datos original y visualizar los patrones en distintas formas
Arquitectura Centralizada
Los sistemas de arquitectura centralizada se basan en la existencia de una mquina servidora que
almacena los datos y las aplicaciones que los procesan, por lo que se ejecutan en un nico sistema
informtico sin interaccionar con ninguna otra computadora.
Ventajas
Fcil de administrar
Desventajas
El procesamiento de los datos implica que la mquina tenga una sobrecarga de procesos
http://etherpad.proyectolatin.org/up/706617c712567e1c7910877bb1c619b6.JPG
http://etherpad.proyectolatin.org/up/1645d831e50050c6951bed16024a7635.JPG
Ventajas
Requiere un fuerte rediseo de todos los elementos involucrados en los sistemas de informacin
Otras Tcnicas
Computacionales en
Minera de Datos
Las tcnicas estadsticas y de investigacin operativa son las herramientas bsicas que se han empleado
en la minera de datos. En los ltimos aos se han incorporado, tanto a los paquetes estadsticos
tradicionales, como a los sistemas de minera de datos unas tcnicas estadsticas y algoritmos que
resultan especialmente tiles al analizar grandes volmenes de informacin. [9]
Sistemas Expertos
Sistemas de la informacin que simulan el comportamiento de expertos humanos en el proceso de toma
de decisiones, para lo que requiere una base de datos de conocimiento para la cual se definen diferentes
reglas de comportamiento que regulan el funcionamiento del programa. Cuentan con un motor de
inferencia el cual es el encargado de gestionar los datos de entrada, a medida que se usa el sistema
experto se incorpora nueva informacin en la base de datos con el objetivo que el sistema tenga un
proceso de aprendizaje.
Lgica Difusa
Mtodo de razonamiento implementado en diversos modelos y productos industriales para representar
situaciones en las que los problemas de clasificacin estn afectados de incertidumbre, es similar al
pensamiento humano, que puede procesar informacin incompleta o incierta, caracterstico de muchos
sistemas expertos.
Aplicaciones de la Minera
de Datos
Recuperacin de Informacin
Sistemas Mdicos
Trfico
Hbitos de compra
Comportamiento en Internet
Juegos
Terrorismo
Y en diversas reas de la ciencia e Ingeniera en donde se requiera el procesamiento de la informacin.
Herramientas Informticas
Se han desarrollado diversos programas de minera de datos entre los que podemos encontrar:
Weka: contiene una coleccin de herramientas de visualizacin y algoritmos para anlisis de datos y
modelado predictivo, unidos a una interfaz grfica de usuario para acceder fcilmente a sus
funcionalidades. En un inicio se utilizo para modelar algoritmos implementados en otros lenguajes de
programacin, ms unas utilidades para el procesamiento de datos desarrolladas en C para hacer
experimentos de aprendizaje automtico.
Clementine: Herramienta de data mining que permite desarrollar modelos predictivos y desplegarlos para
mejorar la toma de decisiones. Est diseada teniendo en cuenta a los usuarios empresariales, de
manera que no es preciso ser un experto en data mining.
SAS Analytics / SAS: Suite de soluciones analticas que permiten transformar todos los datos de la
organizacin en conocimiento, reduciendo la incertidumbre, realizando predicciones fiables y optimizando
el desempeo.
RapidMiner / Yale: Es el lder mundial de cdigo abierto para la minera de datos debido a su combinacin
de su tecnologa de primera calidad y su rango de funcionalidad. Esta aplicacin de RapidMiner cubre un
amplio rango de minera de datos. Adems de ser una herramienta flexible para aprender y explorar la
minera de datos, la interfaz grfica de usuario tiene como objetivo simplificar el uso para las tareas
complejas de esta rea.
ACTIVIDADES DE
APRENDIZAJE
Los archivos necesarios para el siguiente ejercicio se encuentran en la pgina:
repository.seasr.org/Datasets/UCI/arff/
1.
Una vez cargado el conjunto de datos, en la seccin attributes se puede dar click sobre cada atributo para
obtener informacin estadstica de ellos. Contestad a las siguientes preguntas:
1. Cul es el rango de valores del atributo petalwitdth?
2. Con la informacin que puedes obtener visualmente, qu atributo/s crees que son los que mejor
permitirn predecir el atributo class?
1.3. Aplicacin de filtros
1. Aplicar el filtro filters/unsupervised/attribute/normalize sobre el conjunto de datos. Qu efecto tiene
este filtro?
2. Aplicar el filtro filters /unsupervised/instance/RemovePercentage sobre el conjunto de datos. Qu
efecto tiene este filtro?
3. Grabar el conjunto de datos como iris2.ar_.
4. Aplicar el _ filtro filters /unsupervised/attribute/Discretize sobre el conjunto de datos. Qu efecto tiene
este filtro?
1.4. Visualizacin
Volver a cargar el conjunto de datos iris2.arff. Pulsar la pestaa Visualize. Aumentar Point Size a 5 para
visualizar los datos mejor.
1.
2. Clasificacin
El objetivo de este ejercicio es familiarizarse con las primeras tcnicas de anlisis de datos. En concreto,
con los rboles de decisin.
2.1. Clasificador ZeroR
En las Test Options seleccionar Use trainning set, y pulsar el botn de Start para que genere el
clasificador.
En las Test Options seleccionar Use trainning set, y pulsar el botn de Start para que genere el
clasificador.
1. Cuntas hojas tiene el _rbol generado con J48?
2. Cuntas instancias del conjunto de entrenamiento clasifica bien?
3. Qu porcentaje de instancias clasifica bien?
4. Analizar la matriz de confusin: qu ha clasificado mal?
5. Pulsar el botn de More Options y seleccionar la opcin de Output predictions. En qu instancias se
ha equivocado?
6. Elegir una instancia que J48 haya clasificado errneamente y a analizar por qu
Adems, utiliza alguna de las herramientas de visualizacin de Weka:
En la ventana de Result list, pulsa en el botn derecho sobre el modelo generado con J48 para
desplegar las opciones. Pulsa sobre Visualize Tree
En la ventana de Result list, pulsa en el botn derecho sobre el modelo generado con J48 para
desplegar las opciones. Pulsa sobre Visualize Errors
2.3. Clasificador ID3
Cargar el conjunto de datos iris.arff. Seleccionar el clasificador ID3 y utilizarlo para generar un rbol de
decisin.
1. Has podido ejecutar el algoritmo ID3 sobre el conjunto de datos directamente? Por qu?
2. Qu acciones has llevado a cabo para poder ejecutarlo?
3. Qu porcentaje de xito sobre el conjunto de entrenamiento has obtenido?
4. Qu porcentaje de xito obtienes si utilizas como mecanismo de evaluacin la validacin cruzada?
5. Qu porcentaje de xito estimas que obtendrs en el futuro sobre nuevos datos con el rbol generado
con ID3?
2.4. rboles de Regresin
Cargar el conjunto de datos cpu.arff. Entre los algoritmos ID3, J48 y M5P, elegir uno de ellos para
aproximar el atributo class sin que sea necesario tratar los datos de entrada de ninguna forma.
1. Qu algoritmo has elegido? Por qu?
2. Qu porcentaje de error obtienes si utilizas como mecanismo de evaluacin la validacin cruzada?
3. Por qu no disponemos ahora de una matriz de confusin?
3. Agrupacin
El objetivo de este ejercicio es familiarizarse con algunas tcnicas de agrupacin. Para ello, vamos a
utilizar tambin el conjunto de datos iris.arff.
Cargar el conjunto de datos iris.arff.
Qu valor proporciona?
Utilizar la herramienta de visualizacin de grupos para comparar los dos resultados. Puedes
obtener alguna conclusin?
Ejecutar el algoritmo EM con los parmetros por defecto. Cuntas distribuciones genera? Hay
alguna relacin con alguno de los resultados generados con SimpleKMeans?
4. El Experimenter
El objetivo de este ejercicio es familiarizarse con una herramienta avanzada de anlisis de datos
integrada en Weka, denominada Experimenter. Esta herramienta permite ejecutar distintos algoritmos de
minera de datos sobre distintos conjuntos de datos, de forma que su ejecucin secuencial hace ms
rpida su ejecucin, as como la evaluacin de los resultados.
Para ello, seguir los siguientes pasos:
Seleccionar los clasificadores: J48,IBK con K = 1, IBK con K = 3, IBK con K = 5, y SVO
En el apartado Results Destination seleccionar CSV file y utilizar el botn de Browse para elegir el
archivo
Una vez finalizado el proceso, abrir una hoja de clculo, y cargar el archivo CSV.
En ese archivo, se muestra en cada fila los datos de cada ejecucin, incluyendo el conjunto de
datos, el clasificador utilizado con sus parmetros, as como datos sobre sus resultados
Obtener la media del porcentaje de xito para cada clasificador y conjunto de datos
Una vez realizados los pasos anteriores, responder a las siguientes preguntas:
Qu resultados ha obtenido cada clasificador en cada conjunto de datos?
Qu algoritmo ha obtenido mejores resultados en cada conjunto de datos?
Son los resultados del mejor algoritmo mucho mejores que los del resto?
MATERIAL DE
REFERENCIAS A
CONSULTAR
*OPCIONAL
[1] msdn.microsoft.com/es-es/library/ms174949.aspx
[2] www.sinnexus.com/business_intelligence/datamining.aspx
[3] www.webmining.cl/2011/01/proceso-de-extraccion-de-conocimiento/
[4] Universidad de Panam, Universidad Carlos III de Madrid, Gestin y Tecnologa del Conocimiento,
Minera de datos, Agosto-Septiembre, 2008
[5] Minera de Datos, Teleprocesos y Sistemas Distribuidos, FACENA-UNNE, Octubre, 2003
[6] Pang-Ning Tan, Michael Steinbach, Vipin Kumar , Introduction to Data Mining, PEARSON, Addison
Wesley, 2006, Boston, USA, 2006
[7] scar Gonzlez Martn, Francisco Ruiz Gonzlez, 1999/2000. Arquitecturas De Sistemas de bases de
datos, Universidad de Castilla la mancha, Escuela superior de informtica Bases de datos.
[8] Jess Antonio Gonzlez Bernal, Minera de Datos, Universidad Politcnica de Puebla
[9] Jos Ma. Caridad Y Ocerin, La Minera de Datos: Anlisis de Bases de Datos en la Empresa, 2001,
Universidad de Crdoba, Boletn de la Real Academia de Crdoba 141, 357-370
REFERENCIAS
Garofalakis, M..; Rastogi, R.; Seshadri, S. & Shim, K. (1999). Data Mining and the Web: Past, Present and
Future, Proceedings of 2nd ACM International Workshop on Web Information and Data Management
(WIDM), pp. 43-47, Missouri, USA, November 1999, ACM, Kansas City
Hernndez J. A. (2013). Generacin, Tratamiento y Anlisis de Informacin en las Organizaciones. Juan
Pablos Editor. Universidad Autnoma del Estado de Morelos. 174 p. ISBN: 978-607-7771-96-8.
Hernndez, J.; Ochoa, A.; Muoz, J. & Burlak, G. (2006). Detecting cheats in online student assessments
using Data Mining, Proceedings of The 2006 International Conference on Data Mining (DMIN2006), pp.
204-210, Las Vegas, USA, June 2006, Nevada City.
Ponce J., Hernndez A., Ochoa A., Padilla F., Padilla A., lvarez F. and Ponce de Len E. (2009). Data
Mining in Web Applications. En el libro "Data Mining and Knowledge Discovery in Real Life Applications",
Editado por Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, Enero.
Varan, S. (2006). Crime Pattern Detection Using Data Mining, Oracle Corporation.
Wahlstrom K., & Roddick J. (2000). On the Impact of Knowledge Discovery and Data Mining, Proceedings
of Australian Institute of Computer Ethics Conference (AiCE2000), Canberra, Australia, April 2000, Sydney
City.