Академический Документы
Профессиональный Документы
Культура Документы
Minera de Datos
2. El Proceso de KDD
Jos Hernndez Orallo
jorallo@dsic.upv.es
Mster y Cursos de Postgrado del DSIC
2. El proceso de KDD
2.1. Las Fases del KDD 2.2. Tipologa de Tcnicas de Minera de Datos 2.3. Sistemas Comerciales y Herramientas de Minera de Datos 2.4. Preparacin y Visualizacin de datos
4. Web Mining
Universitat Politcnica de Valncia
4.1. Los Problemas de la Informacin No Estructurada. 4.2. Extraccin de Conocimiento a partir de Documentos HTML y texto. 4.3. Extraccin de Informacin semi-estructurada (XML).
5. Otros Aspectos
Objetivos Tema 2
Sistema de Informacin
Preparacin de los Datos Minera de Datos
Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el xito del proceso (en especial las de limpieza y seleccin de datos). Conocer el abanico de sistemas comerciales y sus caractersticas comunes Reconocer los tipos de visualizacin ms comunes y su utilidad de cara a la explotacin de datos
3
Patrones
Evaluacin / Interpretacin / Visualizacin
KDD
Conocimiento
+ + ++ - -
datos iniciales
almacn de datos
vista minable
patrones
conocimiento
decisiones
Integracin y recopilacin
preparacin de datos
modelado
evaluacin
despliegue
muchas de estas fuentes son las que se utilizan para el trabajo transaccional. El anlisis posterior ser mucho ms sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional.
revisin
14
Un modelo descriptivo proporciona informacin sobre las relaciones entre los datos y sus caractersticas. Genera informacin del tipo:
Los clientes que compran paales suelen comprar cerveza. El tabaco y el alcohol son los factores ms importantes en la enfermedad Y. Los clientes sin televisin y con bicicleta tienen caractersticas muy diferenciadas del resto.
15
16
Overcast YES
Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong) 17
es NO.
GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
19
21
22
Un tipo de tcnica puede servir para varios tipos de estudios Un tipo de estudio puede resolverse con distintos tipos de tcnicas
Es necesario conocer qu tcnicas son posibles y ms adecuadas para cada tipo de estudio
23
24
Herramientas
Paquetes de Minera de Datos:
Durante los 90, aparecen paquetes de minera de datos desde diferentes mbitos: como evolucin de paquetes o libreras de aprendizaje automtico o reconocimiento de patrones: CART, See5, Neuroshell, Weka, PRW, .. como solucin de los grandes del anlisis de datos: SPSS, SAS, como complemento de las herramientas de business intelligence y explotacin de datos: IBM, Oracle, Microsoft, Teradata, Incorporan tcnicas de preparacin de datos, de modelado, de visualizacin y de evaluacin.
25 26
DESCRIPTIVO / NO SUPERVISADO Clustering (agrup.) Reglas asociacin Otros (factoriales, correl, dispersin)
Regresin
Herramientas
Herramientas
Tipos de Herramientas:
Segn el acoplamiento: Standalone: Los datos se deben exportar/convertir al formato
interno del sistema de DM: Angoss Knowledge Seeker, Weka, .
On-top: pueden funcionar sobre un sistema propietario (SPSS Clementine sobre ODBC, ). Embedded (funcionan integrados propietarios): Oracle Data
Miner, IBM...
27
Segn la variedad de tcnicas: Monotcnica: Neuroshell, CART, See5.0, 28 Suites: Clementine, Enterprise Miner, Oracle Data Miner
Herramientas
Costes:
Muy variables:
gratuito (p.ej. Weka). miles de euros (p.ej. SQL Server Data Mining) decenas de miles euros (p.ej. Clementine, Oracle, ) a cientos de miles de euros (inc. Hardware, p.ej. Teradata)
Herramientas
EJEMPLO: Clementine (www.spss.com) Herramienta que incluye:
fuentes de datos (ASCII, XLS, ODBC, ). interfaz visual. distintas tcnicas de minera de datos: redes neuronales, reglas, clustering, . evaluacin por particin, manipulacin de datos (combinacin y separacin). gestin de proyectos (CRISP-DM), exportacin de modelos, Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar.
30
Herramientas
EJEMPLO: Clementine (www.spss.com)
Herramientas
EJEMPLO: SAS ENTERPRISE MINER (EM) Herramienta completa. Incluye:
interfaz grfico. conexin a bases de datos (a travs de ODBC y SAS datasets). evaluacin por particin, distintas tcnicas: rboles de decisin, redes neuronales, regresin y clustering. conversin de los modelos en cdigo SAS. Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar.
31 32
Herramientas
EJEMPLO:
Herramientas
Angoss Knowledge Seeker:
33
34
Herramientas
Oracle: Herramientas Business Intelligence y Data Mining Oracle
Engine (Java DM) desde Oracle 9i Enterprise Planning & Suite (OracleBi Data Miner). Budgeting
Oracle Reports Services
Herramientas
OracleBI Data Miner
Definir Hiptesis
Modelar
Difundir
Decidir
Analizar
Non-Oracle Nonsources
Actuar
Oracle E-Business Suite
Oracle Daily Business Intelligence
Rastrear
OracleBI Discoverer
35
36
Herramientas
MS SQL SERVER: Analysis Services
OLAP Services de SQL Server 97 se ampli a partir de SQL Server 2000 con caractersticas de DM en el llamado Analysis Services. Reforzado en el SQL Server 2005. Lenguaje DMX: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones La integracin y visualizacin es a veces mediante Data Mining Client Ribbon o Excel.
37
Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)
38
Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)
Herramientas
Situacin de las herramientas segn presencia y rendimiento (segn METAGROUP dic. 2004).
39
40
Integracin de Datos
Los datos a integrar dependen de los objetivos de minera de datos, que, a su vez, dependen de los objetivos de negocio.
Ejemplo: Objetivo de negocio: Reducir colas Objetivo de negocio refinado: Asignar recursos ms ajustados en cajas segn la afluencia de clientes. Objetivo de minera de datos: Predecir con antelacin la afluencia de clientes de una 41 tienda en cualquier tramo del da.
Integracin de Datos
Como resultado de esta fase de definicin del problema o de establecimiento de los objetivos de minera de datos:
Lista de objetivos de minera de datos y su correspondencia con objetivos de negocio. Esclarecimiento de qu datos, tanto internos como externos pueden ser necesarios para cada uno de ellos. Priorizacin de los mismos segn la facilidad de llevarlo a cabo (datos necesarios, recursos, etc.) y el impacto en el objetivo de negocio esperado.
Integracin de Datos
Una vez definidos y seleccionados los objetivos de anlisis es necesario esclarecer qu datos son necesarios para poder obtener los modelos deseados: Es necesario RECOPILAR e INTEGRAR los datos. Dos aproximaciones:
Recoger exclusivamente los datos necesarios para el objetivo u objetivos de anlisis en cuestin. Crear un repositorio de datos para permitir este y otros anlisis ulteriores.
43
Integracin de Datos
Generalmente, la informacin que se quiere investigar sobre un cierto dominio de la organizacin se encuentra: en bases de datos y otras fuentes muy diversas, tanto internas como externas. muchas de estas fuentes son las que se utilizan para el trabajo transaccional. se requiere un histrico suficiente (1, 5 o 10 aos dependiendo del mbito. el nivel de detalle (granularidad) para la minera de datos ha de ser alto. volmenes de datos muy grandes.
44
Integracin de Datos
El anlisis posterior ser mucho ms sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional.
La aproximacin mnima si se quiere realizar una minera de datos puntual u ocasional es Crear un repositorio de datos. La aproximacin adecuada si se quiere realizar minera de datos con continuidad y abierta a nuevos objetivos de anlisis es: Crear un almacn de datos o aadir un datamart a un almacn de datos existente.
45
Informes
texto
Integracin de Datos
Recogida de Informacin
Fuente de Datos 1
texto
Fuente de Datos 3
HTML
Fuente de Datos 2
Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2
46
Integracin de Datos
Recogida de Informacin Interna Diferentes formatos:
Bases de datos operacionales Hojas de clculo Informes internos: estratgicos Reglas de negocio
Integracin de Datos
Recogida de Informacin Interna Informacin no siempre adecuada:
Datos insuficientes:
Ejemplo: la tarjeta de unos grandes almacenes pide la nacionalidad del cliente, pero no los hbitos alimenticios o el tipo de trabajo (slo cuenta propia o ajena o parado). Estos factores no podrn entrar en el anlisis.
47
48
Integracin de Datos
Recogida de Informacin Externa Necesidad de fuentes muy diversas:
Demografas (censo), pginas amarillas, usos y hbitos de la poblacin, penetracin de telfono, luz o Internet. Datos compartidos en una industria o rea de negocio, organizaciones y colegios profesionales, catlogos, etc. Datos resumidos de reas geogrficas, distribucin y precios de la competencia, evolucin de la economa... Informacin de calendarios y climatolgicas, informacin de trfico, programaciones televisivasdeportivas, catstofres,.. Bases de datos externas compradas a otras compaas.
49
Integracin de Datos
Es necesario siempre tener un almacn de datos para hacer minera de datos? NO Es conveniente tener un almacn de datos para hacer minera de datos de una manera regular si el volumen de datos es importante? S Si existe ya un almacn de datos en la organizacin, puedo usarlo para la minera de datos? NO SIEMPRE. Depende de si tiene la suficiente granularidad y las dimensiones necesarias para el anlisis.
50
Preparacin de Datos
La preparacin de datos es una de las fases del proceso de extraccin de conocimiento a partir de datos (KDD).
Preparacin de Datos
Tras la recogida e integracin de datos:
El objetivo de la Preparacin de Datos es obtener la VISTA MINABLE, a partir de unos datos que podan ser inadecuados, faltantes, errneos, irrelevantes, dispersos, etc.
VISTA MINABLE
Esta fase suele suponer cerca de la mitad del esfuerzo del proceso de extraccin de conocimiento.
D-crdito (aos) 15 2 9 15 10
Casa propia s s s no no
Cuentas morosas 2 0 1 0 0
Devuelvecrdito no s no s no
51
Vista Minable: conjunto de datos que incluyen todas las variables de inters para el problema concreto en el formato adecuado.
52
Preparacin de Datos
53
54
55
56
57
58
Series temporales
59
60
61
62
63
64
Maldicin de la dimensionalidad
Una manera de intentar resolver este problema es mediante la reduccin de dimensiones, por: seleccin de un subconjunto de atributos, o sustitucin del conjunto de atributos iniciales por otros diferentes.
Reduccin de atributos.
Selecciones:
Verticales (sobre las caractersticas / atributos):
Seleccin de caractersticas.
66
...
La regresin lineal no se aproxima a la solucin Aadiendo un nuevo atributo z=meses^2 se obtiene un buen modelo
Riesgo pliza Beneficios brutos Beneficios netos Desplazamiento Duracin media Densidad
69
Retardo compra
70
0 1 2 3 4 5 6 7
8 9 10 11 12 13 14 15
bajo
medio
alto