Вы находитесь на странице: 1из 20

Temario

Minera de Datos
2. El Proceso de KDD
Jos Hernndez Orallo
jorallo@dsic.upv.es
Mster y Cursos de Postgrado del DSIC

1. Introduccin a la Minera de Datos (DM)


1.1. Motivacin 1.2. Problemas tipo y aplicaciones 1.3. Relacin de DM con otras disciplinas

2. El proceso de KDD
2.1. Las Fases del KDD 2.2. Tipologa de Tcnicas de Minera de Datos 2.3. Sistemas Comerciales y Herramientas de Minera de Datos 2.4. Preparacin y Visualizacin de datos

3. Tcnicas de Minera de Datos


3.1. El Problema de la Extraccin Automtica de Conocimiento. 3.2. Evaluacin de Hiptesis 3.3. Tcnicas no supervisadas y descriptivas. 3.4. Tcnicas supervisadas y predictivas.

4. Web Mining
Universitat Politcnica de Valncia
4.1. Los Problemas de la Informacin No Estructurada. 4.2. Extraccin de Conocimiento a partir de Documentos HTML y texto. 4.3. Extraccin de Informacin semi-estructurada (XML).

5. Otros Aspectos

Objetivos Tema 2
Sistema de Informacin
Preparacin de los Datos Minera de Datos

El Proceso del KDD. FASES


1. Determinar las fuentes de informacin que pueden ser tiles y dnde conseguirlas. 2. Disear el esquema de un almacn de datos (Data Warehouse) que consiga unificar de manera operativa toda la informacin recogida. 3. Implantacin del almacn de datos que permita la navegacin y visualizacin previa de sus datos, para discernir qu aspectos puede interesar que sean estudiados. 4. Seleccin, limpieza y transformacin de los datos que se van a analizar. La seleccin incluye tanto una criba o fusin horizontal (filas) como vertical (atributos). 5. Seleccionar y aplicar el mtodo de minera de datos apropiado. 6. Evaluacin, interpretacin, transformacin y representacin de los patrones extrados. 7. Difusin y uso del nuevo conocimiento.

Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el xito del proceso (en especial las de limpieza y seleccin de datos). Conocer el abanico de sistemas comerciales y sus caractersticas comunes Reconocer los tipos de visualizacin ms comunes y su utilidad de cara a la explotacin de datos
3

Patrones
Evaluacin / Interpretacin / Visualizacin

KDD

Conocimiento

El Proceso del KDD. FASES


Proceso detallado:

Fases del KDD: Recogida de Datos


Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento vlido y til a partir de la informacin original. Generalmente, la informacin que se quiere investigar sobre un cierto dominio de la organizacin se encuentra:
en bases de datos y otras fuentes muy diversas, tanto internas como externas.

mbito, objetivos de negocio y de minera de datos

+ + ++ - -

datos iniciales

almacn de datos

vista minable

patrones

conocimiento

decisiones

Integracin y recopilacin

preparacin de datos

modelado

evaluacin

despliegue

muchas de estas fuentes son las que se utilizan para el trabajo transaccional. El anlisis posterior ser mucho ms sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional.

revisin

Fases del KDD: Recogida de Datos


El proceso subsiguiente de minera de datos: Depende mucho de la fuente:
OLAP u OLTP. Datawarehouse o copia con el esquema original. ROLAP o MOLAP.

Fases del KDD: Recogida de Datos


Recogida de Informacin Externa: Aparte de informacin interna de la organizacin, los almacenes de datos pueden recoger informacin externa:
Demografas (censo), pginas amarillas, psicografas (perfiles por zonas), uso de Internet, informacin de otras organizaciones. Datos compartidos en una industria o rea de negocio, organizaciones y colegios profesionales, catlogos, etc. Datos resumidos de reas geogrficas, distribucin de la competencia, evolucin de la economa, informacin de calendarios y climatolgicas, programaciones televisivasdeportivas, catstofres,.. Bases de datos externas compradas a otras compaas.
8

Depende tambin del tipo de usuario:


picapedreros (o granjeros): se dedican fundamentalmente a realizar informes peridicos, ver la evolucin de determinados parmetros, controlar valores anmalos, etc. exploradores: encargados de encontrar nuevos patrones significativos utilizando tcnicas de minera de datos. 7

Fases del KDD: Preparacin de Datos


Limpieza (data cleansing) y criba (seleccin) de datos: Se deben eliminar el mayor nmero posible de datos errneos o inconsistentes (limpieza) e irrelevantes (criba). Mtodos estadsticos casi exclusivamente.
resmenes e histogramas (deteccin de datos anmalos). seleccin de datos (muestreo, ya sea verticalmente, eliminando atributos, denominado seleccin de caractersticas, u horizontalmente, eliminando tuplas, denominado muestreo). redefinicin de atributos (agrupacin o separacin).
9

Fases del KDD: Preparacin de Datos


La seleccin y la limpieza pueden acompaarse de transformacin de atributos (numerizacin, discretizacin, ). El resultado es un conjunto de filas y columnas denominado: VISTA MINABLE La vista minable integra datos de diferentes fuentes, los limpia, selecciona y transforma, y los tipa, con el fin de prepararlos para la modelizacin.
10

Fases del KDD: La Minera de Datos


Patrones a descubrir:
Una vez recogidos los datos de inters, un explorador puede decidir qu tipo de patrn quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la tcnica de minera de datos a utilizar. Segn como sea la bsqueda del conocimiento se puede distinguir entre:
Directed data mining: se sabe claramente lo que se busca, generalmente predecir unos ciertos datos o clases. Undirected data mining: no se sabe lo que se busca, se trabaja con los datos (hasta que confiesen!). En el primer caso, algunos sistemas de minera de datos se los encargan generalmente de elegir el algoritmo ms idneo entre11 disponibles para un determinado tipo de patrn a buscar.

Fases del KDD: Evaluacin y Validacin


La fase anterior produce una o ms hiptesis de modelos. Para seleccionar y validar estos modelos es necesario el uso de criterios de evaluacin de hiptesis. Por ejemplo:
1 Fase: Comprobacin de la precisin del modelo en un banco de ejemplos independiente del que se ha utilizado para aprender el modelo. Se puede elegir el mejor modelo. 2 Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el modelo encontrado se quera utilizar para predecir la respuesta de los clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de clientes y evaluar la fiabilidad del modelo.
12

Fases del KDD: Interpretacin y Difusin


El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementacin o interpretacin:
El modelo puede requerir implementacin (p.ej. tiempo real deteccin de tarjetas fraudulentas). El modelo es descriptivo y requiere interpretacin (p.ej. una caracterizacin de zonas geogrficas segn la distribucin de los productos vendidos). El modelo puede tener muchos usuarios y necesita difusin: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacin (p.ej. las cervezas y los productos congelados se compran frecuentemente en conjunto ponerlos en estantes distantes). 13

Fases del KDD: Actualizacin y


Monitorizacin
Los procesos derivan en un mantenimiento:
Actualizacin: Un modelo vlido puede dejar de serlo: cambio de contexto (econmicos, competencia, fuentes de datos, etc.). Monitorizacin: Consiste en ir revalidando el modelo con cierta frecuencia sobre nuevos datos, con el objetivo de detectar si el modelo requiere una actualizacin.

Producen realimentaciones en el proceso KDD.

14

Tipologa de Tcnicas de Minera de Datos


Las tcnicas de minera de datos crean modelos que son predictivos y/o descriptivos.
Un modelo predictivo responde preguntas sobre datos futuros.
Cules sern las ventas el ao prximo? Es esta transaccin fraudulenta? Qu tipo de seguro es ms probable que contrate el cliente X?

Tipologa de Tcnicas de Minera de Datos


Ejemplo de Modelo Predictivo:
Queremos saber si jugar o no jugar esta tarde al tenis. Hemos recogido datos de experiencias anteriores:
Example 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Sky Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temperature Humidity Hot High Hot High Hot High Mild High Cool Normal Cool Normal Cool Normal Mild High Cool Normal Mild Normal Mild Normal Mild High Hot Normal Mild High Wind Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong PlayTennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No

Un modelo descriptivo proporciona informacin sobre las relaciones entre los datos y sus caractersticas. Genera informacin del tipo:
Los clientes que compran paales suelen comprar cerveza. El tabaco y el alcohol son los factores ms importantes en la enfermedad Y. Los clientes sin televisin y con bicicleta tienen caractersticas muy diferenciadas del resto.
15

16

Tipologa de Tcnicas de Minera de Datos


Ejemplo de Modelo Predictivo:
Pasamos estos ejemplos a un algoritmo de aprendizaje de rboles de decisin, sealando el atributo PlayTennis como la clase (output). El resultado del algoritmo es el siguiente modelo:
Outlook? Sunny Humidity? High NO Normal YES Rain Wind? Strong NO Weak YES

Tipologa de Tcnicas de Minera de Datos


Ejemplo de Modelo Descriptivo:
Queremos categorizar nuestros empleados. Tenemos estos datos de los empleados:
#Ej 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sueldo 10000 20000 15000 30000 10000 40000 25000 20000 20000 30000 50000 8000 20000 10000 8000 Casado Coche Hijos S No 0 No S 1 S S 2 S S 1 S S 0 No S 0 No No 0 No S 0 S S 3 S S 2 No No 0 S S 2 No No 0 No S 0 No S 0 Alq/Prop Alquiler Alquiler Prop Alquiler Prop Alquiler Alquiler Prop Prop Prop Alquiler Prop Alquiler Alquiler Alquiler Sindic. No S S No S S S S No No No No No S No Bajas/Ao 7 3 5 15 1 3 0 2 7 1 2 3 27 0 3 Antigedad Sexo 15 H 3 M 10 H 7 M 6 H 16 M 8 H 6 M 5 H 20 H 12 M 1 H 5 M 7 H 18 2 H

Overcast YES

Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong) 17

es NO.

Tipologa de Tcnicas de Minera de Datos


Ejemplo de Modelo Descriptivo:
Pasamos estos ejemplos a un algoritmo de clustering K-meams. Se crean tres clusters, con la siguiente descripcin:
cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 S -> 0.2 Coche : No -> 0.8 S -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 S -> 0.2 Bajas/Ao : 8 Antigedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : S -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : S -> 1.0 Bajas/Ao : 2 Antigedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : S -> 1.0 Coche : S -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 S -> 0.33 Bajas/Ao : 5 Antigedad : 8 Sexo : H -> 0.83 M -> 0.17

Tipologa de Tcnicas de Minera de Datos


Tipos de conocimiento:
Asociaciones: Una asociacin entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta. Ejemplo, en un supermercado se analiza si los paales y los potitos de beb se compran conjuntamente. Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrn en el que se establece que uno o ms atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). Ejemplo: que un paciente haya sido ingresado en maternidad determina su sexo.

GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

19

La bsqueda de asociaciones y dependencias se conoce a veces como anlisis exploratorio. 20

Tipologa de Tcnicas de Minera de Datos


Tipos de conocimiento (cont.):
Clasificacin: Una clasificacin se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: obtener para qu pacientes una operacin de ciruga ocular es satisfactoria segn los atributos edad, nmero de miopas y astigmatismo.

Tipologa de Tcnicas de Minera de Datos


Tipos de conocimiento (cont.):
Agrupamiento / Segmentacin: El agrupamiento (o clustering) es la deteccin de grupos de individuos. Se diferencia de la clasificacin en el que no se conocen ni las clases ni su nmero (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto. Ejemplo: determinar qu tipos de clientes tengo atendiendo a sus patrones de compra.

21

22

Tipologa de Tcnicas de Minera de Datos


Tipos de conocimiento (cont.):
Tendencias/Regresin: El objetivo es predecir los valores de una variable continua a partir de la evolucin sobre una o ms variable continua. Una de ellas puede ser el tiempo. Ejemplo, se intenta predecir el nmero de clientes o pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o aos anteriores.

Tipologa de Tcnicas de Minera de Datos

Un tipo de tcnica puede servir para varios tipos de estudios Un tipo de estudio puede resolverse con distintos tipos de tcnicas
Es necesario conocer qu tcnicas son posibles y ms adecuadas para cada tipo de estudio

23

24

Correspondencia Tarea / Tcnica


TCNICA PREDICTIVO / SUPERVISADO Clasificacin Redes Neuronales rboles de Decisin Kohonen Regresin lineal (local, global), exp.. Reg. Logstica Kmeans A Priori (asociaciones) Estudios Factoriales, anlisis multivariante CN2 K-NN RBF Bayes Classifiers
(c4.5) (CART)

Herramientas
Paquetes de Minera de Datos:
Durante los 90, aparecen paquetes de minera de datos desde diferentes mbitos: como evolucin de paquetes o libreras de aprendizaje automtico o reconocimiento de patrones: CART, See5, Neuroshell, Weka, PRW, .. como solucin de los grandes del anlisis de datos: SPSS, SAS, como complemento de las herramientas de business intelligence y explotacin de datos: IBM, Oracle, Microsoft, Teradata, Incorporan tcnicas de preparacin de datos, de modelado, de visualizacin y de evaluacin.
25 26

DESCRIPTIVO / NO SUPERVISADO Clustering (agrup.) Reglas asociacin Otros (factoriales, correl, dispersin)

Regresin

Herramientas

Herramientas
Tipos de Herramientas:
Segn el acoplamiento: Standalone: Los datos se deben exportar/convertir al formato
interno del sistema de DM: Angoss Knowledge Seeker, Weka, .

On-top: pueden funcionar sobre un sistema propietario (SPSS Clementine sobre ODBC, ). Embedded (funcionan integrados propietarios): Oracle Data
Miner, IBM...

Segn la extensibilidad y el uso directo en aplicaciones:


Se pueden aadir nuevos algoritmos fcilmente: Kepler, Weka, Se puede (con paciencia): Clementine, Oracle Complejo o imposible: SAS,
Elder Research, www.datamininglab.com

27

Segn la variedad de tcnicas: Monotcnica: Neuroshell, CART, See5.0, 28 Suites: Clementine, Enterprise Miner, Oracle Data Miner

Herramientas
Costes:
Muy variables:
gratuito (p.ej. Weka). miles de euros (p.ej. SQL Server Data Mining) decenas de miles euros (p.ej. Clementine, Oracle, ) a cientos de miles de euros (inc. Hardware, p.ej. Teradata)

Herramientas
EJEMPLO: Clementine (www.spss.com) Herramienta que incluye:
fuentes de datos (ASCII, XLS, ODBC, ). interfaz visual. distintas tcnicas de minera de datos: redes neuronales, reglas, clustering, . evaluacin por particin, manipulacin de datos (combinacin y separacin). gestin de proyectos (CRISP-DM), exportacin de modelos, Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar.

Herramientas Gratuitas ms importantes:


WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Libro: Witten & Frank 2004) Rproject: herramienta gratuita de anlisis estadstico (http://www.R-project.org/)
29

30

Herramientas
EJEMPLO: Clementine (www.spss.com)

Herramientas
EJEMPLO: SAS ENTERPRISE MINER (EM) Herramienta completa. Incluye:
interfaz grfico. conexin a bases de datos (a travs de ODBC y SAS datasets). evaluacin por particin, distintas tcnicas: rboles de decisin, redes neuronales, regresin y clustering. conversin de los modelos en cdigo SAS. Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar.
31 32

Herramientas
EJEMPLO:

Herramientas
Angoss Knowledge Seeker:

SAS ENTERPRISE MINER (EM) (flujo del proceso KDD)

33

34

Herramientas
Oracle: Herramientas Business Intelligence y Data Mining Oracle
Engine (Java DM) desde Oracle 9i Enterprise Planning & Suite (OracleBi Data Miner). Budgeting
Oracle Reports Services

Herramientas
OracleBI Data Miner

Definir Hiptesis

Modelar

OracleActivit y Based Management Oracle Balanced Scorecard

OracleBI Spreadsheet Add-in Add-

Difundir

Oracle 10g (RDBMS con OLAP y DM)

Decidir

OracleBI Data Miner

Analizar
Non-Oracle Nonsources

OracleBI Warehouse Builder

Actuar
Oracle E-Business Suite
Oracle Daily Business Intelligence

Rastrear

OracleBI Discoverer

Fuente: IDC, 2004

35

36

Herramientas
MS SQL SERVER: Analysis Services
OLAP Services de SQL Server 97 se ampli a partir de SQL Server 2000 con caractersticas de DM en el llamado Analysis Services. Reforzado en el SQL Server 2005. Lenguaje DMX: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones La integracin y visualizacin es a veces mediante Data Mining Client Ribbon o Excel.
37

Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)

38

Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)

Herramientas
Situacin de las herramientas segn presencia y rendimiento (segn METAGROUP dic. 2004).

39

40

Integracin de Datos
Los datos a integrar dependen de los objetivos de minera de datos, que, a su vez, dependen de los objetivos de negocio.
Ejemplo: Objetivo de negocio: Reducir colas Objetivo de negocio refinado: Asignar recursos ms ajustados en cajas segn la afluencia de clientes. Objetivo de minera de datos: Predecir con antelacin la afluencia de clientes de una 41 tienda en cualquier tramo del da.

Integracin de Datos
Como resultado de esta fase de definicin del problema o de establecimiento de los objetivos de minera de datos:
Lista de objetivos de minera de datos y su correspondencia con objetivos de negocio. Esclarecimiento de qu datos, tanto internos como externos pueden ser necesarios para cada uno de ellos. Priorizacin de los mismos segn la facilidad de llevarlo a cabo (datos necesarios, recursos, etc.) y el impacto en el objetivo de negocio esperado.

Empezaremos por los primeros de la lista.


Con esta priorizacin evitamos objetivos que no resuelven ningn problema pertinente u objetivos imposibles.
42

Integracin de Datos
Una vez definidos y seleccionados los objetivos de anlisis es necesario esclarecer qu datos son necesarios para poder obtener los modelos deseados: Es necesario RECOPILAR e INTEGRAR los datos. Dos aproximaciones:
Recoger exclusivamente los datos necesarios para el objetivo u objetivos de anlisis en cuestin. Crear un repositorio de datos para permitir este y otros anlisis ulteriores.
43

Integracin de Datos
Generalmente, la informacin que se quiere investigar sobre un cierto dominio de la organizacin se encuentra: en bases de datos y otras fuentes muy diversas, tanto internas como externas. muchas de estas fuentes son las que se utilizan para el trabajo transaccional. se requiere un histrico suficiente (1, 5 o 10 aos dependiendo del mbito. el nivel de detalle (granularidad) para la minera de datos ha de ser alto. volmenes de datos muy grandes.
44

Integracin de Datos
El anlisis posterior ser mucho ms sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional.
La aproximacin mnima si se quiere realizar una minera de datos puntual u ocasional es Crear un repositorio de datos. La aproximacin adecuada si se quiere realizar minera de datos con continuidad y abierta a nuevos objetivos de anlisis es: Crear un almacn de datos o aadir un datamart a un almacn de datos existente.
45
Informes
texto

Integracin de Datos
Recogida de Informacin

Fuente de Datos 1
texto

Fuente de Datos 3
HTML

Fuente de Datos 2

Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2

Repositorio o Almacn de Datos

46

Integracin de Datos
Recogida de Informacin Interna Diferentes formatos:
Bases de datos operacionales Hojas de clculo Informes internos: estratgicos Reglas de negocio

Integracin de Datos
Recogida de Informacin Interna Informacin no siempre adecuada:
Datos insuficientes:
Ejemplo: la tarjeta de unos grandes almacenes pide la nacionalidad del cliente, pero no los hbitos alimenticios o el tipo de trabajo (slo cuenta propia o ajena o parado). Estos factores no podrn entrar en el anlisis.

La integracin es costosa y difcil hacia un nico formato.

Datos incompletos o de baja calidad:


Ejemplo: el formulario permite dejar algunos campos en blanco. Los datos de la tarjeta no se actualizan si el cliente cambia de domicilio, de trabajo, de pareja,

47

48

Integracin de Datos
Recogida de Informacin Externa Necesidad de fuentes muy diversas:
Demografas (censo), pginas amarillas, usos y hbitos de la poblacin, penetracin de telfono, luz o Internet. Datos compartidos en una industria o rea de negocio, organizaciones y colegios profesionales, catlogos, etc. Datos resumidos de reas geogrficas, distribucin y precios de la competencia, evolucin de la economa... Informacin de calendarios y climatolgicas, informacin de trfico, programaciones televisivasdeportivas, catstofres,.. Bases de datos externas compradas a otras compaas.
49

Integracin de Datos
Es necesario siempre tener un almacn de datos para hacer minera de datos? NO Es conveniente tener un almacn de datos para hacer minera de datos de una manera regular si el volumen de datos es importante? S Si existe ya un almacn de datos en la organizacin, puedo usarlo para la minera de datos? NO SIEMPRE. Depende de si tiene la suficiente granularidad y las dimensiones necesarias para el anlisis.

50

Preparacin de Datos
La preparacin de datos es una de las fases del proceso de extraccin de conocimiento a partir de datos (KDD).

Preparacin de Datos
Tras la recogida e integracin de datos:
El objetivo de la Preparacin de Datos es obtener la VISTA MINABLE, a partir de unos datos que podan ser inadecuados, faltantes, errneos, irrelevantes, dispersos, etc.

VISTA MINABLE

Esta fase suele suponer cerca de la mitad del esfuerzo del proceso de extraccin de conocimiento.

Idc 101 102 103 104 105 ...

D-crdito (aos) 15 2 9 15 10

C-crdito (euros) 60.000 30.000 9.000 18.000 24.000

Salario (euros) 2.200 3.500 1.700 1.900 2.100

Casa propia s s s no no

Cuentas morosas 2 0 1 0 0

Devuelvecrdito no s no s no

51

Vista Minable: conjunto de datos que incluyen todas las variables de inters para el problema concreto en el formato adecuado.

52

Preparacin de Datos

Preparacin de Datos: Comprensin


El primer paso consiste en conocer y comprender los datos: un resumen de caractersticas es til:

La preparacin de datos incluye:


Comprensin de los datos Visualizacin de los datos Limpieza Transformacin Seleccin

53

54

Preparacin de Datos: Visualizacin


Las tcnicas de visualizacin ayudan a comprender los datos.

Preparacin de Datos: Visualizacin


Las tcnicas de visualizacin ayudan a comprender los datos.
scatterplot surveyplot

Examinando dato a dato con TableLens

Francisco Javier Ferrer Troyano

55

Francisco Javier Ferrer Troyano

56

Preparacin de Datos: Visualizacin


Las tcnicas de visualizacin ayudan a comprender los datos.
Coordenadas paralelas

Preparacin de Datos: Visualizacin


Las tcnicas de visualizacin ayudan a comprender los datos.
Caras de Chernoff

Francisco Javier Ferrer Troyano

57

Francisco Javier Ferrer Troyano

58

Preparacin de Datos: Visualizacin


Las tcnicas de visualizacin ayudan a comprender los datos.

Preparacin de Datos: Limpieza


Atributos Nominales: Debemos analizar con detalle cada uno de los atributos: Podemos detectar:

Series temporales

Valores redundantes: (Hombre,Varn) Valores despreciables (agrupar valores como otros)


Francisco Javier Ferrer Troyano

59

60

Preparacin de Datos: Limpieza


Atributos Numricos: Debemos analizar con detalle cada uno de los atributos: Podemos detectar:
Valores anmalos Distribuciones en los datos

Preparacin de Datos: Limpieza


Atributos Numricos: Otra alternativa especialmente til para los atributos numricos son las grficas de dispersin.

61

62

Preparacin de Datos: Limpieza


Atributos Numricos: Cuando tenemos ms de dos variables el grfico anterior se puede repetir para todas las combinaciones posibles.

Preparacin de Datos: Limpieza


Acciones ante datos anmalos (outliers) o faltantes:
ignorar. filtrar (eliminar o sustituir) la columna. filtrar la fila. reemplazar el valor por un valor de media o predicho. segmentar las filas entre las de datos correctos y el resto y trabajar separadamente. discretizar los atributos numricos. Desistir y modificar la poltica de calidad de datos para la prxima vez.

63

64

Preparacin de Datos: Transf. y Seleccin


Transformaciones y Selecciones: Transformaciones:
Transformaciones globales: p.ej. filas por columnas. Creacin o modificacin de atributos:
Discretizacin y Numerizacin. Normalizacin. Atributos derivados.

Preparacin de Datos: Transf. y Seleccin


Reduccin de datos:
La proporcin de dimensiones (variables) respecto a la cantidad de instancias puede marcar la calidad de los modelos.

El mismo objetivo: reduccin de datos

Maldicin de la dimensionalidad
Una manera de intentar resolver este problema es mediante la reduccin de dimensiones, por: seleccin de un subconjunto de atributos, o sustitucin del conjunto de atributos iniciales por otros diferentes.

Reduccin de atributos.

Selecciones:
Verticales (sobre las caractersticas / atributos):
Seleccin de caractersticas.

Horizontales (sobre las instancias):


Muestreo.
65

66

Preparacin de Datos: Transformacin


Intercambio de Dimensiones: (filas por columnas)
EJEMPLO: Una tabla de cestas de la compra, donde cada atributo indica si el producto se ha comprado o no. Objetivo: Ver si dos productos se compran conjuntamente (regla de asociacin). Es muy costoso: hay que mirar al menos la raz cuadrada de todas las relaciones (cestas). Y puede haber millones en una semana... Sin embargo... Productos slo hay unos 8.000.
67

Preparacin de Datos: Transformacin


Intercambio de Dimensiones: EJEMPLO Si se intercambian filas por columnas tenemos:
Jabn Huevos Patatas Fritas Champ Jabn + Champ Huevos + Patatas B1 X B2 X X X X X X X X B3 X B4 B5 X X B6

...

Slo es necesario combinar dos filas para saber si hay asociacin.


68

Preparacin de Datos: Transformacin


Creacin de atributos:
En otras ocasiones aadir atributos nuevos puede mejorar el proceso de aprendizaje
8 7 Ventas (mill. euros) 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Meses Datos Modelo Lineal At. Originales Modelo Lineal At. Cuadrticos

Preparacin de Datos: Transformacin


Creacin de atributos:
El conocimiento del dominio es el factor que ms determina la creacin de buenos atributos derivados
Atributo Derivado Frmula Altura2 / peso Casado, varn e hijos>0 3-de-5 (fiebre alta, vmitos, tos, diarrea, dolor de cabeza) X-de-N (edad < 25, varn, aos de carn < 2, vehculo deportivo) Ingresos - Gastos Ingresos Gastos Impuestos Pasajeros * kilmetros Segundos de llamada / nmero de llamadas Poblacin / rea Fecha compra Fecha campaa ndice de obesidad Hombre familiar Sntomas SARS

La regresin lineal no se aproxima a la solucin Aadiendo un nuevo atributo z=meses^2 se obtiene un buen modelo

Riesgo pliza Beneficios brutos Beneficios netos Desplazamiento Duracin media Densidad

69

Retardo compra

70

Preparacin de Datos: Transformacin


Discretizacin:
La discretizacin, o cuantizacin (tambin llamada binning) es la conversin de un valor numrico en un valor nominal ordenado. La discretizacin se debe realizar cuando: El error en la medida puede ser grande Existen umbrales significativos (p.e. notas) En ciertas zonas el rango de valores es ms importante que en otras (interpretacin no lineal) Aplicar ciertas tareas de MD que slo soportan atributos nominales (p.e. reglas de asociacin)
71

Preparacin de Datos: Transformacin


Discretizacin :
Ejemplo: atributo tcketssemanales (numrico, de 1 a 15).

0 1 2 3 4 5 6 7

8 9 10 11 12 13 14 15

bajo

medio

alto

Atributo tcketssemanalesNOM (nominal: bajo, medio, alto).


72

Preparacin de Datos: Transformacin


Numerizacin: La numerizacin es el proceso inverso a la discretizacin convertir un atributo nominal en numrico. La numerizacin se debe realizar cuando se quieren aplicar ciertas tcnicas de MD que slo soportan atributos numricos (p.e. Regresin, mtodos basados en distancias)
73

Preparacin de Datos: Transformacin


Numerizacin:
numerizacin 1 a n: Si una variable nominal x tiene posibles valores creamos n variables numricas, con valores 0 o 1 dependiendo de si la variable nominal toma ese valor o no. EJEMPLO: Convertir el campo tarjeta que contiene los valores: { VISA, 4B, Amer, Maestro } en cuatro atributos binarios. numerizacin 1 a 1: Se aplica si existe un cierto orden o magnitud en los valores del atributo nominal. EJEMPLO: si tenemos categoras del estilo {nio, joven, adulto, anciano} podemos crear un nico atributo y numerar los valores de 1 a 4.
74

Preparacin de Datos: Transformacin


Normalizacin:
Algunos mtodos de aprendizaje funcionan mejor con los atributos numricos normalizados entre 0 y 1. Tipos de normalizacin: lineal uniforme: v' = v min max min sigmoidal Ejemplo: Los tckets semanales pasan de estar entre 0 y 15 a estar entre 0 y 1.
75

Preparacin de Datos: Transformacin


Reduccin de atributos por transformacin:
La tcnica ms conocida para reducir la dimensionalidad por transformacin se denomina anlisis de componentes principales (principal component analysis), PCA. PCA transforma los m atributos originales en otro conjunto de atributos p donde pm. Este proceso se puede ver geomtricamente como un cambio de ejes en la representacin (proyeccin). Los nuevos atributos se generan de tal manera que son independientes entre s y, adems, los primeros tienen ms relevancia (ms contenido informacional) que los ltimos.
76

Preparacin de Datos: Seleccin


Muestreo: permite reducir el tamao de datos de trabajo
Muestreo ms habitual: Aleatorio Simple: con reemplazamiento, o sin reemplazamiento. Otros: Aleatorio Estratificado. De grupos. Exhaustivo.
77

Preparacin de Datos: Seleccin


Muestreo: Con cantos datos es preferible trabajar?
Depende, en general, del nmero de atributos y valores(grados de libertad ) y del mtodo de aprendizaje y de su expresividad (por ejemplo una regresin lineal requiere muchos menos ejemplos que una red neuronal). Se utiliza una estrategia incremental, en el que se va haciendo la muestra cada vez ms grande (y diferente si es posible) hasta que se vea que los resultados no varan significativamente entre un modelo y otro.
78

Вам также может понравиться