Вы находитесь на странице: 1из 60

Minera de Datos

ndice

Introduccin
Preprocesado

Modelos descriptivos
Modelos predictivos

Validacin

ndice

Introduccin
Preprocesado

Modelos descriptivos
Modelos predictivos

Validacin

Aproximacin

Una visin simplificada de la minera de datos

Datos

Minera de datos

Modelos

Los modelos son el producto de la minera de datos... ...y dan soporte a las estrategias de decisin que se tomen

Datos y Modelos => Conocimiento

Los datos se obtienen de:

Modelos descriptivos: identifican


patrones que explican o resumen los datos

Bases de datos (relacionales, espaciales, temporales, documentales, multimedia, etc) World Wide Web

Reglas de asociacin: expresan patrones de


comportamiento en los datos

Clustering: agrupacin de casos homogneos

Modelos predictivos: estiman valores de


variables de inters (a predecir) a partir de valores de otras variables (predictoras)

Regresin: Variable a predecir continua Clasificacin supervisada: Variable a


predecir discreta

Definiciones

Data Mining (Minera de datos)

Proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten and Frank, 2000)

Knowledge Discovery in Databases - KDD (Descubrimiento de Conocimiento en Bases de Datos)

Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles, a partir de los datos (Fayyad y col. 1996)

Estadstica vs Minera de datos


Es tadis tica
Con s t r u ccin d e m od elos Scor e B s q u ed a Tr an s p ar en cia Valid acin Seleccin d e var iab les
Ce id o a p r em is a s y t e or e m a s Ver os im ilit u d d e los d a t os d a d o el m od elo Tes t d e la r a z n d e la ver os im ilit u d M s co m p lica d os d e in t er p r et a r No Filt er

Mine ria de dato s


Ma yor lib er t a d e n la con s t r u ccin , in t er p r et a b le M s d ir ect o, PBC p or eje m p lo Met a h eu r s t icos M s cla r os y s en cillos S Wr a p p er

OLAP vs Minera de datos

OLAP (On Line Analytical Processing) o FASMI (Fast Analysis of


Shared Multidimensional Information)

OLAP
Cu l es la p r op or cin m ed ia d e accid en t es en t r e fu m ad or es y n o fu m ad or es ? Cu l es la fact u r a t elefn ica m ed ia d e m is clien t es y d e los q u e h an d ejad o la com p a ia? Cu n t o es la com p r a m ed ia d iar ia d e t ar jet as r ob ad as y legt im as ?

Mine ra de dato s
Cu l es la m ejor p r ed iccin p ar a accid en t es ?

Dejar a X la com p a ia? Qu fact or es afect an a los ab an d on ad os ? Cu les s on los p at r on es d e com p r a as ociad os con el fr au d e d e t ar jet as ?

Aplicaciones

Financieras
Comercio

Seguros
Educacin

Medicina
Bioinformtica

Otras reas

Ejemplo (I)
Agente comercial: Debo conceder una hipoteca a un cliente?

Datos:

Minera de datos
Modelo generado:

If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes

Ejemplo (II)
Supermercado: Cundo los clientes compran huevos, tambin compran aceite?

Datos:

Minera de datos
Modelo generado:

Eggs -> Oil: Confianza = 75%, Soporte = 37%

Ejemplo (III)
Gestin de personal de una empresa: Qu clases de empleados hay contratados?

Datos:

Minera de datos
Modelo generado:
Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones

Ejemplo (IV)
Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?

Datos:

Minera de datos
Modelo generado:

Modelo lineal: nmero de televisiones para el prximo mes


V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05

CRISP-DM

KDD

La minera de datos se encuadra dentro de un proceso mucho mayor conocido como KDD (Knowledge Discovery
from Databases)

Fases del proceso iterativo e interactivo


1. Integracin y recopilacin de datos 2. Seleccin, limpieza y transformacin 3. Minera de datos 4. Evaluacin e interpretacin

5. Difusin y uso

KDD Knowledge Discovery in Databases

Fase 1

Integracin y recopilacin de datos

Decisiones estratgicas basadas en el anlisis, la planificacin y la prediccin: datos en varios departamentos Cada fuente de datos distintos formatos de registro, diferentes grados de agregacin, diferentes claves primarias, .... Integracin de mltiples bases de datos: almacenes de datos (data warehousing) Almacn de datos aconsejable cuando el volumen de informacin es grande. No estrictamente necesario (archivos de texto, hojas de clculo, ...)

Fase 2

Seleccin, limpieza y transformacin

Calidad del conocimiento descubierto depende (adems del algoritmo de minera) de la calidad de los datos analizados Presencia de datos que no se ajustan al comportamiento general de los datos (outliers) Presencia de datos perdidos (missing values) Seleccin de variables relevantes (feature subset selection) Seleccin de casos aleatoria en bases de datos de tamao ingente Construccin de nuevas variables que faciliten el proceso de minera de datos Discretizacin de variables continuas

Fase 3

Minera de datos

Modelos descriptivos

Reglas de asociacin Clustering

Modelos predictivos

Regresin: regresin lineal, regresin logstica


Clasificacin supervisada: clasificadores Bayesianos, redes neuronales, rboles de clasificacin, induccin de reglas, KNN, combinacin de clasificadores

Fase 4

Evaluacin e interpretacin

Tcnicas de evaluacin: validacin simple (training + test), validacin cruzada con k-fold, bootstrap Reglas de asociacin: cobertura (soporte), confianza Clustering: variabilidad intra y entre Regresin: error cuadrtico medio

Clasificacin supervisada: porcentaje de bien clasificados, matriz de confusin, anlisis ROC


Modelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)

Fase 5

Difusin y uso

Difusin: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organizacin Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar) Modelo debe cada cierto tiempo de ser:

Reevaluado Reentrenado Reconstruido

Herramientas

Weka, Clementine, etc.


Knime. KoNstanz Information MinEr

Flujo de datos utilizando nodos


Conexin con otras aplicaciones Ampliacin de nodos

Knime

ndice

Introduccin
Preprocesado

Modelos descriptivos
Modelos predictivos

Validacin

Datos

La parte ms importante de la minera de datos, son precisamente, los datos


Adems de su obtencin, uno de los pasos ms importantes es el preprocesado Diversas tcnicas segn la necesidad

Obtencin de datos en Knime

Representacin de datos en Knime

Missing values

Es posible que los mtodos a utilizar no traten bien los campos con valores faltantes (missing values)
Hay que detectarlos y tratarlos Ignorar, eliminar columna, filtrar fila, reemplazar el valor, etc.

Missing values en Knime

Discretizacin

Consiste en la conversin de un valor numrico en un valor nominal ordenado que representa un intervalo
En ciertas tcnicas de clasificacin es necesario que todos los datos sean discretos

Discretizacin en Knime

Numerizacin

Es el proceso inverso a la discretizacin


Pasar valores nominales a numricos

Es menos comn
Hay dos tipos:

Numerizacin 1 a n
Numerizacin 1 a 1

Numerizacin en Knime

ndice

Introduccin
Preprocesado

Modelos descriptivos
Modelos predictivos

Validacin

Tareas descriptivas

Agrupamiento (clustering)
Correlaciones y factorizaciones

Reglas de asociacin
Dependencias funcionales

Deteccin de valores e instancias anmalas

Tabla de mtodos
No m b re Agru p am ien t o Re d es n eu ro n ales rb o les d e d ecis i n ID3 , C4 .5 , C5 .0 rb o les d e d ecis i n CART Ot ro s rb o les d e d ecis i n Re d es d e Ko h o n en Regres i n lin eal y lo gart m ica Regres i n lo gs t ica Km ean s Ap rio ri Naive Bayes Vecim o s m s p r xim o s An lis is fact o rial y d e co m p . p r in cip ales Two s t ep , Co b web Algo rit m o s gen t ico s y evo lu t ivo s Mq u in as d e vect o res s o p o rt e CN2 ru les (co b ert u ra) An lis is d is crim in a n t e m u lt ivar ia n t e X X X X X X X X X X X X X X X X DESCRIPTIVO Reglas d e as o ciaci n Co rrelacio n es / Fact o riz acio n es

Clasificacin no supervisada

Datos: parte de un conjunto de datos u objetos cada uno caracterizado por varias variables

Se trata de obtener grupos de objetos

Clustering

Dados unos datos sin etiquetar, el objetivo es encontrar grupos naturales de instancias

a) Particional

b) Jerrquico

Tipos de clustering

Clustering particional

Particin de los objetos en grupos o clusters. Todos los objetos pertenecen a alguno de los k clusters, los cuales son disjuntos. Problema => eleccin de k

Clustering ascendente jerrquico

Crear un dendograma, es decir, crear un conjunto de agrupaciones anidadas hasta construir un rbol jerrquico

K-medias

Mtodo ms utilizado de clustering particional


La idea es situar los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan caractersticas similares Los datos se asignan a cada centro segn la menor distancia, normalmente usando la distancia eucldea Una vez introducidos todos los datos, se desplazan los prototipos hasta el centro de masas de su nuevo conjunto, esto se repite hasta que no se desplazan ms.

K-medias en Knime

Jerrquico

Dependiendo de la manera de construir el rbol:

Aglomerativos: hojas -> raz Divisivos: raz -> hojas

Dependiendo de cmo se calcule la distancia de enlace entre grupos:

Enlace simple
Enlace completo Enlace en la media

Clustering jerrquico en Knime

ndice

Introduccin
Preprocesado

Modelos descriptivos
Modelos predictivos

Validacin

Tareas predictivas

Clasificacin
Clasificacin suave

Estimacin de probabilidad de clasificacin


Categorizacin

Preferencia o priorizacin
Regresin

Tabla de mtodos
Nom b r e Red es n eu r on ales r b oles d e d ecis in ID3 , C4 .5 , C5 .0 r b oles d e d ecis in CART Otr os r b oles d e d ecis in Red es d e Koh on en Regr es in lin eal y logar tm ica Regr es in logs tica Km ean s Ap r ior i Naive Bayes Vecim os m s p r xim os An lis is factor ial y d e com p . p r in cip ales Twos tep , Cob web Algor itm os gen ticos y evolu tivos Mq u in as d e vector es s op or te CN2 r u les (cob er tu r a) An lis is d is cr im in an te m u ltivar ian te X X X X X X X X X X X DESCRIPTIVO Clas ificacin X X X X X X Regr es in X

Clasificacin supervisada

Datos: N objetos con n+1 variables (n predictoras + clase)

Inducir automaticamente un modelo clasificatorio

Paradigmas de clasificacin supervisada

Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984) Clasificadores kNN (Covert y Hart, 1967; Dasarathy, 1991) Regresion logstica (Hosmer y Lemeshow, 1989)

Mtodos Bayesianos (Mitchell, 1997)


Sistemas clasificadores (Holland, 1975) Redes neuronales (McCulloch y Pitts, 1943) Induccin de reglas (Clark y Nibblet, 1989; Cohen, 1995; Holte, 1993) Mquinas de soporte vectorial (Cristianini y ShaweTaylor, 2000) Anlisis discriminante (Fisher, 1936)

rboles de clasificacin

Mtodo ms facil de utilizar y de entender


Conjunto de condiciones organizadas en una estructura jerrquica Las opciones posibles a partir de una condicin son excluyentes ID3, C4.5, C5.0, CART, etc.

Mtodos bayesianos

Basados en la teora de la probabilidad (teorema de Bayes)


Nave Bayes es el clasificador principal Uso de redes bayesianas

Se usan en tareas descriptivas y predictivas

Clasificadores k-NN

Se asigna la clase mayoritaria entre los k vecinos ms proximos


Se utiliza una funcin distancia Problema: Establecer un valor de k adecuado

Cuando se asigna la clase del ejemplo ms prximo solamente, es 1-NN

Clasificacin en Knime

ndice

Introduccin
Preprocesado

Modelos descriptivos
Modelos predictivos

Validacin

Tipos de validacin

Validacin interna

Es en la que se aprende, clasifica y valida con los datos de un mismo conjunto

Validacin externa

Se aprende un modelo con un conjunto de datos, y se valida con unos datos que no han sido empleados en el aprendizaje

Hold-out

Separar los datos disponibles en dos subconjuntos de datos: training set (para aprender un modelo) y test set (el resto de los datos) Se calcula la accuracy sobre el test set para estimar el error del modelo obtenido con el training set

K-fold-Cross-Validation

Se particiona aleatoriamente en k subconjuntos el conjunto de datos disponible.


Para cada uno de los subconjuntos obtenidos, se utilizar de test set para evaluar el modelo obtenido con el resto de subconjuntos Se realiza la media de las evaluaciones realizadas para obtener el resultado final

Leave one out

Se deja una instancia de los datos como test set y se aprende con el resto del conjunto
Este proceso se repite para cada instancia Se obtiene el resultado final realizando la media de todas las ejecuciones

0.632 Bootstrap

Se divide en dos partes

Se aprende y se valida con el mismo conjunto de datos N iteraciones de:

Se seleccionan con reemplazo el mismo nmero de instancias que se tengan del conjunto de datos inicial
Se utiliza el conjunto de datos creado como training set y se evalua con el conjunto formado por las instancias que no han sido seleccionadas en el paso anterior Se obtiene la media de las N iteraciones

Resultado final: e = 0.632xEresubstitution + 0.368xEiteraciones

Validacin en Knime

Bootstrap en Knime

Вам также может понравиться