Capítulo V Minería de Datos

Minera de Datos
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
ndice
Introduccin
Preprocesado
Modelos predictivos
Validacin
Aproximacin
Una visin simplificada de la minera de datos
Datos
Minera de datos
Modelos
Los modelos son el producto de la minera de datos... ...y dan soporte a las estrategias de decisin que se tomen
Datos y Modelos => Conocimiento
Los datos se obtienen de:
Modelos descriptivos: identifican

patrones que explican o resumen los datos
Bases de datos (relacionales, espaciales, temporales, documentales, multimedia, etc) World Wide Web
Reglas de asociacin: expresan patrones de

comportamiento en los datos
Clustering: agrupacin de casos homogneos
Modelos predictivos: estiman valores de

variables de inters (a predecir) a partir de valores de otras variables (predictoras)
Regresin: Variable a predecir continua Clasificacin supervisada: Variable a

predecir discreta
Definiciones
Data Mining (Minera de datos)
Proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten and Frank, 2000)
Knowledge Discovery in Databases - KDD (Descubrimiento de Conocimiento en Bases de Datos)
Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles, a partir de los datos (Fayyad y col. 1996)
Estadstica vs Minera de datos

Es tadis tica
Con s t r u ccin d e m od elos Scor e B s q u ed a Tr an s p ar en cia Valid acin Seleccin d e var iab les
Ce id o a p r em is a s y t e or e m a s Ver os im ilit u d d e los d a t os d a d o el m od elo Tes t d e la r a z n d e la ver os im ilit u d M s co m p lica d os d e in t er p r et a r No Filt er
Mine ria de dato s

Ma yor lib er t a d e n la con s t r u ccin , in t er p r et a b le M s d ir ect o, PBC p or eje m p lo Met a h eu r s t icos M s cla r os y s en cillos S Wr a p p er
OLAP vs Minera de datos
OLAP (On Line Analytical Processing) o FASMI (Fast Analysis of

Shared Multidimensional Information)
OLAP
Cu l es la p r op or cin m ed ia d e accid en t es en t r e fu m ad or es y n o fu m ad or es ? Cu l es la fact u r a t elefn ica m ed ia d e m is clien t es y d e los q u e h an d ejad o la com p a ia? Cu n t o es la com p r a m ed ia d iar ia d e t ar jet as r ob ad as y legt im as ?
Mine ra de dato s
Cu l es la m ejor p r ed iccin p ar a accid en t es ?
Dejar a X la com p a ia? Qu fact or es afect an a los ab an d on ad os ? Cu les s on los p at r on es d e com p r a as ociad os con el fr au d e d e t ar jet as ?
Aplicaciones
Financieras
Comercio
Seguros
Educacin
Medicina
Bioinformtica
Otras reas
Ejemplo (I)
Agente comercial: Debo conceder una hipoteca a un cliente?
Datos:
Minera de datos
Modelo generado:
If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
Ejemplo (II)
Supermercado: Cundo los clientes compran huevos, tambin compran aceite?
Datos:
Minera de datos
Modelo generado:
Eggs -> Oil: Confianza = 75%, Soporte = 37%
Ejemplo (III)
Gestin de personal de una empresa: Qu clases de empleados hay contratados?
Datos:
Minera de datos
Modelo generado:
Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
Ejemplo (IV)
Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?
Datos:
Minera de datos
Modelo generado:
Modelo lineal: nmero de televisiones para el prximo mes

V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05
CRISP-DM
KDD
La minera de datos se encuadra dentro de un proceso mucho mayor conocido como KDD (Knowledge Discovery
from Databases)
Fases del proceso iterativo e interactivo

1. Integracin y recopilacin de datos 2. Seleccin, limpieza y transformacin 3. Minera de datos 4. Evaluacin e interpretacin
5. Difusin y uso
KDD Knowledge Discovery in Databases
Fase 1
Integracin y recopilacin de datos
Decisiones estratgicas basadas en el anlisis, la planificacin y la prediccin: datos en varios departamentos Cada fuente de datos distintos formatos de registro, diferentes grados de agregacin, diferentes claves primarias, .... Integracin de mltiples bases de datos: almacenes de datos (data warehousing) Almacn de datos aconsejable cuando el volumen de informacin es grande. No estrictamente necesario (archivos de texto, hojas de clculo, ...)
Fase 2
Seleccin, limpieza y transformacin
Calidad del conocimiento descubierto depende (adems del algoritmo de minera) de la calidad de los datos analizados Presencia de datos que no se ajustan al comportamiento general de los datos (outliers) Presencia de datos perdidos (missing values) Seleccin de variables relevantes (feature subset selection) Seleccin de casos aleatoria en bases de datos de tamao ingente Construccin de nuevas variables que faciliten el proceso de minera de datos Discretizacin de variables continuas
Fase 3
Minera de datos
Reglas de asociacin Clustering
Modelos predictivos
Regresin: regresin lineal, regresin logstica

Clasificacin supervisada: clasificadores Bayesianos, redes neuronales, rboles de clasificacin, induccin de reglas, KNN, combinacin de clasificadores
Fase 4
Evaluacin e interpretacin
Tcnicas de evaluacin: validacin simple (training + test), validacin cruzada con k-fold, bootstrap Reglas de asociacin: cobertura (soporte), confianza Clustering: variabilidad intra y entre Regresin: error cuadrtico medio
Clasificacin supervisada: porcentaje de bien clasificados, matriz de confusin, anlisis ROC

Modelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)
Fase 5
Difusin y uso
Difusin: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organizacin Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar) Modelo debe cada cierto tiempo de ser:

Reevaluado Reentrenado Reconstruido
Herramientas
Weka, Clementine, etc.

Knime. KoNstanz Information MinEr
Flujo de datos utilizando nodos

Conexin con otras aplicaciones Ampliacin de nodos
Knime
ndice
Introduccin
Preprocesado
Modelos predictivos
Validacin
Datos
La parte ms importante de la minera de datos, son precisamente, los datos

Adems de su obtencin, uno de los pasos ms importantes es el preprocesado Diversas tcnicas segn la necesidad
Obtencin de datos en Knime
Representacin de datos en Knime
Missing values
Es posible que los mtodos a utilizar no traten bien los campos con valores faltantes (missing values)
Hay que detectarlos y tratarlos Ignorar, eliminar columna, filtrar fila, reemplazar el valor, etc.
Missing values en Knime
Discretizacin
Consiste en la conversin de un valor numrico en un valor nominal ordenado que representa un intervalo
En ciertas tcnicas de clasificacin es necesario que todos los datos sean discretos
Discretizacin en Knime
Numerizacin
Es el proceso inverso a la discretizacin

Pasar valores nominales a numricos
Es menos comn
Hay dos tipos:
Numerizacin 1 a n
Numerizacin 1 a 1
Numerizacin en Knime
ndice
Introduccin
Preprocesado
Modelos predictivos
Validacin
Tareas descriptivas
Agrupamiento (clustering)
Correlaciones y factorizaciones
Reglas de asociacin
Dependencias funcionales
Deteccin de valores e instancias anmalas
Tabla de mtodos
No m b re Agru p am ien t o Re d es n eu ro n ales rb o les d e d ecis i n ID3 , C4 .5 , C5 .0 rb o les d e d ecis i n CART Ot ro s rb o les d e d ecis i n Re d es d e Ko h o n en Regres i n lin eal y lo gart m ica Regres i n lo gs t ica Km ean s Ap rio ri Naive Bayes Vecim o s m s p r xim o s An lis is fact o rial y d e co m p . p r in cip ales Two s t ep , Co b web Algo rit m o s gen t ico s y evo lu t ivo s Mq u in as d e vect o res s o p o rt e CN2 ru les (co b ert u ra) An lis is d is crim in a n t e m u lt ivar ia n t e X X X X X X X X X X X X X X X X DESCRIPTIVO Reglas d e as o ciaci n Co rrelacio n es / Fact o riz acio n es
Clasificacin no supervisada
Datos: parte de un conjunto de datos u objetos cada uno caracterizado por varias variables
Se trata de obtener grupos de objetos
Clustering
Dados unos datos sin etiquetar, el objetivo es encontrar grupos naturales de instancias
a) Particional
b) Jerrquico
Tipos de clustering
Clustering particional
Particin de los objetos en grupos o clusters. Todos los objetos pertenecen a alguno de los k clusters, los cuales son disjuntos. Problema => eleccin de k
Clustering ascendente jerrquico
Crear un dendograma, es decir, crear un conjunto de agrupaciones anidadas hasta construir un rbol jerrquico
K-medias
Mtodo ms utilizado de clustering particional

La idea es situar los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan caractersticas similares Los datos se asignan a cada centro segn la menor distancia, normalmente usando la distancia eucldea Una vez introducidos todos los datos, se desplazan los prototipos hasta el centro de masas de su nuevo conjunto, esto se repite hasta que no se desplazan ms.
K-medias en Knime
Jerrquico
Dependiendo de la manera de construir el rbol:
Aglomerativos: hojas -> raz Divisivos: raz -> hojas
Dependiendo de cmo se calcule la distancia de enlace entre grupos:
Enlace simple
Enlace completo Enlace en la media
Clustering jerrquico en Knime
ndice
Introduccin
Preprocesado
Modelos predictivos
Validacin
Tareas predictivas
Clasificacin
Clasificacin suave
Estimacin de probabilidad de clasificacin

Categorizacin
Preferencia o priorizacin
Regresin
Tabla de mtodos
Nom b r e Red es n eu r on ales r b oles d e d ecis in ID3 , C4 .5 , C5 .0 r b oles d e d ecis in CART Otr os r b oles d e d ecis in Red es d e Koh on en Regr es in lin eal y logar tm ica Regr es in logs tica Km ean s Ap r ior i Naive Bayes Vecim os m s p r xim os An lis is factor ial y d e com p . p r in cip ales Twos tep , Cob web Algor itm os gen ticos y evolu tivos Mq u in as d e vector es s op or te CN2 r u les (cob er tu r a) An lis is d is cr im in an te m u ltivar ian te X X X X X X X X X X X DESCRIPTIVO Clas ificacin X X X X X X Regr es in X
Clasificacin supervisada
Datos: N objetos con n+1 variables (n predictoras + clase)
Inducir automaticamente un modelo clasificatorio
Paradigmas de clasificacin supervisada
Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984) Clasificadores kNN (Covert y Hart, 1967; Dasarathy, 1991) Regresion logstica (Hosmer y Lemeshow, 1989)
Mtodos Bayesianos (Mitchell, 1997)

Sistemas clasificadores (Holland, 1975) Redes neuronales (McCulloch y Pitts, 1943) Induccin de reglas (Clark y Nibblet, 1989; Cohen, 1995; Holte, 1993) Mquinas de soporte vectorial (Cristianini y ShaweTaylor, 2000) Anlisis discriminante (Fisher, 1936)
rboles de clasificacin
Mtodo ms facil de utilizar y de entender

Conjunto de condiciones organizadas en una estructura jerrquica Las opciones posibles a partir de una condicin son excluyentes ID3, C4.5, C5.0, CART, etc.
Mtodos bayesianos
Basados en la teora de la probabilidad (teorema de Bayes)

Nave Bayes es el clasificador principal Uso de redes bayesianas
Se usan en tareas descriptivas y predictivas
Clasificadores k-NN
Se asigna la clase mayoritaria entre los k vecinos ms proximos

Se utiliza una funcin distancia Problema: Establecer un valor de k adecuado
Cuando se asigna la clase del ejemplo ms prximo solamente, es 1-NN
Clasificacin en Knime
ndice
Introduccin
Preprocesado
Modelos predictivos
Validacin
Tipos de validacin
Validacin interna
Es en la que se aprende, clasifica y valida con los datos de un mismo conjunto
Validacin externa
Se aprende un modelo con un conjunto de datos, y se valida con unos datos que no han sido empleados en el aprendizaje
Hold-out
Separar los datos disponibles en dos subconjuntos de datos: training set (para aprender un modelo) y test set (el resto de los datos) Se calcula la accuracy sobre el test set para estimar el error del modelo obtenido con el training set
K-fold-Cross-Validation
Se particiona aleatoriamente en k subconjuntos el conjunto de datos disponible.

Para cada uno de los subconjuntos obtenidos, se utilizar de test set para evaluar el modelo obtenido con el resto de subconjuntos Se realiza la media de las evaluaciones realizadas para obtener el resultado final
Leave one out
Se deja una instancia de los datos como test set y se aprende con el resto del conjunto
Este proceso se repite para cada instancia Se obtiene el resultado final realizando la media de todas las ejecuciones
0.632 Bootstrap
Se divide en dos partes
Se aprende y se valida con el mismo conjunto de datos N iteraciones de:
Se seleccionan con reemplazo el mismo nmero de instancias que se tengan del conjunto de datos inicial
Se utiliza el conjunto de datos creado como training set y se evalua con el conjunto formado por las instancias que no han sido seleccionadas en el paso anterior Se obtiene la media de las N iteraciones
Resultado final: e = 0.632xEresubstitution + 0.368xEiteraciones
Validacin en Knime
Bootstrap en Knime

Capítulo V Minería de Datos

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Capítulo V Minería de Datos

Загружено:

Авторское право:

Доступные форматы

Minera de Datos

Una visin simplificada de la minera de datos

Datos y Modelos => Conocimiento

Los datos se obtienen de:

Modelos descriptivos: identifican

Reglas de asociacin: expresan patrones de

Clustering: agrupacin de casos homogneos

Modelos predictivos: estiman valores de

Regresin: Variable a predecir continua Clasificacin supervisada: Variable a

Data Mining (Minera de datos)

Knowledge Discovery in Databases - KDD (Descubrimiento de Conocimiento en Bases de Datos)

Estadstica vs Minera de datos

Mine ria de dato s

OLAP vs Minera de datos

OLAP (On Line Analytical Processing) o FASMI (Fast Analysis of

Eggs -> Oil: Confianza = 75%, Soporte = 37%

Modelo lineal: nmero de televisiones para el prximo mes

Fases del proceso iterativo e interactivo

KDD Knowledge Discovery in Databases

Integracin y recopilacin de datos

Seleccin, limpieza y transformacin

Reglas de asociacin Clustering

Regresin: regresin lineal, regresin logstica

Clasificacin supervisada: porcentaje de bien clasificados, matriz de confusin, anlisis ROC

Reevaluado Reentrenado Reconstruido

Weka, Clementine, etc.

Flujo de datos utilizando nodos

La parte ms importante de la minera de datos, son precisamente, los datos

Obtencin de datos en Knime

Representacin de datos en Knime

Missing values en Knime

Es el proceso inverso a la discretizacin

Deteccin de valores e instancias anmalas

Se trata de obtener grupos de objetos

Clustering ascendente jerrquico

Mtodo ms utilizado de clustering particional

Dependiendo de la manera de construir el rbol:

Aglomerativos: hojas -> raz Divisivos: raz -> hojas

Dependiendo de cmo se calcule la distancia de enlace entre grupos:

Clustering jerrquico en Knime

Estimacin de probabilidad de clasificacin

Datos: N objetos con n+1 variables (n predictoras + clase)

Inducir automaticamente un modelo clasificatorio

Paradigmas de clasificacin supervisada

Mtodos Bayesianos (Mitchell, 1997)

Mtodo ms facil de utilizar y de entender

Basados en la teora de la probabilidad (teorema de Bayes)

Se usan en tareas descriptivas y predictivas

Se asigna la clase mayoritaria entre los k vecinos ms proximos

Cuando se asigna la clase del ejemplo ms prximo solamente, es 1-NN

Es en la que se aprende, clasifica y valida con los datos de un mismo conjunto

Se particiona aleatoriamente en k subconjuntos el conjunto de datos disponible.

Leave one out

Se divide en dos partes

Se aprende y se valida con el mismo conjunto de datos N iteraciones de:

Resultado final: e = 0.632xEresubstitution + 0.368xEiteraciones

Вам также может понравиться