Академический Документы
Профессиональный Документы
Культура Документы
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
Aproximacin
Datos
Minera de datos
Modelos
Los modelos son el producto de la minera de datos... ...y dan soporte a las estrategias de decisin que se tomen
Bases de datos (relacionales, espaciales, temporales, documentales, multimedia, etc) World Wide Web
Definiciones
Proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten and Frank, 2000)
Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles, a partir de los datos (Fayyad y col. 1996)
OLAP
Cu l es la p r op or cin m ed ia d e accid en t es en t r e fu m ad or es y n o fu m ad or es ? Cu l es la fact u r a t elefn ica m ed ia d e m is clien t es y d e los q u e h an d ejad o la com p a ia? Cu n t o es la com p r a m ed ia d iar ia d e t ar jet as r ob ad as y legt im as ?
Mine ra de dato s
Cu l es la m ejor p r ed iccin p ar a accid en t es ?
Dejar a X la com p a ia? Qu fact or es afect an a los ab an d on ad os ? Cu les s on los p at r on es d e com p r a as ociad os con el fr au d e d e t ar jet as ?
Aplicaciones
Financieras
Comercio
Seguros
Educacin
Medicina
Bioinformtica
Otras reas
Ejemplo (I)
Agente comercial: Debo conceder una hipoteca a un cliente?
Datos:
Minera de datos
Modelo generado:
If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
Ejemplo (II)
Supermercado: Cundo los clientes compran huevos, tambin compran aceite?
Datos:
Minera de datos
Modelo generado:
Ejemplo (III)
Gestin de personal de una empresa: Qu clases de empleados hay contratados?
Datos:
Minera de datos
Modelo generado:
Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
Ejemplo (IV)
Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?
Datos:
Minera de datos
Modelo generado:
CRISP-DM
KDD
La minera de datos se encuadra dentro de un proceso mucho mayor conocido como KDD (Knowledge Discovery
from Databases)
5. Difusin y uso
Fase 1
Decisiones estratgicas basadas en el anlisis, la planificacin y la prediccin: datos en varios departamentos Cada fuente de datos distintos formatos de registro, diferentes grados de agregacin, diferentes claves primarias, .... Integracin de mltiples bases de datos: almacenes de datos (data warehousing) Almacn de datos aconsejable cuando el volumen de informacin es grande. No estrictamente necesario (archivos de texto, hojas de clculo, ...)
Fase 2
Calidad del conocimiento descubierto depende (adems del algoritmo de minera) de la calidad de los datos analizados Presencia de datos que no se ajustan al comportamiento general de los datos (outliers) Presencia de datos perdidos (missing values) Seleccin de variables relevantes (feature subset selection) Seleccin de casos aleatoria en bases de datos de tamao ingente Construccin de nuevas variables que faciliten el proceso de minera de datos Discretizacin de variables continuas
Fase 3
Minera de datos
Modelos descriptivos
Modelos predictivos
Fase 4
Evaluacin e interpretacin
Tcnicas de evaluacin: validacin simple (training + test), validacin cruzada con k-fold, bootstrap Reglas de asociacin: cobertura (soporte), confianza Clustering: variabilidad intra y entre Regresin: error cuadrtico medio
Fase 5
Difusin y uso
Difusin: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organizacin Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar) Modelo debe cada cierto tiempo de ser:
Herramientas
Knime
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
Datos
Missing values
Es posible que los mtodos a utilizar no traten bien los campos con valores faltantes (missing values)
Hay que detectarlos y tratarlos Ignorar, eliminar columna, filtrar fila, reemplazar el valor, etc.
Discretizacin
Consiste en la conversin de un valor numrico en un valor nominal ordenado que representa un intervalo
En ciertas tcnicas de clasificacin es necesario que todos los datos sean discretos
Discretizacin en Knime
Numerizacin
Es menos comn
Hay dos tipos:
Numerizacin 1 a n
Numerizacin 1 a 1
Numerizacin en Knime
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
Tareas descriptivas
Agrupamiento (clustering)
Correlaciones y factorizaciones
Reglas de asociacin
Dependencias funcionales
Tabla de mtodos
No m b re Agru p am ien t o Re d es n eu ro n ales rb o les d e d ecis i n ID3 , C4 .5 , C5 .0 rb o les d e d ecis i n CART Ot ro s rb o les d e d ecis i n Re d es d e Ko h o n en Regres i n lin eal y lo gart m ica Regres i n lo gs t ica Km ean s Ap rio ri Naive Bayes Vecim o s m s p r xim o s An lis is fact o rial y d e co m p . p r in cip ales Two s t ep , Co b web Algo rit m o s gen t ico s y evo lu t ivo s Mq u in as d e vect o res s o p o rt e CN2 ru les (co b ert u ra) An lis is d is crim in a n t e m u lt ivar ia n t e X X X X X X X X X X X X X X X X DESCRIPTIVO Reglas d e as o ciaci n Co rrelacio n es / Fact o riz acio n es
Clasificacin no supervisada
Datos: parte de un conjunto de datos u objetos cada uno caracterizado por varias variables
Clustering
Dados unos datos sin etiquetar, el objetivo es encontrar grupos naturales de instancias
a) Particional
b) Jerrquico
Tipos de clustering
Clustering particional
Particin de los objetos en grupos o clusters. Todos los objetos pertenecen a alguno de los k clusters, los cuales son disjuntos. Problema => eleccin de k
Crear un dendograma, es decir, crear un conjunto de agrupaciones anidadas hasta construir un rbol jerrquico
K-medias
K-medias en Knime
Jerrquico
Enlace simple
Enlace completo Enlace en la media
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
Tareas predictivas
Clasificacin
Clasificacin suave
Preferencia o priorizacin
Regresin
Tabla de mtodos
Nom b r e Red es n eu r on ales r b oles d e d ecis in ID3 , C4 .5 , C5 .0 r b oles d e d ecis in CART Otr os r b oles d e d ecis in Red es d e Koh on en Regr es in lin eal y logar tm ica Regr es in logs tica Km ean s Ap r ior i Naive Bayes Vecim os m s p r xim os An lis is factor ial y d e com p . p r in cip ales Twos tep , Cob web Algor itm os gen ticos y evolu tivos Mq u in as d e vector es s op or te CN2 r u les (cob er tu r a) An lis is d is cr im in an te m u ltivar ian te X X X X X X X X X X X DESCRIPTIVO Clas ificacin X X X X X X Regr es in X
Clasificacin supervisada
Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984) Clasificadores kNN (Covert y Hart, 1967; Dasarathy, 1991) Regresion logstica (Hosmer y Lemeshow, 1989)
rboles de clasificacin
Mtodos bayesianos
Clasificadores k-NN
Clasificacin en Knime
ndice
Introduccin
Preprocesado
Modelos descriptivos
Modelos predictivos
Validacin
Tipos de validacin
Validacin interna
Validacin externa
Se aprende un modelo con un conjunto de datos, y se valida con unos datos que no han sido empleados en el aprendizaje
Hold-out
Separar los datos disponibles en dos subconjuntos de datos: training set (para aprender un modelo) y test set (el resto de los datos) Se calcula la accuracy sobre el test set para estimar el error del modelo obtenido con el training set
K-fold-Cross-Validation
Se deja una instancia de los datos como test set y se aprende con el resto del conjunto
Este proceso se repite para cada instancia Se obtiene el resultado final realizando la media de todas las ejecuciones
0.632 Bootstrap
Se seleccionan con reemplazo el mismo nmero de instancias que se tengan del conjunto de datos inicial
Se utiliza el conjunto de datos creado como training set y se evalua con el conjunto formado por las instancias que no han sido seleccionadas en el paso anterior Se obtiene la media de las N iteraciones
Validacin en Knime
Bootstrap en Knime