KDD and DM 72 Pag

KDD
- Concepto
- Proceso
Data Mining
- Concepto
Knowledge Discovery in
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas Database (KDD)
y
- Técnicas vs. Input
Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
Data Mining
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
Ing. Wilfrido Inchaustti
- Medidas winchaus@uca.edu.py
- Tipos de
Herramientas
KDD
Concepto
- Concepto
- Proceso
Data Mining Descubrimiento de Conocimiento en Base
- Concepto de Datos (del inglés, KDD – Knowledge
- Objetivos
- Tareas
Discovery in Database)
- Técnicas
"KDD es el proceso no trivial de identificar patrones en los datos,
- Tareas vs.
en forma válida, novedosa, potencialmente útil y entendible"
Técnicas
- Técnicas vs. Input En donde,
Algoritmos
- Árb. de decisión. - Datos: es el conjunto de hechos F.
- J48 (C4.5)
- CART-Gini
-Patrón: es una expresión E en un lenguaje L que describe los
- Comparaciones
hechos en un subconjunto FE de F. E es denominado patrón si
- Alg. Apriori
es más simple que la enumeración de todos los hechos en FE.
Técnicas de Ej. Se considera f(х)=3x²+x un patrón y f(x)=αx²+βx un modelo.
validación de
Modelos
- Training vs. -Proceso: consiste en la preparación de los datos, búsqueda de
Testing patrones, evaluación del conocimiento y refinamiento. El proceso
- Medidas se asume como no trivial, en el sentido de que la búsqueda no
- Tipos de es autónoma.
Herramientas
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

KDD
Concepto (cont.)
- Concepto
- Proceso
Data Mining - Válido: el descubrimiento de patrones debe ser válido sobre
- Concepto los datos nuevos bajo un cierto grado de certeza.
- Objetivos
- Tareas
- Novedoso: los patrones deben ser novedosos (al menos para
- Técnicas
el sistema). La novedad puede ser medida con respecto a los
- Tareas vs.
Técnicas cambios en los datos (comparando los valores actuales, con
- Técnicas vs. Input los anteriores o con los esperados) o en el conocimiento (cómo
Algoritmos un nuevo hallazgo se relaciona con los anteriores).
- J48 (C4.5)
-Útil: los patrones deben potencialmente conducir a alguna
- CART-Gini
- Comparaciones
acción útil.
- Alg. Apriori
Técnicas de -Entendible: un objetivo del KDD es construir patrones
validación de
entendibles para los humanos en orden a facilitar un mejor
Modelos
- Training vs.
entendimiento de los datos.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Proceso del KDD - [Fayyad et al.]
- Concepto
- Proceso
Data Mining
- Concepto Interpretación/
Evaluación
- Objetivos
- Tareas
- Técnicas Data Mining
- Tareas vs.
Conocimiento
Técnicas
Transformación
Patrones
Algoritmos
- Árb. de decisión. Preprocesamiento
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
- Comparaciones Datos
Pre-
- Alg. Apriori procesados
Técnicas de
Datos Experto
validación de Seleccio-
Modelos Datos nados
- Training vs.
Testing
- Medidas
- Tipos de
Proceso interactivo e iterativo que
Herramientas
envuelve varios pasos y con decisiones
a ser tomadas por el usuario

KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
Selección
- Comparaciones
- Alg. Apriori
Técnicas de
Datos
validación de
Modelos Datos
Seleccio- - Definición, análisis y entendimiento del
nados
dominio del problema.
- Training vs.
Testing
- Entendimiento del universo de datos
disponible.
- Medidas
- Selección de datos (puede implicar un
- Tipos de
nuevo repositorio de datos).
Herramientas

KDD
- Concepto
- Proceso
Data Mining
- Selección de columnas (también llamados variables o
- Concepto
atributos) para el análisis.
- Objetivos
- Eliminación de registros repetidos.
- Tareas
- Operaciones básicas de eliminación de ruídos en los datos.
- Técnicas
- Definición de estratégias en caso de campos ausentes en
- Tareas vs.
los datos.
Técnicas
- Consideración de secuencias temporales en los datos.
Algoritmos
- J48 (C4.5) ………
………
… … ...
- CART-Gini
Selección
Pre-
Técnicas de
Datos
Modelos Datos nados
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining
- Búsqueda de características útiles en los datos teniendo en cuenta los objetivos a
- Concepto
los que se enfocan. Ej. convertir una columna fecha del tipo 'dd/mm/yyyy hh24:mi' en
- Objetivos Dia_De_La_Semana, Mes, Hora. Discretizar valores numéricos, por ejemplo, edad entre
13-18 es 'menor_de_edad', entre 19-25 es 'nivel_post_secundario', ...
- Tareas
- Técnicas - Búsquedas de
representaciones
- Tareas vs. categóricas para los
Técnicas datos. Ej. agrupar los
Transformación nombres de productos por
categorías en un
Algoritmos supermercado, y no por
nombre real, en fin lo que
interesa es saber si el
- J48 (C4.5) ……… cliente consumió pañal y
………
… … ... Datos cerveza y no exactamente
- CART-Gini Trans- la marca para encontrar
Selección formados
- Comparaciones Datos una relación inicial.
Pre-
- Alg. Apriori procesados - Utilización de métodos de
Técnicas de transformación con vista a la reducción
Datos del número efectivo de variables en
Datos consideración. Ej. reducir el valor de tres
Modelos nados columnas en una sola mediante el uso
- Training vs. técnicas del máximo-mínimo de fuzzy logic.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Tareas vs.
Técnicas
Transformación
Patrones
Algoritmos
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
Pre-
Técnicas de
Datos
validación de Seleccio- - Definición de los algoritmos utilizados
Modelos Datos nados basados en los objetivos definidos,
tareas y técnicas embarcadas. Ej.
- Training vs.
Predicción usando tareas de Clasificación
Testing mediante técnicas de Árboles de Decisión
- Medidas implementados por algoritmos C4.5 y
CART.Gini.
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining
Evaluación
- Objetivos
- Tareas
- Tareas vs.
Conocimiento
Técnicas
Transformación
Patrones
Algoritmos
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
Pre-
Técnicas de
Datos
validación de Seleccio- -Interpretacióny validación del modelo
Modelos Datos nados generado con un posible regreso a una de las
fases anteriores.
- Training vs.
Testing
- Consolidación del conocimiento descubierto
- Medidas (Aplicación del modelo). Ej. Incorporación de los
patrones considerados conocimientos en el
- Tipos de
sistema o elaboración de reportes para las partes
Herramientas interesadas.

KDD
- Concepto
- Proceso
Data Mining
Evaluación
- Objetivos
- Tareas
- Tareas vs.
Conocimiento
Técnicas
Transformación
Patrones
Algoritmos
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
Pre-
Técnicas de
Datos Experto
Modelos Datos nados
- Training vs.
Testing
- Medidas
- Tipos de
Proceso interactivo e iterativo que
Herramientas
envuelve varios pasos y con decisiones
a ser tomadas por el usuario

KDD
Minería de Datos (del inglés, Data
- Concepto

- Proceso
Data Mining
Mining)
- Concepto
- Objetivos "Data Mining es un paso en el proceso del
- Tareas
KDD consistiendo de algoritmos particulares
- Técnicas
- Tareas vs. que, bajo algunas limitaciones aceptables de
Técnicas
eficiencia computacional, produce una
Algoritmos enumeración particular de patrones Ej sobre F “
- J48 (C4.5) De manera mas informal, es la búsqueda de
- CART-Gini
- Comparaciones
patrones de comportamientos y relaciones
- Alg. Apriori entre los datos mediante el uso de técnicas y
Técnicas de
validación de
algoritmos especializados.
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Esfuerzo requerido por cada fase del
- Concepto

- Proceso
Data Mining
proceso del KDD
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Agentes del KDD
- Concepto
- Proceso
Data Mining Experto: es quien
- Concepto conoce las
- Objetivos
necesidades y
dificultades del
- Tareas negocio y es quien
- Técnicas plantea el problema
- Tareas vs. basado en los
Técnicas
usuarios.
Analista: es quien
Algoritmos

ejecuta todo el
- Árb. de decisión. proceso KDD y que
- J48 (C4.5) por ende debe tener
- CART-Gini
muy en claro todos
los pasos que ello
- Comparaciones implica.
- Alg. Apriori
Técnicas de Usuario: quien no
validación de necesita poseer
Modelos mucho conocimiento
- Training vs.
pero es el que
después de
Testing terminado el proceso
- Medidas utilizará el
- Tipos de conocimiento
Herramientas extraído.

KDD
Roles en el KDD
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Metodología CRISP-DM
- Concepto
- Proceso http://www.crisp-dm.org/
Data Mining
Método standard que ha sido desarrollado para ayudar en la realización de
- Concepto
proyectos de DM. Fue creado por un consorcio de compañías, principalmente en
- Objetivos Europa, y se llamó Cross-Industry Standard Process for Data Mining, o CRISP-
- Tareas DM.
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Metodología SEMMA
- Concepto
- Proceso http://www.sas.com/technologies/analytics/datamining/miner/semma.html
Data Mining
- Concepto SAS Institute desarrollador de esta metodología, la define como el
- Objetivos proceso de selección, exploración y modelado de grandes cantidades
- Tareas de datos para descubrir patrones de negocio desconocidos. El nombre
- Técnicas de esta terminología es el acrónimo correspondiente a las cinco fases
- Tareas vs. básicas del proceso.
Técnicas
Muestreo Exploración Manipulación Modelado Valoración
(Sample) (Explore) (Modify) (Model) (Assess)
Algoritmos
La metodología SEMMA se centra más en las características técnicas
- J48 (C4.5)
del desarrollo del proceso, mientras que la metodología CRISP-DM,
- CART-Gini
mantiene una perspectiva más amplia respecto a los objetivos
- Comparaciones
empresariales del proyecto. Esta diferencia se establece ya desde la
- Alg. Apriori primera fase del proyecto de Data Mining donde la metodología
Técnicas de SEMMA comienza realizando un muestreo de datos, mientras que la
validación de
metodología CRISP-DM comienza realizando un análisis del problema
Modelos
empresarial para su transformación en un problema técnico
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
CRISP-DM vs. SEMMA
- Concepto
- Proceso
Data Mining La metodología SEMMA sólo es abierta en sus aspectos generales ya que está
- Concepto muy ligada a los productos SAS donde se encuentra implementada. Por su parte
la metodología CRISP-DM ha sido diseñada como una metodología neutra
- Objetivos
respecto a la herramienta que se utilice para el desarrollo del proyecto de Data
- Tareas Mining siendo su distribución libre y gratuita.
- Técnicas
- Tareas vs.
Técnicas
SEMMA CRISP-DM
Análisis
Algoritmos Muestreo Problema
- Árb. de decisión. (Sample)
- J48 (C4.5)
Análisis
Exploración
- CART-Gini Datos
(Explore)
- Comparaciones
- Alg. Apriori Manipulación Preparación
Técnicas de (Modify) Datos
validación de
Modelos Modelado
Modelado
- Training vs. (Model)
Testing
- Medidas Valoración Evaluación
- Tipos de (Assess)
Herramientas
Explotación

KDD
Objetivos del Data Mining
- Concepto
- Proceso
Data Mining Los dos principales objetivos del Data Mining, en la práctica son:
- Concepto
- Objetivos
La Predicción (Directed data mining): consiste en utilizar
- Tareas
algunas variables o campos de la Base de Datos para
- Técnicas
predecir valores desconocidos o futuros de otras variables de
- Tareas vs.
Técnicas interés. Un modelo predictivo responde preguntas sobre
- Técnicas vs. Input datos futuros. Ej. ¿Cuáles serán las ventas el año próximo?,
Algoritmos ¿Es esta transacción fraudulenta?, ¿Qué tipo de seguro es
- Árb. de decisión. más probable que contrate el cliente X?, ¿Qué tipo de cliente
- J48 (C4.5) tenderá a abandonar el negocio?
- CART-Gini
- Comparaciones
- Alg. Apriori
La Descripción (Undirected data mining): se centra en
Técnicas de encontrar patrones interpretables por el ser humano, a partir
validación de de la descripción de los datos. Un modelo descriptivo
Modelos proporciona información sobre las relaciones entre los datos
- Training vs. y sus características. Ej. a) Los clientes que compran
Testing
pañales suelen comprar cerveza. b) El tabaco y el alcohol
- Medidas
son los factores más importantes en la enfermedad Y. c) Los
- Tipos de
Herramientas clientes sin televisión y con bicicleta tienen características
muy diferenciadas del resto.
KDD
Tareas del Data Mining (I)
- Concepto
- Proceso
Data Mining Los objetivos de la Predicción y de la Descripción son
- Concepto alcanzados por el uso de un conjunto de tareas:
- Objetivos
- Tareas Modelo de Dependencias (o Asociación): consiste en
- Técnicas encontrar un modelo el cual describa las dependencias
- Tareas vs. significantes entre las variables. De otra manera, dado un
Técnicas conjunto de datos, identificar las relaciones entre atributos,
- Técnicas vs. Input de forma tal a identificar que la ocurrencia de cierto/s
Algoritmos
patrón/es implica la ocurrencia de otro/s. Ej.: el 70% de los
clientes que consumen el producto A y B, también consumen
el producto C, D y E.
- J48 (C4.5)
- CART-Gini
Clasificación: se trata de obtener un modelo que permita
- Comparaciones
asignar un caso de clase desconocida a una clase concreta,
- Alg. Apriori dicho de otra manera, se puede ver como el esclarecimiento
Técnicas de de una dependencia, en la que el atributo dependiente puede
validación de tomar un valor entre varias clases, ya conocidas. Ej.: se sabe
Modelos (por un estudio de dependencias) que los atributos edad,
- Training vs. grado de miopías y astigmatismo han determinado los
Testing pacientes para los que su operación de cirugía ocular ha sido
- Medidas satisfactoria. Podemos intentar determinar las reglas exactas
- Tipos de
que clasifican un caso como positivo o negativo a partir de
Herramientas
esos atributos.

KDD
Tareas del Data Mining (II)
- Concepto
- Proceso
Data Mining
- Concepto
Agrupamiento (Clustering) o Segmentación: divide a los
- Objetivos datos en diferentes grupos, el objetivo es encontrar una
- Tareas agrupación de datos de forma que los datos de un mismo
- Técnicas grupo sean muy similares y muy diferentes entre grupos
- Tareas vs. distintos. Se diferencia de la clasificación en el que no se
Técnicas conocen ni las clases ni su número (aprendizaje no
supervisado), con lo que el objetivo es determinar grupos o
racimos (clusters) diferenciados del resto.
Algoritmos
- J48 (C4.5)
Tendencias / Regresión: consiste en adquirir una función
que mapee un elemento de dato a una variable de predicción
- CART-Gini
de valor real. Dicho de otro modo, se persigue la obtención
- Comparaciones de un modelo que permita predecir el valor numérico de
- Alg. Apriori alguna variable. Ej. se intenta predecir el número de clientes,
Técnicas de los ingresos, llamadas, ganancias, costes, etc. a partir de los
validación de resultados de semanas, meses o años anteriores.
Modelos
- Training vs. Visualización: consiste en generar modelos visuales que
Testing permitan al usuario sacar meta-conocimientos de los
- Medidas mismos. Ej. Mapas de temperaturas. Se divide en dos:
- Tipos de Visualización Previa (se utiliza para entender mejor los datos
Herramientas y sugerir posibles patrones) y Visualización Posterior (se
utiliza para mostrar los patrones y entenderlos mejor).
KDD
Técnicas de Data Mining (I)
- Concepto
- Proceso
Data Mining Las técnicas más comúnmente usadas en Data Mining para cumplir con
- Concepto algunas de las tareas ya descritas son:
- Objetivos
- Tareas
Redes neuronales artificiales: modelos predecibles no-lineales que
- Técnicas
aprenden a través del entrenamiento y semejan la estructura de una
red neuronal biológica. Con frecuencia son usadas bajo tareas de
- Tareas vs.
Técnicas
Clasificación.
0.4
- Técnicas vs. Input Valores aj
Algoritmos
0.3
- J48 (C4.5)
0.8234
0.15
- CART-Gini
Atributo Valor
- Comparaciones Valnor
0.79612
0.25 -0.24
0.71315
- Alg. Apriori Edad 20 0.4
No. Rec. 3 0.3
Técnicas de Repar 2 0.15 0.33
validación de Clima D 0.25 0.937
0.5824
$2,255,000
Cochera 2 0.33
Modelos
Terreno 400 0.4
0.4 0.6136
- Training vs. Construc. 350 0.35
Testing Sector3 0.65 1.23
- Medidas 0.35 -1.325
- Tipos de
Herramientas
0.65
Pesos Wij

KDD
Técnicas de Data Mining (II)
- Concepto
- Proceso
Data Mining Árboles de decisión: estructuras de forma de árbol que representan
- Concepto conjuntos de decisiones. Estas decisiones generan reglas para la
- Objetivos
clasificación de un conjunto de datos. Métodos específicos de
árboles de decisión incluyen Árboles de Clasificación y Regresión.
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Técnicas de Data Mining (II)
- Concepto
- Proceso
Data Mining Regresión Lineal: consiste en dado un conjunto de puntos
- Concepto encontrar una función lineal que aproxime los puntos.
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input f(x)
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
x
- Tipos de
Herramientas

KDD
Técnicas de Data Mining (IV)
- Concepto
- Proceso
Data Mining Método del vecino más cercano: una técnica que clasifica cada
- Concepto registro en un conjunto de datos basado en una combinación de las
- Objetivos clases del/de los k registro(s) más similar/es.
- Tareas
- Técnicas
- Tareas vs. X2 Cluster 1
Técnicas
Cluster 3
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de R
validación de
Modelos
- Training vs.
Testing
- Medidas Cluster 2
- Tipos de
Herramientas X1

KDD
Técnicas de Data Mining (V)
- Concepto
- Proceso
Data Mining Regla de inducción: la extracción de reglas if-then. La inducción de
- Concepto reglas se refiere a la detección de tendencias de grupos de datos, o
- Objetivos "reglas" sobre los datos.
- Tareas
- Técnicas
- Tareas vs.
IF outlook = overcast
Técnicas
- Técnicas vs. Input THEN play = yes (4.0)
Algoritmos
- Árb. de decisión. IF windy = TRUE AND
- J48 (C4.5) outlook = rainy
- CART-Gini
THEN play = no (2.0)
- Comparaciones
- Alg. Apriori
Técnicas de IF outlook = sunny AND
validación de humidity > 75
Modelos
THEN play = no (3.0)
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Técnicas de Data Mining (VI)
- Concepto
- Proceso
Data Mining Visualización mediante mapas temáticos SOM (Self-Organizing
- Concepto Maps): ésta técnica hace uso de algoritmos de generación de mapas
- Objetivos tipo SOM para descubrir tendencias y patrones de datos.
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs. Si el plan de mensaje es 700 (Plan De
Mensajes Pospago), el plan gprs es 729
Testing (Plan Pospago Gprs Basico), la
- Medidas antigüedad por encima de los 42 meses,
la edad por encima de los 30 años,
- Tipos de entonces el consumo promedio es de
Herramientas entre los 100 y 500 mil Gs. y en algunos
casos cerca y por encima del millón de
Gs.
KDD
Técnicas de Data Mining (VII)
- Concepto
- Proceso
Data Mining Visualización mediante gráficos de dimensión: ésta técnica se
- Concepto basa en la graficación n-dimensional de todas las variables en
- Objetivos cuestión. N = a la cantidad de variables tratadas. El más simple es
- Tareas N=2, gráficos de dos dimensiones.
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Objetivos, Tareas, Técnicas y
- Concepto

- Proceso
Data Mining
Algoritmos
- Concepto
- Objetivos
- Tareas
Objetivos Tareas Técnicas Algoritmos
- Técnicas
- Predicción - Clasificación - Árbol de Decisión - J48
- Tareas vs.
- Regresión - Reglas de - A priori
Técnicas - Descripción
Inducción - PART
- Agrupamiento
- Técnicas vs. Input - Redes Neuronales - CART.Gini
- Asociación
Algoritmos - Algoritmos - k-NN
- Visualización Genéticos
- Árb. de decisión. - k-means
- Visualización - ID3
- J48 (C4.5)
- Redes Bayesianas - C4.5
- CART-Gini - Métodos del vecino - CN2
- Comparaciones más cercano - ILP
- Competitive - SCIL
- Alg. Apriori
learning. - Backpropagation
Técnicas de
- Perceptron - OneR
validación de Learning. - M5Rules
Modelos -Multilayer ANN - ADTree
- Training vs. methods - Decision Stump
Testing - NBTree
- EM
- Medidas
- Tipos de
Herramientas

KDD
Elección de Tareas – [Weiss & Indurkhya]
- Concepto
- Proceso
Data Mining
Objetivo del
- Concepto
Data Mining
- Objetivos
Predicción Descripción
- Tareas (Realizando decisiones) (Soporte de decisión)
- Técnicas
- Tareas vs. Mapeo de los Mapeo de las
Técnicas valores clases
categorizados o categorizadas
reales predefinidos indefinidas
Algoritmos
- Árb. de decisión. No
Categorizados Real
- J48 (C4.5) Si
- CART-Gini Resumen de
Clasificación
- Comparaciones Regresión Clustering datos
- Alg. Apriori
Si No
Técnicas de
validación de Describe la
Modelos Sumarización dependencia a
lo largo de las
- Training vs. variables
Testing Si
- Medidas No
- Tipos de Modelo de Otras
dependencia tareas
Herramientas

KDD
Tareas vs. Técnicas – [Moustakis et al.]
- Concepto
- Proceso
Data Mining
Técnicas:
- Concepto
A1: Vecino k-más cercano
- Objetivos A2: Árboles de Decisión
- Tareas A3: Asociación de Reglas
- Técnicas A4: Redes Neuronales
- Tareas vs. A5: Algoritmos Genéticos
Técnicas A6: Programación lógica inductiva
Tareas:
Algoritmos
C1: Clasificación
C2: Resolución de Problemas
- J48 (C4.5) C3: Ingeniería del conocimiento
- CART-Gini
- Comparaciones C3: Ingeniería del conocimiento
- Alg. Apriori
Técnicas de
validación de
Modelos A6
- Training vs. A3
Testing A1
- Medidas A2
A4 A5
- Tipos de
Herramientas C2: Resolución de
C1: Clasificación problemas

KDD
Técnicas vs. Input – [Adriaans et al.]
- Concepto
- Proceso
Data Mining
- Concepto
Grupos: Algoritmos:
- Objetivos
D1={F1, F2, F3, F4}: Características del Input. A1: Vecino k-más cercano
- Tareas D2={F5, F6, F7}: Características del Input. A2: Árboles de Decisión
- Técnicas D3={F8, F9}: Eficiencia para aprender. A3: Asociación de Reglas
D4={F10, F11}: Eficiencia para aplicar el modelo. A4: Redes Neuronales
- Tareas vs. A5: Algoritmos Genéticos
Técnicas
- Técnicas vs. Input Características:
• F1: Habilidad
Algoritmos para manejar
- Árb. de decisión. gran número de
registros
- J48 (C4.5)
• F2: Habilidad
- CART-Gini para manejar
- Comparaciones gran número de
atributos
- Alg. Apriori • F3: Habilidad
Técnicas de para manejar
validación de atributos
numéricos
Modelos
• F4: Habilidad
- Training vs. para manejar
Testing cadenas
- Medidas
- Tipos de
Herramientas

KDD
Técnicas vs. Eficiencia – [Adriaans et al.]
- Concepto
- Proceso
Data Mining
• F5: Habilidad para
- Concepto aprender reglas
- Objetivos transparentes
- Tareas aprender
- Técnicas incrementalmente
- Tareas vs.
estimar significancia
Técnicas estadística
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori • F8: Uso de espacio en
Técnicas de Disco/Memoria durante
validación de la fase de aprendizaje
• F9: Uso de tiempo de
Modelos
CPU durante la fase de
- Training vs. aprendizaje
Testing • F10: Uso de espacio en
Disco/Memoria durante
- Medidas
la fase de aplicación
- Tipos de • F11: Uso de tiempo de
Herramientas CPU durante la fase de
aplicación

KDD
Conjunto de ejemplos para una tarea
- Concepto

- Proceso
Data Mining
de Clasificación
- Concepto Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
- Objetivos atributos, tal como se muestra en la figura, se define una linea i
- Tareas como el i-ésimo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-ésimo (j= 1, 2, ...,m) atributo Xj del ejemplo i. Así, los
- Técnicas
ejemplos son pares Ti= (xi1, xi2, ..., xim, yi) = (xi, yi), y el conjunto
- Tareas vs.
de ejemplos está definido como (X, Y), donde la última columna, Y,
Técnicas
es un atributo especial, denominado clase (o atributo objetivo), el
- Técnicas vs. Input cual se desea predecir en base a los otros X atributos, o sea,
Algoritmos Y=f(X).
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Algoritmos utilizados - Clasificación
- Concepto
- Proceso
Data Mining Algoritmos basados en Técnicas de Árbol de
- Concepto Decisión
- Objetivos
Formalmente un árbol de decisión es un grafo acíclico dirigido en
- Tareas el cual cada nodo es un nodo de decisión con dos o mas
- Técnicas sucesores, o un nodo hoja. El nodo de decisión contiene una
- Tareas vs. pregunta sobre un atributo concreto (con un hijo por cada posible
Técnicas respuesta) y, el nodo hoja se refiere a una decisión y es etiquetado
- Técnicas vs. Input con una clase.
Algoritmos Las diferencias principales entre los distintos algoritmos de
- Árb. de decisión. construcción de árboles de decisión radican en las estrategias de
- J48 (C4.5)
poda y en la regla adoptada para particionar nodos.
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining Reglas adoptadas para particionar nodos
- Concepto
- Objetivos J48.J48 y J48.Part
- Tareas
- Técnicas - Entropía: Dado una distribución de probabilidad P = (p1, p2, ...,
- Tareas vs. pn), se define la Entropía de P como la información que conlleva a
Técnicas dicha distribución, tal que:
- Técnicas vs. Input I(P) = -(p1*log2(p1) + p2*log2(p2) + … + pn*log2(pn))
Algoritmos
- Info(T): Si un conjunto T de registros es particionado en un
conjunto disjunto de clases C1, C2, ..., Ck sobre la base de los
- J48 (C4.5)
valores del atributo objetivo, entonces la información necesitada
- CART-Gini
para identificar las clases de un elemento de T es Info(T) = I(P),
- Comparaciones
donde P es la distribución de probabilidad de las particiones (C1,
- Alg. Apriori
C2, ..., Ck):
Técnicas de
validación de
P = (|C1|/|T|, |C2|/|T|, ..., |Cn|/|T| )
Modelos
- Info(X, T): Si primeramente se particiona T en base a los valores
- Training vs.
de los atributos no objetivos X en conjuntos T1, T2, ..., Tn entonces
Testing
la información necesitada para identificar la clase de un elemento
- Medidas
de T está definida como el promedio de la información necesitada
- Tipos de
para identificar las clases de un elemento Ti:
Herramientas
Info(X, T) = ∑i=1..n (|Ti| / |T|) * Info(Ti)
KDD
- Concepto
- Proceso
- Concepto
- Tareas
- Técnicas Dado un conjunto de ejemplo sobre un juego de golf, con cuatro
- Tareas vs. atributos no objetivos (X1, X2, X3, X4) y una clase (Y) definida.
Técnicas Info(T) = I(P) = I(p1, p2) = I(|C1|/|T|, |C2|/|T|) = I(9/14, 5/14) =
- Técnicas vs. Input = - ((9/14)*log2(9/14) + (5/14)*log2(5/14)) = 0.94
Algoritmos

Info(perspectiva, T) = 5/14*I(2/5, 3/5) + 4/14*I(4/4, 0) +
+ 5/14*I(3/5, 2/5) = 0.694
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Tareas
- Técnicas - Ganancia: La ganancia está definida como la diferencia entre la
- Tareas vs. información necesitada para identificar un elemento de T y la
Técnicas información necesitada para identificar un elemento de T después de
- Técnicas vs. Input la obtención del valor del atributo X:
Algoritmos Gain(X,T) = Info(T) – Info(X, T)
Por ejemplo,
- J48 (C4.5)
- CART-Gini
Gain(perspectiva,T) = Info(T) – Info(perspectiva, T) =
- Comparaciones = 0.94 – 0.694 = 0.246
- Alg. Apriori Gain(viento,T) = Info(T) – Info(viento, T) =
Técnicas de = 0.94 - 0.892 = 0.048
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Tareas
- Técnicas - Radio de Ganancia: La noción de ganancia introduce tendencias
- Tareas vs. primitivas a favor de los atributos que tiene un gran número de
Técnicas valores. Para compensar esto, el J48 hace uso de la definición de
- Técnicas vs. Input radio de ganancia, tal que:
Algoritmos GainRatio(D, T) = Gain(D,T) / SplitInfo(D, T)
- Árb. de decisión. donde la función SplitInfo(D, T) es la información necesaria para
- J48 (C4.5) dividir el conjunto T sobre la base del valor del atributo objetivo D.
- CART-Gini Así, SplitInfo(D, T) es:
- Comparaciones I(|T1|/|T|, |T2|/|T|, ..., |Tm|/|T| )
- Alg. Apriori donde {T1, T2, ..., Tm} es la partición de T inducida por el valor de D.
Técnicas de
validación de Por ejemplo,
Modelos GainRatio(perspectiva,T) = 0.246 / I(5/14, 4/14, 5/14) =
- Training vs.
= 0.246 / 1.577 = 0.156
Testing
- Medidas GainRatio(viento,T) = 0.048 / I(6/14, 8/14) =
- Tipos de = 0.048 / 0.985 = 0.049
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Objetivos CART-Gini
- Tareas
- Técnicas - Impureza: Se basa en una función para medir la impureza del nodo/s
- Tareas vs. del árbol generado, definida como:
Técnicas i(t) = 1 - ∑i=1..n (pi)2
- Técnicas vs. Input donde pi es la probabilidad de ocurrencia de una clase dada. Cuando
Algoritmos un atributo es examinado, la impureza promedio del nodo/s
- Árb. de decisión. descendiente implicado es sustraído de la función i(t) y el atributo
- J48 (C4.5) que resulta de entre las impurezas mínimas es seleccionado.
- CART-Gini
- Comparaciones
Por ejemplo,
- Alg. Apriori i(perspectiva = nublado) = 1 – (4/4)2 = 0 (mínima impureza)
Técnicas de i(perspectiva != nublado) = 1 – [(5/10)2 + (5/10)2)] = 0.5
validación de i(perspectiva = lluvioso) = 1 – [(2/5)2 + (3/5)2)] = 0.48
Modelos
i(perspectiva = soleado) = 1 – [(3/5)2 + (2/5)2)] = 0.48
- Training vs.
Testing i(temperatura > 73) = 1 – [(2/6)2 + (4/6)2)] = 0.44
- Medidas i(viento = no) = 1 – [(2/8)2 + (6/8)2)] = 0.375
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining Resumen
- Concepto
- Objetivos J48 CART-Gini
- Tareas
- Árboles de decisión binarios y - Árboles de decisión binarios.
- Técnicas
no binarios.
- Tareas vs.
Técnicas - Utiliza una estrategia de poda - Utiliza una estrategia de poda
- Técnicas vs. Input basada en el criterio de cuán basada en el criterio de coste-
Algoritmos informativo es un nodo. complejidad.
- Árb. de decisión. - Basado en la definición de - Basado en la definición de la
- J48 (C4.5) Radio de Ganancia para la función Inpureza para la
- CART-Gini partición de los nodos. partición de los nodos.
- Comparaciones - Trabaja con variables - Trabaja con variables
- Alg. Apriori continuas (enteros o reales) y continuas (enteros o reales) y
Técnicas de discretas (cadenas). discretas (cadenas).
validación de
Modelos - La clase debe ser una - La clase debe ser una
- Training vs. variable discreta (cadena). variable continua con valores
Testing enteros.
- Medidas - Criterio de parada basado en - Criterio de parada basado en
- Tipos de el concepto de el concepto de homogeneidad
Herramientas representatividad. o representatividad.

KDD
- Concepto
- Proceso
Data Mining Otros algoritmos de Árbol de Decisión y Reglas de
- Concepto Inducción.
- Objetivos
- Tareas OneR
- Técnicas Algoritmo de clasificación que genera un árbol de decisión de un
- Tareas vs. único nivel.
Técnicas Capaz de inferir reglas de clasificación a partir de un conjunto de
- Técnicas vs. Input instancias.
Algoritmos Crea una regla para cada atributo en los datos de entrenamiento,
luego escoge la regla con la tasa de error[1] más pequeño como su
"one rule". Para crear una regla para cada atributo debe
- J48 (C4.5) determinarse la clase más frecuente para cada valor del atributo.
- CART-Gini
- Comparaciones [1] La tasa de error de una regla es el número de instancias de los datos
- Alg. Apriori de entrenamiento en los que la clase del valor de un atributo no
concuerda con la asociación que la regla le da al valor de ese
Técnicas de

atributo.
validación de
Modelos
- Training vs. DECISION STUMP
Testing Consiste en la creación de un árbol binario de profundidad la unidad.
- Medidas Toda instancia inclasificable quedará colgada de una nueva rama
que se une al nodo raíz.
- Tipos de
Parece obvio predecir que los errores que se cometerán a la hora de
Herramientas
clasificar los datos serán elevados.

KDD
Conjunto de ejemplos para una tarea
- Concepto

- Proceso
Data Mining
de Asociación o Agrupación
- Concepto Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
- Objetivos atributos, tal como se muestra en la figura, se define una linea i
- Tareas como el i-ésimo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-ésimo (j= 1, 2, ...,m) atributo Xj del ejemplo i. Así, los
- Técnicas
ejemplos se definen como Ti= (xi1, xi2, ..., xim) = (xi).
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Algoritmos utilizados - Asociación
- Concepto
- Proceso
Data Mining A priori [Agrawal]
- Concepto
- Objetivos 1) Identificación de los conjuntos frecuentes (de ítems) con
- Tareas suporte >= MinSup
- Técnicas 2) Construcción de reglas a partir de esos conjuntos con
- Tareas vs. confianza >= MinConf.
Técnicas
- Técnicas vs. Input Conjuntos frecuentes (Large itemsets)
Algoritmos – Todos los subconjuntos de cada transacción son candidatos (en
- Árb. de decisión. el peor de los casos )
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas
Conjuntos Frecuentes (Sup >= 0.4)
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5) Reglas (Conf >= 0.8)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Algoritmos utilizados - Agrupación
- Concepto
- Proceso
Data Mining Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas 1.) Determinar el número de clusters (claases) k
- Técnicas 2.) Seleccionar k centroides iniciales
- Tareas vs.
Técnicas
3.) Determinar las fronteras de cada cluster
- Técnicas vs. Input 4.) Asignar cada registro al cluster cuyo
Algoritmos centroide esté más cercano a ese registro
5.) Repetir los pasos 3 y 4 hasta que las fronteras de
- J48 (C4.5)
- CART-Gini los clusters no cambien significativamente
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Algoritmos utilizados – Agrupación
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Datos iniciales. Número de clusters posibles K=3

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
Algoritmos centroide 1 centroide 3
- J48 (C4.5) centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Centroides iniciales, uno por cada cluster

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas X2 Cluster 1
- Técnicas Cluster 3
- Tareas vs.
Técnicas
Algoritmos centroide 1 centroide 3
- J48 (C4.5) centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs. Cluster 2
Testing
- Medidas X1
- Tipos de
Herramientas Asignar cada registro al centroide más cercano

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Calcular las fronteras de cada cluster: trazar una recta entre
cada par de centroides y trazar una perpendicular a la recta
equidistance de ambos centroides
KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Calcular las fronteras de cada cluster

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
Técnicas de
validación de Cluster 2
Modelos
Testing
- Medidas X1
- Tipos de
Herramientas Fronteras de los clusters

KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Técnicas
Cluster 3
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
Técnicas de
validación de
Modelos
Testing
- Medidas X1
- Tipos de
Herramientas Asignar cada registros a clusters . El registro R cambió
del cluster 2 al cluster 1
KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Técnicas Cluster 3
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
Técnicas de
validación de
Modelos
Testing
- Medidas X1
- Tipos de
Herramientas Recalcular los centroides: promedio
en cada eje x1, x2
KDD
- Concepto
- Proceso
- Concepto
- Objetivos
- Técnicas
- Tareas vs. Cluster 3
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
Técnicas de
validación de
Modelos
Testing
- Medidas X1
- Tipos de
Herramientas Recalcular las fronteras de los clusters
El registro R está ahora en el cluster 2
KDD
- Concepto
- Proceso Técnicas de Entrenamientos y
Data Mining
- Concepto
Evaluación.
- Objetivos Igual conjunto de entrenamiento y prueba.
- Tareas Dividir el conjunto (en un porcentaje definido) para
- Técnicas entrenamiento y para prueba.
- Tareas vs.
Técnicas
Diferentes conjuntos para entrenamiento y prueba.
- Técnicas vs. Input Usar Validaciones Cruzadas. Uso de los Folds.
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
Validaciones de Modelos y Patrones
- Alg. Apriori Validaciones Estadísticas.
Técnicas de Validaciones mediante el uso de SQL.
validación de
Modelos
Matriz de Clasificación o de Confusión y Medidas de
Validación.
- Training vs.
Testing
Lift Chart
- Medidas ROC Chart
- Tipos de Validaciones de Reglas mediante Medidas de la Literatura.
Herramientas Uso de Matriz de Contingencia.

KDD
Matriz de Confusión o de
- Concepto

- Proceso
Data Mining
Clasificación
- Concepto
- Objetivos Dado un conjunto de reglas R y un conjunto de ejemplos T=(X,Y), la
- Tareas matriz de confusión o de clasificación define cuántos ejemplos Ti ∈
- Técnicas T clasifican para una clase dada Ci por intermedio del conjunto R.
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Donde Ci representa a los elementos de la primera columna y Cj a
Técnicas de
validación de
los de la primera fila, teniendo que Ci y Cj pertenecen al conjunto de
Modelos clases de tamaño z. Nij representa la cantidad de ejemplos en T,
- Training vs. con clase definida Ci, y que clasifican como Cj.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Matriz de Confusión o de
- Concepto

- Proceso
Data Mining
Clasificación (Cont.)
- Concepto
- Objetivos Otra manera de ver la Matriz de Confusión es la mostrada en el
- Tareas gráfico más abajo. En ella se definen cuatro valores o categorías en
la matriz. TP: True Positive (son para la clase estudiada los valores
- Técnicas que son predichos en forma correcta). FN: False Negative (valores
- Tareas vs. de la clase estudiada que clasifican hacia otra clase). FP: False
Técnicas Positive (valores de otras clases que clasifican por la clase
- Técnicas vs. Input estudiada). TN: True Negative (valores de otras clases que clasifican
para sus respectivas clases)
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Medidas de validación de Modelos
- Concepto
- Proceso
Sensibilidad o TPR (True Positive Rate) o Recall (1): Esta medida está definida por el
Data Mining cociente entre el número de ejemplos que clasifican correctamente para una clase y el
- Concepto número total de ejemplos para la clase estudiada. Dicho de otra manera es la proporción
de elementos que están clasificados dentro de la clase Ci, de entre todos los elementos
- Objetivos que realmente son de la clase Ci. En la matriz de confusión es el elemento diagonal
dividido por la suma de todos los elementos de la fila. Cuando las sensibilidades
- Tareas pertinentes para cada ejemplo de clase tienda a 1, la matriz de Confusión tenderá a ser
una matriz diagonal.
- Técnicas
- Tareas vs. TP Rate = TP / (TP + FN)
Técnicas TP Rate (C1) = N11 / (N11 + N12 + … + N1z)
TP Rate (C2) = N22 / (N21 + N22 + … + N2z)
- Técnicas vs. Input ………
Algoritmos TP Rate (Cz) = Nzz / (Nz1 + Nz2 + … + Nzz)
- Árb. de decisión. False Positive Rate (2): Es la proporción de ejemplos que han sido clasificados dentro de la
- J48 (C4.5) clase Ci, pero pertenecen a una clase diferente. En la matriz de confusión es la suma de
la columna de la clase Ci menos el elemento diagonal dividido la suma de las filas del
- CART-Gini resto de las clases.
- Comparaciones
FP Rate = FP / (FP + TN)
- Alg. Apriori FP Rate (C1) = (N21 + N31 + … + Nz1) /
Técnicas de [(N21 + … + N2z ) + (N31 + … + N3z ) + … + (Nz1 + … + Nzz )]
validación de
Precisión (3): Proporción de ejemplos que realmente tienen clase Ci de entre todos los
Modelos elementos que se han clasificado dentro de la clase Ci. En la matriz de confusión es el
- Training vs. elemento diagonal dividido por la suma de la columna en la que estamos.
Testing
Prec (Modelo) = (N11 + N22 + … + Nzz) / Total_de_ejemplos
- Medidas Prec (C1) = N11 / (N11 + N21 + … + Nz1)
- Tipos de Prec (C2) = N22 / (N12 + N22 + … + Nz2)
………
Herramientas
Prec (Cz) = Nzz / (N1z + N2z + … + Nzz)

KDD
Medidas de validación de Modelos
- Concepto
- Proceso
False Negative Rate (4): es la proporción de elementos que no clasifican para la clase Ci, de
Data Mining entre todos los elementos que realmente son de la clase Ci. En la matriz de confusión es
- Concepto la suma de todos los elementos de la fila excluyéndole a la diagonal dividido por la suma
de todos los elementos de la fila.
- Objetivos
- Tareas FN Rate = 1 – TPR = 1 – [TP / (TP + FN)] = FN / (FN + TP)
FN Rate (C1) = [(N11 + … + N1z) - N11] / (N11 + N12 + … + N1z)
- Técnicas FN Rate (C2) = [(N21 + … + N2z) - N22] / (N21 + N22 + … + N2z)
- Tareas vs. ………
Técnicas FN Rate (Cz) = [(Nz1 + … + Nzz) - Nzz] / (Nz1 + Nz2 + … + Nzz)
- Técnicas vs. Input True Negative Rate o Especificidad (5): Es la proporción de ejemplos que han sido
Algoritmos clasificados dentro de las otras clases diferente a la clase Ci. En la matriz de confusión es
la suma de las diagonales menos el elemento de la clase Ci dividido la suma de las filas
- Árb. de decisión. del resto de las clases.
- J48 (C4.5)
TN Rate = 1 – FPR = 1 – [FP / (FP + TN)] = TN / (TN + FP)
- CART-Gini FP Rate (C1) = (N22 + N33 + … + Nzz) /
- Comparaciones [(N21 + … + N2z ) + (N31 + … + N3z ) + … + (Nz1 + … + Nzz )]
- Alg. Apriori F-Measure (6): Es una medida que combina la Precisión con el Recall o TPR para la clase Ci.
Técnicas de
validación de F-Measure = (2 * Precisión * Recall) / (Precisión + Recall)
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Lift Chart (ver Excel)
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
ROC Chart (ver Excel)
- Concepto
- Proceso
Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Matriz de Contingencia
- Concepto
- Proceso
Data Mining
- Concepto Dado una regla R: B → H, y un ejemplo Ti = (xi, yi) con sus
- Objetivos respectivas clases yi, se puede aplicar la regla al ejemplo y
- Tareas comparar el resultado previsto en H con la verdadera clase yi del
- Técnicas ejemplo. De dicha comparación surge la matriz denominada
- Tareas vs. “contingencia”.
Técnicas
Algoritmos
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Medidas de validación de reglas
- Concepto
- Proceso
Data Mining
Precisión o Confianza (1): La precisión (consistencia o confidencia) es una medida de cuanto
- Concepto una regla es específica para el problema. La precisión puede ser definida como la
probabilidad condicional de H de ser verdadero dado que B es verdadero. Cuanto mayor,
- Objetivos más precisamente una regla cubre la clase en cuestión.
- Tareas
Acc(R) = P(H\B) = P(HB)/ P(B) = fhb/fb
- Técnicas
- Tareas vs. Error (2): El error de una regla es definido como 1 – Acc( R ). Cuanto mayor es el error, con
Técnicas menos precisión la regla cubre la clase en cuestión.
- Técnicas vs. Input Err ( R ) = 1 – Acc(r) = P(¬H\B) = f¬hb/fb

Algoritmos
Confianza Negativa (3): Es lo correspondiente a precisión, pero para los ejemplos que no son
- Árb. de decisión. cubiertos por la regla. Es definida como la probabilidad condicional de H de ser falso dado
que B también es falso.
- J48 (C4.5)
- CART-Gini NegRel ( R ) = P (¬H\¬B) = P (¬H¬B)/P(¬B) = f¬h¬b/f¬b
- Comparaciones
Sensibilidad o TPR (True Positive Rate) (4): Sensibilidad es una medida de número (relativo)
- Alg. Apriori de ejemplos de la clase prevista en H cubierto por la regla. Es definida como la
probabilidad condicional de B de ser verdadero dado que H es verdadero. Cuanto mayor
Técnicas de es la sensibilidad, mas ejemplos son cubiertos por la regla.
validación de
Modelos Sens ( R ) = P (B\H) = P(HB)/P(H) = fhb / fh = fhb / (fhb + fh ¬b)
- Training vs.
Especificidad o TNR (True Negative Rate) (5): es lo correspondiente a la completitud, pero
Testing para los ejemplos que no son cubiertos por la regla. R. Es definida como la probabilidad
condicional de B de ser falso dado que H es falso.
- Medidas
- Tipos de Spec ( R ) = P (¬B\¬H) = P (¬H¬B)/P(¬H) =
Herramientas f¬h¬b / f¬h = f ¬h¬b / (f ¬h¬b + f ¬hb)

KDD
- Concepto
- Proceso
Data Mining
Cobertura o Representatividad (6): es una medida de número (relativo) de ejemplos cubiertos
- Concepto por la regla R. Es definida como la probabilidad de B de ser verdadero. Cuanto mayor sea
la cobertura, mayor será el número de ejemplos cubiertos por la relga R.
- Objetivos
- Tareas Cov ( R ) = P(B) = fb
- Técnicas
Soporte (7): Soporte (frecuencia) es una medida de número (relativo) de ejemplos cubiertos
- Tareas vs. correctamente por la regla R. Es definido como la probabilidad de que H y B sean
Técnicas verdaderos. Cuanto mayor es el soporte, es mayor el número de ejemplos de la clase en
cuestión que son cubiertos por la regla R.
Algoritmos Sup ( R ) = P(HB) = fhb
- Árb. de decisión. Novedad o Leverage o Rule Interest (8): puede ser definida como si la probabilidad de que B
- J48 (C4.5) y H ocurriesen juntos no puede ser inferidad por las probabilidades de B y H aisladamente,
esto es, B y H no son estadísticamente independientes. La medida de la novedad es
- CART-Gini obtenida comparando el valor esperado P(HB) con los valores de P(H) y P(B). Cuanto más
el valor esperado difiere de lo observado, mayor es la probabilidad que exista una
- Comparaciones correlación verdadera e inesperada entre B y H. Puede ser demostrado que –0,25 <
Nov(R) < 0,25, y cuanto mayor un valor positivo (más proximo de 0,25), más fuerte es la
- Alg. Apriori asociación entre B y H en cuanto que, cuanto mayor un valor negativo (más próximo –
Técnicas de 0,25), más fuerte es la asociación entre B y ¬H.
validación de
Nov ( R ) = P(HB) – P(H) P(B) = fhb – fh · fb
Modelos
- Training vs. Satisfacción (9): Satisfacción es el aumento relativo en la precisión entre la regla B →
verdadero y la regla B→H.
Testing
- Medidas Sat ( R ) = [P(¬H) – P(¬H\B)] / P(¬H) = [f¬h – f¬hb/fb] / f¬h
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining
Precisión Relativa (10): La precisión relativa de una regla mide el grado de precisión obtenido
- Concepto en relación a la precisión de una regla padrón verdadero →H, o sea, que valida B como
verdadero para todos los ejemplos. En ese caso, una regla sólo interesa si mejora la
- Objetivos precisión de la regla padrón.
- Tareas
RAcc ( R ) = P(H\B) – P(H) = fhb/fb – fh
- Técnicas
- Tareas vs. Confianza Negativa Relativa (11): Es lo análogo a precisión relativa para los ejemplos que no
Técnicas son cubiertos por la regla. En ese caso, la regla padrón es falso → ¬H.
- Técnicas vs. Input RnegRel ( R ) = P(¬H\¬B) – P(¬H) = f¬h¬b/f¬b – f¬h

Algoritmos
Sensibilidad Relativa (12): La sensibilidad relativa mide el grado de sensibilidad obtenido en
- Árb. de decisión. relación a la sensibilidad de una regla padrón B→ verdadero, o sea, una regla que valida H
como verdadero para todos los ejemplos.
- J48 (C4.5)
- CART-Gini RSens ( R ) = P(B\H) – P(B) = fhb/fh – fb
- Comparaciones
Especificidad Relativa (13): Es lo análogo a sensibilidad relativa para los ejemplos que no son
- Alg. Apriori cubiertos por la regla. En ese caso, la regla padrón es ¬B→ falso.
Técnicas de
validación de RSpec ( R ) = P(¬B\¬H) – P(¬B) = f¬h¬b/f¬h – f¬b
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
- Concepto
- Proceso
Data Mining
Lift o Interest (14): Mide la mejora alcanzada por un modelo predictivo. Suele emplearse como
- Concepto una medida para comparar diferentes modelos de Data Mining. Por definición es el
cociente entre la Precisión y la Cobertura. Cuando tienda a 1 el interés será mínimo, o sea
- Objetivos B y H son independientes. Si es mayor a 1, entonces B y H son positivamente
dependientes. Si es menor a 1, son negativamente dependientes. Esta medida varia entre
- Tareas 0 e infinito. Cuanto mayor sea el valor obtenido, mas interesante es la regla, pues B
- Técnicas aumenta H en una mejor categoría.
- Tareas vs. Lift ( R ) = P(HB) / P(H) P(B) = fhb / fh · fb
Técnicas
- Técnicas vs. Input Conviction (15): Esta medida es dada por la inversa del Lift(B → ¬H). Indica la independencia
cuando es igual a 1. Reglas donde B nunca aparece sin H (Confianza del 100%) tendrán
Algoritmos un valor de convicción tendiendo a infinito.
Conv ( R ) = 1 / [P(¬HB) / P(¬H) P(B)] = P(¬H) P(B) / P(¬HB) = f ¬h · fb / f ¬hb
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Definiciones
- Concepto
- Proceso
Data Mining

Regla
- Concepto
Se refiere a una regla extraída de un árbol de decisión y
- Objetivos
generalmente será representada en la forma:
- Tareas
R: Si <condición> entonces <clase = Ci >
- Técnicas
donde <condición> toma valores entre los atributos o variables X de
- Tareas vs.
la muestra, y “Ci” es uno de los posibles valores para la clase. De
Técnicas
manera simple R: B → H, donde B es <condición> y H es
- Técnicas vs. Input <clase = Ci>
Algoritmos
- J48 (C4.5)
Meta Reglas
- CART-Gini
Entiéndase por Meta Regla como la generalización de un conjunto
de reglas a partir de ciertos criterios de base. Formalmente, se
- Comparaciones
define una meta regla como una expresión RE en un lenguaje L, tal
- Alg. Apriori que RE ⊆ {Ei, Ei+1, ..., En, ∀i definiendo un patrón y n > 1} y que RE
Técnicas de sea válida para un subconjunto del conjunto de hechos F. Por
validación de ejemplo, si se tienen n reglas Ei (∀i de 1 a n) que expresan
Modelos “Si (x > 3) y .... y ( ... ), entonces f = 23”,
- Training vs.
entonces una “posible” meta regla RE de las n reglas es
Testing
“Si (x > 3), entonces f = 23”.
- Medidas
- Tipos de
Herramientas

KDD
Definiciones
- Concepto
- Proceso
Data Mining
Representatividad de una regla

- Concepto
- Objetivos Se entiende por representatividad de las reglas (también
- Tareas
denominado participación) como la cantidad de registros de
- Técnicas
la muestra de datos que cumplen con una regla concreta.
- Tareas vs.
Técnicas
Por ejemplo, dada una regla L expresada como sigue
Algoritmos “Si (x > 3) y (z > 5), entonces f = 23”,
- J48 (C4.5) y un conjunto de ejemplos de datos T conteniendo un total
- CART-Gini de n registros con los valores de (x, z, f), y un sub-conjunto
- Comparaciones Ti ⊆ T con un total de m ≤ n registros; entonces la regla L
- Alg. Apriori
tiene una representatividad = m, si y solamente si los m
Técnicas de

validación de
registros de Ti cumplen correctamente con la regla L.
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

KDD
Clasificación de las Herramientas de
- Concepto

- Proceso
Data Mining
KDD & Data Mining
- Concepto
Standalone: Los datos se deben exportar/convertir al
- Objetivos
formato interno del sistema de data mining:
- Tareas
Knowledge Seeker IV (Angoss International Limited,
- Técnicas
Groupe Bull, WEKA, Viscovery SOMine, …).
- Tareas vs.
Técnicas
- Técnicas vs. Input On-top: pueden funcionar sobre un sistema
Algoritmos propietario (Clementine sobre ODBC, microstrategy
- Árb. de decisión. sobre Oracle, WEKA sobre JDBC, SQL Server 2000,
- J48 (C4.5) …).
- CART-Gini
- Comparaciones Embedded (propietarios): Oracle Discoverer, Oracle
- Alg. Apriori Darwin, SQL Server 2000, IBM...
Técnicas de
validación de
Modelos Extensible (Tecnología Plug-ins): proporcionan
- Training vs. unas herramientas mínimas de interfaz con los datos,
Testing estadísticas y visualización, y los algoritmos de
- Medidas aprendizaje se pueden ir añadiendo con plug-ins. (ej.
- Tipos de KEPLER).
Herramientas

KDD and DM 72 Pag

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

KDD and DM 72 Pag

Загружено:

Авторское право:

Доступные форматы

KDD

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

- Medidas 0.35 -1.325

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

- Técnicas vs. Input Err ( R ) = 1 – Acc(r) = P(¬H\B) = f¬hb/fb

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

- Técnicas vs. Input RnegRel ( R ) = P(¬H\¬B) – P(¬H) = f¬h¬b/f¬b – f¬h

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py