Вы находитесь на странице: 1из 72

 KDD

- Concepto
- Proceso
 Data Mining
- Concepto

Knowledge Discovery in
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas Database (KDD)
y
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
Data Mining
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
Ing. Wilfrido Inchaustti
- Medidas winchaus@uca.edu.py
- Tipos de
Herramientas
KDD
Concepto


- Concepto
- Proceso
 Data Mining  Descubrimiento de Conocimiento en Base
- Concepto de Datos (del inglés, KDD – Knowledge
- Objetivos
- Tareas
Discovery in Database)
- Técnicas
"KDD es el proceso no trivial de identificar patrones en los datos,
- Tareas vs.
en forma válida, novedosa, potencialmente útil y entendible"
Técnicas
- Técnicas vs. Input En donde,
 Algoritmos
- Árb. de decisión. - Datos: es el conjunto de hechos F.
- J48 (C4.5)
- CART-Gini
-Patrón: es una expresión E en un lenguaje L que describe los
- Comparaciones
hechos en un subconjunto FE de F. E es denominado patrón si
- Alg. Apriori
es más simple que la enumeración de todos los hechos en FE.
 Técnicas de Ej. Se considera f(х)=3x²+x un patrón y f(x)=αx²+βx un modelo.
validación de
Modelos
- Training vs. -Proceso: consiste en la preparación de los datos, búsqueda de
Testing patrones, evaluación del conocimiento y refinamiento. El proceso
- Medidas se asume como no trivial, en el sentido de que la búsqueda no
- Tipos de es autónoma.
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Concepto (cont.)


- Concepto
- Proceso
 Data Mining - Válido: el descubrimiento de patrones debe ser válido sobre
- Concepto los datos nuevos bajo un cierto grado de certeza.
- Objetivos
- Tareas
- Novedoso: los patrones deben ser novedosos (al menos para
- Técnicas
el sistema). La novedad puede ser medida con respecto a los
- Tareas vs.
Técnicas cambios en los datos (comparando los valores actuales, con
- Técnicas vs. Input los anteriores o con los esperados) o en el conocimiento (cómo
 Algoritmos un nuevo hallazgo se relaciona con los anteriores).
- Árb. de decisión.
- J48 (C4.5)
-Útil: los patrones deben potencialmente conducir a alguna
- CART-Gini
- Comparaciones
acción útil.
- Alg. Apriori
 Técnicas de -Entendible: un objetivo del KDD es construir patrones
validación de
entendibles para los humanos en orden a facilitar un mejor
Modelos
- Training vs.
entendimiento de los datos.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Concepto Interpretación/
Evaluación
- Objetivos
- Tareas
- Técnicas Data Mining
- Tareas vs.
Conocimiento
Técnicas
Transformación
- Técnicas vs. Input
Patrones
 Algoritmos
- Árb. de decisión. Preprocesamiento
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
- Comparaciones Datos
Pre-
- Alg. Apriori procesados
 Técnicas de
Datos Experto
validación de Seleccio-
Modelos Datos nados
- Training vs.
Testing
- Medidas
- Tipos de
Proceso interactivo e iterativo que
Herramientas
envuelve varios pasos y con decisiones
a ser tomadas por el usuario

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
Selección
- Comparaciones
- Alg. Apriori
 Técnicas de
Datos
validación de
Modelos Datos
Seleccio- - Definición, análisis y entendimiento del
nados
dominio del problema.
- Training vs.
Testing
- Entendimiento del universo de datos
disponible.
- Medidas
- Selección de datos (puede implicar un
- Tipos de
nuevo repositorio de datos).
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Selección de columnas (también llamados variables o
- Concepto
atributos) para el análisis.
- Objetivos
- Eliminación de registros repetidos.
- Tareas
- Operaciones básicas de eliminación de ruídos en los datos.
- Técnicas
- Definición de estratégias en caso de campos ausentes en
- Tareas vs.
los datos.
Técnicas
- Técnicas vs. Input
- Consideración de secuencias temporales en los datos.
 Algoritmos
- Árb. de decisión. Preprocesamiento
- J48 (C4.5) ………
………
… … ...
- CART-Gini
Selección
- Comparaciones Datos
Pre-
- Alg. Apriori procesados
 Técnicas de
Datos
validación de Seleccio-
Modelos Datos nados
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Búsqueda de características útiles en los datos teniendo en cuenta los objetivos a
- Concepto
los que se enfocan. Ej. convertir una columna fecha del tipo 'dd/mm/yyyy hh24:mi' en
- Objetivos Dia_De_La_Semana, Mes, Hora. Discretizar valores numéricos, por ejemplo, edad entre
13-18 es 'menor_de_edad', entre 19-25 es 'nivel_post_secundario', ...
- Tareas
- Técnicas - Búsquedas de
representaciones
- Tareas vs. categóricas para los
Técnicas datos. Ej. agrupar los
Transformación nombres de productos por
- Técnicas vs. Input
categorías en un
 Algoritmos supermercado, y no por
nombre real, en fin lo que
- Árb. de decisión. Preprocesamiento
interesa es saber si el
- J48 (C4.5) ……… cliente consumió pañal y
………
… … ... Datos cerveza y no exactamente
- CART-Gini Trans- la marca para encontrar
Selección formados
- Comparaciones Datos una relación inicial.
Pre-
- Alg. Apriori procesados - Utilización de métodos de
 Técnicas de transformación con vista a la reducción
Datos del número efectivo de variables en
validación de Seleccio-
Datos consideración. Ej. reducir el valor de tres
Modelos nados columnas en una sola mediante el uso
- Training vs. técnicas del máximo-mínimo de fuzzy logic.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas Data Mining
- Tareas vs.
Técnicas
Transformación
- Técnicas vs. Input
Patrones
 Algoritmos
- Árb. de decisión. Preprocesamiento
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
- Comparaciones Datos
Pre-
- Alg. Apriori procesados
 Técnicas de
Datos
validación de Seleccio- - Definición de los algoritmos utilizados
Modelos Datos nados basados en los objetivos definidos,
tareas y técnicas embarcadas. Ej.
- Training vs.
Predicción usando tareas de Clasificación
Testing mediante técnicas de Árboles de Decisión
- Medidas implementados por algoritmos C4.5 y
CART.Gini.
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Concepto Interpretación/
Evaluación
- Objetivos
- Tareas
- Técnicas Data Mining
- Tareas vs.
Conocimiento
Técnicas
Transformación
- Técnicas vs. Input
Patrones
 Algoritmos
- Árb. de decisión. Preprocesamiento
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
- Comparaciones Datos
Pre-
- Alg. Apriori procesados
 Técnicas de
Datos
validación de Seleccio- -Interpretacióny validación del modelo
Modelos Datos nados generado con un posible regreso a una de las
fases anteriores.
- Training vs.
Testing
- Consolidación del conocimiento descubierto
- Medidas (Aplicación del modelo). Ej. Incorporación de los
patrones considerados conocimientos en el
- Tipos de
sistema o elaboración de reportes para las partes
Herramientas interesadas.

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Proceso del KDD - [Fayyad et al.]


- Concepto
- Proceso
 Data Mining
- Concepto Interpretación/
Evaluación
- Objetivos
- Tareas
- Técnicas Data Mining
- Tareas vs.
Conocimiento
Técnicas
Transformación
- Técnicas vs. Input
Patrones
 Algoritmos
- Árb. de decisión. Preprocesamiento
- J48 (C4.5) ………
………
… … ... Datos
- CART-Gini Trans-
Selección formados
- Comparaciones Datos
Pre-
- Alg. Apriori procesados
 Técnicas de
Datos Experto
validación de Seleccio-
Modelos Datos nados
- Training vs.
Testing
- Medidas
- Tipos de
Proceso interactivo e iterativo que
Herramientas
envuelve varios pasos y con decisiones
a ser tomadas por el usuario

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Minería de Datos (del inglés, Data


- Concepto


- Proceso
Data Mining
Mining)
- Concepto
- Objetivos "Data Mining es un paso en el proceso del
- Tareas
KDD consistiendo de algoritmos particulares
- Técnicas
- Tareas vs. que, bajo algunas limitaciones aceptables de
Técnicas
eficiencia computacional, produce una
- Técnicas vs. Input
 Algoritmos enumeración particular de patrones Ej sobre F “
- Árb. de decisión.
- J48 (C4.5) De manera mas informal, es la búsqueda de
- CART-Gini
- Comparaciones
patrones de comportamientos y relaciones
- Alg. Apriori entre los datos mediante el uso de técnicas y
 Técnicas de
validación de
algoritmos especializados.
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Esfuerzo requerido por cada fase del


- Concepto


- Proceso
Data Mining
proceso del KDD
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Agentes del KDD


- Concepto
- Proceso
 Data Mining  Experto: es quien
- Concepto conoce las
- Objetivos
necesidades y
dificultades del
- Tareas negocio y es quien
- Técnicas plantea el problema
- Tareas vs. basado en los
Técnicas
usuarios.
- Técnicas vs. Input
 Analista: es quien
Algoritmos

ejecuta todo el
- Árb. de decisión. proceso KDD y que
- J48 (C4.5) por ende debe tener
- CART-Gini
muy en claro todos
los pasos que ello
- Comparaciones implica.
- Alg. Apriori
 Técnicas de  Usuario: quien no
validación de necesita poseer
Modelos mucho conocimiento
- Training vs.
pero es el que
después de
Testing terminado el proceso
- Medidas utilizará el
- Tipos de conocimiento
Herramientas extraído.

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Roles en el KDD


- Concepto
- Proceso
 Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Metodología CRISP-DM


- Concepto
- Proceso http://www.crisp-dm.org/
 Data Mining
Método standard que ha sido desarrollado para ayudar en la realización de
- Concepto
proyectos de DM. Fue creado por un consorcio de compañías, principalmente en
- Objetivos Europa, y se llamó Cross-Industry Standard Process for Data Mining, o CRISP-
- Tareas DM.
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Metodología SEMMA


- Concepto
- Proceso http://www.sas.com/technologies/analytics/datamining/miner/semma.html
 Data Mining
- Concepto SAS Institute desarrollador de esta metodología, la define como el
- Objetivos proceso de selección, exploración y modelado de grandes cantidades
- Tareas de datos para descubrir patrones de negocio desconocidos. El nombre
- Técnicas de esta terminología es el acrónimo correspondiente a las cinco fases
- Tareas vs. básicas del proceso.
Técnicas
Muestreo Exploración Manipulación Modelado Valoración
- Técnicas vs. Input
(Sample) (Explore) (Modify) (Model) (Assess)
 Algoritmos
- Árb. de decisión.
La metodología SEMMA se centra más en las características técnicas
- J48 (C4.5)
del desarrollo del proceso, mientras que la metodología CRISP-DM,
- CART-Gini
mantiene una perspectiva más amplia respecto a los objetivos
- Comparaciones
empresariales del proyecto. Esta diferencia se establece ya desde la
- Alg. Apriori primera fase del proyecto de Data Mining donde la metodología
 Técnicas de SEMMA comienza realizando un muestreo de datos, mientras que la
validación de
metodología CRISP-DM comienza realizando un análisis del problema
Modelos
empresarial para su transformación en un problema técnico
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
CRISP-DM vs. SEMMA


- Concepto
- Proceso
 Data Mining La metodología SEMMA sólo es abierta en sus aspectos generales ya que está
- Concepto muy ligada a los productos SAS donde se encuentra implementada. Por su parte
la metodología CRISP-DM ha sido diseñada como una metodología neutra
- Objetivos
respecto a la herramienta que se utilice para el desarrollo del proyecto de Data
- Tareas Mining siendo su distribución libre y gratuita.
- Técnicas
- Tareas vs.
Técnicas
SEMMA CRISP-DM
- Técnicas vs. Input
Análisis
 Algoritmos Muestreo Problema
- Árb. de decisión. (Sample)
- J48 (C4.5)
Análisis
Exploración
- CART-Gini Datos
(Explore)
- Comparaciones
- Alg. Apriori Manipulación Preparación
 Técnicas de (Modify) Datos
validación de
Modelos Modelado
Modelado
- Training vs. (Model)
Testing
- Medidas Valoración Evaluación
- Tipos de (Assess)
Herramientas
Explotación

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Objetivos del Data Mining


- Concepto
- Proceso
 Data Mining Los dos principales objetivos del Data Mining, en la práctica son:
- Concepto
- Objetivos
 La Predicción (Directed data mining): consiste en utilizar
- Tareas
algunas variables o campos de la Base de Datos para
- Técnicas
predecir valores desconocidos o futuros de otras variables de
- Tareas vs.
Técnicas interés. Un modelo predictivo responde preguntas sobre
- Técnicas vs. Input datos futuros. Ej. ¿Cuáles serán las ventas el año próximo?,
 Algoritmos ¿Es esta transacción fraudulenta?, ¿Qué tipo de seguro es
- Árb. de decisión. más probable que contrate el cliente X?, ¿Qué tipo de cliente
- J48 (C4.5) tenderá a abandonar el negocio?
- CART-Gini
- Comparaciones
- Alg. Apriori
 La Descripción (Undirected data mining): se centra en
 Técnicas de encontrar patrones interpretables por el ser humano, a partir
validación de de la descripción de los datos. Un modelo descriptivo
Modelos proporciona información sobre las relaciones entre los datos
- Training vs. y sus características. Ej. a) Los clientes que compran
Testing
pañales suelen comprar cerveza. b) El tabaco y el alcohol
- Medidas
son los factores más importantes en la enfermedad Y. c) Los
- Tipos de
Herramientas clientes sin televisión y con bicicleta tienen características
muy diferenciadas del resto.
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Tareas del Data Mining (I)


- Concepto
- Proceso
 Data Mining Los objetivos de la Predicción y de la Descripción son
- Concepto alcanzados por el uso de un conjunto de tareas:
- Objetivos
- Tareas  Modelo de Dependencias (o Asociación): consiste en
- Técnicas encontrar un modelo el cual describa las dependencias
- Tareas vs. significantes entre las variables. De otra manera, dado un
Técnicas conjunto de datos, identificar las relaciones entre atributos,
- Técnicas vs. Input de forma tal a identificar que la ocurrencia de cierto/s
 Algoritmos
patrón/es implica la ocurrencia de otro/s. Ej.: el 70% de los
clientes que consumen el producto A y B, también consumen
- Árb. de decisión.
el producto C, D y E.
- J48 (C4.5)
- CART-Gini
 Clasificación: se trata de obtener un modelo que permita
- Comparaciones
asignar un caso de clase desconocida a una clase concreta,
- Alg. Apriori dicho de otra manera, se puede ver como el esclarecimiento
 Técnicas de de una dependencia, en la que el atributo dependiente puede
validación de tomar un valor entre varias clases, ya conocidas. Ej.: se sabe
Modelos (por un estudio de dependencias) que los atributos edad,
- Training vs. grado de miopías y astigmatismo han determinado los
Testing pacientes para los que su operación de cirugía ocular ha sido
- Medidas satisfactoria. Podemos intentar determinar las reglas exactas
- Tipos de
que clasifican un caso como positivo o negativo a partir de
Herramientas
esos atributos.

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Tareas del Data Mining (II)


- Concepto
- Proceso
 Data Mining
- Concepto
 Agrupamiento (Clustering) o Segmentación: divide a los
- Objetivos datos en diferentes grupos, el objetivo es encontrar una
- Tareas agrupación de datos de forma que los datos de un mismo
- Técnicas grupo sean muy similares y muy diferentes entre grupos
- Tareas vs. distintos. Se diferencia de la clasificación en el que no se
Técnicas conocen ni las clases ni su número (aprendizaje no
- Técnicas vs. Input
supervisado), con lo que el objetivo es determinar grupos o
racimos (clusters) diferenciados del resto.
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
 Tendencias / Regresión: consiste en adquirir una función
que mapee un elemento de dato a una variable de predicción
- CART-Gini
de valor real. Dicho de otro modo, se persigue la obtención
- Comparaciones de un modelo que permita predecir el valor numérico de
- Alg. Apriori alguna variable. Ej. se intenta predecir el número de clientes,
 Técnicas de los ingresos, llamadas, ganancias, costes, etc. a partir de los
validación de resultados de semanas, meses o años anteriores.
Modelos
- Training vs.  Visualización: consiste en generar modelos visuales que
Testing permitan al usuario sacar meta-conocimientos de los
- Medidas mismos. Ej. Mapas de temperaturas. Se divide en dos:
- Tipos de Visualización Previa (se utiliza para entender mejor los datos
Herramientas y sugerir posibles patrones) y Visualización Posterior (se
utiliza para mostrar los patrones y entenderlos mejor).
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Técnicas de Data Mining (I)


- Concepto
- Proceso
 Data Mining Las técnicas más comúnmente usadas en Data Mining para cumplir con
- Concepto algunas de las tareas ya descritas son:
- Objetivos
- Tareas
 Redes neuronales artificiales: modelos predecibles no-lineales que
- Técnicas
aprenden a través del entrenamiento y semejan la estructura de una
red neuronal biológica. Con frecuencia son usadas bajo tareas de
- Tareas vs.
Técnicas
Clasificación.
0.4
- Técnicas vs. Input Valores aj
 Algoritmos
0.3
- Árb. de decisión.
- J48 (C4.5)
0.8234
0.15
- CART-Gini
Atributo Valor
- Comparaciones Valnor
0.79612
0.25 -0.24
0.71315
- Alg. Apriori Edad 20 0.4
No. Rec. 3 0.3
 Técnicas de Repar 2 0.15 0.33
validación de Clima D 0.25 0.937
0.5824
$2,255,000
Cochera 2 0.33
Modelos
Terreno 400 0.4
0.4 0.6136
- Training vs. Construc. 350 0.35
Testing Sector3 0.65 1.23

- Medidas 0.35 -1.325

- Tipos de
Herramientas
0.65
Pesos Wij

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas de Data Mining (II)


- Concepto
- Proceso
 Data Mining  Árboles de decisión: estructuras de forma de árbol que representan
- Concepto conjuntos de decisiones. Estas decisiones generan reglas para la
- Objetivos
clasificación de un conjunto de datos. Métodos específicos de
árboles de decisión incluyen Árboles de Clasificación y Regresión.
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas de Data Mining (II)


- Concepto
- Proceso
 Data Mining  Regresión Lineal: consiste en dado un conjunto de puntos
- Concepto encontrar una función lineal que aproxime los puntos.
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input f(x)
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
x
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas de Data Mining (IV)


- Concepto
- Proceso
 Data Mining  Método del vecino más cercano: una técnica que clasifica cada
- Concepto registro en un conjunto de datos basado en una combinación de las
- Objetivos clases del/de los k registro(s) más similar/es.
- Tareas
- Técnicas
- Tareas vs. X2 Cluster 1
Técnicas
- Técnicas vs. Input
Cluster 3
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de R
validación de
Modelos
- Training vs.
Testing
- Medidas Cluster 2
- Tipos de
Herramientas X1

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas de Data Mining (V)


- Concepto
- Proceso
 Data Mining  Regla de inducción: la extracción de reglas if-then. La inducción de
- Concepto reglas se refiere a la detección de tendencias de grupos de datos, o
- Objetivos "reglas" sobre los datos.
- Tareas
- Técnicas
- Tareas vs.
IF outlook = overcast
Técnicas
- Técnicas vs. Input THEN play = yes (4.0)
 Algoritmos
- Árb. de decisión. IF windy = TRUE AND
- J48 (C4.5) outlook = rainy
- CART-Gini
THEN play = no (2.0)
- Comparaciones
- Alg. Apriori
 Técnicas de IF outlook = sunny AND
validación de humidity > 75
Modelos
THEN play = no (3.0)
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas de Data Mining (VI)


- Concepto
- Proceso
 Data Mining  Visualización mediante mapas temáticos SOM (Self-Organizing
- Concepto Maps): ésta técnica hace uso de algoritmos de generación de mapas
- Objetivos tipo SOM para descubrir tendencias y patrones de datos.
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs. Si el plan de mensaje es 700 (Plan De
Mensajes Pospago), el plan gprs es 729
Testing (Plan Pospago Gprs Basico), la
- Medidas antigüedad por encima de los 42 meses,
la edad por encima de los 30 años,
- Tipos de entonces el consumo promedio es de
Herramientas entre los 100 y 500 mil Gs. y en algunos
casos cerca y por encima del millón de
Gs.
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Técnicas de Data Mining (VII)


- Concepto
- Proceso
 Data Mining  Visualización mediante gráficos de dimensión: ésta técnica se
- Concepto basa en la graficación n-dimensional de todas las variables en
- Objetivos cuestión. N = a la cantidad de variables tratadas. El más simple es
- Tareas N=2, gráficos de dos dimensiones.
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Objetivos, Tareas, Técnicas y


- Concepto


- Proceso
Data Mining
Algoritmos
- Concepto
- Objetivos
- Tareas
Objetivos Tareas Técnicas Algoritmos
- Técnicas
- Predicción - Clasificación - Árbol de Decisión - J48
- Tareas vs.
- Regresión - Reglas de - A priori
Técnicas - Descripción
Inducción - PART
- Agrupamiento
- Técnicas vs. Input - Redes Neuronales - CART.Gini
- Asociación
 Algoritmos - Algoritmos - k-NN
- Visualización Genéticos
- Árb. de decisión. - k-means
- Visualización - ID3
- J48 (C4.5)
- Redes Bayesianas - C4.5
- CART-Gini - Métodos del vecino - CN2
- Comparaciones más cercano - ILP
- Competitive - SCIL
- Alg. Apriori
learning. - Backpropagation
 Técnicas de
- Perceptron - OneR
validación de Learning. - M5Rules
Modelos -Multilayer ANN - ADTree
- Training vs. methods - Decision Stump
Testing - NBTree
- EM
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Elección de Tareas – [Weiss & Indurkhya]


- Concepto
- Proceso
 Data Mining
Objetivo del
- Concepto
Data Mining
- Objetivos
Predicción Descripción
- Tareas (Realizando decisiones) (Soporte de decisión)
- Técnicas
- Tareas vs. Mapeo de los Mapeo de las
Técnicas valores clases
categorizados o categorizadas
- Técnicas vs. Input
reales predefinidos indefinidas
 Algoritmos
- Árb. de decisión. No
Categorizados Real
- J48 (C4.5) Si

- CART-Gini Resumen de
Clasificación
- Comparaciones Regresión Clustering datos

- Alg. Apriori
Si No
 Técnicas de
validación de Describe la
Modelos Sumarización dependencia a
lo largo de las
- Training vs. variables
Testing Si
- Medidas No
- Tipos de Modelo de Otras
dependencia tareas
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Tareas vs. Técnicas – [Moustakis et al.]


- Concepto
- Proceso
 Data Mining
Técnicas:
- Concepto
A1: Vecino k-más cercano
- Objetivos A2: Árboles de Decisión
- Tareas A3: Asociación de Reglas
- Técnicas A4: Redes Neuronales
- Tareas vs. A5: Algoritmos Genéticos
Técnicas A6: Programación lógica inductiva
- Técnicas vs. Input
Tareas:
 Algoritmos
C1: Clasificación
- Árb. de decisión.
C2: Resolución de Problemas
- J48 (C4.5) C3: Ingeniería del conocimiento
- CART-Gini
- Comparaciones C3: Ingeniería del conocimiento
- Alg. Apriori
 Técnicas de
validación de
Modelos A6

- Training vs. A3

Testing A1

- Medidas A2
A4 A5
- Tipos de
Herramientas C2: Resolución de
C1: Clasificación problemas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas vs. Input – [Adriaans et al.]


- Concepto
- Proceso
 Data Mining
- Concepto
Grupos: Algoritmos:
- Objetivos
D1={F1, F2, F3, F4}: Características del Input. A1: Vecino k-más cercano
- Tareas D2={F5, F6, F7}: Características del Input. A2: Árboles de Decisión
- Técnicas D3={F8, F9}: Eficiencia para aprender. A3: Asociación de Reglas
D4={F10, F11}: Eficiencia para aplicar el modelo. A4: Redes Neuronales
- Tareas vs. A5: Algoritmos Genéticos
Técnicas
- Técnicas vs. Input Características:
• F1: Habilidad
 Algoritmos para manejar
- Árb. de decisión. gran número de
registros
- J48 (C4.5)
• F2: Habilidad
- CART-Gini para manejar
- Comparaciones gran número de
atributos
- Alg. Apriori • F3: Habilidad
 Técnicas de para manejar
validación de atributos
numéricos
Modelos
• F4: Habilidad
- Training vs. para manejar
Testing cadenas
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Técnicas vs. Eficiencia – [Adriaans et al.]


- Concepto
- Proceso
 Data Mining
• F5: Habilidad para
- Concepto aprender reglas
- Objetivos transparentes
• F6: Habilidad para
- Tareas aprender
- Técnicas incrementalmente
• F7: Habilidad para
- Tareas vs.
estimar significancia
Técnicas estadística
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori • F8: Uso de espacio en
 Técnicas de Disco/Memoria durante
validación de la fase de aprendizaje
• F9: Uso de tiempo de
Modelos
CPU durante la fase de
- Training vs. aprendizaje
Testing • F10: Uso de espacio en
Disco/Memoria durante
- Medidas
la fase de aplicación
- Tipos de • F11: Uso de tiempo de
Herramientas CPU durante la fase de
aplicación

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Conjunto de ejemplos para una tarea


- Concepto


- Proceso
Data Mining
de Clasificación
- Concepto Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
- Objetivos atributos, tal como se muestra en la figura, se define una linea i
- Tareas como el i-ésimo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-ésimo (j= 1, 2, ...,m) atributo Xj del ejemplo i. Así, los
- Técnicas
ejemplos son pares Ti= (xi1, xi2, ..., xim, yi) = (xi, yi), y el conjunto
- Tareas vs.
de ejemplos está definido como (X, Y), donde la última columna, Y,
Técnicas
es un atributo especial, denominado clase (o atributo objetivo), el
- Técnicas vs. Input cual se desea predecir en base a los otros X atributos, o sea,
 Algoritmos Y=f(X).
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Algoritmos basados en Técnicas de Árbol de
- Concepto Decisión
- Objetivos
Formalmente un árbol de decisión es un grafo acíclico dirigido en
- Tareas el cual cada nodo es un nodo de decisión con dos o mas
- Técnicas sucesores, o un nodo hoja. El nodo de decisión contiene una
- Tareas vs. pregunta sobre un atributo concreto (con un hijo por cada posible
Técnicas respuesta) y, el nodo hoja se refiere a una decisión y es etiquetado
- Técnicas vs. Input con una clase.
 Algoritmos Las diferencias principales entre los distintos algoritmos de
- Árb. de decisión. construcción de árboles de decisión radican en las estrategias de
- J48 (C4.5)
poda y en la regla adoptada para particionar nodos.
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Reglas adoptadas para particionar nodos
- Concepto
- Objetivos J48.J48 y J48.Part
- Tareas
- Técnicas - Entropía: Dado una distribución de probabilidad P = (p1, p2, ...,
- Tareas vs. pn), se define la Entropía de P como la información que conlleva a
Técnicas dicha distribución, tal que:
- Técnicas vs. Input I(P) = -(p1*log2(p1) + p2*log2(p2) + … + pn*log2(pn))
 Algoritmos
- Info(T): Si un conjunto T de registros es particionado en un
- Árb. de decisión.
conjunto disjunto de clases C1, C2, ..., Ck sobre la base de los
- J48 (C4.5)
valores del atributo objetivo, entonces la información necesitada
- CART-Gini
para identificar las clases de un elemento de T es Info(T) = I(P),
- Comparaciones
donde P es la distribución de probabilidad de las particiones (C1,
- Alg. Apriori
C2, ..., Ck):
 Técnicas de
validación de
P = (|C1|/|T|, |C2|/|T|, ..., |Cn|/|T| )
Modelos
- Info(X, T): Si primeramente se particiona T en base a los valores
- Training vs.
de los atributos no objetivos X en conjuntos T1, T2, ..., Tn entonces
Testing
la información necesitada para identificar la clase de un elemento
- Medidas
de T está definida como el promedio de la información necesitada
- Tipos de
para identificar las clases de un elemento Ti:
Herramientas
Info(X, T) = ∑i=1..n (|Ti| / |T|) * Info(Ti)
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Reglas adoptadas para particionar nodos
- Concepto
- Objetivos J48.J48 y J48.Part
- Tareas
- Técnicas Dado un conjunto de ejemplo sobre un juego de golf, con cuatro
- Tareas vs. atributos no objetivos (X1, X2, X3, X4) y una clase (Y) definida.
Técnicas Info(T) = I(P) = I(p1, p2) = I(|C1|/|T|, |C2|/|T|) = I(9/14, 5/14) =
- Técnicas vs. Input = - ((9/14)*log2(9/14) + (5/14)*log2(5/14)) = 0.94
Algoritmos

Info(perspectiva, T) = 5/14*I(2/5, 3/5) + 4/14*I(4/4, 0) +
- Árb. de decisión.
+ 5/14*I(3/5, 2/5) = 0.694
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Reglas adoptadas para particionar nodos
- Concepto
- Objetivos J48.J48 y J48.Part
- Tareas
- Técnicas - Ganancia: La ganancia está definida como la diferencia entre la
- Tareas vs. información necesitada para identificar un elemento de T y la
Técnicas información necesitada para identificar un elemento de T después de
- Técnicas vs. Input la obtención del valor del atributo X:
 Algoritmos Gain(X,T) = Info(T) – Info(X, T)
- Árb. de decisión.
Por ejemplo,
- J48 (C4.5)
- CART-Gini
Gain(perspectiva,T) = Info(T) – Info(perspectiva, T) =
- Comparaciones = 0.94 – 0.694 = 0.246
- Alg. Apriori Gain(viento,T) = Info(T) – Info(viento, T) =
 Técnicas de = 0.94 - 0.892 = 0.048
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Reglas adoptadas para particionar nodos
- Concepto
- Objetivos J48.J48 y J48.Part
- Tareas
- Técnicas - Radio de Ganancia: La noción de ganancia introduce tendencias
- Tareas vs. primitivas a favor de los atributos que tiene un gran número de
Técnicas valores. Para compensar esto, el J48 hace uso de la definición de
- Técnicas vs. Input radio de ganancia, tal que:
 Algoritmos GainRatio(D, T) = Gain(D,T) / SplitInfo(D, T)
- Árb. de decisión. donde la función SplitInfo(D, T) es la información necesaria para
- J48 (C4.5) dividir el conjunto T sobre la base del valor del atributo objetivo D.
- CART-Gini Así, SplitInfo(D, T) es:
- Comparaciones I(|T1|/|T|, |T2|/|T|, ..., |Tm|/|T| )
- Alg. Apriori donde {T1, T2, ..., Tm} es la partición de T inducida por el valor de D.
 Técnicas de
validación de Por ejemplo,
Modelos GainRatio(perspectiva,T) = 0.246 / I(5/14, 4/14, 5/14) =
- Training vs.
= 0.246 / 1.577 = 0.156
Testing
- Medidas GainRatio(viento,T) = 0.048 / I(6/14, 8/14) =
- Tipos de = 0.048 / 0.985 = 0.049
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Reglas adoptadas para particionar nodos
- Concepto
- Objetivos CART-Gini
- Tareas
- Técnicas - Impureza: Se basa en una función para medir la impureza del nodo/s
- Tareas vs. del árbol generado, definida como:
Técnicas i(t) = 1 - ∑i=1..n (pi)2
- Técnicas vs. Input donde pi es la probabilidad de ocurrencia de una clase dada. Cuando
 Algoritmos un atributo es examinado, la impureza promedio del nodo/s
- Árb. de decisión. descendiente implicado es sustraído de la función i(t) y el atributo
- J48 (C4.5) que resulta de entre las impurezas mínimas es seleccionado.
- CART-Gini
- Comparaciones
Por ejemplo,
- Alg. Apriori i(perspectiva = nublado) = 1 – (4/4)2 = 0 (mínima impureza)
 Técnicas de i(perspectiva != nublado) = 1 – [(5/10)2 + (5/10)2)] = 0.5
validación de i(perspectiva = lluvioso) = 1 – [(2/5)2 + (3/5)2)] = 0.48
Modelos
i(perspectiva = soleado) = 1 – [(3/5)2 + (2/5)2)] = 0.48
- Training vs.
Testing i(temperatura > 73) = 1 – [(2/6)2 + (4/6)2)] = 0.44
- Medidas i(viento = no) = 1 – [(2/8)2 + (6/8)2)] = 0.375
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Resumen
- Concepto
- Objetivos J48 CART-Gini
- Tareas
- Árboles de decisión binarios y - Árboles de decisión binarios.
- Técnicas
no binarios.
- Tareas vs.
Técnicas - Utiliza una estrategia de poda - Utiliza una estrategia de poda
- Técnicas vs. Input basada en el criterio de cuán basada en el criterio de coste-
 Algoritmos informativo es un nodo. complejidad.
- Árb. de decisión. - Basado en la definición de - Basado en la definición de la
- J48 (C4.5) Radio de Ganancia para la función Inpureza para la
- CART-Gini partición de los nodos. partición de los nodos.
- Comparaciones - Trabaja con variables - Trabaja con variables
- Alg. Apriori continuas (enteros o reales) y continuas (enteros o reales) y
 Técnicas de discretas (cadenas). discretas (cadenas).
validación de
Modelos - La clase debe ser una - La clase debe ser una
- Training vs. variable discreta (cadena). variable continua con valores
Testing enteros.
- Medidas - Criterio de parada basado en - Criterio de parada basado en
- Tipos de el concepto de el concepto de homogeneidad
Herramientas representatividad. o representatividad.

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Clasificación


- Concepto
- Proceso
 Data Mining  Otros algoritmos de Árbol de Decisión y Reglas de
- Concepto Inducción.
- Objetivos
- Tareas OneR
- Técnicas  Algoritmo de clasificación que genera un árbol de decisión de un
- Tareas vs. único nivel.
Técnicas  Capaz de inferir reglas de clasificación a partir de un conjunto de
- Técnicas vs. Input instancias.
 Algoritmos  Crea una regla para cada atributo en los datos de entrenamiento,
luego escoge la regla con la tasa de error[1] más pequeño como su
- Árb. de decisión.
"one rule". Para crear una regla para cada atributo debe
- J48 (C4.5) determinarse la clase más frecuente para cada valor del atributo.
- CART-Gini
- Comparaciones [1] La tasa de error de una regla es el número de instancias de los datos
- Alg. Apriori de entrenamiento en los que la clase del valor de un atributo no
concuerda con la asociación que la regla le da al valor de ese
Técnicas de

atributo.
validación de
Modelos
- Training vs. DECISION STUMP
Testing  Consiste en la creación de un árbol binario de profundidad la unidad.
- Medidas  Toda instancia inclasificable quedará colgada de una nueva rama
que se une al nodo raíz.
- Tipos de
 Parece obvio predecir que los errores que se cometerán a la hora de
Herramientas
clasificar los datos serán elevados.

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Conjunto de ejemplos para una tarea


- Concepto


- Proceso
Data Mining
de Asociación o Agrupación
- Concepto Dado un conjunto de datos T con n ejemplos y cada ejemplo con m
- Objetivos atributos, tal como se muestra en la figura, se define una linea i
- Tareas como el i-ésimo ejemplo (i= 1, 2, ...,n) y una entrada xij como el
valor del j-ésimo (j= 1, 2, ...,m) atributo Xj del ejemplo i. Así, los
- Técnicas
ejemplos se definen como Ti= (xi1, xi2, ..., xim) = (xi).
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Asociación


- Concepto
- Proceso
 Data Mining  A priori [Agrawal]
- Concepto
- Objetivos 1) Identificación de los conjuntos frecuentes (de ítems) con
- Tareas suporte >= MinSup
- Técnicas 2) Construcción de reglas a partir de esos conjuntos con
- Tareas vs. confianza >= MinConf.
Técnicas
- Técnicas vs. Input Conjuntos frecuentes (Large itemsets)
 Algoritmos – Todos los subconjuntos de cada transacción son candidatos (en
- Árb. de decisión. el peor de los casos )
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Asociación


- Concepto
- Proceso
 Data Mining  A priori [Agrawal]
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Asociación


- Concepto
- Proceso
 Data Mining  A priori [Agrawal]
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Asociación


- Concepto
- Proceso
 Data Mining  A priori [Agrawal]
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Asociación


- Concepto
- Proceso
 Data Mining  A priori [Agrawal]
- Concepto
- Objetivos
- Tareas
Conjuntos Frecuentes (Sup >= 0.4)
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5) Reglas (Conf >= 0.8)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas 1.) Determinar el número de clusters (claases) k
- Técnicas 2.) Seleccionar k centroides iniciales
- Tareas vs.
Técnicas
3.) Determinar las fronteras de cada cluster
- Técnicas vs. Input 4.) Asignar cada registro al cluster cuyo
 Algoritmos centroide esté más cercano a ese registro
- Árb. de decisión.
5.) Repetir los pasos 3 y 4 hasta que las fronteras de
- J48 (C4.5)
- CART-Gini los clusters no cambien significativamente
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados – Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Datos iniciales. Número de clusters posibles K=3

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos centroide 1 centroide 3
- Árb. de decisión.
- J48 (C4.5) centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Centroides iniciales, uno por cada cluster

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2 Cluster 1
- Técnicas Cluster 3
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos centroide 1 centroide 3
- Árb. de decisión.
- J48 (C4.5) centroide 2
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs. Cluster 2
Testing
- Medidas X1
- Tipos de
Herramientas Asignar cada registro al centroide más cercano

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Calcular las fronteras de cada cluster: trazar una recta entre
cada par de centroides y trazar una perpendicular a la recta
equidistance de ambos centroides
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas X1
- Tipos de
Herramientas Calcular las fronteras de cada cluster

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2 Cluster 1
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
 Técnicas de
validación de Cluster 2
Modelos
- Training vs. Cluster 2
Testing
- Medidas X1
- Tipos de
Herramientas Fronteras de los clusters

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2 Cluster 1
- Técnicas
Cluster 3
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs. Cluster 2
Testing
- Medidas X1
- Tipos de
Herramientas Asignar cada registros a clusters . El registro R cambió
del cluster 2 al cluster 1
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2 Cluster 1
- Técnicas Cluster 3
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs. Cluster 2
Testing
- Medidas X1
- Tipos de
Herramientas Recalcular los centroides: promedio
en cada eje x1, x2
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
KDD
Algoritmos utilizados - Agrupación


- Concepto
- Proceso
 Data Mining  Kmeans [J.B. MacQueen, 1967]
- Concepto
- Objetivos
- Tareas X2 Cluster 1
- Técnicas
- Tareas vs. Cluster 3
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones R
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs. Cluster 2
Testing
- Medidas X1
- Tipos de
Herramientas Recalcular las fronteras de los clusters
El registro R está ahora en el cluster 2
©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py
 KDD
- Concepto
- Proceso Técnicas de Entrenamientos y
 Data Mining
- Concepto
Evaluación.
- Objetivos  Igual conjunto de entrenamiento y prueba.
- Tareas  Dividir el conjunto (en un porcentaje definido) para
- Técnicas entrenamiento y para prueba.
- Tareas vs.
Técnicas
 Diferentes conjuntos para entrenamiento y prueba.
- Técnicas vs. Input  Usar Validaciones Cruzadas. Uso de los Folds.
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
Validaciones de Modelos y Patrones
- Alg. Apriori  Validaciones Estadísticas.
 Técnicas de  Validaciones mediante el uso de SQL.
validación de
Modelos
 Matriz de Clasificación o de Confusión y Medidas de
Validación.
- Training vs.
Testing
 Lift Chart
- Medidas  ROC Chart
- Tipos de  Validaciones de Reglas mediante Medidas de la Literatura.
Herramientas Uso de Matriz de Contingencia.

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Matriz de Confusión o de


- Concepto


- Proceso
Data Mining
Clasificación
- Concepto
- Objetivos Dado un conjunto de reglas R y un conjunto de ejemplos T=(X,Y), la
- Tareas matriz de confusión o de clasificación define cuántos ejemplos Ti ∈
- Técnicas T clasifican para una clase dada Ci por intermedio del conjunto R.
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
Donde Ci representa a los elementos de la primera columna y Cj a
 Técnicas de
validación de
los de la primera fila, teniendo que Ci y Cj pertenecen al conjunto de
Modelos clases de tamaño z. Nij representa la cantidad de ejemplos en T,
- Training vs. con clase definida Ci, y que clasifican como Cj.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Matriz de Confusión o de


- Concepto


- Proceso
Data Mining
Clasificación (Cont.)
- Concepto
- Objetivos Otra manera de ver la Matriz de Confusión es la mostrada en el
- Tareas gráfico más abajo. En ella se definen cuatro valores o categorías en
la matriz. TP: True Positive (son para la clase estudiada los valores
- Técnicas que son predichos en forma correcta). FN: False Negative (valores
- Tareas vs. de la clase estudiada que clasifican hacia otra clase). FP: False
Técnicas Positive (valores de otras clases que clasifican por la clase
- Técnicas vs. Input estudiada). TN: True Negative (valores de otras clases que clasifican
para sus respectivas clases)
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Medidas de validación de Modelos


- Concepto
- Proceso
Sensibilidad o TPR (True Positive Rate) o Recall (1): Esta medida está definida por el
 Data Mining cociente entre el número de ejemplos que clasifican correctamente para una clase y el
- Concepto número total de ejemplos para la clase estudiada. Dicho de otra manera es la proporción
de elementos que están clasificados dentro de la clase Ci, de entre todos los elementos
- Objetivos que realmente son de la clase Ci. En la matriz de confusión es el elemento diagonal
dividido por la suma de todos los elementos de la fila. Cuando las sensibilidades
- Tareas pertinentes para cada ejemplo de clase tienda a 1, la matriz de Confusión tenderá a ser
una matriz diagonal.
- Técnicas
- Tareas vs. TP Rate = TP / (TP + FN)
Técnicas TP Rate (C1) = N11 / (N11 + N12 + … + N1z)
TP Rate (C2) = N22 / (N21 + N22 + … + N2z)
- Técnicas vs. Input ………
 Algoritmos TP Rate (Cz) = Nzz / (Nz1 + Nz2 + … + Nzz)
- Árb. de decisión. False Positive Rate (2): Es la proporción de ejemplos que han sido clasificados dentro de la
- J48 (C4.5) clase Ci, pero pertenecen a una clase diferente. En la matriz de confusión es la suma de
la columna de la clase Ci menos el elemento diagonal dividido la suma de las filas del
- CART-Gini resto de las clases.
- Comparaciones
FP Rate = FP / (FP + TN)
- Alg. Apriori FP Rate (C1) = (N21 + N31 + … + Nz1) /
 Técnicas de [(N21 + … + N2z ) + (N31 + … + N3z ) + … + (Nz1 + … + Nzz )]
validación de
Precisión (3): Proporción de ejemplos que realmente tienen clase Ci de entre todos los
Modelos elementos que se han clasificado dentro de la clase Ci. En la matriz de confusión es el
- Training vs. elemento diagonal dividido por la suma de la columna en la que estamos.
Testing
Prec (Modelo) = (N11 + N22 + … + Nzz) / Total_de_ejemplos
- Medidas Prec (C1) = N11 / (N11 + N21 + … + Nz1)
- Tipos de Prec (C2) = N22 / (N12 + N22 + … + Nz2)
………
Herramientas
Prec (Cz) = Nzz / (N1z + N2z + … + Nzz)

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Medidas de validación de Modelos


- Concepto
- Proceso
False Negative Rate (4): es la proporción de elementos que no clasifican para la clase Ci, de
 Data Mining entre todos los elementos que realmente son de la clase Ci. En la matriz de confusión es
- Concepto la suma de todos los elementos de la fila excluyéndole a la diagonal dividido por la suma
de todos los elementos de la fila.
- Objetivos
- Tareas FN Rate = 1 – TPR = 1 – [TP / (TP + FN)] = FN / (FN + TP)
FN Rate (C1) = [(N11 + … + N1z) - N11] / (N11 + N12 + … + N1z)
- Técnicas FN Rate (C2) = [(N21 + … + N2z) - N22] / (N21 + N22 + … + N2z)
- Tareas vs. ………
Técnicas FN Rate (Cz) = [(Nz1 + … + Nzz) - Nzz] / (Nz1 + Nz2 + … + Nzz)
- Técnicas vs. Input True Negative Rate o Especificidad (5): Es la proporción de ejemplos que han sido
 Algoritmos clasificados dentro de las otras clases diferente a la clase Ci. En la matriz de confusión es
la suma de las diagonales menos el elemento de la clase Ci dividido la suma de las filas
- Árb. de decisión. del resto de las clases.
- J48 (C4.5)
TN Rate = 1 – FPR = 1 – [FP / (FP + TN)] = TN / (TN + FP)
- CART-Gini FP Rate (C1) = (N22 + N33 + … + Nzz) /
- Comparaciones [(N21 + … + N2z ) + (N31 + … + N3z ) + … + (Nz1 + … + Nzz )]
- Alg. Apriori F-Measure (6): Es una medida que combina la Precisión con el Recall o TPR para la clase Ci.
 Técnicas de
validación de F-Measure = (2 * Precisión * Recall) / (Precisión + Recall)
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Lift Chart (ver Excel)


- Concepto
- Proceso
 Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
ROC Chart (ver Excel)


- Concepto
- Proceso
 Data Mining
- Concepto
- Objetivos
- Tareas
- Técnicas
- Tareas vs.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Matriz de Contingencia


- Concepto
- Proceso
 Data Mining
- Concepto Dado una regla R: B → H, y un ejemplo Ti = (xi, yi) con sus
- Objetivos respectivas clases yi, se puede aplicar la regla al ejemplo y
- Tareas comparar el resultado previsto en H con la verdadera clase yi del
- Técnicas ejemplo. De dicha comparación surge la matriz denominada
- Tareas vs. “contingencia”.
Técnicas
- Técnicas vs. Input
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Medidas de validación de reglas


- Concepto
- Proceso
 Data Mining
Precisión o Confianza (1): La precisión (consistencia o confidencia) es una medida de cuanto
- Concepto una regla es específica para el problema. La precisión puede ser definida como la
probabilidad condicional de H de ser verdadero dado que B es verdadero. Cuanto mayor,
- Objetivos más precisamente una regla cubre la clase en cuestión.
- Tareas
Acc(R) = P(H\B) = P(HB)/ P(B) = fhb/fb
- Técnicas
- Tareas vs. Error (2): El error de una regla es definido como 1 – Acc( R ). Cuanto mayor es el error, con
Técnicas menos precisión la regla cubre la clase en cuestión.

- Técnicas vs. Input Err ( R ) = 1 – Acc(r) = P(¬H\B) = f¬hb/fb


 Algoritmos
Confianza Negativa (3): Es lo correspondiente a precisión, pero para los ejemplos que no son
- Árb. de decisión. cubiertos por la regla. Es definida como la probabilidad condicional de H de ser falso dado
que B también es falso.
- J48 (C4.5)
- CART-Gini NegRel ( R ) = P (¬H\¬B) = P (¬H¬B)/P(¬B) = f¬h¬b/f¬b
- Comparaciones
Sensibilidad o TPR (True Positive Rate) (4): Sensibilidad es una medida de número (relativo)
- Alg. Apriori de ejemplos de la clase prevista en H cubierto por la regla. Es definida como la
probabilidad condicional de B de ser verdadero dado que H es verdadero. Cuanto mayor
 Técnicas de es la sensibilidad, mas ejemplos son cubiertos por la regla.
validación de
Modelos Sens ( R ) = P (B\H) = P(HB)/P(H) = fhb / fh = fhb / (fhb + fh ¬b)
- Training vs.
Especificidad o TNR (True Negative Rate) (5): es lo correspondiente a la completitud, pero
Testing para los ejemplos que no son cubiertos por la regla. R. Es definida como la probabilidad
condicional de B de ser falso dado que H es falso.
- Medidas
- Tipos de Spec ( R ) = P (¬B\¬H) = P (¬H¬B)/P(¬H) =
Herramientas f¬h¬b / f¬h = f ¬h¬b / (f ¬h¬b + f ¬hb)

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Medidas de validación de reglas


- Concepto
- Proceso
 Data Mining
Cobertura o Representatividad (6): es una medida de número (relativo) de ejemplos cubiertos
- Concepto por la regla R. Es definida como la probabilidad de B de ser verdadero. Cuanto mayor sea
la cobertura, mayor será el número de ejemplos cubiertos por la relga R.
- Objetivos
- Tareas Cov ( R ) = P(B) = fb
- Técnicas
Soporte (7): Soporte (frecuencia) es una medida de número (relativo) de ejemplos cubiertos
- Tareas vs. correctamente por la regla R. Es definido como la probabilidad de que H y B sean
Técnicas verdaderos. Cuanto mayor es el soporte, es mayor el número de ejemplos de la clase en
cuestión que son cubiertos por la regla R.
- Técnicas vs. Input
 Algoritmos Sup ( R ) = P(HB) = fhb
- Árb. de decisión. Novedad o Leverage o Rule Interest (8): puede ser definida como si la probabilidad de que B
- J48 (C4.5) y H ocurriesen juntos no puede ser inferidad por las probabilidades de B y H aisladamente,
esto es, B y H no son estadísticamente independientes. La medida de la novedad es
- CART-Gini obtenida comparando el valor esperado P(HB) con los valores de P(H) y P(B). Cuanto más
el valor esperado difiere de lo observado, mayor es la probabilidad que exista una
- Comparaciones correlación verdadera e inesperada entre B y H. Puede ser demostrado que –0,25 <
Nov(R) < 0,25, y cuanto mayor un valor positivo (más proximo de 0,25), más fuerte es la
- Alg. Apriori asociación entre B y H en cuanto que, cuanto mayor un valor negativo (más próximo –
 Técnicas de 0,25), más fuerte es la asociación entre B y ¬H.
validación de
Nov ( R ) = P(HB) – P(H) P(B) = fhb – fh · fb
Modelos
- Training vs. Satisfacción (9): Satisfacción es el aumento relativo en la precisión entre la regla B →
verdadero y la regla B→H.
Testing
- Medidas Sat ( R ) = [P(¬H) – P(¬H\B)] / P(¬H) = [f¬h – f¬hb/fb] / f¬h
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Medidas de validación de reglas


- Concepto
- Proceso
 Data Mining
Precisión Relativa (10): La precisión relativa de una regla mide el grado de precisión obtenido
- Concepto en relación a la precisión de una regla padrón verdadero →H, o sea, que valida B como
verdadero para todos los ejemplos. En ese caso, una regla sólo interesa si mejora la
- Objetivos precisión de la regla padrón.
- Tareas
RAcc ( R ) = P(H\B) – P(H) = fhb/fb – fh
- Técnicas
- Tareas vs. Confianza Negativa Relativa (11): Es lo análogo a precisión relativa para los ejemplos que no
Técnicas son cubiertos por la regla. En ese caso, la regla padrón es falso → ¬H.

- Técnicas vs. Input RnegRel ( R ) = P(¬H\¬B) – P(¬H) = f¬h¬b/f¬b – f¬h


 Algoritmos
Sensibilidad Relativa (12): La sensibilidad relativa mide el grado de sensibilidad obtenido en
- Árb. de decisión. relación a la sensibilidad de una regla padrón B→ verdadero, o sea, una regla que valida H
como verdadero para todos los ejemplos.
- J48 (C4.5)
- CART-Gini RSens ( R ) = P(B\H) – P(B) = fhb/fh – fb
- Comparaciones
Especificidad Relativa (13): Es lo análogo a sensibilidad relativa para los ejemplos que no son
- Alg. Apriori cubiertos por la regla. En ese caso, la regla padrón es ¬B→ falso.
 Técnicas de
validación de RSpec ( R ) = P(¬B\¬H) – P(¬B) = f¬h¬b/f¬h – f¬b
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Medidas de validación de reglas


- Concepto
- Proceso
 Data Mining
Lift o Interest (14): Mide la mejora alcanzada por un modelo predictivo. Suele emplearse como
- Concepto una medida para comparar diferentes modelos de Data Mining. Por definición es el
cociente entre la Precisión y la Cobertura. Cuando tienda a 1 el interés será mínimo, o sea
- Objetivos B y H son independientes. Si es mayor a 1, entonces B y H son positivamente
dependientes. Si es menor a 1, son negativamente dependientes. Esta medida varia entre
- Tareas 0 e infinito. Cuanto mayor sea el valor obtenido, mas interesante es la regla, pues B
- Técnicas aumenta H en una mejor categoría.
- Tareas vs. Lift ( R ) = P(HB) / P(H) P(B) = fhb / fh · fb
Técnicas
- Técnicas vs. Input Conviction (15): Esta medida es dada por la inversa del Lift(B → ¬H). Indica la independencia
cuando es igual a 1. Reglas donde B nunca aparece sin H (Confianza del 100%) tendrán
 Algoritmos un valor de convicción tendiendo a infinito.
- Árb. de decisión.
Conv ( R ) = 1 / [P(¬HB) / P(¬H) P(B)] = P(¬H) P(B) / P(¬HB) = f ¬h · fb / f ¬hb
- J48 (C4.5)
- CART-Gini
- Comparaciones
- Alg. Apriori
 Técnicas de
validación de
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Definiciones


- Concepto
- Proceso
Data Mining

 Regla
- Concepto
Se refiere a una regla extraída de un árbol de decisión y
- Objetivos
generalmente será representada en la forma:
- Tareas
R: Si <condición> entonces <clase = Ci >
- Técnicas
donde <condición> toma valores entre los atributos o variables X de
- Tareas vs.
la muestra, y “Ci” es uno de los posibles valores para la clase. De
Técnicas
manera simple R: B → H, donde B es <condición> y H es
- Técnicas vs. Input <clase = Ci>
 Algoritmos
- Árb. de decisión.
- J48 (C4.5)
 Meta Reglas
- CART-Gini
Entiéndase por Meta Regla como la generalización de un conjunto
de reglas a partir de ciertos criterios de base. Formalmente, se
- Comparaciones
define una meta regla como una expresión RE en un lenguaje L, tal
- Alg. Apriori que RE ⊆ {Ei, Ei+1, ..., En, ∀i definiendo un patrón y n > 1} y que RE
 Técnicas de sea válida para un subconjunto del conjunto de hechos F. Por
validación de ejemplo, si se tienen n reglas Ei (∀i de 1 a n) que expresan
Modelos “Si (x > 3) y .... y ( ... ), entonces f = 23”,
- Training vs.
entonces una “posible” meta regla RE de las n reglas es
Testing
“Si (x > 3), entonces f = 23”.
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Definiciones


- Concepto
- Proceso
Data Mining
Representatividad de una regla


- Concepto
- Objetivos Se entiende por representatividad de las reglas (también
- Tareas
denominado participación) como la cantidad de registros de
- Técnicas
la muestra de datos que cumplen con una regla concreta.
- Tareas vs.
Técnicas
Por ejemplo, dada una regla L expresada como sigue
- Técnicas vs. Input
 Algoritmos “Si (x > 3) y (z > 5), entonces f = 23”,
- Árb. de decisión.
- J48 (C4.5) y un conjunto de ejemplos de datos T conteniendo un total
- CART-Gini de n registros con los valores de (x, z, f), y un sub-conjunto
- Comparaciones Ti ⊆ T con un total de m ≤ n registros; entonces la regla L
- Alg. Apriori
tiene una representatividad = m, si y solamente si los m
Técnicas de

validación de
registros de Ti cumplen correctamente con la regla L.
Modelos
- Training vs.
Testing
- Medidas
- Tipos de
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py


KDD
Clasificación de las Herramientas de


- Concepto


- Proceso
Data Mining
KDD & Data Mining
- Concepto
 Standalone: Los datos se deben exportar/convertir al
- Objetivos
formato interno del sistema de data mining:
- Tareas
Knowledge Seeker IV (Angoss International Limited,
- Técnicas
Groupe Bull, WEKA, Viscovery SOMine, …).
- Tareas vs.
Técnicas
- Técnicas vs. Input  On-top: pueden funcionar sobre un sistema
 Algoritmos propietario (Clementine sobre ODBC, microstrategy
- Árb. de decisión. sobre Oracle, WEKA sobre JDBC, SQL Server 2000,
- J48 (C4.5) …).
- CART-Gini
- Comparaciones  Embedded (propietarios): Oracle Discoverer, Oracle
- Alg. Apriori Darwin, SQL Server 2000, IBM...
 Técnicas de
validación de
Modelos  Extensible (Tecnología Plug-ins): proporcionan
- Training vs. unas herramientas mínimas de interfaz con los datos,
Testing estadísticas y visualización, y los algoritmos de
- Medidas aprendizaje se pueden ir añadiendo con plug-ins. (ej.
- Tipos de KEPLER).
Herramientas

©2002 Ing. Wilfrido Inchaustti - winchaus@uca.edu.py

Вам также может понравиться