Вы находитесь на странице: 1из 6

Temario

Minería de Datos 1. Introducción a la Minería de Datos (DM)


1.1. Motivación
1.2. Problemas tipo y aplicaciones
1.3. Relación de DM con otras disciplinas
2. El proceso de KDD
1. Introducción a la Minería de Datos 2.1. Las Fases del KDD
2.2. Tipología de Técnicas de Minería de Datos
2.3. Sistemas Comerciales y Herramientas de Minería de Datos
2.4. Preparación y Visualización de Datos
3. Técnicas de Minería de Datos
José Hernández Orallo 3.1. El Problema de la Extracción Automática de Conocimiento.
3.2. Evaluación de Hipótesis
jorallo@dsic.upv.es 3.3. Técnicas no supervisadas y descriptivas.
3.4. Técnicas supervisadas y predictivas.
4. Web Mining
4.1. Los Problemas de la Información No Estructurada.
Máster y Cursos de Postgrado del DSIC 4.2. Extracción de Conocimiento a partir de Documentos HTML y texto.
Universitat Politècnica de València 4.3. Extracción de Información semi-estructurada (XML).
5. Otros Aspectos
2

Objetivos Tema 1 Ejemplos

• AGENTE en un BANCO:
• Reconocer la problemática del análisis de grandes ¿Debo conceder el crédito a este cliente?
volúmenes de datos y de los beneficios de su uso
sistemático para la obtención de modelos y • GERENTE de un SUPERMERCADO:
patrones predictivos o descriptivos. ¿Cuándo se compran huevos, se suele comprar también
aceite?
• Conocer las aplicaciones habituales de la minería
de datos. • DIRECTOR de RR.HH. de una EMPRESA:
¿Qué tipos de empleados tengo?
• Conocer la relación de la minería de datos con
otras disciplinas. • COMERCIAL de una EMPRESA DE COMERCIALIZACIÓN:
¿Cuántos televisores planos se estima vender el mes que
3
viene? 4
Ejemplos Ejemplos

• AGENTE en un BANCO: • GERENTE de un SUPERMERCADO:


¿Debo conceder el crédito a este cliente? ¿Cuándo se compran huevos, se suele comprar también aceite?
D-crédito C-crédito Salario Casa Cuentas Devuelve- Idcesta Huevos Aceite Pañales Vino Leche Mantequilla Salmón Endibias ...
Idc …
(años) (euros) (euros) propia morosas crédito 1 sí no no sí no sí sí sí ...
101 15 60.000 2.200 sí 2 … no 2 no sí no no sí no no sí ...
102 2 30.000 3.500 sí 0 … sí 3 no no sí no sí no no no ...
Datos históricos: 103 9 9.000 1.700 sí 1 … no Datos históricos: 4 no sí sí no sí no no no ...
104 15 18.000 1.900 no 0 … sí 5 sí sí no no no sí no sí ...

105 10 24.000 2.100 no 0 … no 6 sí no no sí sí sí sí no ...

... … … … … … … … 7 no no no no no no no no ...
8 sí sí sí sí sí sí sí no ...
... ... ... ... ... ... ... ... ... ...

Minería de Datos
Patrón / Modelo: Minería de Datos
Si Cuentas-Morosas > 0 entonces Devuelve-crédito = no Patrón / Modelo:
Si Cuentas-Morosas = 0 Y [(Salario > 2.500) O (D-crédito > 10)] entonces Devuelve-crédito = sí
5
Huevos Æ Aceite : Confianza = 75%, Soporte = 12% 6

Ejemplos Ejemplos

• DIRECTOR de RR.HH. de una EMPRESA: • COMERCIAL de una EMPRESA DE COMERCIALIZACIÓN:


¿Qué tipos de empleados tengo? ¿Cuántos televisores planos se estima vender el mes que viene?
Id Sueldo Casado Coche Hijos Alq/Prop Sindicado Bajas/Año Antigüedad Sexo
PRODUCTO MES−12 ... MES−4 MES−3 MES−2 MES−1 MES
1 10000 Sí No 0 Alquiler No 7 15 H
televisor plano 30’ 20 ... 52 14 139 74 ?
2 20000 No Sí 1 Alquiler Sí 3 3 M
vídeo-dvd-recorder 11 ... 43 32 26 59 ?
3 15000 Sí Sí 2 Prop Sí 5 10 H
discman 50 … 61 14 5 28 ?

Datos 4 30000 Sí Sí 1 Alquiler No 15 7 M


Datos históricos: frigorífico gama alta 3 … 21 27 1 49 ?
5 10000 Sí Sí 0 Prop Sí 1 6 H

históricos: 6 40000 No Sí 0 Alquiler Sí 3 16 M


nevera


14


...


27

… …
2 25


12

… ...
?

7 25000 No No 0 Alquiler Sí 0 8 H

8 20000 No Sí 0 Prop Sí 2 6 M

15 8000 No Sí 0 Alquiler No 3 2 H

... ... ... ... ... ... ... ... ... ... Minería de Datos

Patrón / Modelo: Minería de Datos Patrón / Modelo:


• Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas. Modelo lineal: Ventas Mes Siguiente TV planos:
• Grupo 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son mujeres y tienen casas de alquiler.
7 8
V(Mes)TVplanos = 0.62 · V(Mes-1)Tvplanos + 0.33 · V(Mes-2)Tvplanos + 0.12 · V(Mes-1)DVD-Recorder – 0.05
• Grupo 3: Con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda. Poco sindicados.
Motivación Motivación

Nuevas Necesidades del Análisis


• La mayoría de decisiones de empresas, organizaciones e
de Grandes Volúmenes de Datos instituciones se basan también en información de experiencias
pasadas extraídas de fuentes muy diversas.
• El aumento del volumen y variedad de información que se
• las decisiones colectivas suelen tener consecuencias mucho
encuentra informatizada en bases de datos digitales ha
más graves, especialmente económicas, y, recientemente, se
crecido espectacularmente en la última década.
deben basar en volúmenes de datos que desbordan la
capacidad humana.
• Gran parte de esta información es histórica, es decir,
representa transacciones o situaciones que se han producido.
El área de la extracción (semi-)automática de
conocimiento de bases de datos ha adquirido
• Aparte de su función de “memoria de la organización”, la recientemente una importancia científica y
información histórica es útil para predecir la información
económica inusual
futura.
9 10

Motivación Relación de DM con Otras Disciplinas


• El usuario final no es un experto en aprendizaje Aparece...
automático ni en estadística. • “Descubrimiento de Conocimiento a partir de Bases
• El usuario no puede perder más tiempo analizando de Datos” (KDD, del inglés Knowledge Discovery from
los datos: Databases).
ƒ industria: ventajas competitivas, decisiones más efectivas. “proceso no trivial de identificar patrones válidos, novedosos,
ƒ ciencia: datos nunca analizados, bancos no cruzados, etc. potencialmente útiles y en última instancia comprensibles a
partir de los datos”. Fayyad et al. 1996
ƒ personal: “information overload”...
• RELACIONES:
ƒ Diferencia con métodos estadísticos: la estadística se utiliza
Los sistemas clásicos de estadística son difíciles de para validar o parametrizar un modelo sugerido y
usar y no escalan al número y tipo de datos que se preexistente, no para generarlo.
suelen encontrar en bases de datos. ƒ Diferencia sutil con “Análisis Inteligente de Datos” (IDA,
Intelligent Data Analysis) que correspondía con el uso de
11 técnicas de inteligencia artificial en el análisis de los datos.
12
Relación de DM con Otras Disciplinas Relación de DM con Otras Disciplinas

• KDD nace como interfaz y se nutre de diferentes • La minería o prospección de datos (DM) no es más
disciplinas: que una fase del KDD:
ƒ estadística. ƒ Fase que integra los métodos de aprendizaje y
ƒ sistemas de información / bases de datos. estadísticos para obtener hipótesis de patrones
y modelos.
ƒ aprendizaje automático / IA.
ƒ visualización de datos. • Al ser la fase de generación de hipótesis, vulgarmente se
ƒ computación paralela / distribuida. asimila KDD con DM.
• Además, las connotaciones de aventura y de dinero fácil del
ƒ interfaces de lenguaje natural a bases de datos.
término “minería de datos” han hecho que éste se use como
identificador del área.
13 14

Relación de DM con Otras Disciplinas Relación de DM con Otras Disciplinas


• La minería de datos no es una extensión de los • Los sistemas OLAP y las herramientas de minería de
sistemas de informes inteligentes o sistemas OLAP. datos son complementarias.
La minería de datos aspira a más • Los sistemas OLAP permiten obtener la información que está
ƒ Otras herramientas, p.ej. consultas sofisticadas o análisis en la base de datos (sea implícita o explícitamente) de
estadístico, pueden responder a preguntas como: manera agregada, cruzada y sumarizada, eficientemente.
• El resultado siempre es cierto y exacto. No es un
“¿Han subido las ventas del producto X en junio?”
resultado hipotético.
“¿Las ventas del producto X bajan cuando promocionamos el producto Y?”
“¿El factor Y influye en las ventas del producto X?” • Las herramientas de minería de datos permiten obtener
información que no está en la base de datos, pero que se
ƒ Pero sólo con técnicas de minería de datos podremos
puede inferir de ella con cierta plausibilidad.
responder a preguntas del estilo:
• El resultado puede ser falso y es aproximado. Es un
“¿He de conceder el préstamo al cliente X? resultado hipotético.
“¿Qué se suele comprar cuando se compran pañales?
15
“¿Cuál será el producto más vendido si abrimos una delegación en Portugal?” 16
Relación de DM con Otras Disciplinas Áreas de Aplicación
Más importante
• Visión con las herramientas tradicionales: Áreas de Aplicación: industrialmente
• El analista empieza con una pregunta, una suposición • Toma de Decisiones (banca-finanzas-seguros,
o simplemente una intuición y explora los datos y márketing, políticas sanitarias/demográficas, ...)
construye un modelo. El analista propone el modelo. • Procesos Industriales (componentes químicos,
• Visión con la minería de datos: compuestos, mezclas, esmaltes, procesos, etc.)
• Aunque el analista no pierde la posibilidad de • Investigación Científica (medicina, astronomía,
proponer modelos, el sistema encuentra y sugiere meteorología, psicología, ...). Aquí la eficiencia no es tan
modelos. importante.
• Soporte al Diseño de Bases de Datos.
Ventajas: • Reverse Engineering (dados una base de datos,
• Generar un modelo requiere menos esfuerzo manual y permite desnormalizarla para que luego el sistema la normalice).
evaluar cantidades ingentes de datos.
• Mejora de Calidad de Datos.
• Se pueden evaluar muchos modelos generados
automáticamente, y esto aumenta la probabilidad de encontrar
• Mejora de Consultas (si se descubren dependencias
un buen modelo. funcionales nuevas u otras condiciones evitables).
• El analista necesita menos formación sobre construcción de 17 18
modelos y menos experiencia.

Áreas de Aplicación. Problemas Tipo. Áreas de Aplicación. Problemas Tipo.

KDD para toma de decisiones (Dilly 96) KDD para toma de decisión
Comercio/Marketing: - Identificar patrones de compra de los clientes. Medicina:
- Buscar asociaciones de clientes y características demográficas. - Identificación de terapias médicas satisfactorias para diferentes
- Predecir respuesta a campañas de mailing. enfermedades.
- Análisis de cestas de la compra. - Asociación de síntomas y clasificación diferencial de patologías.
Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito.
- Identificar clientes leales. - Estudio de factores (genéticos, precedentes, hábitos, alimenticios,
- Predecir clientes con probabilidad de cambiar su afiliación. etc.) de riesgo/salud en distintas patologías.
- Determinar gasto en tarjeta de crédito por grupos.
- Encontrar correlaciones entre indicadores financieros.
- Segmentación de pacientes para una atención más inteligente según
- Identificar reglas de mercado de valores a partir de históricos. su grupo.
Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. - Predicciones temporales de los centros asistenciales para el mejor
- Predecir qué clientes compran nuevas pólizas. uso de recursos, consultas, salas y habitaciones.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento. - Estudios epidemiológicos, análisis de rendimientos de campañas de
Transportes: - Determinar la planificación de la distribución entre tiendas. información, prevención, sustitución de fármacos, etc.
- Analizar patrones de carga.

19 20
Áreas de Aplicación. Problemas Tipo.

KDD para Procesos Industriales

- Extracción de modelos sobre comportamiento de compuestos.


- Detección de piezas con trabas.
- Predicción de fallos
- Modelos de calidad.
- Estimación de composiciones óptimas en mezclas.
- Extracción de modelos de coste.
- Extracción de modelos de producción.
- Simulación costes/beneficios según niveles de calidad

21