Академический Документы
Профессиональный Документы
Культура Документы
DATA MINING
http://www.espol.edu.ec
INTEGRANTES
Bastidas
SantosWashington
Ral
Lpez SerranoSilvio
Stephan
Montiel
SalazarMarcos
Xavier
DATA WAREHOUSE
INTRODUCCIN
DATA WAREHOUSE
DETALLES
El DW se encuentra normalmente
implementado dentro de una
arquitectura de cliente/servidor.
Por la complejidad de los DW es comn
utilizar middleware entre los clientes y
los servidores dando una arquitectura de
3 niveles (three tier).
ARQUITECTURA
OLTP
Consolidacin
Se encarga de producir el cambio de los sistemas
OLTP a las Bases de Datos OLAP. (comprobar validez,
consistencia, actualizacin, propagacin datos)
Middleware
Es un trmino genrico que se utiliza para referirse a
todo tipo de software de conectividad que ofrece
servicios u operaciones que hacen posible el
funcionamiento de aplicaciones distribuidas sobre
plataformas heterogneas
OLAP
TIPOS DE SISTEMAS
OLAP
ROLAP
Motor relacional. Datos
detallados, tablas normalizadas. Los
esquemas ms comunes sobre los
que se trabaja son estrella copo de
nieve
MOLAP
Base de datos multidimensional.
el resumen de la informacin es
usualmente calculado por
adelantado.
DATA MARTS
DATA MARTS
IMPLEMENTACIONES DE
DW
ETL PROCESAMIENTO
PARALELO
ESQUEMA EN ESTRELLA
ESQUEMA EN COPO DE
NIEVE
Un esquema en
copo de nieve es una
estructura algo ms
compleja que el
esquema en estrella.
Se da cuando alguna
de las dimensiones se
implementa con ms
de una tabla de datos.
La finalidad es
normalizar las tablas y
as reducir el espacio
de almacenamiento al
eliminar la
redundancia de datos
DATAWAREHOUSE DATA
MINING
DATA WAREHOUSE
EXECUTIVE INFORMATION
SYSTEM (EIS)
DECISION SUPPORT
SYSTEM (DSS)
DATA MINING
INTRODUCCION
Proceso de extraer
conocimiento til
y comprensible,
previamente
desconocido
(Witten y Frank,
2000)
Que no es?
Data warehousing
SQL / Ad Hoc
Queries /
Reporting
Software Agents
Online Analytical
Processing (OLAP)
Data Visualization
Rico en datos,
Pobre en informacin
Conocimiento
(patrones interesantes)
POR QU MINERA DE
DATOS?
Gran cantidad de
datos para analizar
de forma clsica
Cmo explorar
millones de
registros, decenas
o cientos de
campos, y
encontrar
patrones?
(Latitude,Longitude)2
QUERY
RESULT
(Latitude,Longitude)1
Knowledge Discovery in
Databases
Proceso no trivial de
identificar patrones
vlidos, novedosos,
potencialmente tiles y
en ltima instancia
comprensibles a partir de
los datos. Fayyad et al.
1996
Computational Knowledge
Discovery
QU TIPOS DE DATOS?
Data Warehouses
Base de Datos
Transaccionales
Sistemas de Base
de Datos Avanzado:
Objetos
Relacionales
Temporales y
Espaciales
Serie de Tiempo
Multimedia, Texto
WWW
Structure3DAnatomy
Function1DSignal
MetadataAnnotation
MULTIPLES DISCIPLINAS
CLASIFICACIN DE
ALGORITMOS
CLASIFICACIN
Encuentra modelos
que describen y
distinguen clases o
conceptos.
El objetivo es
describir los datos o
para hacer el futuro
de prediccin.
rbol de decisiones,
la clasificacin
general, redes
neuronales.
EJEMPLO CLASIFICACIN
a
a
ri
ri
uo
o
o
n
ti
eg
eg
n
se
t
t
a
o
C
ca
ca
cl
10
Taxable
Income Cheat
Yes
Single
125K
No
No
Married
100K
No
No
Single
70K
No
Yes
Married
120K
No
No
Divorced 95K
Yes
No
Married
No
Yes
Divorced 220K
No
No
Single
85K
Yes
No
Married
75K
No
10
No
Single
90K
Yes
60K
Refund Marital
Status
Taxable
Income Cheat
No
Single
75K
Yes
Married
50K
No
Married
150K
Yes
Divorced 90K
No
Single
40K
No
Married
80K
10
Training
Set
Clasificador
Test Set
Modelo
REPRESENTACIN:
RBOL DE DECISIONES
a
a
ri
ri
uo
o
o
n
ti
eg
eg
se
n
t
t
a
o
c
ca
ca
cl
10
Taxable
Income Cheat
Yes
Single
125K
No
No
Married
100K
No
No
Single
70K
No
Yes
Married
120K
No
No
Divorced 95K
Yes
No
Married
No
Yes
Divorced 220K
No
No
Single
85K
Yes
No
Married
75K
No
10
No
Single
90K
Yes
60K
Atributos Divididos
Refu
nd
Yes
No
NO
MarS
Single, Divorced t Married
< 80K
NO
TaxIn
c > 80K
YES
NO
CLUSTERING
Divide la informacin en
diferentes grupos.
A diferencia de la
clasificacin, no se sabe
donde habr clster o con
que atributos de los datos
se harn los clsteres.
Algoritmo K-means y
Mapas de Presentacin de
Kohonen
Clustering schemes
Basado en Distancia
(Distancia entre vectores)
Basado en Particin
(Enumera y valora)
Basado en Modelo(
ALGORITMO K-MEANS
Initial seeds
ALGORITMO K-MEANS
Nuevos Centros
ALGORITMO K-MEANS
Centros Finales
MODELO LGICO
Mining Model Training Data Mining Model To Predict
algorithm
DB data
Client data
Application data
Data Mining
Engine
Mining Model
DB data
Client data
Application data
Just one row
Data Mining
Engine
Predicted Data
MODELO FSICO
Interfaz Grfica
App Data
Mining Model
Data Mining Algorithm
Data
Source
MINERIA DE DATOS
DISTRIBUIDA