Вы находитесь на странице: 1из 44

DATA WAREHOUSE &

DATA MINING
http://www.espol.edu.ec

INTEGRANTES

Bastidas
SantosWashington
Ral
Lpez SerranoSilvio
Stephan
Montiel
SalazarMarcos
Xavier

DATA WAREHOUSE

INTRODUCCIN

DW es una tecnologa construida para


optimizar el uso y anlisis de informacin
utilizado por las organizaciones para
adaptarse a los cambios en los mercados.
Su funcin esencial es ser la base de un
sistema de informacin gerencial. Debe
cumplir el rol de integrador de
informacin proveniente de fuentes
funcionalmente distintas.

DATA WAREHOUSE

Se caracteriza por ser integrado, no voltil y


variable en el tiempo, que ayuda a la toma de
decisiones en la entidad en la que se utiliza

DETALLES

El DW se encuentra normalmente
implementado dentro de una
arquitectura de cliente/servidor.
Por la complejidad de los DW es comn
utilizar middleware entre los clientes y
los servidores dando una arquitectura de
3 niveles (three tier).

ARQUITECTURA

Online Transaction Processing (OLTP)


Consolidacin
Middleware
Online Analytical Process (OLAP)
Data Marts

OLTP

Consultas rpidas, escuetas y


predecibles
Poco volumen de informacin e
informacin disgregada
Transacciones rpidas
Gran nivel de concurrencia
Modo de actualizacin on-line
Baja redundancia de datos

Consolidacin
Se encarga de producir el cambio de los sistemas
OLTP a las Bases de Datos OLAP. (comprobar validez,
consistencia, actualizacin, propagacin datos)
Middleware
Es un trmino genrico que se utiliza para referirse a
todo tipo de software de conectividad que ofrece
servicios u operaciones que hacen posible el
funcionamiento de aplicaciones distribuidas sobre
plataformas heterogneas

OLAP

Estructura de datos transparente al usuario


Solo Consulta, trabajan sobre la informacin
operacional generada por los sistemas OLTP
Consultas sobre grandes volmenes de datos
no predecibles
Informacin histrica
Modo de actualizacin Batch
Alta redundancia de datos para facilitar la
generacin de consultas y obtener buenos
tiempos de respuesta
Poderoso Back-end analtico para mltiples
aplicaciones de usuarios

TIPOS DE SISTEMAS
OLAP

ROLAP
Motor relacional. Datos
detallados, tablas normalizadas. Los
esquemas ms comunes sobre los
que se trabaja son estrella copo de
nieve

MOLAP
Base de datos multidimensional.
el resumen de la informacin es
usualmente calculado por
adelantado.

HOLAP (Hybrid OLAP)


Almacena algunos datos en un
motor relacional y otros en una base
de datos multidimensional

DATA MARTS

DATA MARTS

Es una versin especial de DW


El Data Mart es un sistema orientado a la
consulta, en el que se producen procesos batch
de carga de datos.
Es consultado mediante herramientas OLAP que
ofrecen una visin multidimensional de la
informacin.
Sobre estas bases de datos se pueden construir
EIS y DSS.
Data Mining: Proceso no trivial de anlisis de
grandes cantidades de datos con el objetivo de
extraer informacin til.

IMPLEMENTACIONES DE
DW

DW central: un solo nivel con un solo


almacn que soporta los requerimientos
de informacin de toda la empresa.
DW distribuido: estructura de un solo
nivel que se particiona para distribuirlo a
nivel departamental.
DW de dos niveles: soporta
requerimientos de informacin tanto a
nivel empresarial como departamental.

Extract, Transform and


Load (ETL)

EXTRACT, TRANSFORM AND


LOAD (ETL)

Extraer los datos desde los sistemas de


origen (Normalmente en DB relacionales).
Debe causar un impacto mnimo.
Transformacin aplica una serie de reglas
de negocio o funciones sobre los datos
extrados para convertirlos en datos que
sern cargados.
Carga los datos de la fase anterior en el
sistema de destino. Se aplicarn todas las
restricciones y triggers definidos.

ETL PROCESAMIENTO
PARALELO

De datos: dividir un nico archivo


secuencial en pequeos archivos de datos.
De segmentacin (pipeline): Permitir el
funcionamiento simultneo de varios
componentes en el mismo flujo de datos.
De componente: funcionamiento
simultneo de mltiples procesos en
diferentes flujos de datos en el mismo
puesto de trabajo.

ESQUEMA EN ESTRELLA

Modelo de datos que


tiene una tabla de
hechos (o tabla fact)
que contiene los
datos para el anlisis,
rodeada de las
dimensiones estas
tiene una clave
primaria simple,
mientras que en la
tabla de hechos,
la
clave principal estar
compuesta por las
claves principales de
las dems.

ESQUEMA EN COPO DE
NIEVE

Un esquema en
copo de nieve es una
estructura algo ms
compleja que el
esquema en estrella.
Se da cuando alguna
de las dimensiones se
implementa con ms
de una tabla de datos.
La finalidad es
normalizar las tablas y
as reducir el espacio
de almacenamiento al
eliminar la
redundancia de datos

DATAWAREHOUSE DATA
MINING

DATA WAREHOUSE

EXECUTIVE INFORMATION
SYSTEM (EIS)

Herramienta orientada a usuarios de


nivel gerencial.
Permite a usuarios con perfil no tcnico
construir nuevos informes y navegar por
los datos de la compaa para descubrir
informacin relevante.
Provee acceso instantneo al estado de
los indicadores de negocio que le
afectan.

DECISION SUPPORT
SYSTEM (DSS)

Sistema informtico utilizado para servir


de apoyo, ms que automatizar, el
proceso de toma de decisiones,
realizando anlisis de las diferentes
variables del negocio.
Capacidad de anlisis multidimensional
(OLAP) que permite profundizar en la
informacin hasta llegar a un alto nivel
de detalle

DATA MINING

INTRODUCCION
Proceso de extraer
conocimiento til
y comprensible,
previamente
desconocido
(Witten y Frank,
2000)
Que no es?

Data warehousing
SQL / Ad Hoc
Queries /
Reporting
Software Agents
Online Analytical
Processing (OLAP)
Data Visualization

Rico en datos,
Pobre en informacin

Conocimiento
(patrones interesantes)

POR QU MINERA DE
DATOS?

Gran cantidad de
datos para analizar
de forma clsica
Cmo explorar
millones de
registros, decenas
o cientos de
campos, y
encontrar
patrones?

(Latitude,Longitude)2

QUERY
RESULT

(Latitude,Longitude)1

Knowledge Discovery in
Databases
Proceso no trivial de
identificar patrones
vlidos, novedosos,
potencialmente tiles y
en ltima instancia
comprensibles a partir de
los datos. Fayyad et al.
1996

Computational Knowledge
Discovery

QU TIPOS DE DATOS?

Data Warehouses
Base de Datos
Transaccionales
Sistemas de Base
de Datos Avanzado:
Objetos
Relacionales
Temporales y
Espaciales
Serie de Tiempo
Multimedia, Texto
WWW

Structure3DAnatomy

Function1DSignal

MetadataAnnotation

MULTIPLES DISCIPLINAS

20x20 ~ 2^400 10^120 patterns

CLASIFICACIN DE
ALGORITMOS

CLASIFICACIN

Encuentra modelos
que describen y
distinguen clases o
conceptos.
El objetivo es
describir los datos o
para hacer el futuro
de prediccin.
rbol de decisiones,
la clasificacin
general, redes
neuronales.

EJEMPLO CLASIFICACIN
a
a
ri
ri
uo
o
o
n
ti
eg
eg
n
se
t
t
a
o
C
ca
ca
cl

10

Tid Refund Marital


Status

Taxable
Income Cheat

Yes

Single

125K

No

No

Married

100K

No

No

Single

70K

No

Yes

Married

120K

No

No

Divorced 95K

Yes

No

Married

No

Yes

Divorced 220K

No

No

Single

85K

Yes

No

Married

75K

No

10

No

Single

90K

Yes

60K

Refund Marital
Status

Taxable
Income Cheat

No

Single

75K

Yes

Married

50K

No

Married

150K

Yes

Divorced 90K

No

Single

40K

No

Married

80K

10

Training
Set

Clasificador

Test Set

Modelo

REPRESENTACIN:
RBOL DE DECISIONES
a
a
ri
ri
uo
o
o
n
ti
eg
eg
se
n
t
t
a
o
c
ca
ca
cl

10

Tid Refund Marital


Status

Taxable
Income Cheat

Yes

Single

125K

No

No

Married

100K

No

No

Single

70K

No

Yes

Married

120K

No

No

Divorced 95K

Yes

No

Married

No

Yes

Divorced 220K

No

No

Single

85K

Yes

No

Married

75K

No

10

No

Single

90K

Yes

60K

Atributos Divididos
Refu
nd

Yes

No

NO
MarS
Single, Divorced t Married
< 80K
NO

TaxIn
c > 80K
YES

NO

CLUSTERING

Divide la informacin en
diferentes grupos.
A diferencia de la
clasificacin, no se sabe
donde habr clster o con
que atributos de los datos
se harn los clsteres.
Algoritmo K-means y
Mapas de Presentacin de
Kohonen
Clustering schemes

Basado en Distancia
(Distancia entre vectores)
Basado en Particin
(Enumera y valora)
Basado en Modelo(

ALGORITMO K-MEANS
Initial seeds

ALGORITMO K-MEANS
Nuevos Centros

ALGORITMO K-MEANS
Centros Finales

MODELO LGICO
Mining Model Training Data Mining Model To Predict
algorithm

DB data
Client data
Application data

Data Mining
Engine

Mining Model

DB data
Client data
Application data
Just one row

Data Mining
Engine

Predicted Data

MODELO FSICO
Interfaz Grfica

App Data

OLE DB/ ADOMD/ XMLA


Resultado de la
Evaulacion
Analysis Services
Server

Mining Model
Data Mining Algorithm

Data
Source

MINERIA DE DATOS
DISTRIBUIDA

Hacer frente a plataformas


heterogneas, con mltiples
bases de datos y
(posiblemente) diferentes
esquemas
Disear e implementar
protocolos escalables y
eficaces para la
comunicacin con los datos
de los sitios.
Combine informacin recin
adquiridos que previamente
no estaban disponibles
cuando los modelos se
calcularon con los modelos
existentes
La flexibilidad para incorporar
nuevas tcnicas de minera
de datos

Вам также может понравиться