Академический Документы
Профессиональный Документы
Культура Документы
Primera Parte
Introduccin
OLTP VS OLAP
Limpieza de datos e integracin
Segunda Parte
Modelo de datos y diseo de Bodegas
Tercera Parte
Minera de Datos
Cual es el canal de
distribucion mas
Efectivo?
Que producto
tiene el mayor impacto
en las ganancias?
OLTP
Orientado a aplicaciones
Usado para manejar
negocios
Usuarios de oficina
Detalle de datos
Datos actuales
Accesos repetitivos en
pequeas transacciones
Acceso de lectura y
escritura
OLAP
Orientado a un tema.
Usados para analizar
negocios
Administrador/Analista
Suma de datos
Datos tomados en cierto
periodo.
Accesos usando
bsquedas extensas.
Mayormente lectura
(Cambios por lotes)
Variante en el Tiempo
5 a 10 aos
Sofisticado Fotos de Datos
Llave debe contener
elemento de tiempo
No Voltil
Manipulacin
De datos registro
a registro
Carga/Acceso en
Masa
Retroalimentacion
UNIDAD
OLTP
UNIDAD
OLTP
LIMPIEZA DE
DATOS
E
INTEGRACION
Bodega de
Datos
UNIDAD
OLTP
Cambios/retroalimentacin
Datos Sucios
Multiplicidad de cdigos
Igual significado EN LA WEB, es igual que EN
INTERNET .
Varios Estndares.
Bodega de Datos
appl A - m,f
appl B - 1,0
appl C - x,y
appl D - male, female
appl A - pipeline - cm
appl B - pipeline - in
appl C - pipeline - feet
appl D - pipeline - yds
m,f
pipeline - cm
Inconsistencia
Cdigos mal digitados (El codigo de genero es M/F,
se encuentran datos con 1/0).
Cdigos que no tienen significado (AL), no tiene
ningn significados en los cdigos usados.
Inconsistencia de datos duplicados (Dos datos son
encontrados con la misma persona pero ambos
tiene direcciones difentes)
Problema a Detectar
Tecnica Usada
Valores No Legales
Falta de Estandares
Comparacion de Columnas
(Compara los valores en
determinada columna en toda la
tabla)
Retos
Nombres diferentes
Estructuras diferentes
Tipo de datos diferentes
Campos Faltantes
Semntica diferente
Por ejemplo :
Carros (Noserie, Modelo, Color, Estero..)
Autos (Serialnr, Model, Color)
Optionen(Serialnr, Stereo,..)
Mediador
Extractor
Extractor
Extractor
Extractor
Crea una vista comn para toda las fuentes de
datos.
Realiza el puente en las diferencias de nombre,
tipos y estructuras.
Mediador
Construye e integra esquemas.
Realiza la integracin de datos y pasa la
informacin a la bodega de datos.
Cruce de datos.
Se ejecutan varios Queries contra las fuentes de datos y se
verifica que el resultado de estos Queries sea el mismo que el
datos con los datos seleccionados del proceso ETL.
Aplicacin
Existente
Tiempo de
Cambio (TimeStamp)
-----
Aplicacin
Existente
-----
Aplicacin
Existente
Archivo de Log
Antes
-----
Codigo de
Aplicacion
Despues
Cambios
desde la
ultima carga
Diseo Lgico
Esquema en Estrella
Una sola tabla de hechos, y una tabla de dimensin
por cada dimensin.
Soportado por mltiples RDBMS
Dimensin de Tiempo
Obligatoria en la mayora de las bodegas de datos.
Tiene varios significados y tcnicas roll-up
dependiente del contesto.
Calendario simple
Calendario Fiscal
Calendario Acadmico
Llaves Subrogadas
Todas las llaves de las tablas de la bodega de
datos deben ser llaves subrogadas, es decir
no deben significar nada respecto a las
caractersticas de su contenido ni a su fuente
en los sistemas fuente. No se deben utilizar
las llaves originales de un sistema fuente del
cual fueron extradas. Estas llaves subrogadas
se manejan con enteros.
Granularidad
Predecir:
Regresin
Clasificacin
Descriptivo:
Clientes Anteriores
Edad
Salario
Profesion
Localidad
Tipo de Cliente
Clasificador
Arboles de
Decision
Salary > 5 L
Prof. = Exec
Salario < 1 M
Prof = teacher
Bueno
Malo
Edad < 30
Malo
Bueno
Industria
Finanzas
Seguros
Telecomunicaciones
Transporte
Aplicacin
Anlisis de Tarjetas de Crdito
Reglamos y Anlisis de fraudes
Anlisis de Llamadas
Manejo de Logstica