You are on page 1of 116

Creando el prximo Data Warehouse: Integracin y Calidad de Datos

Sesin 1: Fundamentos del DWH Luis Guilln


1

Agenda
Sesin 1:
Fundamentos del DWH

Sesin 2:
Fundamentos de la Calidad de Datos

Sesin 3:
Caso prctico: Un DWH con Calidad

Agenda Sesin 1
Presentacin PowerData Presentacin asistentes: Conocimientos y Expectativas Fundamentos DWH
Introduccin al DWH Arquitectura de un DWH Modelado de Datos y Metadatos Esquemas en Estrella Procesos y Estrategias de carga del DWH Herramientas de Integracin de Datos Herramientas de Reporting y Anlisis

Presentacin PowerData

4 4

Presentacin PowerData
Empresa lider especializada en Data Management Colaboradores de Informatica Corporation en Espaa (Elite Partner), Chile, Argentina, Per y Uruguay (Distributor)
www.powerdata.es www.informatica.com

Informatica
Nacida en 1993, en California +1.400 colaboradores

Powerdata
Nacida en 1999, en Barcelona 90 empleados

La solucin: los servicios de datos


Necesidades empresariales
Mejorar decisiones y cumplir con la normativa Modernizar el negocio y reducir los costes de TI Eliminacin de sistemas heredados Fusiones y adquisiciones Aumentar la rentabilidad del negocio Subcontratar funciones secundarias

Iniciativas de TI Proyectos de integracin de datos

Inteligencia empresarial

Consolidacin de aplicaciones

Hubs de productos, proveedores y clientes

BPO SaaS

Almacenamiento de datos

Migracin de datos

Consolidacin de datos Servicios de datos

Gestin de datos maestros

Sincronizacin de datos

Servicios de datos

Plataforma de productos de Informatica Informatica PowerExchange Informatica Data Explorer Informatica Data Quality Informatica PowerCenter

La plataforma de productos de Informatica


Automatizacin de todo el ciclo de vida de la integracin de datos

Auditora, control y creacin de informes


Garantizar la coherencia de los datos, realizar anlisis de impacto y supervisar constantemente la calidad de la informacin
Data Explorer Data Quality

Acceso
A cualquier sistema, por lotes o en tiempo real

Deteccin
Buscar y perfilar cualquier tipo de datos de cualquier fuente

Limpieza

Integracin
Transformar y conciliar datos de todo tipo

Entrega
Entregar los datos adecuados en el momento y formato adecuados

Validar, corregir y estandarizar datos de todo tipo

PowerExchange

PowerCenter

Desarrollo y gestin
Desarrollar y colaborar con un repositorio comn y metadatos compartidos

Presentacin Asistentes:

Conocimientos y Expectativas

8 8

Fundamentos del DWH

Fundamentos del DWH


Introduccin al DWH: Qu es? Arquitectura de un DWH Modelado de Datos y Metadatos Esquemas en Estrella Procesos y Estrategias de carga del DWH

Herramientas de Integracin de Datos


Herramientas de Reporting y Anlisis

10

Fundamentos del DWH


Introduccin al DWH: Qu es?

11

Qu es un Data Warehouse?
Orientado a un Tema
Coleccin de informacin relacionada organizada alrededor de un tema central

Integrado
Datos de mltiples orgenes; consistencia de datos

Variable en el tiempo
Fotos en el tiempo Basado en fechas/periodos

No-voltil
Slo lectura para usuarios finales

Menos frecuencia de cambios/actualizaciones


Usado para el Soporte a Decisiones y Anlisis de Negocio
12

Orientado a Tema
Los usuarios piensan en trminos de cosas y sus relaciones, no en trminos de procesos, funciones o aplicaciones.

Proveedor

Pedido

Realiza

Cliente

Proporciona Orden de Compra

Contiene Inventario

Producto Compuesta por

Recuperado desde

13

Integrado

Contiene
Convenciones de Nombres Descripciones Atributos fsicos de los datos Valores de los datos

Consistentes

Admin. Marketing Operaciones Datos

Ventas Cuentas

14

Variable en el tiempo
Entorno Operacional

Data Warehouse
Datos en fotos Horizonte de 5 10 aos Refleja la perspectiva desde un momento en el tiempo

Datos con valores actuales

Horizonte de 30 - 90 das
Exactitud en los accesos

Id de cliente nombre direccin telfono ratio de crdito

Id de cliente fecha desde fecha hasta nombre direccin telfono ratio de crdito

15

No-Voltil

insercin

cambio lectura

carga

borrado

Sistema OLTP
(dinmico)

Sistema DSS
(ms esttico)

16

Un Data Warehouse es ...


un modelo de datos de soporte a decisiones que representa la informacin que una compaa necesita para tomar BUENAS decisiones estratgicas. basado en la estructura de un sistema de gestin de base de datos relacional el cual puede ser usado para INTER-RELACIONAR los datos contenidos en l. con el propsito de proporcionar a los usuarios finales un acceso SENCILLO a la informacin.

un CONCEPTO, no una COSA


17

Para qu construir un Warehouse?


Para tener un mayor conocimiento del negocio Para tomar mejores decisiones y en un tiempo menor Para mejorar y ser ms efectivos Para no perder distancia con la competencia en definitiva

18

Visin del Usuario


Panel de Consulta
Representacin de Negocio

Usuarios Finales

Base de Datos

Solucin integrada de: Consultas, informes y anlisis.


Capa semntica que da una representacin de los datos desde el punto de vista de negocio.

Los usuarios utilizan trminos de negocio, no trminos informticos.


19

Fundamentos del DWH


Arquitectura de un DWH

20

Arquitectura de un DWH
Nomenclatura

21

DWH: Data Warehouse DataMart OLTP: On-Line Transaction Processing OLAP: On-Line Analytic Processing ROLAP: Relational On-Line Analytic Processing MOLAP: Multidimensional On-Line Analytic Processing ODS: Object Data Store DSS: Decision Support System ETL: Extract, Transform and Load ETQL: Extract, Transform, Quality and Load EII: Enterprise Information Integration EAI: Enterprise Application Integration ERP: Enterprise Resource Planning

Directo de OLTP a OLAP

Life
Life Information System Life OLAP

Health
Health Information System Health Query

Auto Information System

Auto
Auto Analysis

22

Directo de OLTP a OLAP

Es bueno, si los datos lo son.


Horizonte de tiempo limitado Compite con OLTP por los recursos Uso frecuente para hojas de clculo No tiene metadatos (o slo implcitos) Principalmente, para jefes de departamentos, no se considera informacin para las masas No hay informacin cruzada entre los diferentes sistemas
23

Data Warehouse Virtual: Directo o Federado

Life
Life Information System

Health
Health Information System

EII
"Customer" OLAP

Auto Information System

Auto

24

Data Warehouse Total


Extract: COBOL, SQL, Etc.
Life OLAP MDD Tools

Life
Life Information System

Health
Health Information System

Extract: COBOL, SQL, Etc.

Enterprise Data Warehouse


Health R/OLAP Star Schema

Auto
Auto Information System

Extract: COBOL, SQL, Etc.

Auto SQL Query

25

Data Marts No Estructurados


Extract: COBOL, SQL, Etc. Life Data Mart

Life
Life Information System

Life OLAP MDD Tools

Health
Health Information System

Extract: COBOL, SQL, Etc.

Health Data Mart

Health R/OLAP Star Schema

Auto
Auto Information System

Extract: COBOL, SQL, Etc.

Auto Data Mart

Auto SQL Query

26

Data Marts Estructurados


Life OLTP EXTRACT SELECT TRANSFORM INTEGRATE LOAD Life Data Mart
Life OLAP MDD Tools

Health OLTP

Cleanse Data for: Names Formats Values Domains Metadata

Enterprise Data Warehouse "Customer"

Health Data Mart

Health R/OLAP Star Schema

Auto OLTP

Auto Data Mart

Auto SQL Query

27

OLAP (Online Analytic Processing)


Herramientas orientadas a consulta/anlisis

Puede ser ROLAP o MOLAP


'Multi-dimensional', es decir, puede ser visualizada como cuadrculas' o 'cubos'

Consulta interactiva de datos, siguiendo un hilo a travs de mltiples pasos -- 'drill-down'


Visualizacin como tablas cruzadas, y tablas pivotantes


28

Actualizacin de la base de datos


Capacidad de modelizacin (motor de clculo) Pronsticos, tendencias y anlisis estadstico.

Ejemplo uso de una herramienta de consulta


Informacin solicitada

Informacin disponible

Condiciones

29

El interfaz de usuario simple Trabaja contra representacin de negocio de los datos Todos los componentes en una pantalla

Los informes son la capa visible


Integracin Datos no slo en entornos analticos Importancia de la Calidad
Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Extraccin Limpieza de Datos

Servidores Red Bases de Datos

Transformacin Middleware
Carga de Datos
30

Data Marts Estructurados: Visin Completa


Ficheros: FF, XML DM Compras Aplicaciones: ERP,...

BBDD Integracin + Calidad de Datos Tiempo Real, WS, Http

DWH

DM Financiero

DM Ventas Legacy Diseo Mapeos Perfilado de Datos ETL, Estandarizacin, Desduplicacin Almacenamiento: Agregacin, Indexacin,... Replicacin Distribucin Anlisis Reporting Cuadros Mando

Metadatos: Anlisis Impacto, Linaje de datos, Auditora, Monitorizacin, etc


31

Fundamentos del DWH


Modelado de Datos y Metadatos

32

Tcnicas de Modelizacin Estructural


En esta seccin veremos tcnicas que afectarn a diversos puntos
Consideraciones de Tiempo
Tcnicas de Optimizacin

33

Consideraciones de Tiempo
Staging Area Data Warehouse Data Marts Relacional Dimensional

ESTRUCTURAL

Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico

Todo el DW se ve afectado por cambios temporales porque por definicin es Tiempo-dependiente


Preguntas importantes:
Cuan actual deben ser los datos para satisfacer las necesidades de negocio? Cunta historia necesitamos en nuestro negocio? Qu niveles de agregacin son necesarios para qu ciclos de negocio?
34

Tiempo

Cul es el impacto del Tiempo en cada Almacn de Datos?

Tcnicas de Modelizacin Temporal


Unidades de tiempo
Calendarios de negocio

Tcnicas
Foto (Snapshot) Trazado de Auditora

Metadatos temporales
Fechas Efectivas de Inicio y Fin Fecha de cambio en Fuentes (evento) Fecha de cambio en Destinos (carga)

35

Foto (Snapshot)
Dos tcnicas diferentes Mltiples Tablas

Tabla nica
Uso de Fecha Efectiva Inicio en un ejemplo. Metadatos a nivel de registro
Foto (SNAPSHOT) Nov 2001 CLIENTE CLIENTE Num Cliente Oct 2001 CLIENTE Nombre Apellido1 Num Cliente Apellido2 Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga O bien Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga

36

Foto (Snapshot) Mltiple


Una tabla para cada perodo Se guardan TODOS los datos (cambien o no) Nombre de la tabla refleja el perodo Buen enfoque de (extraccin/carga/modelado) para Data Marts. Cada mes, en el ejemplo, representa los datos tal y como estaban Mal enfoque para Staging, ya que hay mucha replicacin de datos Foto (SNAPSHOT)
Nov 2001 CLIENTE Num Cliente Nombre Oct 2001 CLIENTE Apellido1 Apellido2 Num Cliente Gnero Nombre Fecha Carga Apellido1 Apellido2 Gnero Fecha Carga

CLIENTE O bien Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga

37

Foto (Snapshot) nica


Se guardan TODOS los datos (cambien o no) Buen enfoque para Data Marts y puede ser til en el Warehouse.

Mal enfoque para Staging, ya que hay mucha replicacin de datos


Time Stamps imprescindibles
Foto (SNAPSHOT) Nov 2001 CLIENTE CLIENTE Num Cliente Oct 2001 CLIENTE Nombre Apellido1 Num Cliente Apellido2 Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga Fecha Efectiva de Negocio

O bien

38

Foto (Snapshot) nica


Fechas (Time Stamps) necesarias para identificar la validez de los datos:
Fecha efectiva de Inicio Fecha efectiva de Fin (no est en el ejemplo) Fecha de Carga
Num Cliente Fecha Efectiva Inicio 2304 31/10/2001 5590 31/10/2001 6720 31/10/2001 7841 31/10/2001 2304 30/11/2001 5590 30/11/2001 6720 30/11/2001 7841 30/11/2001 Vemos la duplicidad de los datos
39

Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Juan Reyes Julia Picado Carlos Mrquez Luis Tesquilo

Gnero Hombre Mujer Hombre Hombre Mujer Hombre

Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001 01/12/2001 01/12/2001 01/12/2001

Trazado de Auditora
CLIENTE ID_cliente nombre apellido1 apellido2 gnero fecha_aniversario

Guarda los cambios de los datos de inters Informacin:


Fecha del cambio Razn del cambio Cmo se ha detectado

AUDITORIA CLIENTE ID_cliente fecha_inicio_efectiva nombre apellido1 apellido2 gnero fecha_aniversario fecha_carga

Metadato a nivel registro

...

Slo se extraen/cargan valores modificados


40

Fecha de Negocio (no Metadato)

Trazado de Auditora
Num Cliente 2304 5590 6720 7841 5590 Fecha Efectiva Inicio 31/10/2001 31/10/2001 31/10/2001 31/10/2001 30/11/2001 Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Julia Picado Gnero Hombre Mujer Hombre Fecha aniversario 01/01/1964 06/03/1948 19/09/1960 25/07/1952 06/03/1948 Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001

Mujer

Slo cambios en la tabla Usado en Staging Area y Data Warehouse

Posible en Data Marts, pero no es habitual ya que no es claro para un usuario final
41

Tcnicas de Optimizacin Estructural y Fsica


Staging Area
ESTRUCTURAL

Data Data Marts Warehouse Relacional Dimensional

Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico Seguridad Distribucin Acceso Navegacin Herramientas Rendimiento Tamao Disponibilidad Recuperacin DBMS Cmo debe optimizarse cada almacn de datos en la Implementacin?

42

Implementacin

FSICO

Uso

Posicin

Tiempo

Tcnicas de Optimizacin
Derivacin
Data Warehouse y Data Marts Usos
Facilitar acceso Consistencia resultados
PLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos

PLIZA

va Deri

cin

num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio

una de

total_suplementos= supl_terremotos + supl_inundaciones + supl_viento + supl_robo + supl_arte

PLIZA_AUTOMOVIL

num_pliza total_colisin ...

43

Tcnicas de Optimizacin
Agregacin
No cambio de granularidad Objetivo: Facilitar el acceso a los datos
Data Warehouse
PLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga

PLIZA num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga

una de

PLIZA_AUTOM OVIL num_pliza total_colisin descuento_cliente indic_precio_especial fecha_carga

AGREGACIN

PLIZA RESIDENCIAL num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga

AGREGACIN
PLIZA_AUTOM OVIL num_pliza total_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga

44

Data Marts

Tcnicas de Optimizacin
CLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga RESUM EN ANUAL CLIENTES id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

Sumarizacin
Histrica Agrupada

AO num_ao

BASE CLIENTELA ANUAL id_zona id_producto cdigo_tipo num_ao cuenta_cliente

TRIM ESTRE num_trimestre

BASE CLIENTELA id_zona id_producto cdigo_tipo num_mes cuenta_cliente

M ES num_mes

45

Tcnicas de Optimizacin
Particionamiento Horizontal
Particiones por filas Todos los campos repetidos en las nuevas tablas Uso
Aislar datos sensibles Reduccin tamao tablas
RESUM EN ANUAL CLIENTES id_cliente ao_resumen cdigo_regin valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

RESUM EN ANUAL CLIENTES - SUR id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

RESUM EN ANUAL CLIENTES - NORTE id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente

46

Tcnicas de Optimizacin
CLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito fecha_carga Campos con Datos no Sensibles Campos con Datos Sensibles

Particionamiento Vertical
Divisin por columnas Posibilidad de columnas redundantes Uso
Seguridad Distribucin

Puede ser que tengamos Horizontal y Vertical a la vez


47

CLIENTE

CLIENTE_SEGURO id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito

id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga

Tcnicas de Optimizacin
Particionamiento por Estabilidad
Basado en frecuencia de cambio
PLIZA RESIDENCIAL num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin supl_pieles supl_arte supl_joyas supl_otros fecha_carga

Uso en Staging Area


Velocidad de carga Separar datos ms voltiles minimiza cambios

PLIZA RESIDENCIAL

Claves Primarias en ambas tablas

num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin fecha_carga

PLIZA RESIDENCIAL num_pliza fecha_inicio_pliza supl_pieles supl_arte supl_joyas supl_otros fecha_carga

48

Metadatos a Nivel Registro en ambas tablas

Tcnicas de Optimizacin
Fichero M aster Ventas

Claves Alternativas
Caso especial de derivacin

Nmero_factura Nmero_cliente ...

Identificador Factura Identificador Cliente

Creada artificialmente para identificar entidades


Habitualmente un entero Staging DW DM Hay que mantener un mapeo

Fichero M aster M arketing ID_campaa ID_cliente ... PLIZAS ID_Pliza ID_Tomador ... Identificador Pliza Identificador Asegurado Identificador campaa Identificador Cliente

Generacin Claves Alternativas

M APEO_ID_CLIENTE cdigo_sist_origen id_cliente_origen fecha_inicio fecha_fin num_id_cliente fecha_carga

CLIENTE num_id_cliente fecha_alta fecha_baja grupo_edad ... fecha_carga

49

Tcnicas de Optimizacin

PLIZA_AUTOMOVIL

VEHCULO num_bastidor fecha_inicio_vehculo num_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga

Pre-Joins
Caso especial de Agregacin Data Warehouse y Data Marts

num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminostotal_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza ... fecha_carga

Existe redundancia de Informacin


Incrementeo uso espacio

PLIZA_Y_VEHCULO num_bastidor fecha_inicio_vehculo num_pliza fecha_inicio_cobertura fecha_fin_cobertura trminostotal_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga

Acceso mucho ms rpido En el DW


Mantendremos tambin las tablas separadas para cuando no necesitemos la Join
50

Tcnicas de Optimizacin
Cadenas de Datos
Caso especial de Agregacin Eficiente para Reporting

NUNCA en operacionales o Staging, pero muy til en DW y DM

51

Tcnicas de Optimizacin
Balancear diferentes Factores
Rendimiento Seguridad Distribucin

Recuperacin errores Tamao & Crecimiento

Bases de Datos del Data Warehose Estabilidad

Histrico Plataforma Acceso & Navegacin

52

Fundamentos del DWH


Esquemas en Estrella

53

Puntos Fuertes de la Modelizacin Dimensional


Coincide con las percepciones de los usuarios

Estructura predecible, estndar


Facilita el desarrollo de consultas y anlisis Las herramientas OLAP pueden hacer suposiciones Cada dimensin es equivalente para todos los datos Puede ser modificada fcilmente

Usa perspectivas de modelizacin comunes


Simplifica la agregacin
54

Modelizacin Dimensional Regla de Oro

Los Esquemas en Estrella deberan ser utilizados para cualquier dato accedido directamente por los usuarios finales.

55

El Esquema en Estrella
Hechos Dimensiones

De-normalizado (generalmente)
Tiene caminos de unin bien diseados Paraleliza la visin de los datos por el usuario Son fcilmente modificables Simplifica la comprensin y navegacin por los metadatos Amplia la eleccin de herramientas de usuario final
56

Modelizacin Dimensional
Tablas de Hechos: contienen datos cuantitativos sobre el negocio
La clave primaria es una concatenacin de claves de dimensin, incluyendo el tiempo Cada elemento de la clave primaria compuesta es una clave de integridad referencial hacia una tabla de dimensin. Contienen menos atributos, pero muchos ms registros

Tablas de Dimensin: gestionan datos descriptivos que reflejan las diversas dimensiones del negocio
Contienen muchos atributos pero menos (pocos) registros La clave primaria ayuda a componer las claves primarias de las tablas de hechos

57

Esquema en Estrella (conceptual)

58

Diseo de una Tabla de Hechos


Elija el PROCESO del Data Mart
Comience el contenido del data mart a partir de datos de un solo origen

Defina la GRANULARIDAD de la tabla de hechos


Elija el nivel granular ms bajo posible Transacciones individuales o fotos

Elija las DIMENSIONES


Reflejan el contenido de la tabla de hechos y la granularidad

Elija los HECHOS


Los hechos individuales y el mbito de estos hechos deben ser especficos a la granularidad de la tabla de hechos
59

Identifique el Proceso Departamental


Cul es el proceso o funcin subyacente para el DM? Cul es el mbito aproximado del DM? Quin usar el DM? A qu preguntas les gustara a los usuarios que contestaran los datos del DM?

60

Determine los Hechos


Qu hechos estn disponibles?
Cules son los datos cuantitativos fundamentales que hay por debajo? Los hechos ms tiles son los numricos y aditivos

Qu nivel de detalle (granularidad) necesita mantener?


Sern datos atmicos (todo el detalle) o datos agregados (sumarizados)?
Si son agregados, cmo (usando qu algoritmo)? Para qu propsito de negocio?

Cul es la frecuencia de carga de datos requerida?


Cada transaccin? Cada hora? Da? Semana? Mes?
61

Tablas de Hechos Sin Hechos - EVENTOS


Eventos: Algo que ha ocurrido
Ejemplo: Asistencia de estudiantes a una clase, asientos de pasajeros de lnea area o habitaciones de hotel ocupadas

Enlace el evento a:
Tiempo / estudiante / profesor / curso / facilidades

Tpico para crear un hecho vaco


Asistencia = 1

La granularidad es el evento individual de asistencia a clase


FUENTE: Kimball, 1998

62

Las Agregaciones Pueden:


Asegurar la consistencia entre data marts
Ser hechas reutilizables para mantenerlas de manera centralizada Mejorar el rendimiento del usuario Reducir los recursos necesarios para preparar las consultas (CPU, disco, memoria) Ser utilizadas en base a:
Frecuencia de acceso Efecto del nmero de registros
63

Determine las Dimensiones


Qu dimensiones pueden necesitar los usuarios?
Cules son los conceptos fundamentales (entidades o temas) con los que los usuarios trabajarn?

Siempre existirn al menos dos dimensiones; quiz hasta una decena. El tiempo ser una dimensin prcticamente siempre Cul es el identificador (clave primaria) de cada una de las dimensiones?
No_Cliente, ID_Cuenta, NoFactura

Los atributos de la dimensin se convierten en las cabeceras de los registros SQL

64

Para Cada Tabla de Dimensin


Establezca la clave primaria para cada registro dimensional

Use la clave primaria como una parte de la clave compuesta de la tabla de hechos
Identifique los atributos de inters para los usuarios
Qu atributos deben ser de-normalizados? Qu otros atributos podran tener valores significativos? Hay alguna oportunidad de incluir datos de fuera? Cules?

Aydese de los valores reales contenidos en los atributos

65

La Dimensin de Tiempo
Debe ser da a da durante 5-10 aos

Separe los campos de semana, mes, da, ao, da de la semana, vacaciones, estaciones, etc.
Trimestres naturales y fiscales Crela como una sola tabla en el DWH Cargue el contenido en los DM a medida que se necesiten

66

Establezca Relaciones
Dibuje la relacin visualmente Identifique la cardinalidad (1-N) Entre la tabla de hechos . . . y cada tabla de dimensin Una Imagen vale ms . . .

67

Mtodos para Identificar Dimensiones y Hechos


Informes de Concepto Reuniones y Entrevistas

Requerimientos Especiales del Proyecto


Documentos sobre mbito del Proyecto Peticiones de Informacin Cartas a los Reyes Magos Modelos y Bases de Datos Existentes Informes Actuales (y Deseados)
68

Ejemplo: Intereses de la Divisin Financiera


La divisin financiera ha preparado la siguiente lista de funcionalidades deseables en el data mart.

Muchos de estos datos son informacin de cliente / demogrfica.


Nos permitir evaluar el impacto de costes en nuestros clientes, ubicacin y uso por nuestros clientes, costes incurridos por ubicacin para servir a nuestros clientes y otros tipos de evaluaciones financieras relativas a costes, uso, etc. Este tipo de informacin ser muy valiosa para dirigir los aspectos financieros y polticos de las planificaciones y soluciones futuras a los problemas actuales. Esta informacin nos permitir contestar mejor a las importantes preguntas que aparecern durante ese proceso.
69

Ejemplo: Frase de Ejemplo de Misin


Capture datos de nuestro sistema para realizar evaluaciones por zonas de nuestros clientes, intereses y beneficios y para asesorar el impacto de costes sobre nuestra base de clientes.

70

Ejemplo: Preguntas a la Divisin Financiera


1. Datos demogrficos de nuestros clientes - el tipo de datos que aparece en un censo (tipo de vivienda, valor de la vivienda, ocupacin, sexo, educacin, ingresos, etc.) Puede ser usado para enviar mensajes oficiales, evaluacin de intereses de penalizacin, y mercado objetivo. 2. Clientes por clase de inters definicin por clientes residenciales, comerciales, industriales, gobierno y multifamiliares. Beneficio demogrfico por cliente y consumo como valor de la vivienda, ingresos o educacin.

3.
71

Ejemplo: Preguntas a la Divisin Financiera (2)


4. Informacin sobre el servicio al cliente incluyendo beneficio por los diferentes tipos de intereses y cobros por zona geogrfica, beneficio y consumo. 5. Beneficio total por clase de cliente y categora de intereses a lo largo de los ltimos cinco aos. Qu clases de clientes dan ms beneficio?

6. Presupuesto del ao en curso por zona debe mostrar el presupuesto actual y en qu reas se han ido incurriendo esos costes.
7. Valor de activos por zona un informe que muestre el valor depreciativo de los activos propios por zona.

72

Ejemplo: El Esquema Financiero en Estrella

73

Fundamentos del DWH


Procesos y Estrategias de Carga del DWH

74

Mapeo de Datos
Mapeo LGICO describe cmo ir desde donde se encuentra hasta donde quiere ir

Mapeo FSICO Indica las rutas, baches, desvos atajos de la carretera

TRANSPORTE Decida si est conduciendo un coche deportivo o un camin de recogida de chatarra

PLANIFICACIN Indica cundo saldr y cunto espera que le lleve llegar al destino
75

Soluciones de Extraccin, Transformacin y Carga de Datos (ETL)

Aproximacin de primera generacin (o crecimiento casero) Mapean origen a destino con capacidades variables de transformacin y limpieza Generan cdigo o directamente deben programarse Suelen controlar metadatos limitados

FUENTE: Doug Hackney, 1998

76

Plataformas de Integracin de Datos


Soluciones integradas Capacidad de implantacin a nivel corporativo Metadatos completos, abiertos y extensibles Abanico de transformaciones y reglas de negocio Anlisis, entrega y planificacin integradas Gestin Ad-hoc de agregaciones Monitorizacin y Auditora integradas Funciones avanzadas de Calidad de Datos

Versionados, despliegues inteligentes


77

Proceso de Diseo
2. IMPORTACIN DE DEFICIONES DE ORGENES

1. CREACIN DE REPOSITORIO
4. CREACIN DE MAPPINGS

Def Origen Mapeo Def Destino 3. CREACIN DE ESQUEMA DESTINO

78

Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos
Gestin de fechas Seleccin o filtrado de datos origen

Unin de orgenes heterogneos (SAP+Ficheros+Tablas+)


Normalizacin de los ficheros de datos Generacin de esquemas en estrella Creacin de estrategias de actualizacin Creacin y actualizacin de agregaciones

Creacin de dimensiones slowly-changing


79

Algunas Transformaciones
Seleccin de datos del Origen representa la consulta o primer filtrado/ordenacin de los datos origen Normalizacin convierte registros de orgenes relacionales o VSAM a registros normalizados (clusulas OCCURS, REDEFINES) Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo Filtro funciona como un filtro condicional de los registros procesados Agregacin realiza clculos agregados (totales o incrementales) Rango limita los registros a los primeros o ltimos de un rango Estrategia de Actualizacin para marcar cada registro como insercin, actualizacin, borrado, o registro rechazado Lookup busca valores complementarios y los pasa a otros objetos Procedimientos Externos/Almacenados llama a programas desarrollados en otros lenguajes o en la base de datos Generador de Secuencia genera nuevos identificadores nicos
80

Trabajo con Transformaciones


Ejemplo: Estrategia de Actualizacin

ORIGEN

EXTRACCIN DEL ORIGEN

LOOKUP Busca Job_IDs en el destino T_JOBS

ESTRATEGIA DE ACTUALIZACIN Basado en la coincidencia de Job_IDs,

DESTINO

81

Diseo de Cargas
Ordene los datos por secuencias especficas de carga Fuerce a reglas limitadas de integridad de datos Busque la carga correcta de cada paso Construya estadsticas de carga y mensajes de error Cree el plan para cargas fallidas qu debe ocurrir Produzca la notificacin inmediata y automtica en caso de fallos (y/o xitos) en las cargas
FUENTE: ONeil, 1997
82

Consejos sobre Planificacin de Cargas


Orden de carga cargue primero las tablas independientes

Determine la ventana necesaria de carga use las horas de


inicio y final para determinar el tiempo necesario para las cargas

Ejecute cargas en paralelo


Ejecucin concurrente Uso de threads, desarrollos multiproceso, paralelizacin de base de datos No sobrecargue los sistemas origen o destino

Carque en paralelo un mismo destino


Datos de sistemas independientes que van al mismo destino

Cargue mltiples destinos en paralelo


Datos del mismo origen que vayan a diferentes destinos ahorre accesos de lectura
83

Plan de Carga de Destinos


Primero, tablas independientes Despus, tablas que no contienen claves forneas a otras tablas Por ltimo, las tablas que contienen claves forneas a otras tablas Tenga cuidado con transacciones de base de datos e intervalos de commit: los datos pueden estar cargados pero no validados

84

Planificacin de Cargas Timing


Ejecucin manual
Ejecucin peridica
cada n minutos/horas/das un mximo de veces/ para siempre

Planificacin

Planificacin propio de la herramienta


Planificador genrico

Control^M, Tareas Programadas de Windows

Ejecucin concreta

En un momento determinado Cada primer martes de mes a las 21:43

Scripts de carga (.bat, .sh, JCL)

Ejecucin basada en eventos


Disponibilidad del fichero origen Slo si la carga anterior acab bien/mal

85

Monitorizacin de Cargas
El mantenimiento de un data mart es una revisin constante de los procesos para optimizar valores de datos, pasos, tiempos, recursos utilizados, accesos a sistemas origen o destino debido a los constantes requerimientos nuevos de los usuarios finales y el crecimiento en funcionalidad y volumen de datos que eso conlleva

86

La Creacin de un Data Warehouse Sostenible y sus Data Marts Incrementales Requiere la Automatizacin de los Procesos de Carga

87

Fundamentos del DWH


Herramientas de Integracin de Datos

88

Integracin de Datos, ms all del BI


El ETL se ha quedado relegado a entornos analticos Aparecen necesidades de Integracin de datos para otro tipo de proyectos
Externalizacin Migraciones

Integracin de Aplicaciones, BBDD


Sincronizacin etc

89

Un proceso simple?

ETL

90

Ensanchando el concepto de Integracin de Datos


EIM, Content Management

Metadatos
Data Web Services (SOA)

Complex Data Exchange

Data Grid

Data Profiling

High Availability

Quality ETL Federation DWL

Real Time

Aplicaciones y Midleware
(SAP, Siebel, TIBCO, Biztalk, )

EAI

BI
Changed Data Capture Mainframe Auditing Scheduling Team Base Develop/
(BO, SAS, Microstrategy, Hyperion, Cognos )

Bases de Datos
91
(Oracle, Microsoft, IBM, )

Acceso Universal a los Datos


Entrega de datos a Sistemas, Procesos y Organizaciones
Systems
IBM MQSeries TIBCO webMethods SAP NetWeaver XI SAP NetWeaver SAP IDOC SAP BCI SAP DMI SAP BW Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS Web Services XML JMS ODBC Peoplesoft Oracle Apps Siebel SAS

XML, Messaging, and Web Services

Packaged Applications

Informix Teradata ODBC Flat Files Web Logs VSAM C-ISAM Complex Files Tape Formats

Relational and Flat Files

Mainframe and Midrange

Flat Files, XLS, PPT Oracle SQL Server FTP Encrypted Stream Industry Formats XML, PDF, DOC,

Etc etc .

92

Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (1/2)

Permite integrar mltiples fuentes de datos heterogneas Desarrollo de alta productividad

Herramientas de trabajo visuales. Interfaz grfico totalmente intuitivo


Asistentes de transformacin NO hay generacin de cdigo Deteccin de errores (debugger integrado)

Reutilizacin de componentes
Anlisis de Impacto Anlisis del Linaje de datos

Fcil de mantener: Metadatos corporativos



93

Presentacin Web Metadatos y Autodocumentacin


Metadatos extensibles Despliegues guiados. Rollback Versionado

Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (2/2)

Plataforma de Alto rendimiento


Grid computing Alta Disponibilidad Tolerancia a fallos y recuperacin automtica Soporte a cargas BULK Conectores WebServices, ESB, EAI Plataforma, recursos, volumen y usuarios

Capacidades de Tiempo real


Adaptabilidad y escalabilidad Capacidad de expandir las Transformaciones con mdulos externos (PL/Sql, C++, )

Autodocumentacin Planificador integrado

94

Informatica PowerCenter
Trabajar como pienso Del papel

TABLA REFERENCIA

DESTINO

MAESTRO

DATAWAREHOUSE

DETALLE

UNION

TOTALES

SALIDA _ XML

95

Informatica PowerCenter
a la prctica

96

Informatica PowerCenter Metadata Reporter


Presentacin web de los metadatos del repositorio

97

Fundamentos del DWH


Herramientas de Reporting y Anlisis

98

Tipos de Herramientas OLAP


Herramientas de Consulta y Generacin de Informes Consultas Ad Hoc Herramientas EIS Herramientas de Data Mining

Herramientas basadas en Web

99

On-Line Analytic Processing - (OLAP)


Perspectiva multidimensional de los datos
pueden ser vistos como cuadrculas de datos

Consulta interactiva de datos


seguimiento de un flujo de informacin mediante mltiples pasos de drill-down

Los resultados son mostrados como tablas cruzadas, o tablas pivotantes Capacidades de modelizacin
(incluyendo un motor de clculos)

Usado para anlisis de previsiones, tendencias y estadsticas


100

FUENTE:

Neil Raden, 1995

Caractersticas del Procesamiento OLAP


Acceden a volmenes de datos ENORMES Analizan las relaciones entre muchas dimensiones Involucran a datos agregados (ventas, presupuestos, beneficios, etc.) Comparan datos agregados a lo largo del tiempo Presentan los datos en diferentes jerarquas Realizan clculos complejos Pueden responder rpidamente a los usuarios
101

Motores Relacionales:
Almacenan los datos como lneas (registros) en tablas Todos siguen el mismo modelo relacional Se accede a ellos a travs de un lenguaje comn - SQL Tienen aproximadamente el mismo conjunto de funcionalidades

102

OLAP Relacional:
Permite el acercamiento mayor a las percepciones de los usuarios

NO requiere la regeneracin de la base de datos si cambian las dimensiones


No requiere ms trabajo de front-end

Posiblemente requiere menos re-trabajo a lo largo del tiempo


EST limitado por un conjunto de funciones disponibles Permite una granularidad ms flexible en los datos
103

OLAP Relacional (total):


Posee un potente generador SQL, capaz de crear consultas multi-pasada

Puede crear rangos no triviales, comparaciones y clculos de porcentajes respecto al total


Genera SQL optimizado, con extensiones Usa metadatos para modelos / consultas Est siendo promocionado por los fabricantes de BBDD

104

OLAP Multidimensional
Refleja los pensamientos de los usuarios sobre la actividad del negocio Hace referencia a cubos de datos Los cubos de ms de tres dimensiones se conocen como hipercubos El modelo de datos representado por el hipercubo es un modelo multidimensional Cualquier base de datos que pueda almacenar y representar ese modelo es una BD multidimensional
FUENTE: ONeil, 1997

105

Bases de Datos Multidimensionales: el HiperCubo

Ti

e
Product

Customer

MS: Regin Territorio Vendedor Etc.


106

OLAP Multidimensional
Normalmente almacena los datos como vectores internos

Proporciona un gran rendimiento ante las consultas


Porque los datos han sido preparados previamente dentro de la estructura A veces limitado a un nmero concreto de celdas del cubo

Dispone de libreras especiales de funciones Cambios en la estructura dimensional pueden requerir la regeneracin del cubo Requiere recursos que administren la generacin de las estructuras
107

. . . La Zona de Guerra

MOLAP ROLAP Propietario (SQL) SQL Estndar Vectores/Cubos Tablas/Registros Respuesta muy rpida Respuesta ms lenta Consultas de SQL flexibles Consultas predefinidas Funciones especiales Funciones limitadas Uso de perfiles existentes Nuevos perfiles de desarrollo
108

Argumentos de MOLAP contra ROLAP


Los gestores de bases de datos relacionales no gestionan las relaciones multidimensionales con eficiencia Inherentemente de dos dimensiones El SQL no es obvio para los usuarios finales

Las uniones mltiples y el pobre rendimiento son un serio problema


Las tablas denormalizadas absorben el rendimiento y los recursos

109

Argumentos de ROLAP contra MOLAP


Los cubos ofrecen niveles limitados de detalle No estn de acuerdo con el modelo dimensional

Las MDDs no disponen de un un mtodo de acceso estndar (como SQL)


No se pueden cambiar las dimensiones sin regenerar completamente el cubo El mbito de cada producto y su funcionalidad para el soporte a decisiones pueden variar ampliamente Cada herramienta es prcticamente de una categora diferente

110

Data Mining
Anlisis del Warehouse
Comienza con una hiptesis Busca aquellos datos que soportan esa hiptesis.
Muestra los clientes mayores que (asumimos que) compran los artculos ms caros

Data mining
El proceso crea la teora en base a la navegacin automtica por los datos
Quin compra realmente los artculos ms caros? Cules son sus nombres para el mercado indicado?
FUENTE: Computerworld, March 29, 1999

111

Herramientas de Data Mining:


Requieren datos detallados histricos Requieren una calidad de datos muy alta

Buscan patrones de comportamiento


Necesitan una seleccin equilibrada de variables

FUENTE: ComputerWorld, Mar 29, 1999


112

Seleccin de Herramientas Finales:


Debera ocurrir MS TARDE en el proceso La CLAVE de la seleccin de la herramienta son los usuarios finales: es la nica parte que vern de todo el proyecto de DW Enfquese hacia los requerimientos que solucionan problemas tcnicos y de negocio importantes para diferenciarlas Involucre a los usuarios finales que usarn las herramientas Compruebe sus funciones, facilidad de uso, integracin, metadatos, cuota de mercado y estabilidad

FUENTE: ONeil, 1997 (y others)


113

Mltiples Necesidades = Mltiples Herramientas


La realidad del data mart es que necesitar mltiples herramientas para dar soporte a los diferentes usuarios Use un nmero manejable de estas herramientas Estas herramientas deberan ser consideradas en los cambios de tecnologa y necesidades de usuarios

114

Sin Datos de Calidad


todo lo que Tenemos

son Opiniones

115

116