Вы находитесь на странице: 1из 98

Sistemas de Data Warehousing

Diseo e Implementacin

Gestin de Bases de Datos

Temario: Diseo Conceptual
Introduccin.
Diseo Conceptual: Modelos
Multidimensionales.
Diseo Lgico Relacional.
Implementacin en OLAP en SQL
SERVER.
Conclusiones.

Introduccin




Temas:
Motivaciones: La informacin y las organizaciones
Caractersticas de los Sistemas de DW
Desarrollo de Sistemas DW.
Motivaciones
Problemtica planteada:
Acceso a Informacin para la toma de
decisiones.
La informacin y las organizaciones
Las organizaciones tienen necesidad de:
Conocimiento:
Materia prima para toma de decisiones.
Es lo que se desea construir.
Informacin:
Materia prima para conocer los fenmenos reales.
Un item de datos es informacin segn el contexto de
toma de decisiones.
Datos:
Materia prima de la informacin.
Generados por procesos que no necesariamente los
explotan.
La informacin y las organizaciones
Los datos existen, pero ...
No siempre se acceden fcilmente.
No siempre se explotan.
Un reporte de los Laboratorios Bell indica que la cantidad de
datos se duplica cada 5 aos, y que solo se usa un 5% de ella.
La informacin suele ser difcil de obtener:
Deben obtenerse los datos:
A partir de los cuales se construye la informacin.
Que definen el contexto del mismo.
En un cierto contexto, un tem puede ser informacin:
Dependiendo del tipo de decisiones a tomar.
Dependiendo de la persona encargada.
Dependiendo de la calidad de su valor.
La informacin y las organizaciones
Y los sistemas de informacin
tradicionales ...
Orientados a sistemas operacionales.
Asociados a procesos productivos.
Procesan grandes cantidades de
transacciones.
Pueden resolver estas necesidades ?
Sistemas de Produccin y de Decisin
Sistemas orientado a la Produccin:
Prioridad:
tiempo de respuesta a transacciones read-write.
Se manejan datos actuales muy detallados.
Estables y de larga vida util.
Sistema orientado a la Decisin:
Prioridad:
expresividad y eficiencia en consultas complejas.
Datos actuales+histricos resumidos.
En constante evolucin.
Sistemas de Produccin y de Decisin
Conclusin.
Se trata de sistemas con objetivos
diferentes.
Se construyen para ser eficientes en sus
objetivos.
No es posible usar uno para las tareas
del otro.
Sistemas de Data Warehousing
Sistemas de Data Warehousing
Algunos conceptos:
Diccionario de Datos o Metadata:
Asocia objetos del negocio a datos en BDs.
Anlisis multidimensional y herramientas OLAP:
Modelamiento del problema en dimensiones.
Data Mining:
Bsqueda de correlaciones entre datos.
Calidad de Datos
Se agregan criterios de Relevancia y Pertinencia de
Datos.
SDW: Visin General
Definiciones:
Data Warehouse [Inmon 94]:
Es un conjunto de datos orientados a temas,
integrados, no voltiles e histricos,
organizados para soportar un proceso de toma
de decisiones.
Sistema de Data Warehousing:
Es un sistema informtico capaz de ofrecer
informacin para toma de decisiones, y cuya
pieza principal es un Data Warehouse.
Sistemas de Data Warehousing
Definiciones (cont.):
Datos Orientados a Temas:
En los DW, los datos se organizan en torno a los Temas
principales de la organizacin
Datos integrados:
Heterogeneidad de datos:
Diferentes reas de la organizacin.
Diferentes tipos (tradicionales, geogrfico, documentos).
Aspectos a resolver en la integracin:
Unificacin de conceptos.
Construccin del dato integrado a partir de los fuentes.
Sistemas de Data Warehousing
Definiciones (cont.):
Datos histricos:
Se deben manejar los datos con su referencia temporal.
Datos no voltiles:
Los datos deben ser lo suficientemente estables como
para permitir anlisis largos sin que cambien durante el
mismo.
Esto se obtiene como consecuencia de:
La historizacin.
La planificacin de la carga.
Sistemas de Data Warehousing
Los Data Marts.
Son aplicaciones de anlisis de datos en reas
precisas de negocios.
Por ejemplo:
Ventas, Marketing, Recursos Humanos.
Toman sus datos del Data Warehouse.
Priorizan la funciones de anlisis de datos:
Interfaces a usuario.
Indicadores especficos al rea de negocio.
Normalmente basados en OLAP.
Estructura del Data Warehouse
Estructura del Data Warehouse
Tipos de Operaciones/Transformaciones (1):
Extraccin de datos.
Consiste en extraer los datos de la BD fuente y cargarlo
en el ODS o DW.
Filtrado.
Consiste en filtrar datos no admisibles en el DW.
Modificacin de formato o valores.
Consiste en adaptar formatos o valores para que cumpla
pautas definidas en el DW.
Integracin.
Consiste en integrar datos provenientes de dos fuentes.
Estructura del Data Warehouse
Tipos de Operaciones/Transformaciones (2):
Clculos y Consolidaciones (Agregaciones).
Consiste en calcular indicadores a partir de datos base.
Pueden implicar consolidaciones.
Generacin de datos histricos (historizacin).
Consiste en agregar marcas de tiempo a datos.
Generacin de versiones.
Consiste en agregar atributos diferenciadores de
diferentes versiones de un objeto base.
La historizacin permite hacer esto marcando la versin
con un valor temporal.
Propiedades de los Sist. DW
Un Sistema de DW debera :
Mantener una relacin adecuada con BD
Fuentes:
Acceso a BDs heterogneas y multiplataforma.
Independiente de los Sistemas de Produccin.
Permitir acceso efectivo a usuarios finales:
Soportar mltiples tipos de usuarios.
Ofrecer Interfaces a usuario avanzadas.
Funcionar en arquitecturas de varios
niveles.
Interactuar con ambientes de Metadata.
Acceso a BD Fuentes heterogneas
BD Fuentes heterogneas:
Diferentes modelos de datos:
Relacional.
Archivos legados (legacy).
Geogrficos.
Documentos electrnicos.
Fuentes externas de datos (P.ej: cotizaciones bolsa).
Diferentes formatos:
Diferentes modelizaciones de informacin similar.
Claves diferentes para los mismos objetos.
Soportar mltiples tipos de usuarios
Diferentes niveles jerrquicos:
Directivos.
Gerentes de rea.
Mandos tcnicos.
Diferentes funciones:
Planificacin.
Control.
Anlisis.
Arquitecturas en Varios Niveles
Ejemplos de Arquitecturas de SDW:
Interaccin con Metadata
Proceso de Desarrollo
Herramientas Consultas y Reportes
Productos:
Business Objects.
Andyne - GQL.
Seagate - Crystal Reports.
Soft AG - Esperant
Oracle - Discoverer Y OLAP
IBM - Application System, QMF
SQL Server - OLAP
Informix - Viewpoint
Otros
Herramientas OLAP
Introduccin:
Implementan Modelos Multidimensionales.
Los Modelos MD representan los datos como
dimensiones en un hipercubo.
Tecnologa en pleno desarrollo y expansin.
Diferentes alternativas tecnolgicas:
ROLAP vs. MOLAP vs. HOLAP:
ROLAPs: actuan directamente sobre BD Rel.
MOLAPs: trabajan sobre almacenamiento especializado.
HOLAP: intentan aplicar ambas estrategias.
OLAP - Modelos Multidimensionales
Motivaciones:
Representar los datos en forma ms cercana a la
intuicin del usuario.
Resolver problemas planteados en sistemas relacionales.
Principios generales:
La informacin se representa como:
cuadros de doble o triple entrada.
cubos de "n" dimensiones.
Una BD-MD incluye varias dimensiones.
OLAP - Modelos Multidimensionales
Ejemplo: Anlisis de ventas de autos
Sistemas de Data Warehousing
Diseo
Conceptual
Motivacin
Cules son las herramientas que necesita
el diseador para poder razonar sobre los
datos y presentrselos al usuario ?
Modelos de Datos
Los niveles en diseo de BDs:

Proceso de Diseo
Enfoques de Diseo Conceptual
Anlisis desde requerimientos:
Los requerimientos son el universo de informacin.
Las bases fuente se relacionarn luego.
Aplicable cuando se tienen Bases Fuentes complejas.
(Se analizan con los requerimientos en mente).
Trabajos: [Car00], [Sap99], [Hus00], [Fra99].
Anlisis desde datos:
Datos fuentes son el universo de informacin.
El DW se obtiene transformando las fuentes.
Aplicable cuando los requerimientos estn poco claros.
Trabajos: [Gol98a], [Cab98].
Etapas de Diseo Conceptual
Las principales etapas son:
Definir un esqueleto de esquema:
Primer grupo de dimensiones medidas.
Establecer correspondencia entre
requerimientos y datos fuentes.
Completar jerarquas en las dimensiones.
Especificar segundo grupo de medidas
(calculadas).
Iterar
Diseo Conceptual

Modelos
Multidimensionales

Temas:
Motivacin.
Estructuras en los MMD.
Operaciones en los MMD
Motivacin
Motivacin
Motivacin
Motivacin
Modelos Multidimensionales
Qu tienen en comn estas dos ltimas
representaciones?
El usuario final (gerente) las entiende y
maneja habitualmente.
Objetivos de los MMD:
Representar los datos en forma cercana a
la intuicin del usuario.
Resolver problemas planteados en sistemas
relacionales.
MMD en la arquitectura
Caractersticas
Se representan los datos como una matriz.
En los ejes estn los criterios de anlisis.
En los cruces estn los valores a analizar.
A esta estructura se le llama Cubo o Hipercubo.
Caractersticas
Agregando una 3a. dimensin:
Caractersticas
Agregando una 4a. dimensin:
Estructuras bsicas
Los Cubos o Hipercubos constan de:
Dimensiones:
Criterios de anlisis de los datos.
Macro-objetos del problema.
Variables independientes.
Ejes en el hipercubo.
Medidas
Valores o indicadores a analizar.
Datos asociados a relaciones entre los objetos del
problema.
Variables dependientes.
Variables en la interseccin de las dimensiones.
Estructuras bsicas
En el ejemplo anterior:
Dimensiones:
Modelo
Color
Vendedor
Fecha
Medida:
Cantidad Vendida
Dimensiones
Jerarquas:
Los valores se organizan en jerarquas
(categoras).
Por ejemplo: Dimensin: Vendedores
Dimensiones
Jerarquas alternativas:
Pueden haber varias jerarquas para una
misma dimensin.

Por ejemplo:
Dimensin Vendedores:
Regin / Ciudad / Vendedor.
Sexo / Rango_Edad / Vendedor.
Dimensiones
Jerarquas Arbitrariamente Complejas
Medidas
Propiedades:
Se ubican en la interseccin de algunos
valores de las dimensiones. Dado un valor
para cada dimensin se puede determinar
un valor para la medida.
Medidas
Cubos
La realidad se modela como un conjunto de
cubos.
Cada cubo, esta formado por:
Un conjunto de Dimensiones organizadas en jerarquas.
Un conjunto de Medidas asociadas a cada Coordenada.
Es posible moverse en las jerarquas de las
dimensiones y observar de esa forma, diferentes
visiones de las medidas.
Caso de Estudio
Operaciones
Principales operaciones en modelos MD:
Slice.
Dice.
Rotacin.
Drill-down.
Drill-up.
Roll-up.
Drill-across.
Drill-through.
Operaciones: Slice
Seleccionar Dimensiones (Slice)
Se define un subconjunto del hipercubo
especificando sobre qu dimensiones interesa
analizar qu medida.
Operaciones: Slice
Operaciones: Dice
Filtrado (DICE)
Se fijan valores para algunas dimensiones.
Operaciones: Rotacin
Rotacin.
Selecciona el orden de visualizacin de las
dimensiones.
Operaciones: Drill-up, drill-down
Movimientos en la Jerarqua de una
Dimensin (Drill-up,Drill-down)
Operaciones: Drill-up, drill-down
Drill-Up o Drill-Down pueden verse como ajuste en
las escalas de los ejes.
Son agrupamientos y des-agrupamientos.
Operaciones: Roll-up
Consolidacin (Roll-Up).
Calcula las medidas en funcin de agrupamientos.
Realiza el re-clculo de la medida de acuerdo a los
ajustes de escala.
Limites de los MMD
Los MMD no realizan adecuadamente ciertas
operaciones:
Salvo en algunos trabajos de investigacin, no se
habla de representacin y consulta de datos
descriptivos o secundarios.
Tampoco se permiten diferentes RollUps por
medida.
Entonces:
Se deben resolver con otras tcnicas, o
Se deben considerar en el diseo.
Caractersticas de los MMD
Resumen:
Permiten describir una realidad en
trminos de matrices multidimensionales
(Cubos).
Desde el punto de Vista del DW, se utilizan
para describir Datamarts o el DW
Completo.
Las Dimensiones pueden tener una o ms
jerarquas.
Diseo Conceptual

Estrategia basada en
Medina y Dimensiones

Temas:
Modelo CMDM.
Pautas de Diseo.
Ejemplos.
Modelo CMDM
Objetivos principales:
Representacin directa, expresiva y precisa
de esquemas multidimensionales.
Caractersticas:
Basado en conceptos aceptados de MMD.
Independiente de las implementaciones.
Desarrollado por el grupo CSI (InCo).
Tesis de maestras [Car00].

Modelo CMDM
Estructuras bsicas.
Niveles.
Dimensiones.
Con Jerarquias, formadas por Niveles.
Incluye Medidas (Dimensionalidad
Genrica).
Relaciones dimensionales.
Cubos.
Cruzamientos especficos.
Modelo CMDM
Dimensiones:
Una dimensin esta formada por:
Modelo CMDM
Dimensiones:
Ejemplo:
Modelo CMDM
Niveles:
Un nivel representa un conjunto de datos.
Modelo CMDM
Niveles:
Ejemplo:
Modelo CMDM
Jerarquas:
Los niveles se organizan en jerarquas.
Cada jerarqua est compuesta por uno o
varios niveles.
En cada jerarqua:
Se tiene una relacin <1-n> entre objetos de
nivel superior e inferior.
Modelo CMDM
Jerarquas:
Ejemplo
Modelo CMDM
Relaciones Dimensionales:
Representan cruzamientos entre
Dimensiones.
Las Medidas participan como Dimensiones.
Vista como una relacin:
Se tiene un elemento en el conjunto relacin si
y solo si hay un cruzamiento.
Esto obliga a que las Dimensiones participantes
realmente sean cruzables.
Modelo CMDM
Relaciones Dimensionales.
Ejemplo
Modelo CMDM
Esquema Conceptual MD:
Est formado por un conjunto de Relaciones
Dimensionales.
Las Relaciones Dimensionales pueden compartir
Dimensiones.
Permite el Drill-Across.
Cubos:
Dada una Relacin Dimensional, un cubo
representa un cruzamiento concreto entre niveles
determinados de las Jerarquas de la RD.
Modelo CMDM
Cubos: Ejemplo.
Modelo CMDM
Conclusiones sobre CMDM.
Apunta a dar un modelo de especificacin de
esquemas conceptuales Multidimensionales.
Cumpliendo un rol equivalente al del Modelo ER.
Los esquemas conceptuales MD luego sern traducidos a
esquemas lgicos MD.
Todava en desarrollo, se trabaja sobre:
Mejoras de la herramienta CASE.
Un lenguaje de Restricciones de Integridad.
Una base formal para el modelo.
Pautas de diseo
Preguntas bsicas en diseo:
Qu es una Dimensin y qu es una Medida?
Tiene sentido construir cualquier cruzamiento de
niveles?
Cundo definir una Dimensin con varias
jerarquas o varias Dimensiones?
Con qu criterios definir una o varias Relaciones
Dimensionales?
Dada una relacin dimensional, cualquier
operacin de roll-up es correcta?
Cmo clasificar las medidas calculadas?
Def. de Dimensiones y Medidas
Qu items pueden ser medidas y cules
dimensiones?
No hay ningn criterio ni mtodo efectivo para
tomar la decisin.
Pueden haber indicios basados en:
Objetos del problema y/o criterios de anlisis Vs.
Indicadores y/o medidas.
Inters de totalizar segun Drill-Ups.
Identificadores Vs. No Identificadores.
Estudio de distribucin de valores.
Estudio de independencia de variables.
Def. de Dimensiones y Medidas
Separar objetos de medidas o Identificadores
Vs. no identificadores.
Ejemplos:
Los vendedores, son un objeto del problema, por lo tanto
tienen posibilidades de funcionar bien como una
dimensin.
El tiempo es tpicamente, un criterio de anlisis.
El promedio de autos vendidos por vendedor y por fecha,
es casi seguro una medida.
Contraejemplo:
Los autos vendidos pueden ser considerados una medida
en realidad las cantidades de autos vendidos.
Jerarquas en dimensiones
Criterios para construir jerarquas:
Definir caminos de navegacin (drill-down/up).
Definir agrupamientos naturales de los datos
(reportes).
Asociar diferentes niveles de clculo de
indicadores.
Atencin !
Cuidado con el comportamiento de las medidas
cuando se hace roll-up.
Jerarquas en dimensiones
Ejemplos:
Los supervisores de ventas estudian las ventas
segn la ubicacin geogrfica de los clientes.
Los analistas de marketing estudian los clientes
segn segmentos de mercado.
Se hacen reportes de distribucin geogrfica de
los segmentos de mercado.
La seccin depsito maneja fechas calendario, en
cambio contadura maneja aos fiscales.
Relaciones dimensionales
Ejemplos de distintas Medidas:
Tipos de frmulas
Frmulas descriptivas:
Datos fuentes o agregacin de datos fuentes.
Ej:
Cantidad de unidades en stock.
Costo del item
Ultimo precio de venta
Cantidad de unidades salientes
Margen de ganancia
Promedio diario de unidades en stock.
Conclusiones
Tcnica de diseo
Guiada por los requerimientos de informacin.
Aparecen tareas de mapping.
Introduccin de un modelo conceptual.
Se busca una notacin abstracta y efectiva.
Representacin de conceptos multidimensionales
Pautas de buen diseo.
Construccin de dimensiones y jerarquas.
Construccin de relaciones dimensionales.
Aditividad en medidas.
Diseo Lgico

MODELO RELACIONAL
PARA CUBOS

Temas:
Estrella.
Copo de Nieve.
Diseo de un DW Relacional
Caractersticas del DW
Acceso y mantenimiento de datos
Consultas complejas
Se considera solo-lectura. El mantenimiento no se hace va sistema
OLTP, sino en forma "batch".
Usuario final accede directamente al DW con herramientas de
consulta (OLAP)
Modelo Relacional poco adecuado para consultas
dimensionales.
Diseo de un DW Relacional

Modelo Dimensional de [Kim96]
Tablas de hechos (fact tables)
donde se guardan las medidas numricas del negocio
Interseccin de todas las dimensiones
granularidad
clave compuesta (la combinacin de las fk)
Tablas de dimensin (dimension tables)
donde se guardan las descripciones textuales de las dimensiones
del negocio
Jerarquas: desnormalizadas o normalizadas
Tipos de esquemas en el MD-Rel
Star: Es la estructura bsica del MD
1 tabla grande central y un conjunto de
tablas mas chicas organizadas alrededor de
la tabla de hechos.
Otras opciones MD-Rel
Star-Cluster schema [MK00]
Diseo Conceptual

Implementacin en SQL SERVER


Temas:
Service manager.

Analysis Manager: Es un complemento que se
ejecuta en Microsoft Management Console (MMC)
Cubo en Estrella y Copo de Nieve
Datos del Cubo Mediante el Examinador de Cubos
Diseo Conceptual

Conclusiones

Temas:
Proceso de diseo.
Enfoques de diseo conceptual.
Bibliografa.
Proceso de Diseo
Diseo Conceptual
Las principales etapas son:
Definir un esqueleto de esquema:
Primer grupo de dimensiones medidas.
Establecer correspondencia entre
requerimientos y datos fuentes.
Completar jerarquas en las
dimensiones.
Especificar segundo grupo de medidas
(calculadas).
Implementar en una plataforma los
cubos en un diseo relacional de estrella
o copo de nieve
iterar
Bibliografa
[Bal98] Ballard, C. Herreman, D. Schau, D. Bell, R. Kim, E.
Valncic, A.: Data Modeling Techniques for Data Warehousing.
SG24-2238-00. IBM Red Book. 1998.
[Cab98] Cabibbo, L. Torlone, R.:"A Logical Approach to
Multidimensional Databases", EDBT, 1998.
[Car00] Carpani, F.: CMDM: A conceptual multidimensional
model for Data Warehouse. Master Thesis. Advisor: Ruggia.
InCo - Pedeciba, UdelaR, Uruguay, 2000.
[Fra99] Franconi, E. Sattler, U.:"A Data Warehouse Conceptual
Data Model for Multidimensional Aggregation", DMDW99,
Germany, 1999.
[Gol98a] Golfarelli, M. Maio, D. Rizzi, S.:"Conceptual Design of
Data Warehouses from E/R Schemes.", HICSS98, IEEE,
Hawaii,1998.

Вам также может понравиться