Академический Документы
Профессиональный Документы
Культура Документы
Concepcin - Chile
www.udec.cl
Web: www.inf.udec.cl
Diseo Conceptual de DW
Marcela Varas - 2012
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Inteligencia de Negocios
Pequea Introduccin
Definicin
Se le llama inteligencia de negocios o Business Intelligence a un conjunto de tcnicas que permiten facilitar la toma de decisiones en una empresa, a travs del uso de tecnologas de informacin. Se trata bsicamente de analizar informacin obtenida de distintas fuentes: sistemas de produccin, financieros, otros sistemas internos y externos
Arquitectura BI
Reportes Data marts Data Mining BSC
BD 1 BD 2 BD 3
BD 4
Resolver la problemtica del acceso a la informacin para la toma de decisiones Factores Crticos Tiempo de acceso Integracin y Calidad de la Informacin Se necesita: Conocimiento: Materia prima para toma de decisiones, es lo que se desea construir. Informacin. Datos.
Los datos
Materia prima de la informacin. Generados por procesos que no necesariamente los explotan. Existen No siempre son fciles de acceder No siempre son explotados
La informacin
Materia prima para conocer los fenmenos reales. Un tem de datos es informacin segn el contexto de toma de decisiones
Dependiendo del tipo de decisiones a tomar. Dependiendo de la persona encargada. Dependiendo de su calidad.
Deben obtenerse los datos: A partir de los cuales se construye la informacin. Que definen el contexto del mismo.
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Almacenes de Datos
Qu son?
OLTP y OLAP
Prioridad: tiempo de respuesta a transacciones read-write. Se manejan datos actuales muy detallados. Estables y de larga vida util.
Prioridad: expresividad y eficiencia en consultas complejas Datos actuales e histricos, resumidos En constante evolucin
Almacenes de Datos o DW
Data warehouse
Datos del negocio para Informacin Orientado al sujeto Actual + histrico Detallada + ms resumida Estable
Datawarehouse y Sistema DW
Es un conjunto de datos orientados a temas, integrados, no voltiles e histricos, organizados para soportar un proceso de toma de decisiones. Sistema DW es un sistema informtico capaz de ofrecer informacin para toma de decisiones, y cuya pieza principal es un Data Warehouse.
DW: Caractersticas
Los datos se organizan en torno a los temas principales de la organizacin Heterogeneidad de datos: Diferentes reas de la organizacin. Diferentes tipos (tradicionales, geogrfico, documentos). Diferentes fuentes Aspectos a resolver en la integracin: Unificacin de conceptos. Construccin del dato integrado a partir de los fuentes. Disimilaridad esquemtica y semntica
Datos integrados
DW: Caractersticas
Datos histricos:
Se deben manejar los datos con su referencia temporal. El tiempo siempre es una dimensin relevante Una vez que los datos son estables, se pueden ingresar al DW Los datos no se modifican, slo se incorporan nuevos Los datos deben ser lo suficientemente estables como para permitir anlisis largos sin que cambien durante el mismo. Esto se obtiene como consecuencia de: La historizacin. La planificacin de la carga.
Datos no voltiles:
Data marts
Son aplicaciones de anlisis de datos en reas precisas de negocios. Por ejemplo: Adquisiciones, Registro Curricular, Marketing, Produccin. Toman sus datos del Data Warehouse. Priorizan la funciones de anlisis de datos:
Arquitectura de un DW
Datos Detallados
Corresponden a los datos insertados desde los sistemas de produccin. Diferencia con datos de BD-Fuentes:
Estn en formato homogneo (va ODS: sistema de organizacin de datos). Pasaron un primer control de calidad. Pueden ya haber pasado un primer proceso de agregacin.
Datos Agregados
Resultantes de aplicar funciones de totalizacin sobre datos detallados. Por ejemplo: total mensual de ventas por producto. Informacin significativa para analizar. Permiten reducir volmenes de datos. Clculo interactivo plantea problemas de rendimiento
Datos Historizados
Datos (base o agregados) a los cuales se les agrega una marca de tiempo. Generan volmenes importantes de datos
Metadatos
Consiste en informacin sobre los datos del DW. Incluye informacin sobre:
Semntica de los datos y su localizacin en el DW. Localizacin de los datos en los sistemas de produccin y reglas de transformacin. Especificacin de frmulas de clculo de agregados. Informacin sobre frecuencias de carga, mecanismo de historizacin, etc.
Constituye una pieza clave para el control de calidad de los datos y la explotacin eficaz del DW.
Extraccin de datos.
Consiste en extraer los datos de la BD fuente y cargarlo en el ODS o DW. Consiste en filtrar datos no admisibles en el DW. Consiste en adaptar formatos o valores para que cumpla pautas definidas en el DW.
Filtrado.
Integracin.
Consiste en calcular indicadores a partir de datos base. Pueden implicar consolidaciones. Consiste en agregar marcas de tiempo a datos.
Generacin de versiones.
Consiste en agregar atributos diferenciadores de diferentes versiones de un objeto base. La historizacin permite hacer esto marcando la versin con un valor temporal.
Acceso a BDs heterogneas y multiplataforma. Independiente de los Sistemas de Produccin. Soportar mltiples tipos de usuarios. Ofrecer Interfaces a usuario avanzadas.
Acceso a BD heterogneas
Relacional. Archivos legados (legacy). Geogrficos. Documentos electrnicos. Fuentes externas de datos (P.ej: cotizaciones bolsa). Diferentes modelizaciones de informacin similar. Claves diferentes para los mismos objetos.
Diferentes formatos:
Coordinacin:
Independencia:
Los SDW suelen ver los datos de produccin con una perspectiva histrica. No siempre es deseable una coordinacin fuerte.
Diferentes funciones:
Interfaces de usuario especializadas: optimizacin de la tarea Cada usuario con su interfaz ms adecuada
Herramientas de Inteligencia de Negocio (Business Intelligence Tools, BIT) y estn situadas conceptualmente sobre el Data Warehouse. Cada usuario final debe seleccionar la herramienta que mejor se ajusta a sus necesidades y a su Data Warehouse. Consultas SQL (Structured Query Language), las Herramientas MDA (Multidimensional Analysis), OLAP (On-Line Analytical Processing) y las herramientas Data Mining. Este bloque tambin incluye el hardware y software involucrados en mostrar la informacin en pantalla y emitir reportes de impresin, hojas de clculo, grficos y diagramas para el anlisis y presentacin
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Representar los datos en forma cercana a la intuicin del usuario. Resolver problemas planteados en sistemas relacionales.
Caractersticas
En los ejes estn los criterios de anlisis. En los cruces estn los valores a analizar. A esta estructura se le llama Cubo o Hipercubo.
Caractersticas
Caractersticas
Estructuras bsicas
Dimensiones: Criterios de anlisis de los datos. Macro-objetos del problema. Variables independientes. Ejes en el hipercubo. Medidas Valores o indicadores a analizar. Datos asociados a relaciones entre los objetos del problema. Variables dependientes. Variables en la interseccin de las dimensiones.
Medidas
Ej: temperatura, que puede estar dada por las dimensiones estacin, regin y fecha.
Ej: nmina que puede estar dada por las dimensiones empleados y tiempo, pero no producto.
Ej: cantidad de producto, que nicamente puede estar dada por la dimensin producto.
Estructuras bsicas
En el ejemplo anterior:
Dimensiones:
Medida:
Cantidad Vendida
Dimensiones
Jerarquas:
Dimensiones
Jerarquas alternativas:
Pueden haber varias jerarquas para una misma dimensin. Por ejemplo:
Dimensiones
Ciudad
Mes
Semana
Vendedor
Da
Medidas
Propiedades:
Se ubican en la interseccin de algunos valores de las dimensiones. Dado un valor para cada dimensin se puede determinar un valor para la medida.
Medidas
Cubos
Cada cubo, esta formado por: Un conjunto de Dimensiones organizadas en jerarquas. Un conjunto de Medidas asociadas a cada Coordenada. Es posible moverse en las jerarquas de las dimensiones y observar de esa forma, diferentes visiones de las medidas.
Ejemplo
Operaciones
Se implementan va MDX, pero las mayora de las herramientas de manejo de BI tienen facilidades tipo drag&drop para evitar la codificacin
Marcela Varas Universidad de Concepcin Chile - 2012
Operaciones: Slice
Se define un subconjunto del hipercubo especificando sobre qu dimensiones interesa analizar qu medida.
Dimensin Colores Color Medidas Ventas Cantidad
Modelos Modelo
Marcela Varas Universidad de Concepcin Chile - 2012
Operaciones: Slice
Operaciones: Dice
Filtrado (DICE)
Operaciones: Rotacin
Rotacin.
Drill-Up o Drill-Down pueden verse como ajuste en las escalas de los ejes. Son agrupamientos y des-agrupamientos.
Operaciones: Roll-up
Consolidacin (Roll-Up). Calcula las medidas en funcin de agrupamientos. Realiza el re-clculo de la medida de acuerdo a los ajustes de escala.
Operaciones: Roll-up
Propiedades:
Esta operacin puede ser: suma, promedio, etc. Pueden haber medidas con comportamientos diferentes. Por ejemplo:
Operaciones: Roll-up
En general cualquier operacin de navegacin en un cubo implica un nuevo clculo de la medida. Se asocia a la medida una operacin por defecto. En el momento de hacer un movimiento en la dimensin se especifica cmo se hacen los clculos.
Operaciones: Drill-Across
Drill-Across
Operaciones: Drill-Through
Drill-Through.
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Desarrollo de un DW
Cmo se hace?
Proceso de Desarrollo de un DW
Componentes a desarrollar:
Almacenamiento del DW
Mecanismos de acceso para usuarios finales
Para el DW
Elegir Estrategia de Desarrollo Identificar Datos Fuentes a considerar Disear el DW a nivel Conceptual Disear el DW a nivel Lgico Implementar Planificar la Carga de Datos Operar
Desarrollo de un DW
Integracin Necesidades de Usuarios
DW
Esquema Lgico DW
El DW
Tipo/s de DBMS.
Cmo describir y documentar los datos ? Qu informacin hay que monitorear ? Cmo organizar y realizar la administracin del DW ? Mediante qu tipo de herramientas ?
DBMSs Relacionales:
Solucin "universal". Soportan el grueso de las aplicaciones DW. Dificultades para resolver eficientemente consultas dimensionales. Representan los datos del problema en trminos de dimensiones. Estructuras de almacenamiento estn diseadas para optimizar consultas dimensionales.
DBMSs Multi-Dimensionales:
Elementos base:
Las operaciones principales son consultas. La carga/actualizacin no es transaccional. Importancia de la calidad y facilidad de acceso. El DW se construye en capas asignando propiedades a las tablas de cada una. Se suele des normalizar y materializar clculos. El diseo del DW y programacin de la carga constituyen las tareas ms costosos y complejas.
Por lo tanto
En cuanto a complejidad
El proceso de ETL
BD Fuente
ODS
Data Marts
Datos Detallados
Datos homogeneizados Datos sin preparar
Transformaci ones
Datos preparados
METADATA
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Diseo Lgico
Cmo nos acercamos a la implementacin?
Tablas de Hecho
La tabla de hechos es la tabla primaria dentro de un modelo multidimensional, contiene los valores de las medidas de negocios, por ejemplo: ventas promedio, nmero de unidades vendidas, etc.
Tablas de Dimensiones
Las tablas de dimensiones contienen el detalle de los valores que se encuentran asociados a la tabla de hechos. Generalmente tienen muchas columnas o atributos.
Esquemas de Representacin
Esquema Estrella
Compuesto de una tabla central con una clave primaria compuesta, denominada tabla de hechos, y un conjunto de dimensiones. Cada una de las tablas de dimensiones tiene una clave primaria que corresponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos. Las tablas de hechos, adems de sus campos clave, contienen una o ms medidas, indicadores o hechos. Las medidas ms tiles en una tabla de hechos son numricas y aditivas. En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el nmero de uniones y, por consiguiente, incrementar el rendimiento de las consultas.
Marcela Varas Universidad de Concepcin Chile - 2012
Esquema Estrella
Derivado del esquema en estrella, en el que las tablas de dimensin se normalizan en mltiples tablas. La tabla de hechos deja de ser la nica tabla del esquema que se relaciona con otras tablas, y aparecen nuevos joins gracias a que las dimensiones de anlisis se representan ahora en tablas de dimensin normalizadas. En la estructura dimensional normalizada, la tabla que representa el nivel base de la dimensin es la que hace join directamente con la tabla de hechos. La diferencia entre ambos esquemas (estrella y copo de nieve) reside entonces en la estructura de las tablas de dimensin.
Marcela Varas Universidad de Concepcin Chile - 2012
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Los requerimientos son el universo de informacin. Las bases fuente se relacionarn luego. Aplicable cuando se tienen Bases Fuentes complejas. (Se analizan con los requerimientos en mente). Datos fuentes son el universo de informacin. El DW se obtiene transformando las fuentes. Aplicable cuando los requerimientos estn poco claros. Ortogonal a los enfoques previos Se basa en la transformacin de modelos, ya sea desde los requerimientos o los datos fuentes An en desarrollo
Enfoque MDA
Alineamiento Estratgico
Marcela Varas Universidad de Concepcin Chile - 2012
Mtodo propuesto por Matteo Golfarelli Parte desde el MER y entrega un modelo de los cubos a implementar. Tiene un fuerte uso de los grafos y sus propiedades.
MER
CAUSAL
BECA
(1,1)
CRDITO
(1,1) (1,1)
tiene tiene tiene
(0,n) (1,1)
ALUMNO tiene
(1,n)
(1,1)
INGRESO
(1,n)
(1,1)
Viene de
(0,1)
pertenece
tiene
(1,n)
MALLA
(1,n)
COLEGIO
(1,1)
TITULACIN
Medida o hecho de inters: Cantidad de aos promedios que los alumnos demoran en salir de la Universidad. Dimensiones: Sexo, Colegio de procedencia, Zona de procedencia.
Fecha vencimiento
Genro
Crd. Especiales
Cuidad Origen
CRDITO
Carrera
Ptje.
INGRESO RAMO
Alumno
MALLA
Crd. Obligatorio Crditos CAUSAL Id_sem Estado Detalle Financiamiento Individuo COLEGIO
Nota Ao Nombre
Articulo
Tipo Educ.
Ciudad Gnero
Gnero
Puntaje de Entrada
Visin General
CAUSAL
MER
BECA
(1,1)
Nota
CRDITO
Puntaje Id_sem
(1,1)
tiene tiene
(1,1)
INGRESO Carrera
TITULACION
tiene
Id_sem
Ciudad Gnero
ALUMNO
(0,n) (1,n)
RAMO Ramo_toma
Gnero
(1,n)
(1,1)
INGRESO
(1,n)
(1,1)
Viene de
(0,1)
Nota de Titulacin
pertenece
(1,n)
MALLA
(1,n)
COLEGIO
Implementacin
Se eligi SQLServer + Analysis Services SQLServer tiene las tablas fuentes. Analysis Services tiene los cubos. Los cubos pueden ser exportados a aplicaciones de ofimtica tales como Word o Excel.
Ciudad Gnero
Gnero
Puntaje de Entrada
Metodologa basada en el ciclo de desarrollo de software y BD tipico Lenguaje de Modelacin CMDM (Carpani) Se centra en identificar qu se requiere, luego identifica dnde se encuentra la informacin necesaria. Si no est disponible, se deben desarrollar los sistemas OLTP que la gestionen.
Diseo Lgico
Cruce de Dimensin
Observaciones
En este caso se implementaron un conjunto de dashboards y otros reportes de gestin con indicadores relevantes para la gestin universitaria (se utiliz el software CorVu)
Agenda
Inteligencia de Negocios: Pequea Introduccin Almacenes de Datos: Qu son? Modelos de Datos Multidimensionales: Qu se representa? Desarrollo de un DW: Cmo se hace? Diseo Lgico: Cmo nos acercamos a la implementacin? Enfoques Diseo Conceptual: Cmo podemos disear conceptualmente un DW? Conclusiones
Marcela Varas Universidad de Concepcin Chile - 2012
Conclusiones
Conclusiones
DW es un elemento clave de cualquier sistema de anlisis (BI) Es necesario comprender bien el negocio para desarrollar aplicaciones que sean tiles Perfil altamente demandado en Chile La implementacin an es inmadura Complejidades asociadas a la falta de metoldologas ampliamente aceptadas de diseo (ni lenguajes) Grandes volmenes de informacin Costo alto Relevancia de procesos ETL
Marcela Varas Universidad de Concepcin Chile - 2012
Desafos
Mejorar el proceso de desarrollo (MDA con UML?) Manejar informacin cualitativa en las medidas (FuzzyDW) Operar en un FuzzyDW Manejar informacin hetereognea Proveer sistemas realmente usables, confiables y flexibles Mejorar los lenguajes de consulta (MDX)
Referencias
Referencias
Kimball, R. (1997). The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. New York: John Wiley and Sons. Livingston, G. R. (1997). Database Design for Data Warehouses: The Basic Requirements. En H. E. R. Barquin, Planning and Designing the Data Warehouse. New Jersey: Prentice Hall. F. Carpani. CMDM: Un Modelo Conceptual para la Especificacin de Bases de Datos Multidimensionales, Tesis para optar al grado de Maestra. Universidad de la Repblica Uruguay. 2000.URL:http://www.fing.edu.uy/inco/pedeciba/bibliote/te sis/tesis-carpani.pdf. Marcela Varas Universidad de Concepcin Chile - 2012
S. Chaudhuri, U. Dayal. An Overview of Data Warehousing and OLAP Technology SIGMOD Record, Vol. 26, pp. 65-74, 1997. Pearson. 2004. ISBN 8420540250. M. Golfarelli, D. Maio, S. Rizzi, The dimensional fact model: A conceptual model for data warehouses. International Journal of Cooperative Information Systems, Vol.7, Issue 3, pp. 215-247, 1998. W. Inmon, Building the Data Warehouse. John Wiley & Sons, 2002. J-N. Mazn, J. Trujillo, An MDA approach for the development of data warehouses. Decision Support Systems Vol. 45, pp. 41-58, 2008.
Marcela Varas Universidad de Concepcin Chile - 2012
J-N. Mazn, J. Lechtenbrger, J. Trujillo: A survey on summarizability issues in multidimensional modeling. Data Knowl. Eng.Vol. 68. Issue 12, pp. 1452-1469. 2009. J. Trujillo, M. Palomar, J. Gmez., Il-Yeol Song, Designing Data Warehouses with OO Conceptual Models. IEEE Computer.Vol. 34, pp. 66-75, 2001.
mvaras@udec.cl