You are on page 1of 97

TPICOS SELECTOS DE BASES DE DATOS

BODEGAS DE DATOS. (DATA WAREHOUSE)

Ing. Anacey Domnguez Torres

QU ES UN DATA WARE HOUSE?


Para algunos otros, De acuerdo con Es un conjunto de el data warehouse algunas datos integrados es un proceso organizaciones, el orientados a una continuo que data warehouse materia, que es una arquitectura. mezcla los datos de varan con el diferentes fuentes Para otras, un tiempo y que nos heterogneas, depsito son transitorios, los incluyendo datos semnticamente cuales soportan el histricos y consistente de proceso de toma adquiridos para datos que llenan de decisiones de soportar la por completo los una constante diferentes administracin. necesidad de requerimientos de consultas W.H. Inmon acceso y reporte de estructuradas, datos. reportes analticos y soporte de desiciones.

El Data Warehouse es:


Esta orientado a una materia: Organiza y orienta los datos desde la perspectiva del ltimo usuario. Para que una aplicacin del negocio la recupere y actualice con facilidad. Administra grandes cantidades de informacin: La mayora de los data warehouse contienen informacin histrica que se retira con frecuencia de los sistemas operativos porque ya no es necesaria para las aplicaciones operacionales y de produccin. Por el volumen de informacin que un data warehouse debe manejar, tambin debe ofrecer opciones para la adicin y la condensacin que clasifican esta inmensa cantidad de datos. Por lo tanto, un data warehouse maneja informacin histrica a diferentes niveles de granularidad. Por la necesidad de administrar toda la informacin histrica y adems los datos actuales, un data warehouse es mucho mayor que las bases de datos operacionales. Guarda informacin a diversos medios de almacenamiento: Por los volmenes de informacin que deben manejarse, un data warehouse frecuentemente guarda informacin en diferentes medios de almacenamiento

El Data Warehouse es:


Comprende mltiples versiones de un esquema de base de datos: Debido a que el data warehouse tiene que guardar informacin histrica y administrarla, y como la informacin histrica ha sido manejada en distintos momentos por diferentes versiones de esquemas de base de datos, en ocasiones el data warehouse tiene que controlar informacin originada en organizaciones de base de datos diferentes. Condensa y agrega informacin: Con frecuencia, es muy alto el nivel de detalle de la informacin guardada por base de datos operacionales para cualquier toma de desiciones sensatas. Integra y asocia informacin de muchas fuentes de informacin: Debido a que las organizaciones han administrado histricamente sus operaciones utilizando numerosas aplicaciones de software y mltiples bases de datos, se requiere de data warehouse para recopilar y organizar en un solo lugar la informacin que estas

Arquitectura de referencia del Data Warehouse


Administracin de datos Fuentes de Datos Construccin del data warehouse Construccin del mercado de datos Acceso y uso del data warehouse La administracin de datos y metadatos corresponden a las actividades que se relacionan con la extraccin, carga y actualizacin que se requieren para mantener el abasto de la informacin para el data warehouse. Las otras corresponden a los servicios comunes que son esenciales.

Administracin de Metadatos Transporte Infraestructura Tecnologa de herramientas y funciones

Bloque de Fuente de Datos


Datos de Produccin Datos de herencia Sistemas internos de oficinas Fuentes externas

Datos de produccin: Se refieren a las bases operacionales de datos que contienen la informacin recopilada de las aplicaciones operacionales (relacionales, no relacionales o basadas en archivos). Datos de herencia: estn fuera de lnea, en archivos perdidos, por que ya no son necesarios para apoyar oper. Sin embargo, estos datos tienen un gran valor histrico. Sistemas Internos de oficina: no estn almacenados en una BD operacional (formas no electrnicas, reportes, hojas de clculo, etc.). Sistemas Externos: la empresa no lo controla, ni posee, ni opera. Puede ser electrnica cmo el Dow Jones, o no electrnicas como: revistas. Metadatos para fuentes: Son la informacin de definicin a cerca de los datos de la fuente. Incluyen: nombre, definicin de campos, fecha y la fuente.

Metadatos para fuentes

Bloque de construccin del data warehouse.


Refinamiento Reingenieria Data Warehouse Estandarizar Integrar y separar Modelar

Filtrar y ajustar

Condensar y agregar Hacer un clculo previo y derivar Traducir Y formatear Transformar Y reubicar

Condensar

Limpiar y pulir

Agregar

Imprimir la fecha de la fuente de datos Verificar la calidad de los datos

Conciliar y validar

El componente de reingeniera es responsable de preparar los datos para que sean congruentes con las necesidades de anlisis del usuario empresarial

Des. Consultas con base en la arquitectura Examinar y navegar por los metadatos

Crear y extraer los metadatos

Crear metadatos

Crear glosario

Bloque de construccin del mercado de datos


Refinamiento y reingeniera Data Warehouse Filtrar y ajustar Modelar

Integrar y fragmentar

Condensar

Condensar y agregar Hacer un clculo previo y derivar

Agregar

Conciliar y validar

La principal diferencia entre el data warehouse y el mercado de datos es el enfoque del usuario final. El segundo se concentra en las necesidades de un departamento individual, mientras que el primero est compuesto de todos los departamentos de la corporacin.

Imprimir la fecha de la fuente de datos

Des. Consultas con base en la arquitectura Examinar y navegar por los metadatos

Crear y extraer los metadatos

Crear glosario

Bloque de acceso y uso del data warehouse


Acceso y recuperacin Acceso directo al data warehouse Acceso al mercado de datos Anlisis y reporte Herramientas de reporte

Herramientas SSD Herramientas de modelado empresarial Herramientas para minera de datos Aplicaciones de nueva produccin Reporte y administracin de metadatos

El componente de acceso y recuperacin es responsable de transformar los datos recuperados en vistas multidimensionales o de almacenarlo en una base de datos multidimensional para un anlisis posterior. Una consideracin importante es el rango de consultas: predefinidas, ad hoc, repetitivas, para profundizar.

Reingeniera

Transformar a estructura multid.

Crear depsito local Administrar metadatos del data warehouse Creacin y extraccin de metadatos

OLAP

Capa de administracin de datos


Extraccin y datos nuevos / administracin de solicitudes de consulta Cargar, almacenar, actualizar sistemas

Seguridad y autorizacin de sistemas

Archivar, restaurar y purgar sistemas

Capa de administracin de metadatos


Administracin del data warehouse, del esquema de mercado de datos y del glosario Administracin de la extraccin, creacin depsito y actualizacin de los metadatos Administracin de las consultas predefinidas, los reportes, los ndices y los reportes Administracin de la actualizacin y la duplicacin

Administracin de conexiones, generacin de archivos, restauracin y purga

Capa de Transporte

Red para transferencia y entrega de datos

Herramienta de middleware y agentes cliente/servidor Sistema de duplicacin

Sistema de seguridad y autenticacin

Capa de infraestructura

Administracin de sistemas Administracin del flujo de trabajo Sistemas de almacenamiento Sistemas de procesamiento

CONSTRUCCIN DEL DATA WAREHOUSE

Ing. Anacey Domnguez Torres

Ciclo de desarrollo

Planeacin
Seleccin de la estrategia de implementacin Seleccin de la metodologa de desarrollo Seleccin del mbito de implementacin PLANEACIN Seleccin del enfoque arquitectnico Desarrollo de un programa y del presupuesto del proyecto Desarrollo de escenarios de uso empresarial Recopilacin de meta datos

Algunos de los pasos se pueden efectuar al mismo tiempo

Seleccin de la estrategia de implementacin La decisin tiene mucho que ver con la cultura organizacional y se basan en cmo se llevan a cabo las tareas dentro de la organizacin: El enfoque de arriba hacia abajo (de lo general a lo particular): Se identifican primero los requerimientos empresariales que debe cubrir el data warehouse propuesto. Se recomienda cuando: * Se est familiarizado con las tecnologas y se tiene una amplia experiencia. * Cuando se tiene una idea clara donde encaja el datawarehouse para toma de desiciones. El enfoque de abajo hacia arriba (de lo particular a lo general): Se comienza con experimentos y prototipos. Se recomienda cuando: * Cuando la organizacin no est comprometida con la tecnologa. * Cuano la organizacin trata de obtener una idea de los costos y gastos adicionales. Una combinacin de las anteriores.

Seleccin de la estrategia de implementacin Seleccin de la metodologa de desarrollo

Seleccin del mbito de implementacin

PLANEACI N

Seleccin del enfoque arquitectnico

Desarrollo de un programa y del presupuesto del proyecto

Desarrollo de escenarios de uso empresarial Recopilacin de meta datos

En cascada

Desarrollo en espiral

Etc.

Lista de objetivos empresariales


Cul es el mercado de destino del datawarehouse? Seleccin de audiencia destino Cules son las plataformas en uso actual o planeadas? Servidores, estaciones de trabajo, clientes interfaces grficas de usuario.

Cules son las capacidades planeadas en trminos de caractersticas y funciones? Para que se til el data warehouse debe considerar si satisface un conjunto mnimo de caractersticas
Cules son las diversas fuentes de datos que pueden y/o deben integrarse al data warehouse? Se extrae de base de datos de herencia, como las externas.

Cundo debe volverse operacional el data warehouse? Se est usando el data warehouse para identificar a los clientes y ofrecer servicios mejorados

Seleccin de la estrategia de implementacin

Seleccin de la metodologa de desarrollo

Seleccin del mbito de implementacin

PLANEACIN

Seleccin del enfoque arquitectnico

Desarrollo de un programa y del presupuesto del proyecto Desarrollo de escenarios de uso empresarial

Recopilacin de meta datos

mbito desde la perspectiva del usuario empresarial


Cules son los departamentos que necesitan utilizar inicialmente el data warehouse?. Cul es el rango de consultas empresariales a las que debe responder inicialmente el data warehouse? Las consultas empresariales determina en forma directa las adiciones, resmenes, integracin y reingeniera que debe realizarse sobre los datos provenientes de las fuentes de datos. El mbito de consultas empresariales debe adems estar restringido por el nmero de dimensiones de datos, la variedad de los reportes y la cantidad de transferencia de escritorio que colocan demandas sobre la implementacin del data warehouse.

Entre ms especficos sean los formatos de consultas, ser mas fcil definir las dimensiones y las especificaciones de adicin y resumen, as como el rango de entidades empresariales que deben rastrearse dentro del data warehouse. Dame las ventas por trimestre para los ltimos tres aos de clientes que compraron pizza de pepperoni en la zona poniente de Tuxtla Gutirrez

mbito desde la perspectiva de la tecnologa


Cul es el tamao del metamodelo del data warehouse?

Cul es el tamao de los datos dentro del data warehouse?

Cules y cuntas son las fuentes de entrada de datos?

Qu tan utilizable son los datos de las fuentes?

Qu tambin documentada est la fuente de datos?

Cul es el nivel de servicios integrados de administracin?

Se pueden utilizar las habilidades y recursos humanos existentes?

Seleccin de la estrategia de implementacin

Seleccin de la metodologa de desarrollo

Seleccin del mbito de implementacin

PLANEACIN

Seleccin del enfoque arquitectnico

Desarrollo de un programa y del presupuesto del proyecto Desarrollo de escenarios de uso empresarial

Recopilacin de meta datos

Seleccin del enfoque arquitectnico


El almacenamiento operacional en comparacin con el uso de copias de datos operacionales. Slo data warehouse. Slo mercado de datos. Data Warehouse y mercado de datos. Separacin de plataforma e infraestructura. Arquitectura cliente / servidor de dos hileras. Arquitectura cliente / servidor de tres hileras.

Seleccin de la estrategia de implementacin

Seleccin de la metodologa de desarrollo

Seleccin del mbito de implementacin

PLANEACIN

Seleccin del enfoque arquitectnico

Desarrollo de un programa y del presupuesto del proyecto

Desarrollo de escenarios de uso empresarial

Recopilacin de meta datos

Desarrollo de un programa y presupuesto del proyecto


Articular tanto un plan de programa como un conjunto de planes de proyecto.

Reservar un presupuesto adecuado para el programa al tiempo que se compromete el gasto para proyectos especficos.
Estimacin del costo, con base en el historial de la organizacin en el desarrollo de software. Estimacin del costo, con base en la arquitectura de referencia.

Proporcionar medidas para la estimacin de la retribucin del data warehouse.

Seleccin de la estrategia de implementacin Seleccin de la metodologa de desarrollo Seleccin del mbito de implementacin PLANEACIN Seleccin del enfoque arquitectnico Desarrollo de un programa y del presupuesto del proyecto Desarrollo de escenarios de uso empresarial Recopilacin de meta datos

El data warehouse lo utilizan personas distintas a los desarrolladores y gerentes. Un factor de xito fundamental para asegurar que el data warehouse sea utilizable consiste en hacer que los usuarios finales se involucren e|n el establecimiento de expectativas de lo que puede ofrecer el data warehouse. Un usuario empresarial claramente identificado, como un gerente de produccin de accesorios para automovil, con un papel empresarial bien definido. Un rea funcional que respalde el data warehouse o el mercado de datos y que lo utilice cuando est terminado, como la de planeacin de productos y anlisis de mercado. Las consultas empresariales deben formularse en trminos precisos empleando el lenguaje comn de negocios que entiendan los usuarios finales y el rea funcional. Cules son las ventas por trimestre de equipo de aire acondicionado para automviles durante los dos ltimos aos en el mercado europeo? Cul es la correlacin entre las temperaturas promedio en verano por pas y las ventas de equipo de aire acondicionado?

Seleccin de la estrategia de implementacin Seleccin de la metodologa de desarrollo Seleccin del mbito de implementacin PLANEACIN Seleccin del enfoque arquitectnico Desarrollo de un programa y del presupuesto del proyecto Desarrollo de escenarios de uso empresarial Recopilacin de meta datos

Requerimient os
Los requerimientos describirn con claridad el ambiente operativo en que se entregar el data warehouse.

Definir los requerimientos del propietario

Definir los requerimientos del arquitecto REQUERIMIENTO S

Definir los requerimientos del desarrollo

Definir los requerimientos de los usuarios finales

Algunas de las cuestiones que proponen los propietarios (o inversionistas) del data warehouse son las siguientes: Por qu construir un data warehouse o un mercado de datos? qu problema empresarial abordar? Cules son los objetivos empresariales?

Cunto costar?Cundo estar listo? Cul es el impacto sobre la gente? sobre las habilidades? sobre las organizacin? Cmo afecta nuestras inversiones actuales en cmputo?

Tenemos la capacidad para hacerlo?

Cules son los riesgos?

Parte de requerimientos empresariales

reas Tema

Granularidad

Dimensiones

reas tema
Ejemplo: el departamento de comercializacin pudiera tener inters en uno de los temas siguientes:
Investigacin de mercado. Anlisis de competitividad. Comportamiento del comprador. Producto de segmentacin de mercado. Decisiones sobre precios y presupuestos. Decisiones sobre productos. Decisiones sobre promocin. Decisiones sobre canales. Pronsticos de tendencias. Pruebas de calidad. reas tema de inters del departamento de comercializacin: Pedidos. Promociones. Mercados. Ventas. Ciclo de Tiempo

Granularidad
Se refiere al nivel de detalle de la informacin requerida. La granularidad tiene una relacin directa con las actividades de resumen y adicin que deben realizarse sobre los datos fuente. A menor granularidad menor cantidad de detalle. Para incrementar su granularidad (y su utilidad para quienes toman las decisiones), los datos operacionales deben resumirse y acumularse toda va ms. Por lo regular, entre mayor sea la granularidad, mayor ser la cantidad de procesamiento requerido para convertir y resumir los datos operacionales. Al mismo tiempo los datos con alta granularidad requieren de menos volumen de almacenamiento y se pueden tambin consultar con rapidez y conveniencia.

Ejemplos de granularidad en las consultas empresariales


* Cul es el menor nmero tpico de clientes / ventas? (no el nombre de clientes especficos para ese representante de ventas). Esto puede ayudar a determinar si los clientes estn bien atendidos o si los vendedores estn sobrecargados. Cul es el ingreso por regin en los ltimos seis trimestres? (no el ingreso diario por regin).

Cules son los nombres de los diez primeros productos por regin para ventas en volumen? (no el volumen real de ventas).

Quin es el representante de ventas / contratos con el mas alto ingreso? (no el ingreso por contratos individuales para ese representante de ventas).

Dimensiones
Un data warehouse organiza un gran conjunto de datos operacionales e histricos mediante mltiples dimensiones de categorizacin. Las siguientes dimensiones son de uso comn en las consultas empresariales.
Tiempo Grupo de clientes. Familias de productos. Geografa y ubicacin. Estructura de la organizacin. Especificas de la organizacin. Especificas de la industria

GEOGRAFA Rep. Ventas Territorio Distrito Regin del pas CLIENTE Cliente Segmento de mercado PRODUCTO Producto Familia de productos ORGANIZACIN Linea de productos Mercado Industria Regin del pas Pas Regin Corporativa internacional

Departamento

Unidad empresarial

Divisin

Unidad Subsidiaria Corporacin empresarial estratgica

Definir los requerimientos del propietario

Definir los requerimientos del arquitecto REQUERIMIENTOS Definir los requerimientos del desarrollo

Definir los requerimientos de los usuarios finales

El arquitecto es la persona responsable de disear los diversos componentes del data warehouse para sustentar las necesidades actuales y futuras. Deben compilar una serie de requerimientos que coincidan con la visin del propietario, as como un conjunto de requerimientos que refleje la implementacin de la tecnologa. Tipos de arquitectura: Arquitectura de datos Modelo entidad - relacin Arquitectura de aplicacin Catalogo de aplicaciones junto con funciones que ofrecen y las interfaces entre ellas. Arquitectura de tecnologa Descripcin de todos los componentes de tecnologa (computadora, servidor, RDBMS, etc)

Definir los requerimientos del propietario

Definir los requerimientos del arquitecto REQUERIMIENTOS Definir los requerimientos del desarrollo

Definir los requerimientos de los usuarios finales

Definir requerimientos

Definir requerimientos

Definir requerimientos

Los requerimientos del desarrollador estn muy cercanos a la arquitectura de implementacin .

Los requerimientos del desarrollador son un refinamiento de los del arquitecto, con decisiones tomadas respecto a la seleccin de plataformas y la separacin de arquitectura de datos y la arquitectura de aplicaciones sobre las plataformas seleccionadas.

Tambin los requerimientos del desarrollador se relacionan con descripciones detalladas de la arquitectura de tecnologa para la especificacin de elementos tales como el lenguaje de programacin, el acceso al RDBMS y los protocolos de comunicacin.

Definir los requerimientos del propietario

Definir los requerimientos del arquitecto REQUERIMIENTOS Definir los requerimientos del desarrollo

Definir los requerimientos de los usuarios finales

Requerimientos de consulta: Captan las consultas empresariales expresadas en la terminologa del usuario final Departamento de Ventas

Departamento de comercializacin

Departamento de embarques

Haga clic para modificar el estilo de texto del patrn

Requerimientos de reportes

Cada uno de los usuarios finales antes descritos tiene diversos requerimientos de reportes.

Anlisis
Convertir los requerimientos acopiados en la fase anterior de requerimientos, en conjunto de especificaciones que puedan apoyar al diseo.

Diseo
Los modelos lgicos desarrollados en la fase de anlisis se convierten en modelos fsicos

Modelado del data warehouse


Esquema estrella

Haga clic para modificar el estilo de texto del patrn

Modelado del data warehouse


Esquema copo de nieve

Modelado de consultas empresariales


Modelo de molde de consulta

molde de consulta para una consulta empresarial de ventas

clic para modificar el estilo de texto del patrn

El diagrama consolidado resultante para cada rea tema se denomina modelo Starnet (red estrella)

Haga clic para modificar el estilo de texto del patrn

Construccin
La fase de construccin es responsable de implementar fsicamente los diseos desarrollados durante la fase de diseo. La construccin del data warehouse es similar a la construccin de un sistema de base de datos relacional grande. La mayora de las aplicaciones que se necesitan construir son las siguientes:
Programas que creen y modifique n las bases de datos para el data warehouse . Programas que extraigan datos de fuentes relacionale s y no relacionale s. Programas que realicen transform aciones de datos, tales como integraci n, resumen y adicin. Programas que realicen actualizaci ones de bases de datos relacionale s.

Programas que efecten bsquedas en bases de datos muy grandes

Principales retos en la fase de construccin


El entender cmo incorporar las inversiones existentes en plataformas, tecnologa y habilidades. La toma de decisiones inteligentes hacer en comparacin con comprar La seleccin y evaluacin adecuada de componentes suministrados por el fabricante.

La capacidad de integracin de sistemas para conjuntar los sistemas de fabricacin con las fuentes de datos existentes y las herramientas de acceso de datos existentes y propuestas.

La administracin de metadatos.

Procesamiento Analtico

Los gerentes y analistas empresariales buscan respuestas a cuestiones empresariales como:

Cuales fueron los ingresos por ventas en el fin de semana del Da de Accin de Gracias (nuestro mejor fin de semana de ventas) para todas las tiendas del medio oeste, con corte por departamento

Cuales fueron los diez artculos ms rentables durante la venta posterior a la Navidad?. Cuales fueron los diez menos rentables?

Como se comparan las ventas del Da de Accin de Gracias con las del mismo fin de semana en los ltimos cinco aos, por departamen to y tienda?

Los mismos gerentes y analticos requieren la funcionalidad del procesamiento analtico cuando deben responder a preguntas complejas como las siguientes: Cuantos esques de nieve, fabricados por SpeedSkiDown, Inc., Se vendieron a hombres en el mes de noviembre, en nuestras tiendas de las regiones del medio oeste, del noroeste y de la montaa? Como se compara lo programado con lo real del mismo mes en los dos ltimos aos?

Cuantas minivans azules tenamos en inventario (al fin del trimestre) con un reproductor de discos compactos y un tercer asiento, cuando la lista de precios era menor de $19,995? Se requieren totales por estado para cada trimestre de los ltimos cinco aos, comparar lo real contra lo planeado, y comparar el inventario de cada trimestre con el del anterior y el del siguiente

Un requerimiento fundamental para las grandes empresas es buscar nuevas oportunidades de mercado y segmentos de micromercado y crear programas de comercializacin detallados. Para lograr esto es un requisito el anlisis multidimensional

Anlisis multidimensional
Los datos se representan mediante dimensiones como producto, territorio y cliente. Por lo regular las dimensiones se relacionan en jerarquas, por ejemplo, ciudad, estado, regin, pas y continente, o estado territorio y regin. El tiempo es tambin una dimensin estndar con su propia jerarqua como da, semana, mes, trimestre y ao, o da y ao calendario.

El procesamiento analtico se usa para entender lo que est sucediendo en la empresa y promete anlisis del tiempo Qu pasa si? e y ahora qu?

Procesamiento analtico en lnea (OLAP)


En un data warehouse, se depositan datos para consulta, anlisis y divulgacin, a diferencia del procesamiento de transacciones en lnea (OLTP), en dnde los datos se renen para operacin y control. OLAP es una nueva tecnologa de procesamiento analtica que crea nueva informacin empresarial a partir de los datos existentes, por medio de un rico conjunto de transformaciones empresariales y clculos numricos.

Qu hace OLAP?
Presenta una visin multidimensional lgica de los datos. Comprende siempre la consulta interactiva y el anlisis de los datos. Ofrece opciones de modelado analtico, incluyendo un motor de clculo para obtener proporciones, desviaciones, etc. Que comprende mediciones de datos numricos a travs de muchas dimensiones. Crea resmenes y adiciones, jerarquas, y cuestiona todos los niveles de adicin y resumen en cada interseccin de las dimensiones. Maneja modelos funcionales de pronostico, anlisis de tendencias y anlisis estadsticos. Recupera y exhibe datos tabulares en dos o tres dimensiones, cuadros y grficas, con un pivote fcil de los ejes. Responde con rapidez a las consultas, de modo que el proceso de anlisis no se interrumpe y la informacin no se desactualiza. Tiene un motor de depsito de datos multidimensional, que almacena los datos en arreglo. Estos arreglos son una representacin lgica de las dimensiones empresariales.

Click Derecho

Click

Click

Click

Click

Click

Click Derecho

Deber estar seleccionad o

Despus dar Click

Click

Click

Click

Click

Click derech o

Click derecho

Comparar promociones

Biblioagrafa

1. Data Warehousing: La integracin de informacin para la mejor toma de decisiones, Harjinder S. Gill y Prakash C. Rao, Prentice Hall. 2. http://premiunnet.com/Information/lab0 , Ricardo Mendoza Rivera, consultado Marzo de 2008