Вы находитесь на странице: 1из 21

Data Warehouse

Bodegas de Datos ? ? ?...

Introduccin
Hoy en da toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones requerimos hechos y cifras, sabemos que la competencia crece en todo momento por lo que las decisiones deben ser mas aceleradas; pero que pasa si tenemos una montaa de informacin la cual debe ser analizada, lgicamente?... Por ese motivo se requieren herramientas que ayuden a minimizar el tiempo para analizar mucha informacin con mayor velocidad y precisin; utilizando dichas herramientas logramos mantenernos competitivos, ya que nuestros negocios deben reaccionar al cambio del mercado. De otro modo el mercado globalizado, la presin inmensa de la competencia, los arranques tecnolgicos, etc. Debilitaran nuestra empresa. Esto nos muestra que las empresas invierten en tecnologa y soluciones con las cuales se mantienen en este mundo cambiante, es decir, las empresas no dependen tan solo de factores como ubicacin, productos, etc. Sino tambin del conocimiento. Tal conocimiento basado en informacin comprensible, detallada y relevante es crucial para lograr y sostener ventaja competitiva. El poseer conocimientos correctos se tienen respuestas correctas y se pueden tomar decisiones estratgicas para la ejecucin de la empresa. Pero las tareas de recolectar, procesar, limpiar y transformar la informacin necesaria para la toma de decisiones no es una tarea sencilla si consideramos que una empresa tiene distintas reas que a veces se encuentran alejadas de los ejecutivos de negocios. El Componente de Bussines Intelligence que resuelve este caos de los datos es el Data Warehouse.

Qu es Data Warehousing?
En la actualidad hay confusin respecto a lo que es un Data Warehouse que, afortunadamente, est comenzando a despejarse. No obstante, parece que cada proveedor de un producto o servicio relacionado con tecnologa informtica tiene su definicin y, lo que es peor, en su propia jerga no siempre comprensible. Algunos llaman al Data warehouse, Business Intelligence or Decision Support en realidad es considerada la solucin integral y oportuna para desarrollar negocio Es un conjunto de datos integrados u orientados a una materia, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin y esta orientada al manejo de grandes volmenes de datos provenientes de diversas fuentes o diversos tipos. Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentracin de la informacin esta orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis, seleccin y transferencia de datos.

Data Warehouse:

Qu es Data Warehousing?
Es un proceso, no un producto. Es una tcnica para consolidar y administrar datos de variadas fuentes con el propsito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora.

Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos.
Existen muchas definiciones para el DW, la ms conocida fue propuesta por Inmon [MicroSt96] (considerado el padre de las Bases de Datos) en 1992:

Un DW es una coleccin de datos orientados a temas, integrados, no voltiles y variante en el tiempo, organizados para soportar necesidades empresariales.
En 1993, Susan Osterfeldt publica una definicin que sin duda acierta en la clave del DW:

Yo considero al DW como algo que provee dos beneficios empresariales reales: Integracin y Acceso de datos. DW elimina una gran cantidad de datos intiles y no deseados, como tambin el procesamiento desde el ambiente operacional clsico.

Objetivos de Data WareHouse


1.

Informacin de la organizacin accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Informacin de la organizacin consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad, toda la informacin es contabilizada y completada.

2.

Objetivos de Data WareHouse


3.

Informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. Es un seguro baluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas despus de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripcin de un sistema de soporte a las decisiones.

4.

5.

Elementos bsicos de un Data WareHouse


Sistema fuente: sistemas operacionales de registros cuya funcin es capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System. 2. rea de trafico de datos: es un rea de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse. 3. Servidor de presentacin: la maquina fsica objetivo en donde los datos del Data WareHouse son organizados y almacenados para querys directos por los usuarios finales, reportes y otras aplicaciones. 4. Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad relacin. 5. Procesos de negocios: coherente grupo de actividades de negocio que dan sentido a los usuarios del negocio del Data WareHouse. 6. Data Mart: un subgrupo lgico del Data WareHouse completo.
1.

Elementos bsicos de un Data WareHouse


Data WareHouse: es la unin de todos los data marts que la constituyen. 7. Almacenamiento operacional de datos: es el punto de integracin de los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos. 8. OLAP: actividad general de bsquedas para presentacin de texto y nmeros del Data WareHouse, es un estilo dimensional especifico de bsquedas y presentacin de informacin. 9. ROLAP: grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional. 10. MOLAP: grupo de interfases de usuarios, aplicaciones y propietarios de tecnologa de bases de datos que tienen un fuerte estilo dimensional. 11. Aplicaciones para usuarios finales: coleccin de herramientas que hacen los querys, analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio. 12. Herramientas de acceso a datos por usuarios finales: cliente de Data WareHouse. 13. Ad Hoc Query Tool: tipo especifico de herramienta de acceso a datos por usuarios finales que invita al usuario a formar sus propios querys manipulando directamente las tablas relacionales y sus uniones. 14. Modelado de aplicaciones: sofisticado tipo de cliente de Data WareHouse con capacidades analticas que transforma o digiere las salidas del Data WareHouse. 15. Meta Data: informacin en el ambiente del Data WareHouse que no son los datos actuales.
6.

Procesos bsicos del Data WareHouse (ETL)


1. Extraccin:

este es el primer paso de obtener la informacin hacia el ambiente del Data WareHouse. 2. Transformacin: una vez que la informacin es extrada hacia el rea de trafico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar la basura que no nos sirve, seleccionar nicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensin. 3. Carga: al final del proceso de transformacin, los datos estn en forma para ser cargados

Procesos bsicos del Data WareHouse (ETL)

Cmo se puede conformar la bodega de datos?


Existen tres aspectos importantsimos que intervienen en el establecimiento y el uso de una bodega de datos: el diseo, el mantenimiento, y el uso de la misma. Diseo requiere soportarse en un anlisis profundo del negocio o de las reas funcionales responsables de la utilizacin de la bodega, las fuentes de datos que alimentarn la bodega, y unas personas capacitadas en la correcta estructuracin de la bodega. De las decisiones aqu tomadas, depende la velocidad de bsqueda y la calidad obtenida en las respuestas. Una decisin mal tomada en este aspecto puede significar demoras de das en vez de horas o minutos, o incluso, que la bodega no est en capacidad de responder las preguntas claves para la organizacin. Mantenimiento Segn los expertos, uno de los principales problemas que se vive con los proyectos de bodegas de datos es la obsolescencia de su informacin. Se actualiza la informacin para el proyecto piloto, pero no se establecen mecanismos de actualizacin permanente que siempre garanticen la oportunidad de la misma. Decisiones que se hagan sobre el uso que se har de la bodega de datos, resaltndose en este aspecto la capacidad y entrenamiento que deben tener los distintos usuarios para buscar relaciones y analizar la informacin. Si bien es cierto que la bodega de datos agiliza esta tarea, es deber de los usuarios saber cmo preguntar, interpretar y poner en prctica los resultados que obtienen, pero adems, se debe definir en forma muy clara, el mbito empresarial en el que operar la bodega, las dependencias administrativas de la organizacin que van a tener acceso y las consultas que sta debe responder inicialmente.

REQUERIMIENTOS PARA IMPLEMENTAR DATA WAREHOUSE


HARDWARE: Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construccin de la bodega presenta redimensionamiento a medida que se avanza en la implementacin. Dependiendo del diseo del sistema, puede ser necesario contar con un segundo servidor para las herramientas de consulta de datos. Este equipo debe tener el sistema operativo recomendado por el proveedor de la herramienta a utilizar, siendo el ms usado Windows.

Las estaciones de trabajo de cada usuario debern cumplir con las caractersticas recomendadas por el proveedor de la herramienta de consulta seleccionada.

REQUERIMIENTOS PARA IMPLEMENTAR DATA WAREHOUSE


SOFTWARE Las herramientas se clasifican en cuatro categoras bsicas: Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irn a almacenar los datos. Cada uno de los sistemas de administracin de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Data Warehouse. Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar y filtrar los datos de los sistemas transaccionales en el Data Warehouse. La mayora de esas herramientas son desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales. Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solucin a preguntas especficas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc. Herramientas de Anlisis Inteligente: Entre ellas estn las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una tcnica conocida como Data Minning o Minera de datos.

Data Mining
Es una tecnologa de soporte para usuario final, cuyo objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas. Los objetivos de un sistema Data mining nos permiten analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar tems similares, adems de obtener secuencias de eventos que provocan comportamientos especficos. Se desarrollan bajo lenguajes de ultima generacin basados en la inteligencia artificial y utilizando mtodos matemticos, tales como:

Redes neuronales Introduccin de reglas Arboles de decisin Conjunto de reglas por clase

Soporta tambien sofisticadas operaciones de anlisis tales como los sistemas Scoring y aplicaciones de deteccin de fraude.

Quines y para qu usan Data Warehouse?


Dadas las caractersticas de un sistema de Data Warehousing, su aplicacin puede tener variados fines, en una diversidad de industrias. No obstante, en trminos generales, podemos decir que su aplicacin ms rica corresponde a entornos de empresas en los que se identifican grandes volmenes de datos, asociados a: cantidad de clientes, variedad de productos y cantidad de transacciones.

A continuacin veremos ejemplos de aplicaciones tpicas y algunos casos puntuales en distintas industrias.

Quines y para qu usan Data Warehouse?


Comercio Minorista: Utilizan grandes sistemas de Procesamiento Paralelo Masivo para acceder a meses o aos de historia transaccional tomada directamente en los puntos de venta de cientos, o miles, de sucursales. Con esta informacin detallada pueden efectuar en forma ms precisa y eficiente actividades de compra, fijacin de precios, manejo de inventarios. En su libro "Made in Amrica: My Story" el fundador de WalMart, Sam Walton, escribe: "...me dicen que es la base de datos comercial ms grande del mundo. Lo que me gusta es la clase de informacin que puedo obtener de ella al instante todos esos nmeros!, llevamos 65 semanas de historia de cada artculo que vendemos. Esto significa que puedo elegir cualquiera y decir exactamente cuantos vendimos... no en promedio, sino en cualquier regin, distrito o sucursal. Es difcil que un proveedor sepa ms acerca de su producto de lo que sabemos nosotros. Nos da el poder de la ventaja competitiva." Para poner esto en perspectiva debemos considerar que las sucursales a las que hace referencia Sam Walton son unas 2500 y que cada una de ellas tiene una variedad de entre 50.000 y 80.000 artculos, todas las noches 20 millones de actualizaciones se realizan en el Data Warehouse de WalMart.

Quines y para qu usan Data Warehouse?


Manufactura de Bienes de Consumo Masivo: Las empresas de este sector necesitan hacer un manejo cada vez ms gil de la informacin para mantenerse competitivas en la industria. Los Data Warehouses se utilizan para predecir la cantidad de producto que se vender a un determinado precio y, por consiguiente, producir la cantidad adecuada para una entrega "justo a tiempo". A su vez se coordina el suministro a las grandes cadenas minoristas con inmensas cantidades de productos "en consignacin", que no son pagados hasta que estos productos son vendidos al consumidor final. Un ejemplo interesante es el de Whirlpool. Este fabricante global de electrodomsticos, utiliza su Data Warehouse para hacer un seguimiento directo de sus casi 15 millones de clientes y de sus ms de 20 millones de aparatos instalados. Las mayores aplicaciones del sistema son para marketing, ventas, mantenimiento, garanta y diseo de productos. Permite mantener stock de partes ms ajustados y mejorar las condiciones de negociacin con los proveedores de las mismas. Otras empresas del sector que cuentan con Data Warehouses de importancia son: Coca Cola, Nike, Procter & Gamble, Hallmark, Maybelline, Helene Curtis, 3M, Owens Corning Glass, Karsten Ping Golf Clubs, Walt Disney.

Quines y para qu usan Data Warehouse?


Transporte de Cargas y Pasajeros: Se utilizan Data Warehouses para almacenar y acceder a meses o aos de datos de clientes y sistemas de reservas para realizar actividades de marketing, planeamiento de capacidad, monitoreo de ganancias, proyecciones y anlisis de ventas y costos, programas de calidad y servicio a clientes. Las empresas de transporte de cargas llevan datos histricos de aos, de millones de cargamentos, capacidades, tiempos de entrega, costos, ventas, mrgenes, equipamiento, etc.. Las aerolneas utilizan sus Data Warehouses para sus programas de viajeros frecuentes, para compartir informacin con los fabricantes de naves, para la administracin del transporte de cargas, para compras y administracin de inventarios, etc. Hacen un seguimiento de partes de repuesto, cumplimiento con las regulaciones aeronuticas, desempeo de los proveedores, seguimiento de equipaje, historia de reservas, ventas y devoluciones de tickets, reservas telefnicas, desempeo de las agencias de viajes, estadsticas de vuelo, contratos de mantenimiento, etc. Algunas empresas que cuentan con Data Warehouses de magnitud: Cornrail, Union Pacific, Norfolk Southern, Delta, Lufthansa, QANTAS, British Airways, American Airlines, Canadian Airlines

Quines y para qu usan Data Warehouse?


Telecomunicaciones: Estas empresas utilizan sus Data Warehouses para operar en un mercado crecientemente competitivo, desregulado y global que, a su vez, atraviesa profundos cambios tecnolgicos. Se almacenan datos de millones de clientes: sus circuitos, facturas mensuales, volmenes de llamados, servicios utilizados, equipamiento vendido, configuraciones de redes, etc. as como tambin informacin de facturacin, utilidades, y costos son utilizadas con propsitos de marketing, contabilidad, reportes gubernamentales, inventarios, compras y administracin de redes. Otras Industrias: Muchas otras industrias utilizan actualmente, o estn comenzando a instalar, Data Warehouses: entidades gubernamentales, especialmente para el control impositivo, empresas de servicios pblicos, de entretenimiento, editoriales, fabricantes de automviles, empresas de petroleo y gas, laboratorios farmacuticos, drogueras, etc.

Quines y para qu usan Data Warehouse?


Industria informtica: NCR dispone de los Data Warehouses de mayor magnitud y antigedad. Sus mayores instalaciones se encuentran en distintos centros de la compaa en Estados Unidos. La de NCR El Segundo, California, es una de las ms antiguas del mundo, su primera aplicacin fue el seguimiento histrico y detallado de la base de clientes: llamados de servicios, productos instalados, performances, etc. Esta instalacin es herencia de Teradata, compaa fundada en 1979 para la produccin de sistemas de procesamiento paralelo masivo destinados a aplicaciones de soporte a la toma de decisiones y posteriormente adquirida por NCR.

En NCR San Diego, California, se encuentra el centro de desarrollo de los computadores WorldMark. Sobre los mismos se realiz la demostracin del Data Warehouse ms grande del mundo: 10 Terabytes de informacin (=10.000 Gigabytes=10.000.000 Megabytes), para poner esto en trminos manejables debemos considerar que toda la informacin escrita de la Biblioteca del Congreso de los Estados Unidos se podra almacenar en unos 20 Terabytes. En NCR Dayton, Ohio, la compaa dispone de un Data Warehouse de 1 Terabyte (=1000 Gigabytes) destinado fundamentalmente a tareas de marketing, produccin y finanzas. A la fecha tiene almacenados 281.154 documentos, agrupados en 36 grupos de inters temtico, que pueden ser accedidos 24 Hs. al da, los siete das de la semana, por 16.100 usuarios distribuidos en 46 pases. A principios del ao 1996 el sistema estaba respondiendo un promedio de 242.707 consultas mensuales.

Un artculo interesante para concluir..

La importancia de la inteligencia de negocios (pc-news_com)

Вам также может понравиться