Вы находитесь на странице: 1из 17

3.

DATA WAREHOUSE

3.1.

INTRODUCCIN

Teniendo una mejor perspectiva acerca de Business Intelligence, y mediante la apreciacin de la Arquitectura de BI, ya se puede tener una idea del papel que juega un almacn de datos (Data Warehouse) en una solucin de este tipo.

Un Data Warehouse es una base de datos accesible por los usuarios el cual tiene un registro de datos histricos y actuales acerca de todas las entidades importantes que se encuentran en la empresa y de acuerdo a negocios especficos.

El Data Warehouse organiza y aloja los datos necesarios, para ser utilizados en el procesamiento analtico dentro de una perspectiva de tiempo.

Segn Ralph Kimball1 y Bill Inmon2 un Data Warehouse es:

Una copia de la transaccin de datos especficamente estructurado para

consulta y anlisis. (Ralph Kimball, 1996)

Orientado al tema, integrado, de tiempo variante, de coleccin de datos

no voltil en apoyo a la gestin del proceso de toma de decisiones. (Bill

Inmon, 1995)
1

Ralph Kimball, conocido en todo el mundo como un innovador, escritor, educador, orador y consultor en el campo de almacenamiento de datos. http://www.kimballgroup.com/html/about.html - 06 de julio de 2009, traducido del idioma Ingls al Espaol.
2

Bill Inmon, experto de renombre mundial, autor y orador de almacenamiento de datos, es ampliamente reconocido como el "padre de almacenamiento de datos." http://www.inmoncif.com/about/ - 06 de julio de 2009, traducido del idioma Ingls al Espaol.

El desarrollo de un DataWarehouse facilita informacin til como por ejemplo

las ventas obtenidas mensualmente, las cuales pueden ser interpretadas

mediante herramientas graficas, o la cantidad de Existencia de un artculo.

3.2.

CARACTERSTICAS

continuacin

se

muestran

las

caractersticas

principales

de

un

DataWarehouse en cuanto a sus datos.

Orientado al tema.

Integrado.

De tiempo Variante.

No voltil.

Orientado al tema:

Se debe esta caracterstica debido a que en el DataWarehouse la informacin

se clasifica de acuerdo a aspectos de inters para la empresa, como por

ejemplo cliente, vendedor, producto, venta.

Integrado:

En el Data Warehouse la informacin se encuentra integrada, esta integracin

puede ser vista a problemas de datos con que se puede encontrar en una base

de datos operacional, errores como de inconsistencia de datos, uniformidad,

diferente codificacin de datos en mltiples fuentes. Con la integracin,

cualquier tipo de dato ser estandarizado de manera general y as ser alojado

en el almacn.

De tiempo variante:

Se n

refiere

as

debido

al

horizonte

de

tiempo

con

que

funciona

DataWarehouse.

No Voltil:

Se debe a que el DataWarehouse no sufre las operaciones como insercin,

eliminacin, modificacin, tan solo realizan dos operaciones que son la carga

de datos y el acceso a los mismos

Un DataWarehouse como producto presenta las siguientes caractersticas:

Fcil accesibilidad a la informacin organizacional. Informacin sumarizada y detallada. Presentacin consistente de la informacin organizacional. Permite realizar anlisis rpidamente.

3.3.

ARQUITECTURA DE UN DATAWAREHOUSE

Figura 3.1: Arquitectura de un Data Warehouse3

3.3.1. SISTEMAS ORIGEN

En cuanto a los Sistemas Origen, son en donde se encuentra los datos de inters y que sern objeto de extraccin, estos orgenes pueden ser desde mltiples lugares como por ejemplo las bases de datos, as como tambin hojas de clculo, archivos planos, Sistemas ERP (Enterprise Resourc Planning), entre otros que sern los que proveern los datos de inters.

3.3.2. STAGING AREA (AREA TEMPORAL)

Es un rea en la que se almacenar de manera temporal todos los datos que son extrados de los sistemas origen segn las necesidades planteadas del negocio. La funcin primordial es minimizar la afectacin a los sistemas origen, porque cuando se realiza la carga al Data Warehouse, los orgenes de datos no intervendrn hasta que se realice una prxima carga.

2.2.3.3. ODS (OPERATIONAL DATA STORE)

ODS Almacn de datos operativos es un rea que da soporte a los sistemas

operacionales. El modelo de datos del ODS sigue una estructura relacional y

normalizada, caracterstica por la cual se la trata de diferente manera a la de un

Tomado de http://www.dataprix.com/arquitectura-data-warehouse-areas-datos-nuestro-almacencorporativo

Almacn de Datos (DW), y con lo que le permite que cualquier herramienta de

reporte o sistema operacional pueda consultar sus datos. El ODS forma parte

de un Data Warehouse, en el sentido de que el Almacn de Datos aprovecha

los datos que previamente se encuentran integrados en l, permitiendo tambin

dar soporte a todas las transacciones operacionales.

Los ODS se lo puede considerar como un sistema origen desde el punto de

vista que va a ser sujeto a la extraccin de los datos que sern cargados en el

Data Warehouse. Vale recalcar que si el Almacn no es demasiado grande, o

el nivel de exigencia no es muy elevado en cuanto a los requerimientos o

consultas operacionales, se puede prescindir de la intervencin del ODS.

2.2.3.4. DATA WAREHOUSE

Los datos a ser cargados en el Almacn provendrn del Staging Area as como

tambin puede ser desde el ODS. Aqu los modelos de datos no sern tan

normalizados como lo es en los sistemas origen y en el ODS, aqu sucede lo

contrario y se realizan tcnicas de desnormalizacin.

2.2.3.5. DATA MARTS

Son considerados pequeos almacenes ya que poseen informacin especifica

que se obtiene desde el Data Warehouse, un Data Mart es ms personal ya

que puede llegar a construirse a partir de las necesidades en particular de un

usuario o a un tema en especifico, as como tambin por ejemplo los cubos

OLAP

sobre

cierta

informacin

que

el

usuario

requiera,

dndole

una

perspectiva analtica sobre los datos.

2.2.4.

ESTRUCTURA

Figura 2.5: Estructura de un Data Warehouse La estructura de un DataWarehouse, es bsicamente referente a la lgica de

almacenamiento de los datos, los cuales se caracterizan por tener diferentes

niveles de esquematizacin y de detalle, cmo se muestra en la Figura 2.5, en

la que se puede identificar los niveles de datos, adems de los metadatos

(metadata) del repositorio. Tomando en cuenta estos aspectos, se estructura al

DataWarehouse de la siguiente manera:

DATOS

Los datos son claves en un almacn, es lo que genera la informacin del

negocio, estos datos por lo general se encontrarn previamente tratados e

integrados.

METADATOS

Son datos estructurados y codificados que describen caractersticas de

instancias, conteniendo informacin para ayudar a identificar, descubrir, valorar

y administrar las instancias descritas. Estos metadatos por ejemplo contienen:

Algoritmos utilizados en las transformaciones de datos.

Mapeo de los datos del proceso de integracin de datos.

Funciones, procedimientos almacenados, vistas q sirven al desarrollo del

DataWarehouse.

Especificaciones y datos propios del repositorio (datos de sistema).

Con lo descrito anteriormente, se puede dar una idea general en la que los

metadatos permiten mantener informacin de la procedencia de los datos, la

periodicidad de refresco, su fiabilidad, forma de clculo, etc., relativa a los

datos de nuestro almacn.

As mismo en cuanto a los datos, poco, ligera y altamente sumarizados, esto se

puede identificar de mejor manera en ambientes multidimensionales como los

cubos OLAP ya que mediante esta implementacin, de explotacin de un

DataWarehouse se puede apreciar, agregados, navegacin de niveles, etc.

- 20 -

2.2.5.

PROCESO DE EXTRACCIN, TRANSFORMACIN Y CARGA

Existe un conjunto bsico de procesos de suma importancia detrs de una

arquitectura de DW, que garantizan la calidad de datos que en ella se

almacenarn.

Este proceso de Extraccin, Transformacin y carga, tambin conocido como

ETL o proceso de integracin de datos, cumple con la funcin principal de

organizar e integrar el flujo de datos desde mltiples fuentes, hacia un destino q

es el almacn de datos (DataWarehouse). El proceso ETL brinda soporte a la

Gestin de Datos q se va a realizar, obteniendo calidad de los mismos dentro

de un almacn como se puede apreciar en la Figura Nro. 2.6.

Figura 2.6: Proceso ETL Todo el proceso que se lleva a cabo, se debe especificar los tiempos en los

cuales se deber realizar el mismo, lo que garantiza que se mantenga al da los

datos en el almacn. Aunque esto va a ser definido de acuerdo a las

necesidades de la Organizacin, ya que por ejemplo se puede definir cargas

diarias, as como semanales o mensuales.

Este

proceso

general

se

encuentra

subdividido

en

subprocesos

fundamentales como se detalla a continuacin.

2.2.5.1. EXTRACCIN

Figura 2.7: Subproceso ETL - Extraccin

La extraccin se refiere a la adquisicin de los datos, los cuales pueden ser

recogidos de diferentes fuentes, como archivos planos, hojas de clculo,

bases de datos.

La extraccin de los datos se almacenarn en una rea temporalmente o

Staging Area, vale recalcar que solo se extraern datos necesarios, es decir de

acuerdo a lo que se haya especificado en los requerimientos, ya que en el

ambiente transaccional se encuentra gran cantidad innecesaria de datos, por lo

que es indispensable la extraccin de los mismos, y que sern tiles en el

ambiente del DataWarehouse.

2.2.5.2. TRANSFORMACIN

Figura 2.8: Subproceso ETL - Transformacin

Es el subproceso ms laborioso con respecto a los otros dos, debido a que en

esta etapa se realiza el refinamiento de los datos que han sido extrados de las

diferentes fuentes, por lo que aqu se especificar pasos de acuerdo a los

datos que van a ser tratados dando valor para los usuarios. Este proceso

incluye correccin de errores, decodificacin, borrado de campos que no son

de inters, generacin de claves, agregacin de informacin, etctera, lo que

es ms conocido como limpieza de los datos fuentes.

2.2.5.3. CARGA

Figura 2.9: Subproceso ETL - Carga

El ltimo subproceso se caracteriza por realizar la carga hacia el

DataWarehouse, los datos que previamente han sido extrados y tratados en

los dos subprocesos anteriores para contar con datos de calidad, ahora se

proceder a realizar la carga de los mismos a un nuevo ambiente que es el de

almacn de datos, para ello es importante implementar mtodos y/o maneras

de carga de datos con el fin de controlar por ejemplo datos actualizados

histricos.

Bien, finalizado todo el proceso ETL, lo que se pretende es contar con datos

relevantes para el negocio, los mismos que deben ser de valor sin ningn tipo

de codificacin, es decir datos transparentes y entendibles por los usuarios

finales. Ya contado con la calidad de datos en el ambiente del almacn se

termina un ciclo del proceso ETL.

Вам также может понравиться