Вы находитесь на странице: 1из 10

4 Construccin

En este captulo se describe la secuencia de pasos para configurar las herramientas utilizadas para la construccin del Data Mart.

4.1

Configuracin del software


Para el presente proyecto se utilizarn el sistema operativo Windows XP, base de datos PostgreSQL y la suite Pentaho. A continuacin se muestra las configuraciones de estas herramientas.

4.1.1

Configuracin de la Base de Datos Para la configuracin del motor de base de datos PostgreSQL se deben realizar los siguientes pasos:

Descargar el paquete postgreSQL 8.3 de

pgina de descargas de

postgreSQL: http://www.postgresql.org/download/windows Instalar el paquete postgreSQL 8.3 que incluye la interfaz grfica pgAdmin III. Configurar la conexin local que se va a utilizar para la creacin de las bases de datos. Para ello se ingresan los siguientes datos: o o o o o o o Nombre: postgreSQL Servidor: localhost Puerto: 5432 BD de Mantenimiento: postgres Usuario: postgres Contrasea: ****** Servicio: postgresql-8.3

Crear la base de datos para almacenar las dimensiones y las tablas de hechos, para ello se ingresan los siguientes datos: o Nombre: multidimensional

o o o

Propietario: postgres Codificacin: UTF8 Tablespace: pg_default

4.1.2

Configuracin de Pentaho Para la configuracin de Pentaho se debe descargar la suite Pentaho de la pgina: http://www.pentaho.com/products/try_bi_suite.php, luego se tienen que configurar las herramientas que se utilizarn para el proceso ETL, la elaboracin de los cubos y los reportes, estas son:

Plataforma: Para la instalacin de la plataforma se sigue el Wizard que proporciona el instalador de Pentaho. En ella se registran las contraseas que se utilizarn para el usuario administrador y para realizar publicaciones. Adems se incluye la creacin de un usuario cliente estndar con una contrasea por defecto (Joe/password). Data Integration (Kettle): Esta herramienta servir para la construccin de los procesos ETL, especficamente se usar la aplicacin Spoon, una interfaz grfica que permite arrastrar los componentes de entrada, transformacin y salida de los procesos. Para su configuracin se debe iniciar Pentaho Data Integration desde la ruta: C:\Archivos de programa\pentaho\design-tools\dataintegration\spoon.bat y se mostrar la siguiente pantalla de inicio.

En esta ventana se crea el repositorio de los objetos de los procesos ETL, para ello primero se configura la base de datos que se usar, y se ingresan los siguientes datos: Tipo de conexin: postgreSQL Servidor: localhost Nombre de la BD: postgres Puerto: 5432 Usuario: postgres Contrasea: *****

Finalmente se ingresa un nombre y una descripcin para el repositorio. Schema Workbench (Kettle): Esta herramienta servir para la creacin de los archivos XML que usaremos para la construccin de los cubos. Para su configuracin se debe tener los drivers correspondientes a las bases de datos que utilizaremos, estos deben estar en la siguiente carpeta: C:\Archivos de programa\pentaho\design-tools\schema-workbench\drivers,

para el caso de postgreSQL se utilizar el driver postgresql-8.3-604.jdbc3.jar. Luego se debe iniciar Schema Workbench desde la ruta: C:\Archivos de programa\pentaho\design-tools\schema-workbench y se

configuran las preferencias. Para ello se ingresa al men Herramientas / Preferencias. En esa ventana se ingresan los siguientes datos: Driver: org.postgresql.Driver Conexin URL: jdbc:postgresql://localhost:5432/multidimensional Usuario: postgres Contrasea: ******

Para comprobar el paso anterior se debe ingresar al men Archivo/ Nuevo/ Explorador JDBC. Finalmente para crear los cubos ingresar al men Archivo/ Nuevo/ Esquema.

4.2

Construccin de procesos de carga


Para la construccin de los procesos ETL el primer paso es definir las transformaciones que se realizarn sobre los datos extrados. Para eso se utilizar la interfaz grfica Spoon.

Para

aadir

una

transformacin

se

ingresa

al

men

Archivo/

Nuevo/

Transformacin y para aadir los steps (pasos que sigue esta transformacin) basta con arrastrar los conos desde la barra lateral. Luego para crear las relaciones (hops) entre steps se debe seleccionar un step y dejar presionado el botn central del Mouse arrastrndolo hasta el siguiente step.

Luego de definir un proceso ETL se realizan las pruebas respectivas, para ello se ingresa al men Transformacin/ Ejecutar. En la parte inferior se observar una pestaa con la descripcin los steps realizados y otra ms con el historial de las operaciones internas para realizar dichos steps. A continuacin se muestra como ejemplo la carga de la dimensin producto. 4.2.1 Carga de dimensin Producto Esta dimensin utiliza cinco tablas del modelo relacional, estas son: Producto, Familia, Subfamilia, Marca y Modelo. La tabla destino donde se almacenar la dimensin es: dim_producto. A continuacin se muestra el diagrama ETL para la carga de esta dimensin.

4.2.2

Carga de Fact Table Venta por Zona Esta tabla utiliza como fuente a la dimensin producto creada en el paso anterior y a las dimensiones zona geogrfica y tiempo que se cargan de la misma manera que producto y se almacenan en las tablas: Dim_producto, dim_zona_geografica y dim_tiempo Adems utiliza la tabla ventas por zona del modelo relacional para obtener las unidades vendidas de productos por zona. A continuacin se muestra el diagrama ETL para la construccin de esta tabla de hechos.

4.3
4.3.1

Construccin de Reportes
Reporte de ventas por zona Este reporte muestra el volumen de ventas por zona geogrfica. Esta informacin se almacena en la tabla de hechos ventas_por_Zona. Para crear el cubo ventas se utilizarn adems de esta tabla de hechos las dimensiones producto, zona_geogrfica y tiempo. A continuacin se muestra la estructura en forma de rbol con las jerarquas, tablas y el cdigo XML generado a partir de la herramienta Schema Workbench.

Finalmente despus de publicar este archivo XML, se observar el resultado en la consola cliente ingresando con el usuario por defecto (joe/password). All se escoge un nuevo Analysis View, se elige el esquema y cubo publicados y se obtiene un cuadro con las dimensiones cargadas como se muestra a continuacin en la siguiente pantalla.

4.4

Ejecucin de las Pruebas de proceso de carga Todas las pruebas se realizaron en un ambiente local, es decir con una base de datos en localhost tanto para las tablas transaccionales como para las dimensionales y tablas de hechos. Adems la data que se utiliz se ajusta a los datos reales que se encuentran en los catlogos de productos de la empresa que los comercializa, en cambio, los volmenes de venta si fueron estimados.

A continuacin se muestra el resultado de una ejecucin de la carga de la dimensin producto, se puede ver las actividades que se realiz por cada step, es decir la lectura de cada una de las tablas transaccionales, la integracin y la escritura en la tabla dimensional. Esta informacin se obtuvo del log de actividades del Pentaho Data Integration.

Вам также может понравиться