Вы находитесь на странице: 1из 10

Fernanda Cadme Miguel Jarama Gerencia Informtica Informe del Proyecto Final

Construccin de un Data Warehouse


Objetivos - Conseguir dos fuentes diferentes de datos. - Construir un Almacn de datos y realizar dos reportes desde el mismo. Justificacin de la Solucin La herramienta escogida para la elaboracin del data Warehouse es Pentaho Community, ya que es una de las ms potentes para Bussiness Intelligence, que con todos sus complementos incluidos nos permite realizar el ETL, los Cubos OLAP y los reportes de los mismos para mejor visin global del negocio de una determinada rea a analizar convirtindose por ende en una herramienta elemental para el apoyo en la toma de decisiones de gerentes ya que se pueden observar las cifras de la empresa de forma ms clara en grficos. El diseo para el data warehouse a seguir fue el de Bill Inmonn ya que tenamos la informacin en bruto, para construir nuestro datamarts en copos de nieve, y utilizarlos para ir realizando de una mejor organizacin las dimensiones del Cubo OLAP. Diseo del Data Warehouse

Reportes a Realizar - Mostrar las cantidades de ventas por cuidad para identificar mercados potenciales. - Mostrar la expectativa de vida en cada cuidad para identificar las edades a las cuales van dirigidas los productos.

Fernanda Cadme Miguel Jarama Gerencia Informtica Manual de Instalacin La herramienta de Pentaho tiene dos opciones de uso, la primera de pago y la segunda libre, para nuestro caso usaremos Pentaho Community (libre), que incluye todas sus herramientas en diferentes paquetes, lo cual se realiza algunas configuraciones para poner iniciar la aplicacin. Antes de realizar especifiquemos cuales son los requerimientos mnimos para su correcto funcionamiento. Requisitos De Instalacin 1. Hardware: a. Procesador: i. Apple Macintosh Dual-Core ii. Intel o AMD64 Dual-Core b. Memoria RAM: i. 2 a 3 Gb c. Espacio en Disco: i. Aproximadamente 3 Gb d. Sistema Operativo de 32bit o 64 bit: i. Apple Mac OS 10.7 & 10.8 ii. Microsoft Windows 7 iii. Ubuntu Server 10.X and 12.X 2. Software: a. Base de Datos para el repositorio i. MySql Server b. Conectores de las bases de datos a utilizar: i. Sqljdbc4.jar (Sql Server 2012) ii. postgresql-9.1-901.jdbc4.jar (Postgres Sql 9.1) iii. mysql-conector-java-5.0.8-bin.jar (MySql Server) c. Mquina virtual de Java i. Oracle Java 1.6 o posterior Java Runtime Environment (JRE) ii. Oracle Java 1.6 o posterior Development Kit (JDK). d. Paquetes del Pentaho Comunity, pgina de descarga (http://community.pentaho.com) i. Pentaho BI Suite 4.8 Stable. ii. Pentaho Data Integration-Kettle 4.4.0 stable. iii. Pentaho Reporting engine and SDK 3.9.1 Stable. e. Web Browsers No hay mucho problema en ello, ya que Pentaho soporta la mayora de navegadores para sus herramientas y reportes. Configuracin de los requisitos de Software Todos los requisitos como: Bases de Datos, Mquina Virtual de Java y los Navegadores, ya sabemos cmo normalmente se instalan, luego de eso debemos configurar los conectores a las bases de datos, que es importante para que interacte Pentaho con cada una de ellas.

Fernanda Cadme Miguel Jarama Gerencia Informtica

1. Copiar los JDBCs en las rutas donde se encuentra los archivos de Pentaho, en mi caso sera: a. /run/media/Danny/Mis Documentos/pentaho/pdi-ce-4.4.0-stable/dataintegration/libext/JDBC/ b. /run/media/Danny/Mis Documentos/pentaho/prd-ce-3.9.1-GA/reportdesigner/lib/jdbc/ c. /run/media/Danny/Mis Documentos/pentaho/biserver-ce-4.8.0-stable/administrationconsole/jdbc/ d. /run/media/Danny/Mis Documentos/pentaho/biserver-ce-4.8.0-stable/biserverce/tomcat/lib/

Los JDBCs sirven para la comunicacin entre la Base de Datos a utilizar y cualquier aplicacin Java. Ejecucin para realizar el ETL, cargar en el repositorio del Almacn de Datos Debemos tener en cuenta que en el repositorio del Almacn de Datos ya deben estar creadas, para cargar los datos relevantes que vamos a analizar.

1. Ir a la siguiente ruta desde la terminal:

2. Ejecutar la siguiente lnea, para iniciar la aplicacin, esperamos un momento:

Fernanda Cadme Miguel Jarama Gerencia Informtica

3. Despus de inicializar el programa nos saldr la siguiente ventana, para que el repositorio a utilizar sea nuestra base de datos creada, debemos crear una nueva, Click en el icono verde de ms.

4. Debemos realizar las conexiones a todas las bases de datos que vamos a utilizar, Seleccionamos Kettle database repository, Click en Vale.

5. Click en nuevo y llenamos los campos correspondientes de nuestra base de datos, click en Probar.

Fernanda Cadme Miguel Jarama Gerencia Informtica Fuente 1 (Sql Server)

Fuente 2 (PostgreSql)

Repositorio Almacen de Datos (MySql)

6. La siguiente pantalla, nos pedir ingresar el ID y Nombre, lo podemos de acuerdo a nuestra base de datos, Click en Vale.

7. Nos saldr la siguiente pantalla, para comenzar a disear nuestro Almacn de datos con el ETL.

Fernanda Cadme Miguel Jarama Gerencia Informtica

8. E n ella escogemos Entrada Tabla, y arrastramos hasta nuestra rea de trabajo.

9. Doble Click encima del icono, esto nos ayuda a extraer los datos para transformar, con la ayuda de consultas SQL, podremos identificar las columnas necesarias, Click en visualizar para ver todos los datos a extraer. Esto lo realizamos con todas las tablas que deseamos obtener la informacin.

Fernanda Cadme Miguel Jarama Gerencia Informtica

10. Cuando necesitamos, unir las tablas lo realizamos con Unin pro Clave, esto nos ayuda para tener relacin las dos tablas, lo podemos realizar por medio de los campos que son iguales en las dos tablas.

Fernanda Cadme Miguel Jarama Gerencia Informtica

11. De igual forma doble click sobre el icono, y llenamos los campos.

12. Ya para empezar a realizar las dimensiones del cubo, buscamos Bsqueda/Actualizacin en combinacin.

Fernanda Cadme Miguel Jarama Gerencia Informtica 13. Doble Click para llenar los campos, lo cual pondremos solo los campos que sern necesarios para nuestro Almacn de Datos.

14. Al Final en la tabla que tendremos nuestro hechos, es decir los que vamos a medir, lo pondremos los campos.

Fernanda Cadme Miguel Jarama Gerencia Informtica 15. Al tener ya todo correctamente, vamos a ejecutar al final nos saldr que ha escrito en la

Conclusiones Pentaho Community en su versin libre, tiene una gran potencialidad para realizar las pruebas del proceso y el objetivo del Almacn de Datos, que para finalidad de educacin no pide mucho favor a la pagada. Al tener demasiados datos en las bases de datos, en el momento de la construccin del Almacn de Datos, como nuestras computadoras no tenan los suficientes recursos para el proceso, su finalizacin era fracasada, es decir no terminaba de realizar todo el almacenamiento de los datos. Se requiere de tiempo y especial atencin al momento de crear el diseo de un almacn de datos ya que si en una de las consultas u operaciones del proceso ETL se realizase de manera incorrecta podran resultar en un desbordamiento de la memoria y por ende en algunos casos hasta que la computadora se apague repentinamente de manera que se recomienda realizar las pruebas previas a la ejecucin del diseo y tambin tener una idea de lo que vamos a obtener. El diseo de un data Warehouse se basa en primera instancia en los requerimientos de lo que vamos a obtener o deseamos analizar y conocer.

Вам также может понравиться