Вы находитесь на странице: 1из 39

1

Manual Pentaho Data Integration


Grupo de Investigacin Base de Datos
Dra. Anglica Urrutia.
Universidad Catlica del Maule
Chile

Integrantes:
Hctor Valds Amaro.
Christian Ortiz Gonzlez.
Javier Jirn Orozco

Anexo 1:
schema-workbench

Para la realizacin de cubos con la herramienta schema-workbench, se debe revisar que se


cuente con los driver de conexin, con la base de datos que se seleccion en este caso la
conexin con SQL SERVER.
Para esta tarea se debe ingresar a la carpeta drivers que se encuentra dentro de la carpeta de
schema-workbench

Carpeta driver dentro de schema-workbench

Una vez que se ingres a la carpeta, se debe revisar que exista el driver para realizar la
conexin, en el caso del driver para la conexin a la base de datos SQL Server es SQLJDBC4,
que como se aprecia en la siguiente imagen el driver esta contenido dentro de la carpeta.

Dentro de la carpeta driver cerciorando la existencia del driver de conexin SQL Server

Una vez que el driver de conexin esta dentro de la carpeta de driver, se procede a realizar la
conexin a la base de datos fuente, que en el caso de la investigacin es SQL Server.
Para esto, una vez dentro de schema-workbench se debe presionar options que se encuentra en
la parte superior de la ventana. Como se muestra en la siguiente imagen.

Creacin de conexin con schema-workbench.

Luego de presionado el botn options, aparece en pantalla la ventana de configuracin de la


conexin a la base de datos fuente. Dentro de la ventana se deben configurar los siguientes
parmetros:

Nombre de la conexin: se asigna un nombre a la conexin.

Host name: el host que soporta la base de datos, en el caso de la investigacin como se
trabaja con un servidor local que soporta la base de datos, en el caso de no este, se debe
especificar cul es el host.

Nombre de la base de datos: nombre de la base de datos a la cual se quiere conectar.

Nmero de puerto: nmero del puerto por el cual se realizar la conexin.

Nombre del usuario: nombre del usuario por el cual se realizar la conexin.

Password: clave del usuario que se conecta.

En la siguiente imagen se muestra esta ventana.

Ventana de configuracin de conexin con la base de datos fuente en el caso de estudio SQL
SERVER.

Luego de realizada la configuracin, se procede a probar si la configuracin de la conexin fue


bien realizada, para esto se presiona el botn TEST y si la conexin fue bien configurada,
aparecer un cuadro de dialogo que indica que la conexin con la base de datos esta OK, como
se muestra en la siguiente imagen.

Comprobacin de conexin con base de datos fuente.

Con la conexin a la base datos fuente realizada, se procede a la creacin del cubo, para esto
se debe seleccionar el men file dentro de schema-workbench. Selecciona schemas para
comenzar con la creacin. Como se muestra en la siguiente figura:

Creacin de schema dentro de schema-workbench.

Una vez creado el cubo, se posiciona sobre el schema y se presiona el botn secundario del
mouse y se selecciona la opcin add cube, con esto adjuntamos un cubo al nuevo Schema.
Como se aprecia en la siguiente imagen:

Creacin de cubo dentro del nuevo Schema.

Una vez que se cre el cubo, se procede a crear la tabla de hecho del cubo, para esto se
presiona el botn segundario del mouse sobre el cubo, lo cual desplegar un men segundario
en donde se selecciona add tabla.

10

Creacin de tabla de hechos dentro del cubo.

Creada la tabla de hechos, debemos especificar que tabla de la base de datos fuente
corresponde a esta tabla de hecho.
Para esto primero seleccionaremos el Schema de la base de datos fuente que contienen la tabla
de hecho. Para el caso en estudio el Schema es dbo, que contiene el esquema de la tabla de
hecho. En la siguiente imagen se aprecia este proceso.

11

Seleccin de Schema de base de datos fuente de tabla de hechos

Seleccionado el Schema se selecciona la tabla de hechos del cubo. En el caso en estudio la


tabla de hecho corresponde a las ventas por internet.

12

Seleccin de tabla de hechos.

Seleccionada la tabla de hechos, se procede a la creacin de la tabla de dimensiones del cubo,


esta creacin se realiza de una forma particular, ya que no se crea dentro del cubo que es una
posibilidad, sino que se crea dentro del Schema, esta creacin se realiza de esta manera, ya
que si estas dimensiones son requeridas por otro cubo slo se utilizan y no tienen que ser
creadas cada vez que se crea un cubo.
La creacin de dimensiones dentro del cubo se posiciona sobre el Schema y se presiona el
botn secundario del mouse, esto desplegar un men segundario en donde se selecciona add
dimensin, como se muestra en la siguiente figura.

13

Creacin de dimensiones dentro del Schema.

Una vez creada la dimensin, se debe especificar cul es la jerarqua que tendr esta
dimensin, esto se realiza para definir cmo ser el nivel de navegacin que se tendr por cada
dimensin, para agregar jerarquas se posiciona sobre la jerarqua y se presiona el botn
segundario, el que desplegar el men segundario y se selecciona add hierarchy, como se
muestra en la siguiente imagen.

14

Creacin de jerarquas.

Se debe definir la tabla que contendr esta dimensin que se define, para esto se presiona
sobre la jerarqua y se desplegar un men segundario el que contendr la add table.
En el caso de estudio las tablas de dimensiones sern las tabla cliente y tabla date.

15

Incorporacin de tabla a la dimensin.

Para la seleccin de la tabla que se incluye en la dimensin, se debe seleccionar el Schema que
contiene a la tabla. En el caso en estudio el Schema que contienen a la tabla cliente es el
Schema dbo, como se puede ver en la siguiente imagen.

16

Seleccin de Schema que contiene tabla de dimensin.

Seleccionado el esquema, se selecciona la tabla que estar en la dimensin, en el caso en


estudio esta tabla ser la tabla cliente. En la siguiente imagen se grafica esta seleccin.

17

Seleccin de la tabla cliente dentro de la dimensin.

Agregada la tabla a la dimensin, procederemos a definir como sern las jerarquas dentro de
esta dimensin. En el caso en estudio se defini la jerarqua ocupacin y nivel de estudios.
Se comienza definiendo la jerarqua nivel de ocupacin, para esto primero debemos
seleccionar esta tabla cliente, como se muestra en la siguiente imagen.

18

Seleccin de tabla de cliente.

Definida la tabla dentro de la jerarqua, se define cual es la columna de esta tabla que ser
parte de la jerarqua, en el caso en estudio la columna ocupacin.

19

Seleccin de atributo ocupacin dentro de la jerarqua

Se realiz el mismo proceso para el atributo educacin dentro de las jerarquas, si el proceso
es realizado correctamente aparecer dentro de las jerarquas los dos niveles que creamos.

Se crear otra dimensin llamada tiempo, la que tendr como jerarqua ao, semestre y cuarto
que fue creada de la misma manera que fue creada la jerarqua cliente. En la siguiente imagen
se muestra como el Schema con las dos dimensiones creadas con sus respectivas jerarquas

20

Cubo con las dimensiones cliente y tiempo.

Creadas la dimensiones hay que incluirlas dentro del cubo, para esto se posiciona sobre el
cubo y se presiona el botn segundario del mouse y se selecciona add dimensin usage. Como
se muestra en la imagen.

21

Incorporacin de dimensiones al cubo.

Incorporada la dimensin seleccionamos las dimensiones que estn disponibles, en este caso
cliente y tiempo, slo se mostrar el procedimiento para el cliente ya que para la dimensin
tiempo es el mismo procedimiento.
En la siguiente imagen se muestra la seleccin de la dimensin cliente que es incorporada al
cubo.

22

Incorporacin de dimensiones al cubo.

Se llega al punto en donde se tiene creado el cubo con su tabla de hecho definida y sus
respectivas dimensiones, pero falta incorporar la mtrica. Para esto, nos posicionamos sobre el
cubo y presionamos el botn segundario del mouse, en el men desplegable se selecciona add
measure, como se muestra en la siguiente imagen.

23

Incorporacin de mtrica.

Agregada la mtrica se especifica qu tipo de mtrica es, en el caso de estudio se selecciona la


suma de ventas por internet por lo que la definicin del tipo de mtrica corresponde a suma, en
la siguiente imagen se muestra la definicin de la mtrica.

24

Definicin del tipo de mtrica.

Definida la mtrica hay que especificar que atributo de la tabla de hecho correspondiente a
este atributo, en el caso en estudio la mtrica de la tabla de hecho es suma de ventas por
internet, en la imagen siguiente se aprecia la asignacin del atributo que corresponde a la
mtrica de la tabla de hechos.

25

Definicin de mtrica.

Con este ltimo paso queda definido el cubo, pero la herramienta Schema workbench no
permite la visualizacin de ste, por lo que se debe publicar el cubo, este procedimiento se
realiza ingresando al men publicacin con los siguientes datos:

Password de publicacin: password.

User: joe.

Password: password.

Como se muestra en la siguiente imagen.

26

Publicacin del cubo.

27

ETL:
Spoon

28

Pentaho Data Integration es una herramienta de Integracin de Datos, el cual incluye un


conjunto de herramientas para realizar ETL. Uno de sus objetivos es permitir que el
proceso sea fcil de generar, mantener y desplegar. Pentaho Data Integration abre, limpia e
integra la informacin y la pone en manos del usuario.

Incluye 4 herramientas principales (Spoon-Chef, Pan, Carte, Kitchen).

Spoon: Herramienta para disear transformaciones ETL usando el entorno grfico.


Realiza las funciones tpicas de flujo de datos como la lectura, validacin,
refinacin, transformacin, escribir datos en una variedad de diferentes fuentes de
datos y destinos. Transformaciones diseadas en Spoon se pueden ejecutar con
Kettle Pan y Kitchen.

Chef: Permite mediante una interfaz grfica, disear la carga de datos incluyendo un
control de estado de los trabajos. Es una herramienta para crear trabajos que
automatizan el proceso de actualizacin de bases de datos en una forma compleja.
En PDI 3.1 Chef no se presenta como un programa separado, sino que es ejecutado
por Spoon para tomar todas sus funcionalidades.

La utilizacin del ETL la centraremos en la utilizacin con la base de datos que se


encuentra en sql sever AdventureWorksDW2008. Para realizar esta conexin debe
cerciorarse que el ETL spoon cuenta con el driver de conexin para SQLSERVER, el cual
se encuentra en la siguiente ruta:
Primero: dentro de la carpeta de spoon se encuentra una capeta llamada Libext. Como se
muestra en la siguiente figura:

29

Carpeta Libext en spoon.

Segundo: una vez dentro de la carpeta LibExt se abre la carpeta JDBC la cual contiene
todos los driver que tiene spoon para realizar conexiones, si se quisiese realizar una
conexin distinta a la de SQL server se debe rectificar que el driver de conexin con la base
de datos se encuentre en esta carpeta.

Carpeta JDBC contienen los driver de conexin a las diferentes bases de datos.

Tercero: una vez dentro de la carpeta, se busca en driver de conexin a la base de datos, de
no encontrarse debe ser incorporado a esta carpeta con formato .jar. En el caso de la
conexin de SQL Server es necesario el driver SQLJDBC4.jar.

Driver JDBC para SQL Server.

30

Ya se comprob que el ETL cuenta con el driver de conexin a la base de datos, por lo que
se procede a acceder a Spoon. Una vez que se ingresa aparece la siguiente pantalla:

Ingreso a ETL Spoon

En donde se debe seleccionar el signo + para agregar una nueva conexin con la base de
datos. Al presionarlo se preguntar por el tipo de conexin que se desea realizar, estas
pueden ser de dos tipos:

Conexin con una base de datos.

Conexin con archivos.

Seleccionar conexin con base de datos como se muestra en la siguiente figura.

Seleccin tipo de conexin de spoon.

Una vez seleccionada la conexin con la base de datos, se debe definir cul es la base de
datos para esto, spoon presenta la siguiente interface:

31

Interface que presenta spoon para la conexin con la base de datos.

En donde se debe definir:

Nombre de la conexin: se asigna un nombre a la conexin.

Host name: el host que soporta la base de datos, en el caso de la investigacin como
se trabaja con un servidor local, es host que soporta la base de datos en localhost,
pero en el caso de no ser ese el host, se debe especificar cul es el host.

Nombre de la base de datos: nombre de la base de datos a la cual se quiere conectar.

Nmero de puerto: nmero del puerto por el cual se realizar la conexin.

Nombre del usuario: nombre del usuario por el cual se realizar la conexin.

Password: clave del usuario que se conecta.

32

Una vez especificado los datos de la conexin se procede a realizar el test de conexin,
presionando el botn TEST, de estar correcta la conexin aparecer en pantalla la
notificacin de conexin. Como se muestra en la siguiente imagen:

Interface de prueba de conexin con la base de datos con spoon.

Se sabe que la conexin esta correcta por lo que se procede a presionar el botn OK. Con
esta accin aparecer la informacin del repositorio, en este paso se debe asignar una id y
un nombre para luego presionar el botn create or upgrade, como se muestra en la siguiente
figura:

33

Creacin de repositorio en ETL spoon.


Creado el repositorio a la base de datos se tiene acceso a spoon con la siguiente interface:

Interface de inicio spoon.

Para realizar un nuevo trabajo o transformacin se debe ir a la creacin de un nuevo


archivo, en donde se consultar que tipo de archivo ser, como se muestra en la siguiente
figura:

34

Creacin de trabajo o transformacin.

Seleccionada una de las opciones de archivos, aparecer en el costado derecho de la


pantalla el men de herramientas, con el que cuenta el ETL Spoon de Pentaho. Como se
muestra en la siguiente imagen:

35

Interface de trabajo de Spoon.


A continuacin se procede a especificar las caractersticas que tienen las diferentes
herramientas que cuenta el ETL Spoon en las diferentes areas:
Nombre
Access Input

Icono

Descripcin
Este paso se lee
directamente desde
Microsoft Access "MDB"
archivos.

Entrada XML

Este paso le permite leer la


informacin almacenada en
archivos XML.

Entrada Tabla:

Este paso se utiliza para leer


la informacin de una base
de datos y utilizando una
conexin SQL.
El paso mapeo de valores
consiste en remplazar una
cadena de valor fuente en
otra cadena de valor destino.
Se pueden convertir valores
de campos nulos o vacios en
otros valores.
El paso de des-

Mapeo de Valores:

Desnormalizacin de fila

normalizacin de fila
permite des- normalizar
datos por bsquedas de
pares clave-valor. Es
necesario que la entrada
para la des-Normalizacin
de filas este ordenada por
las claves de agrupacin
Row Flattener

Este componente permite


aplanar datos
secuencialmente, es decir
determina un campo que

36

Agrupar

debe ser aplastado y este lo


resume.
Este componente se usa para
agrupar, teniendo en cuenta
ciertas reglas como; suma,
promedio, primer valor
nulo, etc. Donde el objetivo
es organizar los valores o
calcular los valores en un
grupo definido de campos.

Filtrar filas

Esta opcin se utiliza para


filtrar filas utilizando
frmulas sencillas, es decir,
puedes escoger los campos
de la tabla que desees de tu
base de datos o de cualquier
elemento de entrada de
datos, especificando las
condiciones que desees que
cumplan estos campos y
enviarlos a un destino
especfico.

Append Stream

Este componente se utiliza


para unir flujos de datos
procedentes de dos entradas
en un elemento de salida
cualquiera. Hay que tener en
cuenta que la entrada de
datos procedentes de ambas
medidas ha de ser idntico,

37

es decir, el mismo tipo de


dato, la misma longitud de
la fila.

Switch / case

La funcionalidad del
componente Switch / Case
se basa en el mismo
principio que se utiliza en
los lenguajes de
programacin.

Calculadora:

El componente de
calculadora tiene funciones
predefinidas que se pueden
ejecutar sobre los valores de
los campos de entrada.

ADD a CKECKSUM

Este componente tiene como


funcin principal realizar
una suma, de control para
detectar la alteracin
accidental de los datos
durante la transmisin o el
almacenamiento, para ello
genera una suma de chequeo
en el origen y pasa ese
resultado como un nuevo
campo en el destino.

Partir Campos

Esta transformacin de
Pentaho se encarga de
tomar una tabla de entrada
que tenga algn campo de

38

tipo Cadena, dividir el


contenido de cada una de las
tuplas de dicho campo, en
nuevos campos de una tabla
de Salida.

Clone Row

En este paso se crea una


copia (clona) la fila y se
inserta a continuacin de la
fila clonada en el prximo
paso.

Ejecutar Script SQL

Con este paso se puede


ejecutar una sentencia SQL,
ya sea durante la fase inicial
de la transformacin o una
vez por cada fila de entrada
que el paso este dando.

Validador de datos

Validacin de datos se suele


utilizar para asegurarse que
los datos tingan una cierta
calidad.

Insert-Update:

El paso Insert/Update
primero hace una bsqueda
de la fila en la tabla usando
una o ms llaves de
bsqueda, si no la encuentra
inserta la fila, si la encuentra
y contiene la misma
informacin no hace nada y
si no son iguales la

39

actualiza.

Actualizacin

El pas actualizar, primero


busca una fila en una tabla
usando una o ms claves de
bsqueda. Si la fila no se
puede encontrar, se inserta
la fila. Si se puede encontrar
y actualizar los campos son
los mismos, no se hace
nada. Si no son todos
iguales, la fila de la tabla se
actualiza.

JavaScript

La funcionalidad del paso


JavaScript se basa en la
ejecucin de un script en
este tipo de lenguaje.

Вам также может понравиться