Академический Документы
Профессиональный Документы
Культура Документы
Integrantes:
Hctor Valds Amaro.
Christian Ortiz Gonzlez.
Javier Jirn Orozco
Anexo 1:
schema-workbench
Una vez que se ingres a la carpeta, se debe revisar que exista el driver para realizar la
conexin, en el caso del driver para la conexin a la base de datos SQL Server es SQLJDBC4,
que como se aprecia en la siguiente imagen el driver esta contenido dentro de la carpeta.
Dentro de la carpeta driver cerciorando la existencia del driver de conexin SQL Server
Una vez que el driver de conexin esta dentro de la carpeta de driver, se procede a realizar la
conexin a la base de datos fuente, que en el caso de la investigacin es SQL Server.
Para esto, una vez dentro de schema-workbench se debe presionar options que se encuentra en
la parte superior de la ventana. Como se muestra en la siguiente imagen.
Host name: el host que soporta la base de datos, en el caso de la investigacin como se
trabaja con un servidor local que soporta la base de datos, en el caso de no este, se debe
especificar cul es el host.
Nombre del usuario: nombre del usuario por el cual se realizar la conexin.
Ventana de configuracin de conexin con la base de datos fuente en el caso de estudio SQL
SERVER.
Con la conexin a la base datos fuente realizada, se procede a la creacin del cubo, para esto
se debe seleccionar el men file dentro de schema-workbench. Selecciona schemas para
comenzar con la creacin. Como se muestra en la siguiente figura:
Una vez creado el cubo, se posiciona sobre el schema y se presiona el botn secundario del
mouse y se selecciona la opcin add cube, con esto adjuntamos un cubo al nuevo Schema.
Como se aprecia en la siguiente imagen:
Una vez que se cre el cubo, se procede a crear la tabla de hecho del cubo, para esto se
presiona el botn segundario del mouse sobre el cubo, lo cual desplegar un men segundario
en donde se selecciona add tabla.
10
Creada la tabla de hechos, debemos especificar que tabla de la base de datos fuente
corresponde a esta tabla de hecho.
Para esto primero seleccionaremos el Schema de la base de datos fuente que contienen la tabla
de hecho. Para el caso en estudio el Schema es dbo, que contiene el esquema de la tabla de
hecho. En la siguiente imagen se aprecia este proceso.
11
12
13
Una vez creada la dimensin, se debe especificar cul es la jerarqua que tendr esta
dimensin, esto se realiza para definir cmo ser el nivel de navegacin que se tendr por cada
dimensin, para agregar jerarquas se posiciona sobre la jerarqua y se presiona el botn
segundario, el que desplegar el men segundario y se selecciona add hierarchy, como se
muestra en la siguiente imagen.
14
Creacin de jerarquas.
Se debe definir la tabla que contendr esta dimensin que se define, para esto se presiona
sobre la jerarqua y se desplegar un men segundario el que contendr la add table.
En el caso de estudio las tablas de dimensiones sern las tabla cliente y tabla date.
15
Para la seleccin de la tabla que se incluye en la dimensin, se debe seleccionar el Schema que
contiene a la tabla. En el caso en estudio el Schema que contienen a la tabla cliente es el
Schema dbo, como se puede ver en la siguiente imagen.
16
17
Agregada la tabla a la dimensin, procederemos a definir como sern las jerarquas dentro de
esta dimensin. En el caso en estudio se defini la jerarqua ocupacin y nivel de estudios.
Se comienza definiendo la jerarqua nivel de ocupacin, para esto primero debemos
seleccionar esta tabla cliente, como se muestra en la siguiente imagen.
18
Definida la tabla dentro de la jerarqua, se define cual es la columna de esta tabla que ser
parte de la jerarqua, en el caso en estudio la columna ocupacin.
19
Se realiz el mismo proceso para el atributo educacin dentro de las jerarquas, si el proceso
es realizado correctamente aparecer dentro de las jerarquas los dos niveles que creamos.
Se crear otra dimensin llamada tiempo, la que tendr como jerarqua ao, semestre y cuarto
que fue creada de la misma manera que fue creada la jerarqua cliente. En la siguiente imagen
se muestra como el Schema con las dos dimensiones creadas con sus respectivas jerarquas
20
Creadas la dimensiones hay que incluirlas dentro del cubo, para esto se posiciona sobre el
cubo y se presiona el botn segundario del mouse y se selecciona add dimensin usage. Como
se muestra en la imagen.
21
Incorporada la dimensin seleccionamos las dimensiones que estn disponibles, en este caso
cliente y tiempo, slo se mostrar el procedimiento para el cliente ya que para la dimensin
tiempo es el mismo procedimiento.
En la siguiente imagen se muestra la seleccin de la dimensin cliente que es incorporada al
cubo.
22
Se llega al punto en donde se tiene creado el cubo con su tabla de hecho definida y sus
respectivas dimensiones, pero falta incorporar la mtrica. Para esto, nos posicionamos sobre el
cubo y presionamos el botn segundario del mouse, en el men desplegable se selecciona add
measure, como se muestra en la siguiente imagen.
23
Incorporacin de mtrica.
24
Definida la mtrica hay que especificar que atributo de la tabla de hecho correspondiente a
este atributo, en el caso en estudio la mtrica de la tabla de hecho es suma de ventas por
internet, en la imagen siguiente se aprecia la asignacin del atributo que corresponde a la
mtrica de la tabla de hechos.
25
Definicin de mtrica.
Con este ltimo paso queda definido el cubo, pero la herramienta Schema workbench no
permite la visualizacin de ste, por lo que se debe publicar el cubo, este procedimiento se
realiza ingresando al men publicacin con los siguientes datos:
User: joe.
Password: password.
26
27
ETL:
Spoon
28
Chef: Permite mediante una interfaz grfica, disear la carga de datos incluyendo un
control de estado de los trabajos. Es una herramienta para crear trabajos que
automatizan el proceso de actualizacin de bases de datos en una forma compleja.
En PDI 3.1 Chef no se presenta como un programa separado, sino que es ejecutado
por Spoon para tomar todas sus funcionalidades.
29
Segundo: una vez dentro de la carpeta LibExt se abre la carpeta JDBC la cual contiene
todos los driver que tiene spoon para realizar conexiones, si se quisiese realizar una
conexin distinta a la de SQL server se debe rectificar que el driver de conexin con la base
de datos se encuentre en esta carpeta.
Carpeta JDBC contienen los driver de conexin a las diferentes bases de datos.
Tercero: una vez dentro de la carpeta, se busca en driver de conexin a la base de datos, de
no encontrarse debe ser incorporado a esta carpeta con formato .jar. En el caso de la
conexin de SQL Server es necesario el driver SQLJDBC4.jar.
30
Ya se comprob que el ETL cuenta con el driver de conexin a la base de datos, por lo que
se procede a acceder a Spoon. Una vez que se ingresa aparece la siguiente pantalla:
En donde se debe seleccionar el signo + para agregar una nueva conexin con la base de
datos. Al presionarlo se preguntar por el tipo de conexin que se desea realizar, estas
pueden ser de dos tipos:
Una vez seleccionada la conexin con la base de datos, se debe definir cul es la base de
datos para esto, spoon presenta la siguiente interface:
31
Host name: el host que soporta la base de datos, en el caso de la investigacin como
se trabaja con un servidor local, es host que soporta la base de datos en localhost,
pero en el caso de no ser ese el host, se debe especificar cul es el host.
Nombre del usuario: nombre del usuario por el cual se realizar la conexin.
32
Una vez especificado los datos de la conexin se procede a realizar el test de conexin,
presionando el botn TEST, de estar correcta la conexin aparecer en pantalla la
notificacin de conexin. Como se muestra en la siguiente imagen:
Se sabe que la conexin esta correcta por lo que se procede a presionar el botn OK. Con
esta accin aparecer la informacin del repositorio, en este paso se debe asignar una id y
un nombre para luego presionar el botn create or upgrade, como se muestra en la siguiente
figura:
33
34
35
Icono
Descripcin
Este paso se lee
directamente desde
Microsoft Access "MDB"
archivos.
Entrada XML
Entrada Tabla:
Mapeo de Valores:
Desnormalizacin de fila
normalizacin de fila
permite des- normalizar
datos por bsquedas de
pares clave-valor. Es
necesario que la entrada
para la des-Normalizacin
de filas este ordenada por
las claves de agrupacin
Row Flattener
36
Agrupar
Filtrar filas
Append Stream
37
Switch / case
La funcionalidad del
componente Switch / Case
se basa en el mismo
principio que se utiliza en
los lenguajes de
programacin.
Calculadora:
El componente de
calculadora tiene funciones
predefinidas que se pueden
ejecutar sobre los valores de
los campos de entrada.
ADD a CKECKSUM
Partir Campos
Esta transformacin de
Pentaho se encarga de
tomar una tabla de entrada
que tenga algn campo de
38
Clone Row
Validador de datos
Insert-Update:
El paso Insert/Update
primero hace una bsqueda
de la fila en la tabla usando
una o ms llaves de
bsqueda, si no la encuentra
inserta la fila, si la encuentra
y contiene la misma
informacin no hace nada y
si no son iguales la
39
actualiza.
Actualizacin
JavaScript