Академический Документы
Профессиональный Документы
Культура Документы
Stages de Secuencia
Stages de Job Parallel
Stages de Job Server
Creacin de parmetros
Paso de parmetros en Job Activity
Ejecucin de los jobs
Debug del ETL
1. Stages de Secuencia
1.1 Job Activity
Es un stage que invoca a un Job o a una Secuencia. En sus
propiedades deben configurarse los siguientes puntos:
General:
Nombre: aqu se nombra el Job Activity. Puede colocarse cualquier
nombre pero se recomienda colocarle a este stage el mismo nombre
del Job o Secuencia al que se est invocando.
Descripcin: debe colocarse una breve descripcin de lo que hace
el Job o la Secuencia a la que invoca el stage.
Trabajo:
Nombre del trabajo: se debe seleccionar de la lista (haciendo clic
en
) el Job o Secuencia a la que se quiere invocar con el stage.
Parmetros: en esta seccin aparecer la lista de parmetros que
necesita el Job o Secuencia invocada para poder funcionar. Nota:
hay que considerar que si los parmetros del Job Activity ya est
configurados y si se desea invocar a otro Job o Secuencia, una vez
que se realice el cambio en el campo Nombre del Trabajo los
parmetros se borrarn. (Ver Seccin de Parmetros)
Desencadenantes:
Expresin: normalmente se deja con la condicin por defecto.
Nota: si el stage ya est configurado y se desea cambiar el Job o
Secuencia al que est invocando, hay que estar pendiente de
sustituir el nombre del nuevo Job o Secuencia en la expresin.
1.3 Sequencer
Es un stage que permite sincronizar dos ramas dentro de una
Secuencia. En sus propiedades deben configurarse los siguientes
puntos:
Secuenciador:
Modalidad: en este campo se indica el comportamiento que va a
tener el stage. Puede ser Cualquiera si se desea que el proceso
contine cuando cualquiera de las ramas que llegan al Sequencer
haya terminado, o Todos si se quiere que el proceso contine
cuando todas las ramas del proceso hayan terminado.
ExecCommand:
Mandato: en este campo se coloca la instruccin que se desea que
ejecute el stage. Por lo general, se coloca primero el comando
seguido de la ruta de donde se quiere leer el archivo .txt.
Variables de usuario:
- Nombre: se debe colocar el nombre de la variable a crear.
- Expresin: (especificar lo que hace la expresin)
Ingresar datos
Propiedades:
Conexin:
- Database: se coloca el nombre del esquema en donde se
encuentra la tabla en la que se desean ingresar los datos.
- Username: se coloca el nombre del usuario del esquema en
donde se encuentra la tabla en la que se desean ingresar los
datos.
- Password: se coloca el password del usuario del esquema en
donde se encuentra la tabla en la que se desean ingresar los
datos.
Uso:
- Write Mode: normalmente se coloca Insert.
- Table Name: se coloca el nombre del esquema entre smbolos
# seguido por un punto . y el nombre de la tabla en la que se
desean
insertar
los
datos.
Ejemplo:
#$USRSTAGING#.STG_FTE_CARTERA
- Table Action: especificar que hace cada una de las opciones.
Columnas: en esta seccin se colocan el nombre y tipo de dato de las
columnas que se desean ingresar en la tabla destino.
Nota: es posible visualizar la data que contiene el Data Set haciendo uso
de la opcin Ver Datos, en donde se desplegar una ventana para
ingresar los parmetros correspondientes al job. En caso de que el Data
Set contenga registros y se haya realizado la conexin al mismo de
manera satisfactoria, los registros sern mostrados. En caso contrario, se
visualizar una alerta indicando la naturaleza del error o indicando que el
Data Set no contiene filas.
2.3 Transformer1
Entrar en Propiedades.
Seleccionar la pestaa Etapa Variables.
Asignar el nombre y el tipo de dato de la variable.
2.4 Modify
Este stage permite modificar el tipo de dato de un campo. El
campo que hay que configurar en este stage es el de
Specification dentro de la pestaa Propiedades. Aqu lo que
hay que colocar es la instruccin que permita realizar la conversin (revisar
la Ayuda de DataStage para mayor detalle de las funciones que permiten
realizar la conversin).
2.5 Sort
Este stage permite ordenar datos. Se utiliza sobre todo antes del
stage Aggregator, ya que ste requiere que la data de entrada est
ordenada.
Los puntos que se deben configurar para este stage son los
siguientes:
Propiedades:
- Sorting Keys < Key: aqu se coloca la o las claves del stage
(especificar como se eligen estas claves). Para cada una de las
claves debe elegirse el Sort Key Mode que es la modalidad de
ordenamiento y por lo general se selecciona el tipo Sort. Tambin
debe especificarse el Sort Order que puede ser Ascending si se
quiere ordenar los registros de menor o mayor o Descending si se
quiere ordenar los registros de mayor a menor. Nota: para agregar
una clave adicional hacer clic en Sorting Keys y luego, en la parte
inferior derecha de la ventana, hacer clic en Key.
Salida:
- Correlacin: en esta seccin es donde se realiza el mapeo de las
columnas desde el link de entrada hacia el link de salida.
- Columnas: en esta seccin debe aparecer la metadata de la
informacin que se desea ordenar.
2.6 Aggregator
maneras, como Count Rows para que cuente el nmero de filas de cada
grupo o como Calculation para que realice una operacin sobre una
columna de entrada especfica.
Propiedades:
- Grouping Keys < Group: especifican las columnas que se quieren
agregar. Si se desea agregar un grupo adicional, en la parte inferior
derecha de la ventana de propiedades se debe hacer clic en
Group.
- Aggregations < Aggregation Type: especifica el tipo de
agrupamiento que se quiere realizar. Estn las opciones de
Calculation, Count Rows y Re-calculation.
- Aggregations < Count output columns:
- Opciones < Allow Null Output: aqu se especifica el tipo de salida
del Aggregator. Si se coloca en True significa que NULL es una
salida vlida y si se coloca en False significa que la salida ser
cero cuando todos los valores de entrada de las columnas son igual
a NULL.
- Opciones < Method: aqu se especifica el mtodo de
agrupamiento. La opcin por defecto es Hash, en donde el clculo
se hace sobre todos los grupos y el resultado se almacena en
memoria. Adems, la data de entrada no necesita estar ordenada.
La otra opcin es el mtodo Sort, en donde la data de entrada
necesita estar previamente ordenada, slo un grupo a la vez se
mantiene en memoria por lo que slo necesita suficiente memoria
para procesar el grupo actual.
Salida:
- Correlacin: en esta seccin es donde se realiza el mapeo de las
columnas desde el link de entrada hacia el link de salida.
- Columnas: en esta seccin debe aparecer la metadata de la
informacin que se desea ordenar.
Propiedades:
- Keys that define duplicates < Key: aqu se especifica la clave
por la cual se determinar cuando un registro est duplicado.
2.8 Copy
2.9 Join2
Propiedades:
- Key: aqu se debe colocar el campo que se desea designar como
clave, es decir, aquel por el cual se quiere hacer el Join. Nota: si se
desea agregar una clave adicional, en la parte inferior derecha de la
ventana de propiedades se debe hacer clic en Key.
- Join Type: en este punto se debe elegir el comportamiento que se
quiere que el stage tenga. Existen cuatro opciones:
Inner: deja pasar a la salida del stage aquellas columnas que
hagan match.
Left Outer: deja pasar a la salida del stage todas las
columnas del link izquierdo, hagan o no match con las
columnas del link derecho. Para las columnas que no hacen
match se establecen valores por defecto para rellenar los
campos que queden vacos.
Right Outer: deja pasar a la salida del stage todas las
columnas del link derecho, hagan o no match con las
columnas del link izquierdo. Para las columnas que no hacen
ID
23
11
5
16
Nombre
Ana
Pedro
Jos
Luis
Apellido
Rodrguez
Prez
Gonzlez
Hernndez
ID
5
Apellid
o
Gonzle
z
Edad
23
7
34
Silva
Fernnd
ez
42
20
El resultado de la salida del Join variar segn el Join Type que se elija. El
comportamiento del Join para cada caso sera el siguiente:
Inner
Slo deja pasar a la salida aquellas columnas que hagan match. En este
caso, el resultado sera el siguiente:
ID
5
Nombre
Jos
Apellido
Gonzlez
Edad
23
Left Outer
En este caso, pasan a la salida todas las columnas del link izquierdo,
hagan o no match con las del link derecho. La data resultante de aplicar
este Join es la siguiente:
ID
5
7
34
Apellid
o
Gonzle
z
Silva
Edad
Nombre
23
Gonzlez
42
Fernnd
ez
20
(valor por
defecto)
(valor por
defecto)
Right Outer
En este caso, pasan a la salida todas las columnas del link derecho,
hagan o no match con las del link izquierdo. La data resultante de
aplicar este Join es la siguiente:
ID
23
Nombre
Ana
Apellido
Rodrguez
11
Pedro
Prez
5
16
Jos
Luis
Gonzlez
Hernndez
Edad
(valor por
defecto)
(valor por
defecto)
23
(valor por
defecto)
Full Outer
Apellid
o
Gonzle
z
Silva
Edad
Nombre
23
Gonzlez
42
20
11
Fernnd
ez
Rodrgu
ez
Pedro
(valor por
defecto)
(valor por
defecto)
Ana
16
Luis
5
7
34
23
(valor por
defecto)
(valor por
defecto)
(valor por
defecto)
Prez
Hernndez
ID
23
11
5
16
Nombre
Ana
Pedro
Jos
Luis
Apellido
Rodrguez
Prez
Gonzlez
Hernndez
ID
5
7
23
Apellid
o
Gonzle
z
Silva
Rodrgu
ez
Edad
23
42
25
ID
44
23
97
16
Ciudad
Caracas
Caracas
Mrida
Maracay
Oficina
4355
5364
4288
2432
ID
23
5
Nombre
Ana
Jos
Apellido
Rodrguez
Gonzlez
Edad
25
23
ID
23
Nombre
Ana
Apellido
Rodrguez
Edad
25
Ciudad
Caracas
Oficina
5364
2.10
Lookup2
Propiedades:
- Ordenacin de los enlaces: en esta seccin se debe especificar
cul de los links de entrada ser el principal (Primary) y cul ser
el de referencia (Lookup 1).
Restricciones:
- Condicin no se cumple (Condition Not Met):
Continuar (Continue): si la condicin se cumple.
Finalizacin anmala (Fail): si la condicin no se cumple
Descartar (Drop): si la condicin no se cumple porque el
registro ha sido previamente borrado.
Rechazar (Reject):
Anomala en la bsqueda (Lookup Failure): establece la accin
a tomar cuando sucede lo especificado en Condicin no se
cumple.
Continuar
(Continue): el job continua sin fallar y los
valores de referencia con los que sern poblados los campos
de los registros que no hacen match sern NULL en caso de
que el campo sea nullable o con un string vaco en caso de
que el campo sea no-nullable.
Finalizacin anmala (Fail): el job falla.
Descartar (Drop): los registros se borran.
Rechazar (Reject): los registros se envan hacia un link de
reject (hay que colocar el link de reject).
ID
23
11
5
16
Nombre
Ana
Pedro
Jos
Luis
Apellido
Rodrguez
Prez
Gonzlez
Hernndez
ID
5
7
34
Apellido
Gonzlez
Silva
Fernndez
Edad
23
42
20
Fail Fail
Cuando se busque el registro con ID=23 en la fuente de datos B no se
encontrar (Fail), por lo que el job fallar (Fail).
Fail Continue
Igual que en el caso anterior, cuando se busque el registro con ID=23
en la fuente de datos B no se encontrar (Fail). Sin embargo, en este
caso se le est indicando al Lookup que en caso de que haya registros
que no hagan match igual los pase a la salida (Continue), completando
los campos restantes con NULL (si el campo es nullable o con un string
vaco si es no-nullable). Entonces la data de salida resultar de la
siguiente manera:
ID
23
11
5
16
Nombre
Ana
Pedro
Jos
Luis
Apellido
Rodrguez
Prez
Gonzlez
Hernndez
Edad
23
Fail Reject
En este caso, es obligatorio colocar un Data Set adicional (Reject) para
almacenar la data que no haga match (Fail). El diagrama resultante
sera como el siguiente:
Nombre
Jos
Apellido
Gonzlez
Edad
23
ID
23
11
16
Nombre
Ana
Pedro
Luis
Apellido
Rodrguez
Prez
Hernndez
Fail Drop
Nombre
Jos
Apellido
Gonzlez
Edad
23
2.11
Merge2
Propiedades:
- Merge Keys < Key: aqu se coloca el campo que se desea designar
como clave, es decir, aquel por el cual se desea realizar el Merge.
Adicionalmente, a cada clave se le debe especificar el tipo de
ordenacin en Sort Order que puede ser Ascending si la data
est ordenada de manera ascendente o Descending si est
ordenada de manera descendente. Nota: si se desea agregar una
clave adicional, en la parte inferior derecha de la ventana de
propiedades se debe hacer clic en Key.
- Opciones < Unmatched Masters Mode: aqu se especifica el
comportamiento que se quiere establecer cuando las columnas no
hagan match. Se debe elegir la opcin Keep si se quieren
conservar las columnas que no hagan match o Drop si se quieren
borrar las columnas que no hagan match.
- Opciones < Warn On Reject Updates: aqu se especifica si se
quiere que DataStage emita un warning cuando algn registro de los
links de referencia sea rechazado. Si se quiere que se emita el
warning este campo debe colocarse en True, de lo contrario en
False. Generalmente se deja en False.
- Opciones < Warn On Unmatched Masters: aqu se especifica si
se quiere que Datastage emita un warning cuando algn registro del
link mster sea rechazado. Si se quiere que se emita el warning este
campo debe colocarse en True, de lo contrario en False.
Generalmente se deja en False.
Ordenacin de los enlaces: en esta seccin se debe especificar cul
ser el link principal (Mster) y el link de referencia (Update1) en la
entrada y cul ser el link principal (Mster) y el link de reject
(Rechazo de Update1) en la salida.
Salida:
- Correlacin: en esta seccin es donde se realiza el mapeo de las
columnas desde el link de entrada hacia el link de salida.
ID
23
11
5
16
Nombre
Ana
Pedro
Jos
Luis
Apellido
Rodrguez
Prez
Gonzlez
Hernndez
ID
5
7
23
Apellid
o
Gonzle
z
Silva
Rodrgu
ez
Edad
23
42
25
ID
44
23
97
Ciudad
Caracas
Caracas
Mrida
Oficina
4355
5364
4288
16
Maracay
2432
ID
Keep
Esta opcin permite pasar a la salida todos los registros que se
encuentren en el link mster, hagan o no match con los registros de los
links de referencia. En las siguientes tablas se muestra el resultado
para esta opcin.
Apellido
Edad
Ciudad
Oficina
23
11
Nomb
re
Ana
Pedro
Rodrguez
Prez
Jos
Gonzlez
25
(valor por
defecto)
23
16
Luis
Hernnde
z
(valor por
defecto)
Caracas
(valor por
defecto)
(valor por
defecto)
Maracay
5364
(valor por
defecto)
(valor por
defecto)
2432
ID
Drop
En este caso, cuando el registro del link mster no hace match con los
registros de los links de referencia, dicho registro se borra (de manera
opcional se puede colocar un link de reject para almacenar estos datos
en otro Dataset). El resultado de aplicar esta opcin a un Merge se
puede observar en la tabla siguiente.
23
5
Nomb
re
Ana
Jos
16
Luis
Apellido
Edad
Ciudad
Oficina
Rodrguez
Gonzlez
25
23
Hernnde
z
(valor por
defecto)
Caracas
(valor por
defecto)
Maracay
5364
(valor por
defecto)
2432
Uso de
memoria
Nmero de
entradas
Data de
entrada
ordenada
Duplicados en
el link mster
Duplicados en
los links de
referencia
Opciones
cuando no hay
match en el
link mster
Opciones
cuando no hay
match en el
link de
referencia
Nmero de
salidas
Captura en la
etapa de
reject
Join
Ligero
Lookup
Pesado
Merge
Ligero
2 o ms: left o
right
2 o ms: uno
principal y uno o
ms de referencia
No necesario
2 o ms: uno
principal y uno o
ms de referencia
Todas las entradas
OK
OK
Warning
OK
Warning
Keep (Left
Outer) | Drop
(Inner)
Fail | Continue |
Drop | Reject
OK cuando slo
hay un link de
referencia
Keep | Drop
Keep (Right
Outer) | Drop
(Inner)
Se captura en un
reject
1 principal, 1 de
reject (opcional)
No Aplica
Columnas que no
hacen match del
link mster
1 principal, 1 o
ms de reject
(opcional)
Columnas que no
hacen match de
los links de
referencia
Todas las
entradas
2.12
Funnel
Este stage permite recolectar data. Para que esto sea posible, la
metadata de cada uno de sus links de entrada debe ser la misma. Los
puntos que se deben configurar para este stage son los siguientes:
Propiedades:
- Funnel Type: aqu se debe especificar de qu manera se quiere
combinar la data. La opcin Continuous establece que los registros
se combinarn sin ningn orden en particular, Sort Funnel
preserva el orden de la data que proviene de links previamente
2.13
Filter
Propiedades:
- Predicates < Where Clause: aqu se debe colocar la condicin
con la cual se desea filtrar, por ejemplo, EDAD > 18. Si se desea
agregar condicin adicional, en la parte inferior derecha de la
ventana de propiedades se debe hacer clic en Where Clause.
Nota: cuando hay ms de una condicin, es necesario especificar
por cul link van a salir los datos resultantes de cada una de las
condiciones. Esto se especifica en el campo Output Link.
- Opciones < Output Rejects: se debe colocar en True cuando se
quiera que los registros que no cumplen la condicin se pasen al link
de reject.
- Opciones < Ouput Row Only Once: esta opcin se debe colocar
en True si se quiere pasar a la salida aquellos registros que cumplan
slo con la primera condicin (en caso de existir ms de una
condicin). Si se coloca en False, a la salida pasarn aquellos
registros que cumplan con todas las condiciones establecidas.
Ordenacin de los enlaces: en esta seccin se debe especificar cul
ser el link principal (Primary), los links de referencia (0, 1, 2) y el
link de reject (Primary reject) si lo hubiera.
Salida:
- Correlacin: en esta seccin es donde se realiza el mapeo de las
columnas desde el link de entrada hacia el link de salida.
- Columnas: en esta seccin debe aparecer la metadata de la
informacin.
ID
5
Nombr
e
Jos
7
23
Jess
Ana
12
30
Carlos
Mara
Apellid
o
Gonzle
z
Silva
Rodrgu
ez
Ruiz
Martne
z
Edad
23
42
25
15
27
Nombr
e
Jess
Mara
Apellid
o
Silva
Martne
z
Edad
42
27
ID
5
Nombr
e
Jos
Apellid
o
Gonzle
z
Edad
23
23
Ana
12
Carlos
Rodrgu
ez
Ruiz
25
15
3. Creacin de Parmetros
Cada job o secuencia utiliza una serie de parmetros que permiten ingresar la
data necesaria para que estos se puedan ejecutar correctamente. Los
parmetros son variables que el usuario puede crear para que sean utilizadas
en un job o en todo el flujo del ETL, por ejemplo, la ruta donde se guardar un
dataset, el plugin, usuario y password para una conexin a base de datos, etc.
Para crear un parmetro, se debe hacer clic en el cono
que se encuentra en
la parte izquierda de la barra de herramientas. Al hacer esto, se desplegar
una ventana como la siguiente, en donde se debe especificar el nombre,
solicitud (texto que aparecer en la ventana de ejecucin del job o secuencia),
tipo de dato, valor por defecto y texto de ayuda del parmetro.
Una vez seleccionados los jobs que se van a compilar, en el siguiente paso se
deja la opcin por defecto y en el siguiente paso a ese se debe presionar
Iniciar compilacin. Si se marca la opcin Mostrar reporte de compilacin al
finalizar se generar un archivo txt con el listado de los jobs compilados
satisfactoriamente y los que han fallado por alguna razn.
Una vez que todos los jobs han compilado, se puede ejecutar el ETL haciendo
clic en
. Al hacer esto, se despliega la ventana que contiene los parmetros
de la secuencia, que pueden tener o no valores por defecto como se muestra a
continuacin.
Una vez que todos los parmetros tienen asignado su valor, se presiona
Ejecutar. En el Log (parte inferior de DataStage), se mostrar el progreso de
la ejecucin, cules jobs se han ejecutado satisfactoriamente, cules con
warnings y si hay un error en la ejecucin. La primera lnea que aparece en el
Log luego de iniciar la ejecucin (Starting Job ) es importante porque all se
puede revisar el valor de los parmetros con los que se est ejecutando ese job
o secuencia, haciendo doble clic sobre esa lnea.
Otra de las lneas que aparecen en el Log que es importante para verificar, en
especial cuando la secuencia ha fallado es la de Summary of sequence run,
porque permite determinar exactamente en cul job o secuencia se ha
producido el error.