Вы находитесь на странице: 1из 12

Entorno grfico de desarrollo

Uso de tecnologas estndar: Java, XML, JavaScript


Fcil de instalar y configurar
Multiplataforma: windows, macintosh, linux
Basado en dos tipos de objetos: Transformaciones
(coleccin de pasos en un proceso ETL) y trabajos
(coleccin de transformaciones)
Incluye cuatro herramientas:
Spoon: para disear transformaciones ETTL usando el
entorno grfico
PAN: para ejecutar transformaciones diseadas con
spoon
CHEF: para crear trabajos
Kitchen: para ejecutar trabajos

Actividades de Extraccin
Captura de datos
Lectura a partir de diversas fuentes
Identificacin de cambios desde la ltima
extraccin.
Staging
Almacenamiento temporario de datos
Actividades de transformacin
Validacin de datos
Verificar que los datos sean correctos.
Filtrado de datos invlidos
Limpieza de datos
Correccin de datos invlidos
Agregacin
Generacin y gestor de claves
SK Claves subrogadas
Actividades de Carga
Carga de tablas de hechos
Adicionar registros a la tabla de hechos.
Carga y mantenimiento de las tablas de
dimensiones
Adicionar y actualizar los registros de las tablas
de dimensiones.
PDI
tambin se
puede
utilizar para
otros fines
Migracin de
datos entre
aplicaciones
o bases de
datos.
Cargando
datos en
bases de
datos de
forma masiva.
Exportacin
de datos
desde bases
de datos de
archivos
planos.
Limpieza de
datos.
Integracin
de
aplicaciones.
Son los
componentes
bsicos de una
transformacin.
Cada uno
diseado para una
funcin especfica.
Cada paso en la transformacin est diseado para
realizar una tarea especfica, como:
la lectura de datos de un archivo plano,
filtrando las filas,
el registro en una base de datos.
Todos los steps se inician y se ejecutan en paralelo
por lo que la secuencia de inicializacin no es
predecible. Es por eso que no se puede, por ejemplo,
establecer una variable en un primer step y tratar de
usar esa variable en un step posterior.
Puede conectar pasos juntos, editar los
pasos, y abra el men contextual
haciendo clic paso para editar un paso.
Haga clic en la flecha hacia abajo para
abrir el men contextual. Para obtener
informacin acerca de la conexin con
los pasos.
Un paso puede tener muchas conexiones -
algunos se unen a dos pasos juntos, algunos
slo servir como una entrada o salida de una
etapa.
El flujo de datos fluye a travs de medidas
para los diversos pasos en una transformacin.
Es un identificador nico
que se asigna a cada
registro de una tabla de
dimensin.
Son siempre de tipo
numrico.
Preferiblemente, un
entero autoincremental.
Campos de tipo numrico y enteros.
Utilizada para poder hacer todos los joins
entre tablas.
reemplazan las claves primarias
compuestas (claves primarias con
muchos campos).
Se gana mayor rendimiento al consultar.

Вам также может понравиться