Fcil de instalar y configurar Multiplataforma: windows, macintosh, linux Basado en dos tipos de objetos: Transformaciones (coleccin de pasos en un proceso ETL) y trabajos (coleccin de transformaciones) Incluye cuatro herramientas: Spoon: para disear transformaciones ETTL usando el entorno grfico PAN: para ejecutar transformaciones diseadas con spoon CHEF: para crear trabajos Kitchen: para ejecutar trabajos
Actividades de Extraccin Captura de datos Lectura a partir de diversas fuentes Identificacin de cambios desde la ltima extraccin. Staging Almacenamiento temporario de datos Actividades de transformacin Validacin de datos Verificar que los datos sean correctos. Filtrado de datos invlidos Limpieza de datos Correccin de datos invlidos Agregacin Generacin y gestor de claves SK Claves subrogadas Actividades de Carga Carga de tablas de hechos Adicionar registros a la tabla de hechos. Carga y mantenimiento de las tablas de dimensiones Adicionar y actualizar los registros de las tablas de dimensiones. PDI tambin se puede utilizar para otros fines Migracin de datos entre aplicaciones o bases de datos. Cargando datos en bases de datos de forma masiva. Exportacin de datos desde bases de datos de archivos planos. Limpieza de datos. Integracin de aplicaciones. Son los componentes bsicos de una transformacin. Cada uno diseado para una funcin especfica. Cada paso en la transformacin est diseado para realizar una tarea especfica, como: la lectura de datos de un archivo plano, filtrando las filas, el registro en una base de datos. Todos los steps se inician y se ejecutan en paralelo por lo que la secuencia de inicializacin no es predecible. Es por eso que no se puede, por ejemplo, establecer una variable en un primer step y tratar de usar esa variable en un step posterior. Puede conectar pasos juntos, editar los pasos, y abra el men contextual haciendo clic paso para editar un paso. Haga clic en la flecha hacia abajo para abrir el men contextual. Para obtener informacin acerca de la conexin con los pasos. Un paso puede tener muchas conexiones - algunos se unen a dos pasos juntos, algunos slo servir como una entrada o salida de una etapa. El flujo de datos fluye a travs de medidas para los diversos pasos en una transformacin. Es un identificador nico que se asigna a cada registro de una tabla de dimensin. Son siempre de tipo numrico. Preferiblemente, un entero autoincremental. Campos de tipo numrico y enteros. Utilizada para poder hacer todos los joins entre tablas. reemplazan las claves primarias compuestas (claves primarias con muchos campos). Se gana mayor rendimiento al consultar.