Вы находитесь на странице: 1из 16

Procesos ETL

Jordi Conesa i Caralt


Isabel Guitart Hormigo
ndice

Componentes del proceso ETL


Obtencin de datos
Transformacin, depuracin e integracin de datos
Carga de datos
Herramientas ETL
Ejemplo
Componentes del Proceso ETL
ETL = Extract / Transform / Load

La misin de los componentes de integracin y transformacin es obtener los


datos para los diferentes almacenes de datos de la organizacin.
Proceso: Obtencin de datos
El primer paso consiste en determinar, de entre todas las
fuentes de datos posibles, cual es la ms adecuada para cada
uno de los datos requeridos.

En la obtencin de los datos se distinguen dos fases:


a) Obtencin de los datos para la imagen inicial.
b) Obtencin de los datos para las actualizaciones.

Clasificacin de los datos:


a) Datos estructurados
b) Datos semiestructurados
c) Datos no estructurados
Proceso : Transformacin,
Depuracin e Integracin
TRANSFORMACIN DEPURACIN INTEGRACION

Cambiar formato o tipo de datos Detectar y corregir valores El proceso de integracin


(ejemplo formato fecha). inconsistentes. depender si realizamos la carga
inicial del almacn de datos o una
Reestructurar campos (fusionar Aadir valores por defecto a los actualizacin.
o dividir campos). campos con valores no definidos
Principal problema: Detectar
Cambiar las unidades o cdigos Detectar y corregir informacin datos que representan el mismo
de transformacin (cambios de duplicada. concepto.
moneda).
Se transforman los datos para
Cambiar el grado de agregacin homogeneizar la representacin y
(calcular las vendas mensuales a eliminar la informacin duplicada.
partir de las diarias).

Aadir informacin temporal


(perodo validez de los datos).
Proceso: Carga de datos

El proceso ETL tambin se encarga de transportar los


datos entre las diferentes plataformas y cargarlas en
las bases de datos correspondientes.
Herramientas ETL
Control y automatizacin de la extraccin de los datos, disminuyendo el
tiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.

Acceso a diferentes tecnologas, haciendo un uso efectivo del


hardware, software, datos y recursos humanos existentes.

Proporcionar la gestin integrada del Data Warehouse y los Data Marts


existentes, integrando la extraccin, transformacin y carga para la
construccin del Data Warehouse corporativo y de los Data Marts.

Uso de la arquitectura de metadatos, facilitando la definicin de los


objetos de negocio y las reglas de consolidacin.

Acceso a una gran variedad de fuentes de datos diferentes.

Manejo de excepciones.

Planificacin, logs, interfaces a schedulers de terceros, que nos


permitirn llevan una gestin de la planificacin de todos los procesos
necesarios para la carga del DW.

Interfaz independiente de hardware.

Soporte en la explotacin del Data Warehouse.


EJEMPLO ETL:

Basado en
EJEMPLO ETL:
Sistema de anlisis de estadsticas
Web
Recopilar la informacin de los
logs de la web de la empresa
en un nico repositorio de
datos que permita el anlisis
de las visitas web.
Kettle Pentaho Data Integration
Basado en el desarrollo de dos tipos
de objetos:
Transformaciones: permiten
definir las operaciones de
transformacin de datos.

Trabajos: permiten gestionar y


administrar procesos ETL a alto
nivel.
Kettle Pentaho Data Integration
Formado por cuatro componentes:
Spoon: entorno grfico para el desarrollo de
transformaciones y trabajos.

Pan: permite ejecutar transformaciones.

Kitchen: permite ejecutar trabajos.

Carte: es un servidor remoto que permite la


ejecucin de transformaciones y trabajos.
Caso Prctico Datos de Origen
El archivo log contiene los siguientes campos:

IP desde la que se accede


RFC 1413: identificador de la mquina en la red
Usuario remoto: identificador del usuario.
Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].
Recurso: aquello a lo que se accede.
Resultado.
Tiempo: segundos que se tarda en acceder al recurso.
Referente: desde donde se accede al recurso.
User-agent: informacin del sistema operativo y del
navegador usados para acceder al recurso.
Caso Prctico Datos de Origen
El archivo log contiene los siguientes campos:
IP desde la que se accede
RFC 1413: identificador de la mquina en la red
Usuario remoto: identificador del usuario.
Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].
Recurso: aquello a lo que se accede.
Resultado.
Tiempo: segundos que se tarda en acceder al recurso.
Referente: desde donde se accede al recurso.
User-agent: informacin del sistema operativo y del
navegador usados para acceder al recurso.
Caso Prctico Ms Datos de Origen
Se han preparado otros ficheros con
informacin adicional:
access.log: contiene la informacin de acceso a
nuestra aplicacin web.
navegador.csv: contiene un listado de avegadores base.
protocolo.csv: contiene los protocolos de acceso
estndar.
resultado.csv: contiene el resultado que puede
proporcionar el servidor a un acceso.
so.cv: contiene un listado de sistemas operativos base.
Planificacin de Procesos ETL
La estrategia que se seguir ser:
1. Cargar las dimensiones navegador, protocolo,
resultado y so a partir de los ficheros
anteriores.
2. Alimentar la tabla de hecho de visitas.
3. Crear un trabajo para lanzar todas las
transformaciones de una manera nica.
Procesos ETL: Vdeo

Вам также может понравиться