Вы находитесь на странице: 1из 6

AO Del buen serviciO Al

ciuDADAnO

Estudiante: Hammer Slegde Herrera Panta.

Docente: Ing. Jos Alberto Garay Mendoza.

Curso: Inteligencia de Negocios.

Escuela: Ingeniera de sistemas.

Ciclo: VIII.

SULLANA Per
2017
Actividad Nro. 12

Opinan sobre los criterios de evaluacin de las actividades de aprendizaje de la


cuarta unidad.
Los criterios de evaluacin estn muy bien planteados y precisos, los cuales en el
transcurso del tiempo se van a desarrollar por los conocimientos adquiridos en las clases
presenciales que dicta usted docente tutor.

Estos criterios indican los objetivos que tenemos que llegar a desarrollar, las cuales son
las metas que el curso tiene como finalidad, que nosotros tenemos que aprender de ellas,
tambin son utilizadas para brindar la informacin necesaria.

Hacer una investigacin precisa y clara sobre procesos ETL. Mencione 03


Ejemplos que usted conozca personalmente o encontrado en internet
Introduccin.
Los sistemas o procesos ETL (Extact-Transform-Load) son la base de la construccin de
cualquier sistema Data Warehouse (aunque adems puedan ser utilizados para otros
muchsimos cometidos). Un sistema bien diseado extrae la informacin de los sistemas
origen, asegura la calidad y consistencia de los datos, homogeniza los datos de sistemas
divergentes para que puedan ser utilizados de una forma conjunta (procesando y
transformando la informacin si es necesario) y finalmente genera los datos en el formato
apropiado para que puedan ser utilizados por las herramientas de anlisis.
Como bien dice Ralph Kimball en su libro The Datawarehouse ETL Toolkit, los
sistemas ETL construyen o se cargan un Data Warehouse. La construccin de un
sistema este tipo es una actividad que no est en primera lnea de fuego y no es visible
para los usuarios finales, pero fcilmente consume el 70% de las necesidades de recursos
para el desarrollo y mantenimiento de un sistema DW. Adems, estos procesos no son
solamente un mero traspaso de informacin de un sistema u otro. Son mucho ms, pues
pueden dar un valor significativo a los datos. Unos procesos mal definidos, mal validados,
pueden cargarse un sistema de BI impecablemente diseado, pero mal alimentado por
unos procesos mal construidos.
El proceso de construccin de un sistema ETL puede ser extraordinariamente exigente y
complejo, estando adems limitado por muchos aspectos, como pueden ser los
requerimientos, los formatos y deficiencias de los datos de origen, las habilidades del
personal disponible, las necesidades de los usuarios finales, el presupuesto del proyecto,
las ventanas de tiempo para los procesos de actualizacin, etc. Teniendo en cuenta esto,
no se debe nunca despreciar la importancia, el tiempo y recursos que se han de utilizar
para su construccin.
Los requerimientos afectan a cmo va a ser nuestro sistema ETL.
Existen diferentes elementos que van a afectar en cmo va ser o como vamos a construir
nuestro sistema ETL. Los ms importantes son los requerimientos. La eleccin de uno o
varios procesos de negocio, las dimensiones e indicadores que vamos a analizar, su
granuralidad, etc., van a determinar cosas tan dispares como los orgenes de datos que
vamos a tener que utilizar, la forma de procesar la informacin, la complejidad de los
procesos, etc. Esto nos va a hacer darnos cuenta de lo importante que son dichos
requerimientos y su correcta definicin en todas las tareas que realicemos a continuacin,
incluyendo la definicin de la arquitectura de nuestros procesos ETL.

Implementacin de Procesos ETL.


Como explica muy bien Kimball en su libro, los procesos ETL son similares a un
restaurante y su cocina. En el comedor, los comensales degustan los platos como lo haran
los analistas de negocio con los datos utilizando sus correspondientes herramientas de
anlisis. Puertas atrs, en el interior, en la cocina, se preparan los platos, se analizan y
limpian los ingredientes, desechando aquellos que no estn en condiciones, se trocean, se
cocinan, hasta elaborarlos tal y como sern presentados a los clientes.

El rea de Staging segn Kimball


De forma similar, el rea de Stage ser lo mismo para nuestro DW. Es un lugar al que
solo acceden las personas especializadas en la integracin de datos, fuera del alcance de
los usuarios. All los datos son extrados, depurados, limpiados, conformados y
normalizados, manipulados o calculados, y preparados para ser cargados en el DW donde
podrn ser accedidos por los usuarios para realizar anlisis con las diferentes herramientas
de las que dispongan.
Los procesos en el rea de Staging pueden incluir o no un almacenamiento de datos
(aunque sea temporal), cuestin que depender de cmo se diseen los procesos, de los
volmenes de informacin o de otras cuestiones. Bsicamente, tenemos 4 tipos de pasos
en esta rea:
Extraccin: los datos son extrados de los sistemas origen, que pueden ser tanto
bases de datos, como ficheros (estructurados o no) u otros orgenes. Los procesos
de extraccin pueden ser a veces el lugar idneo para realizar las primeras
acciones sobre los datos, como formateo, conversiones de tipos, conversin de
juegos de caracteres, etc.

Depuracin: en esta etapa de los procesos ETL se procesa la calidad de los datos,
revisando valores vlidos, consistencia, eliminacin de valores redundantes,
chequeo de reglas complejas, etc. Puede ser necesaria la intervencin humana en
determinados casos.

Conformacin/normalizacin: la informacin es unificada, conformada y


normalizada. Los indicadores y ratios son calculados de una forma racional, lo
mismo que los atributos de las dimensiones, para que estn unificados y en todos
los sitios donde aparezcan tengan la misma estructura y el mismo significado.

Entrega: la informacin est preparada para ser analizada. Se entrega al DW para


que las herramientas de anlisis puedan utilizarla, en los formatos idneos para
dicha tarea.

Creacin o no de un rea de Datos en el Stage.


La decisin de almacenar los datos fsicamente en el rea de Stage o no (y realizar su
procesamiento en memoria) es una eleccin de diseo a la hora de construir los procesos
ETL. Muchas veces puede ser la bsqueda de un equilibrio entre el procesamiento en
memoria o disco, o la bsqueda de la forma ms rpida de extraer la informacin de los
sistemas origen para luego procesarla de una forma independiente, o la posibilidad de
relanzar los procesos en el caso de que haya algn problema, lo que determine esta
eleccin.
Teniendo en cuenta esto, pueden ser razones de peso para tener esta rea de
almacenamiento intermedio las siguientes:

Recuperabilidad: los datos son almacenados en el rea stage una vez son
extrados del sistema origen. A partir de ah, se lanzan los procesos de
transformacin. En el caso de que haya algn problema, estas tablas de staging
nos permiten recuperar y relanzar los procesos sin volver a interferir en los
sistemas operacionales (esto solo tendr sentido cuando los volmenes de
informacin sean lo suficientemente grandes).

Backup: nos pueden permitir disponer de backups de los datos en un punto


determinado, lo que nos puede permitir relanzar procesos o recuperar situaciones
en un punto anterior en el tiempo.

Auditoria: el rea de stage nos puede permitir realizar auditoria o verificacin de


procesos, as como realizar comprobaciones en cmo estaban los datos antes y
despus de los procesos (igualmente sin recurrir a los sistemas origen).

Ejemplo de sistema ETL con almacenamiento en el rea de Stage


En nuestro caso, vamos a construir un rea de stage que ser un punto intermedio de
almacenamiento de la informacin a procesar antes de su carga en el DW. El rea de Stage
puede ser procesada de muchas maneras, desde ser limpiada cada vez que comienza un
proceso de extraccin y ser un mero lugar temporal donde realizar los procesos, hasta ser
persistente y accesible para repetir procesos de carga o para validacin. Normalmente se
utiliza un enfoque hibrido segn el tipo de procesos a realizar.
El rea de Stage es un rea reservada donde solo podrn acceder los procesos ETL (en
ningn caso los usuarios), y deber de estar debidamente dimensionada para contener los
volmenes de informacin necesarios, segn el tipo de persistencia de los datos en ella
que hayamos elegido.
A continuacin, vamos a repasar algunas formas de analizar y documentar los orgenes
de informacin, como paso previo a la realizacin de cualquier tipo de proceso ETL.
Despus definiremos y documentaremos nuestra rea Stage y detallaremos
posteriormente algunas tcnicas ETL para el tratamiento de determinadas situaciones,
para pasar finalmente al diseo de los procesos.

Вам также может понравиться