Вы находитесь на странице: 1из 25

UNIVERSIDAD NACIONAL DE LA

AMAZONIA PERUANA
Curso: Inteligencia de Negocios

Docente: Ing. Antonio Noronha Gmez

Integrantes:
Cueva Vsquez Miguel
Garca Crdova Roli
Vsquez Valles Eldy

FACULTAD DE INGENIERA DE SISTEMAS E INFORMTICA
Poblando y
Explotando el Data
Warehouse
Especificar la extraccin, transformacin y carga de datos
entre los sistemas transaccionales y el DW. En donde la
extraccin es la seleccin sistemtica de datos
operacionales usados para poblar el componente de
almacenamiento fsico DW; la transformacin es el
proceso para transformar y realizar otros cambios en los
datos operacionales para reunir los objetivos de orientacin
a los temas a explotar y finalmente la carga es la insercin
sistemtica de datos en el componente de almacenamiento
fsico DW.




Es un rea de almacenamiento y a su vez, un conjunto de procesos que limpian
transforman, combinan, eliminan datos duplicados, archivan y preparan los datos de
origen para su uso en la data Warehouse (procesos conocidos como ETL).
lugar de trnsito de los datos en su camino de la fuente al Data Warehouse.
La mayor parte del esfuerzo en la construccin de un Data Warehouse se
despliega en el Staging rea,
La herramienta que se utiliza para la construccin de los procesos del Staging
rea es la herramienta ETL
Extraccin: Primer paso en l obtencin de los datos que sern incluidos en el
ambiente del DW. Extraer significa, leer y comprender los datos fuente y copiar los
que el DW necesita.
Transformacin: Aqu incluye, la limpieza de datos (corrigiendo los errores
ortogrficos, resolviendo conflictos de dominios y convirtiendo los datos en
formato estndar), la combinacin de datos mltiples fuentes y eliminacin de datos
duplicados.
Carga: Almacena los datos en el data Warehouse

2. Poblamiento del Data Warehouse.
El proceso de poblar un Data Warehouse se puede dividir en 5 tipos de
subprocesos: (Descubrir, Extraer, Transformar, Transportar, Cargar)

Descubrir: En esta etapa se analiza la fuente de informacin,
seleccionando los datos a extraer, los niveles de calidad de estos y la
disponibilidad de los mismos.
Extraer: El proceso de extraccin se realizara sobre fuentes
heterogneas, es por ello que se debe contar con una herramienta ETL
abierta a todas las fuentes y a todas las plataformas.
Transformar: El proceso de transformacin se encarga de cambiar los
formatos de datos del sistema fuente al sistema destino, as como de
realizar la integracin de las fuentes y la estandarizacin de los datos
Transportar: Proceso por el cual se pasa los datos al Data Warehouse.
Cargar: almacenamiento de los datos en la Data Warehouse.


Es el proceso orientado a la uniformizar los datos en base a las
definiciones y luego en base a la realidad.

Por ejemplo un caso tpico es el que se presenta es cuando existen
campos que contienen diferente valor como por ejemplo Pedro y
Pablo y que se refieren a la misma persona real, o el caso en el que
el campo contiene los mismos valores Juanita y Juanita pero que
en la realidad corresponden a personas distintas.

El problema de la calidad de los datos se puede enfrentar en parte con rutinas de
limpieza que permitan reducir el nmero de registros con error.
Pasos a seguir:
Analizar sus datos corporativos para descubrir inexactitudes, anomalas y otros problemas.
Transformar los datos para asegurar que sean precisos y coherentes.
Asegurar la integridad referencial, que es la capacidad de la data Warehouse, para identificar
correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un
empleado.
Validar los datos que usa la aplicacin de la data Warehouse para realizar las consultas de
prueba.
Producir la Metadata, una descripcin del tipo de datos, formato y el significado relacionado
al negocio de cada campo.
Finalmente, viene el paso crucial de la documentacin del proceso completo para que se
pueda ampliar, modificar y arreglar los datos en el futuro con ms facilidad.
Tipos de limpieza de Datos
a) Limpieza de datos moderada:
b) Limpieza de datos intensa:

3. LA METADATA
QUE ES METADATA
EJEMPLOS DE METADATA:
* Cuando observamos la fecha de caducidad de los alimentos, dnde fueron fabricados o por quin
son comercializados, estamos consultando metadatos.
* En una biblioteca, al realizar bsquedas. Lo hacemos a travs de metadatos como son el autor, el
ttulo o la temtica.
* En nuestro DNI aparecen metadatos acerca de nosotros mismos: la direccin, los nombres de
nuestros padres, un nmero que acta como identificador, etc.
*En los medicamentos: los metadatos aparecen junto al producto, en el prospecto, donde se indica
la composicin y las indicaciones de uso.

Datos acerca de
los datos.
O
Informacin acerca
de informacin.
Que es otra base de datos que contiene
informacin acerca de los datos que hay en
el Data Warehouse, acerca de los procesos
y acerca del negocio.
TIPOS DE METADATA
Los metadatos de los procesos ETL, referidos a las diversas fuentes utilizadas, reglas de
extraccin, transformacin, limpieza, depuracin y carga de los datos al depsito.
Los metadatos operacionales, que son los que bsicamente almacenan todos los
contenidos del DW, para que este pueda desempear sus tareas.
Los metadatos de consulta, que contienen las reglas para analizar y explotar la
informacin del almacn, tales como drill-up y drill-down. Son estos metadatos los que
las herramientas de anlisis y consulta emplearn para realizar documentaciones y para
navegar por los datos.
Por los usuarios que los utilizan:


Los usuarios de los metadatos tendrn necesidad de ver los siguientes
metadatos:

Usuarios tcnicos: Usuarios de negocio:
Datos sobre el proceso ETL
Datos sobre el DBMS.
Archivos, arquitectura.
Modelos fsico, lgico.
Mapeos.
reas de negocio.
Definiciones de reglas de
negocio.
Como utilizar las
herramientas.
Significado de la informacin
Ubicacin de la informacin
IMPLEMENTAR LA METADATA
En esta actividad, se deben crear los datos acerca de los datos, esto
implica la creacin de un repositorio que proporcione informacin que
puede ser de tres tipos:

* Metadatos del negocio, que contienen las reglas del negocio que
han definido para el data Warehouse, entidades y atributos.
* Metadatos tcnicos, que contiene los modelos de datos a nivel
tcnico, as como los modelos de los procesos de carga.
* Metadatos operacionales, que son acerca de los procesos del data
Warehouse, frecuencia de ejecucin, prioridad entre otros. Estos
metadatos permitirn administrar el Data Warehouse.








En general, un repositorio de Metadatos debe contener
lo siguiente:
_ Nombres de campos y definiciones
_ Mapeo de los datos
_ Tablas
_ ndices
_Cronogramas de extraccin, carga, etc.
_ Criterios de seleccin
_ Clculos de los datos derivados
_ Transformacin de los datos


IMPORTANCIA
En el mbito de los data Warehouse el metadato juega un
papel fundamental, su funcin consiste en recoger todas las
definiciones de la organizacin y el concepto de los datos en
el almacn de datos, debe contener toda la informacin
concerniente a:
Tablas
Columnas de tablas
Relaciones entre tablas
Jerarquas y Dimensiones de datos
Entidades y Relaciones

ARQUITECTURA DE METADATOS

4. PRIMERA CARGA
Los procesos de carga al Data Warehouse tienen caractersticas
muy particulares lo que hace necesario, en muchos casos,
implementar procesos exclusivamente para la primera carga y
procesos diferentes para los refrescos peridicos.

Muchas veces el proceso de carga de volmenes considerables de
datos puede tomar mucho tiempo por lo que se deber utilizar
herramientas especializadas en el tratamiento masivo de
informacin como los BulkLoaders para la descarga y carga de
informacin en tablas y los algoritmos hash cuando se trate de
Tablas Look-up en los procesos de transformacin.

EJEMPLO DEL PROCESO PRIMERA CARGA
5. PROCESO DE ACTUALIZACION DE DATOS
En el caso de los procesos de refresco peridico, es importante
identificar la informacin que cambi en el ltimo periodo de
tiempo desde la ltima actualizacin, el volumen de informacin a
tratar puede ser relativamente menor al caso de la primera carga.
La caracterstica del proceso de carga deber ser tal que permita el
proceso ms rpido posible, de manera que las mltiples fuentes de
datos se puedan cargar sin interferir unas con otras ni tampoco con
los procesos de lectura y anlisis que se hacen en el Warehouse
La caracterstica del proceso de carga deber ser tal que permita el
proceso ms rpido posible, de manera que las mltiples fuentes de
datos se puedan cargar sin interferir unas con otras ni tampoco con
los procesos de lectura y anlisis que se hacen en el Warehouse


DIAGRAMA DE ACTUALIZACION DE DATOS
5.1 ANOMALIAS
Las principales anomalas de los datos que se
encuentran en las bases de datos operacionales son
las siguientes:
Errores en el ingreso de datos (digitacin).
Validaciones inadecuadas en los sistemas de
ingreso de informacin.
Prioridades de los sistemas operacionales.
Datos que se ingresan en campos Free-Form.
Anomalas en reglas de negocio (a travs del
tiempo).


Una tabla tpica se vera como en la siguiente figura:
5.2 ATRIBUTOS DE CALIDAD DE DATOS
Los atributos de la calidad de datos estn
referidos al contenido de los datos
estructurados de las bases de datos a analizar,
esta base de datos puede ser la del sistema
transaccional o la base de datos de Data
Warehouse. Los atributos de la calidad de
datos son los siguientes:

ATRIBUTOS DE CALIDAD DE DATOS
EXACTITUD


EXISTENCIA

VALIDEZ





TEMPORALIDAD


UNICIDAD
Es el porcentaje de tablas con llave primaria y de llaves primarias que
estn activas.
CONSISTENCIA
Es el grado de integridad de los datos, referido a la existencia y validez
de llaves primarias y llaves forneas en la base de datos a analizar.

Вам также может понравиться