Вы находитесь на странице: 1из 74

Tema: Inteligencia de Negocios

Datawarehouse y Anlisis Multidimensional de


Datos

Expositor

MBA. Persi Williansh Cabrera Antn


Ingeniero Informtico Colegiado
Contador Pblico Colegiado

INDICE
INTRODUCCIN
DEFINICIN INTELIGENCIA DE NEGOCIOS
TECNOLOGA UTILIZADA PARA HACER BI
OBJETIVOS BI
CICLO BI
ALMACN DE DATOS
ANLISIS MULTIDIMENSIONAL
PROCESAMIENTO ANALTICO EN LNEA
SERVICIO DE TRANSFORMACIN DE DATOS

INTRODUCCIN

EMPRESA
Directivos
Inteligen
cia de
Negocios

Estrategias
Organizacio
nales

Profesionales
del
Conocimiento

ar
Tom ne
s io
Deci
s

DEFINICIONES

INTELIGENCIA DE NEGOCIOS

Proceso de analizar datos o extraer


patrones de comportamiento de los
Datos Internos o Externos
Creando un Almacn de Datos

TECNOLOGA UTILIZADA PARA


HACER BI
Sistemas de
Transformaci
n de Datos

Sistemas
Ejecutivos
de
Informacin

Sistemas de
Gestin de
Base de
Datos

Software OLAP
y
DATAMINING

OBJETIVOS BI

contribuir tomar decisiones que mejoren


el desempeo de la empresa y promover
su ventaja competitiva en el mercado.

Buscar hechos
cuantitativos
medibles acerca
de la empresa

Usar mtodos y
tecnologas para
el anlisis de
hechos

Desarrollar
modelos que
expliquen la
causa-efecto de
las relaciones
entre las acciones
operacionales y
los efectos que
estas han
alcanzado en las
metas.

CICLO BI
El anlisis
comienza por
determinar los
datos a recopilar.

La medicin
evala los
resultados al
compararlos contra
los estndares y
las expectativas
planteadas
originalmente

La reflexin
implica el estudio
minucioso de los
hechos

La accin se da a
travs del proceso
de toma de
decisiones,

ALMACN DE DATOS (AD)


Orientado a integrar la informacin de toda la empresa en un solo
marco de referencia, organizacin y acceso, para satisfacer los
requerimientos de explotacin del rea que exigen referencias
especializadas de una funcin o mezcla de ellas, como se ilustra en la
Figura .

CARACTERSTICAS DEL AD

MARCO DE TRABAJO PARA


CREAR UN DW

Datos primarios
Cualquier tipo de
datos
organizacin de
datos(archivo,
ndice, tabla o
bd)
nivel de
agregacin
(transaccin o
consolidado)

Servicios de
transformacin
de datos (DTS)

Modelo de
depsito de
datos

Acceso a fuentes
heterogneas de
datos por medio
de bsquedas,
extraccin,
conversin y
almacenamiento.

Es la
arquitectura de
almacenamiento,
acceso y
administracin
de los datos
importados por el
DTS.

PROCEDIMIENTO PARA
CONSTRUIR UN DW
Determinar los
requerimientos de
informacin del
negocio.

Creacin y
administracin del
modelo de depsito
de datos.

Establece las
actividades de
transformacin que
se aplican a los
datos primarios

Ubicacin de las
fuentes de
informacin.

Elige los datos


primarios que va
emplear.

ARQUITECTURA DE UN ALMACN
DE DATOS

Organizacin: Cadena de supermercados.


Actividad objeto de anlisis: ventas de productos.
Informacin registrada sobre una venta: del producto Televisores
LED se han vendido en el almacn Almacn nro.1 el da 25/4/2015, 5
unidades por un importe de 15000 Nuevos Soles

Para hacer el anlisis no interesa la venta individual realizada


a un cliente sino las ventas diarias de productos en los
distintos almacenes de la cadena.

14

EJEMPLO

Tiempo

Marca
Descripcin

Semana

Categora
Departamento

as

Tipo

Da

Trimestre
Ao

Ve
nt

Nro_producto

Mes

importe
unidades

Dimensiones producto, tiempo y


almacn.
Sobre esto (datamart) elaboro
mi cubo (?).

Almacn
Ciudad
Regin

Tipo

Almacn

Esto es un datamart.

15

Producto

ARQUITECTURA DE UN ALMACN
DE DATOS

ARQUITECTURA DE UN ALMACN
DE DATOS

Semana

Descripcin
Categora

Mes
Da

Trimestre

Ao

Ve
nt

Tipo

Nro_producto

as

Departamento

Tiempo

Marca

importe
unidades

Actividad que es objeto de


anlisis con los indicadores
que interesa analizar

Ciudad
Regin

Tipo

Almacn

Almacn

16

Producto

Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.

ARQUITECTURA DE UN ALMACN
DE DATOS
Modelo multidimensional:

la informacin relevante sobre el hecho (actividad) se


representa por un conjunto de indicadores (medidas o atributos
de hecho).
la informacin descriptiva de cada dimensin se representa por
un conjunto de atributos (atributos de dimensin).

17

en un esquema multidimensional se representa una actividad


que es objeto de anlisis (hecho) y las dimensiones que
caracterizan la actividad (dimensiones).

Descripcin

Tiempo

hecho

Marca

Semana

Categora
Departamento

Mes
Trimestre

Da

Ao

Ve
nt

as

Nro_producto
Tipo

18

importe
unidades

dimensin

Almacn

medidas

Ciudad

atributos

Tipo

Regin

Almacn

Producto

ARQUITECTURA DE UN ALMACN
DE DATOS

ARQUITECTURA DE UN ALMACN
DE DATOS
Entre los atributos de una dimensin se definen jerarquas

nro. producto

categora

departamento

Almacn
ciudad

regin

almacn
tipo
Tiempo
da

trimestre

mes
semana

ao

19

Producto

ARQUITECTURA DE UN ALMACN
DE DATOS
Este esquema multidimensional recibe varios nombres:

proyecto

tiempo

PERSONAL
equipo

estrella jerrquica o copo de nieve: si la jerarqua no es lineal.


tiempo
producto
lugar

VENTAS

20

estrella: si la jerarqua de dimensiones es lineal

ARQUITECTURA DE UN ALMACN
DE DATOS
Se pueden obtener hechos a diferentes niveles de agregacin:

HECHO: El primer
trimestre de 2004 la
empresa vendi en
Valencia por un importe
de 22.000 euros del
producto tauritn 33 cl.

LUGAR:
Murcia
Alicante
ciudad Zaragoza
Madrid

Ventas en
miles de
Euros

Barcelona
Valencia

PRODUCTO:
artculo

Zumo Pia 1l. 17

Jerarqua de dimensiones:
PRODUCTO
Categora

Cola 33cl. 57

Jabn Salitre 93

Gama

Tauritn 33cl 22

Cerveza Kiel 20 cl 5

Leche Entera Cabra 1l 12

1 2 3 4 1 2
2005
2004

TIEMPO:
trimestre

21

obtencin de medidas sobre los hechos parametrizadas por


atributos de las dimensiones y restringidas por condiciones
impuestas sobre las dimensiones

Prov.
/

Artculo

LUGAR

TIEMPO

Pas

Ao

Ciudad

Trimestre \

Supermercado

Mes Semana
\

/
Da
|
Hora

Un nivel de agregacin para un conjunto de


dimensiones se denomina cubo.

ARQUITECTURA DE UN ALMACN
DE DATOS
Se puede recopilar toda la informacin necesaria en un nico esquema
estrella o copo de nieve?
22

NO : necesidad de varios esquemas.


Cada uno de estos esquemas se denomina datamart.

producto

tiempo

proveedor

VENTAS

lugar

producto

PRODUCCIN

lugar

tiempo

tiempo

equipo

PERSONAL

lugar

proyecto

producto

CAMPAA

tiempo

Almacn
formado por
4 datamarts.

ARQUITECTURA DE UN ALMACN
DE DATOS
El almacn de datos puede estar formado por varios datamarts y,
opcionalmente, por tablas adicionales.
23

Data mart

subconjunto de un almacn de
datos, generalmente en forma de
estrella o copo de nieve.

se definen para satisfacer las necesidades


de un departamento o seccin de la
organizacin.
contiene menos informacin de detalle y
ms informacin agregada.

DESCRIPCIN DE LOS SERVICIOS DE


TRANSFORMACIN DE DATOS

El DTS son los servicios de transformacin de datos provenientes


de la fuente denominada datos primarios hacia un modelo de
almacenamiento, encargndose de su importacin, validacin,
limpieza, transformacin, integracin, ajuste, consolidacin,
almacenamiento y actualizacin, tal como se ilustra en la Figura.

DESCRIPCIN DE LOS SERVICIOS DE


TRANSFORMACIN DE DATOS

La programacin de las funciones de extraccin se codifica en


un paquete DTS, compuesto por tareas de transformacin
de datos que son realizadas en una secuencia, donde hay
ejecuciones simultneas y otras condicionadas. Las tareas de
transformacin
realizan
operaciones
de
validacin,
identificacin de valores faltantes, limpieza, homogeneizacin
de datos heterogneos, eliminacin de duplicados, mapeo,
almacenamiento, fusin y divisin de columnas entre otras.

CARGA Y MANTENIMIENTO DE UN
A.D.
El sistema encargado del mantenimiento del almacn de datos es
el Sistema E.T.T* (Extraccin - Transformacin -Transporte)

El Sistema E.T.T es construido especficamente para cada


almacn de datos. Aproximadamente 50% del esfuerzo.
En la construccin del E.T.T se pueden utilizar herramientas del
mercado o programas diseados especficamente.

Funciones del Sistema E.T.T:


Carga inicial. (initial load)
Mantenimiento o refresco peridico: inmediato, diario, semanal,
mensual,... (refreshment)
* Conocido tambin por E.T.L: Extraccin Transformacin Load (carga)

26

La construccin del Sistema E.T.T es responsabilidad del equipo


de desarrollo del almacn de datos.

CARGA Y MANTENIMIENTO DE UN
A.D.
E.T.T.

Correspondencia
27

Extraccin

Bases de datos
operacionales
Fuentes
Externas

Transporte

Transformacin

Almacenamiento
intermedio

Almacn de
datos

El Almacenamiento intermedio permite:


Realizar transformaciones sin paralizar las bases de
datos operacionales y el almacn de datos.
Almacenar metadatos.
Facilitar la integracin de fuentes externas.

CARGA Y MANTENIMIENTO DE UN
A.D.
E.T.T.

Correspondencia
28

Extraccin

Transporte

Transformacin

Carga

Identificacin de los
datos que han cambiado
Extraccin (lectura) de
datos.
Obtencin de agregados
Mantenimiento de
metadata

Indizacin
Limpieza y transformacin
de datos

Obtencin de datos
agregados.

Integracin de datos
(clculo de datos derivados)

Realizacin de pruebas
de calidad de la carga.

Creacin de claves

Gestin de errores.

Obtencin de agregados

Mantenimiento de
metadata

Mantenimiento de
metadata

CARGA Y MANTENIMIENTO DE UN
A.D.
La calidad de los datos es la clave del
xito de un almacn de datos.
29

Definir una estrategia de calidad:


actuacin sobre los sistemas operacionales: modificar
las reglas de integridad, los disparadores y las
aplicaciones de los sistemas operacionales.
documentacin de las fuentes de datos.
definicin de un proceso de transformacin.
nombramiento de un responsable de calidad del sistema
(Data Quality Manager).

CARGA Y MANTENIMIENTO DE UN
A.D.
Extraccin.
30

Correspondencia

Extraccin

Bases de datos
operacionales

Almacenamiento
intermedio

Almacn de
datos

Programas diseados para extraer los datos de las fuentes.


Herramientas: data migration tools, wrappers, ...

CARGA Y MANTENIMIENTO DE UN
A.D.
Extraccin: lectura de datos del sistema operacional.
b) mantenimiento del AD
Ejecucin de la extraccin:
a) si los datos operacionales estn mantenidos en un SGBDR, la
extraccin de datos se puede reducir a consultas en SQL o
rutinas programadas.
b) si los datos operacionales estn en un sistema propietario
(no se conoce el formato de los datos) o en fuentes externas
textuales, hipertextuales u hojas de clculo, la extraccin puede
ser muy difcil y puede tener que realizarse a partir de informes
o volcados de datos proporcionados por los propietarios que
debern ser procesados posteriormente.

31

a) durante la carga inicial .

CARGA Y MANTENIMIENTO DE UN
A.D.
Extraccin:

en el mantenimiento/refresco del AD. Antes de


realizar la extraccin es preciso Identificar los Cambios.
32

Identificacin de Cambios.

Identificar los datos operacionales (relevantes) que han sufrido


una modificacin desde la fecha del ltimo mantenimiento.
Mtodos
Carga total: cada vez se empieza de cero.
Comparacin de instancias de la base de datos operacional.
Uso de marcas de tiempo (time stamping) en los registros del
sistema operacional.
Uso de disparadores en el sistema operacional.
Uso del fichero de log (gestin de transacciones) del sistema
operacional.
Uso de tcnicas mixtas.

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.
33

Correspondencia

Transformacin

Bases de datos
operacionales

Almacenamiento
intermedio

Almacn de
datos

- Transformar los datos extrados de las fuentes operacionales:


limpieza, estandarizacin. (cleansing)
- Calcular los datos derivados: aplicar las leyes de derivacin.
(integration)

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.
34

12M65431

12M65431

12

65431

12

65431

12-m-65421

12-m-65421

12

65421

12

65421

12m65421

12m65421

12

65421

12m65421

12m65421

12M65431

12M65431

En los datos operacionales existen anomalas: desarrollos


independientes a lo largo del tiempo, fuentes heterogneas, ..
Eliminar anomalas:
Limpieza de datos: eliminar datos, corregir y completar datos,
eliminar duplicados, ...
Estandarizacin: codificacin, formatos, unidades de medida, ...

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.
35

Claves con estructura: descomponer en valores atmicos

Cdigo de producto = 12M65431345

cdigo zona de
del pas ventas

nmero de
producto

cdigo de
vendedor

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.
36

Unificar codificaciones: existencia de codificaciones mltiples.


v,h
1,0

v, h

varn, hembra

Deben detectarse los valores errneos.

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.

cm
cm
inches
DD/MM/YY
DD-Mon-YY
MM/DD/YY
1,000 GBP
USD 600
FF 9,990

37

Unificar estndares:unidades de medida, unidades de


tiempo,moneda,...

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.
38

Valores duplicados: deben ser eliminados.


SQL
restricciones en el SGBDR

ACME Inc
ACME Inc
ACME Inc

ACME Inc

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin.
39

Integridad referencial: debe reconstruirse.

Departamento
10
20
30
40

Emp
1099
1289
1234
6786

Nombre
Smith
Jones
Doe 50
Harris

Departamento
10
20
60

CARGA Y MANTENIMIENTO DE UN
A.D.
Transformacin. Creacin de claves.
Venta

1/2/98

12:00:01 Ham Pizza

$10.00

#2

Venta

1/2/98

12:00:02 Cheese Pizza

$15.00

#3

Venta

1/2/98

12:00:02 Anchovy Pizza

$12.00

#4

Devolucin 1/2/98
#5

Venta

1/2/98

12:00:03 Anchovy Pizza


12:00:04 Sausage Pizza

- $12.00
$11.00

40

#1

CARGA Y MANTENIMIENTO DE UN
A.D.
Transporte. (carga)
41

La fase de Transporte consiste en mover los datos desde las


fuentes operacionales o el almacenamiento intermedio hasta el
almacn de datos y cargar los datos en las correspondientes
estructuras de datos.
La carga puede consumir mucho tiempo.
En la carga inicial del AD se mueven grandes volmenes de
datos.
En los mantenimientos peridicos del AD se mueven pequeos
volmenes de datos.
La frecuencia del mantenimiento peridico est determinada
por el grnulo del AD y los requisitos de los usuarios.

CARGA Y MANTENIMIENTO DE UN
A.D.
Transporte. Creacin y mantenimiento de un AD.
42

Base de datos
operacional

T1

T2

T3

Crear el AD (base de datos)


En intervalos de tiempo fijos aadir cambios al AD. Se
deben determinar las ventanas de carga ms convenientes
para no saturar la base de datos operacional.
Ocasionalmente archivar o eliminar datos obsoletos que ya
no interesan para el anlisis.

CARGA Y MANTENIMIENTO DE UN
A.D.
Procesos posteriores a la carga: indizacin.
43

Durante la carga:
carga con el ndice habilitado
proceso tupla a tupla. (lento)
Despus de la carga:
carga con el ndice deshabilitado
creacin del ndice (total o parcial). (rpido)
Index

Base de datos
operacional

Almacn
de datos

CARGA Y MANTENIMIENTO DE UN
A.D.
Procesos posteriores a la carga: obtencin de agregados.

Extraccin

Base de datos
operacional

44

Durante la extraccin.
Despus de la carga (transporte).

Transporte

Almacenamiento
intermedio

Almacn de
datos

DISEO DE UN ALMACN DE DATOS


Modelado multidimensional:
en un esquema multidimensional se representa una actividad que es
objeto de anlisis (hecho) y las dimensiones que caracterizan la
actividad (dimensiones).

la informacin relevante sobre el hecho (actividad) se representa por


un conjunto de indicadores (medidas o atributos de hecho).

la informacin descriptiva de cada dimensin se representa por un


conjunto de atributos (atributos de dimensin).

45

DISEO DE UN ALMACN DE DATOS


Pasos en el diseo del almacn de datos:
46

Paso 1. Elegir un proceso de la organizacin para


modelar.
Paso 2. Decidir el grnulo (nivel de detalle) de
representacin del proceso.
Paso 3. Identificar las dimensiones que
caracterizan el proceso.
Paso 4. Decidir la informacin a almacenar sobre el
proceso.

DISEO DE UN ALMACN DE DATOS


Paso 1. Elegir un proceso de la organizacin para modelar.

Pedidos (de clientes)


Compras (a suministradores)
Facturacin
Envos
Ventas
Inventario

47

Proceso: actividad de la organizacin soportada por un


OLTP del cual se puede extraer informacin con el
propsito de construir el almacn de datos.

DISEO DE UN ALMACN DE DATOS


Ejemplo: Cadena de supermercados.

Actividad: Ventas.

La actividad a modelar son las ventas de productos


en los almacenes de la cadena.

48

Cadena de supermercados con 300 almacenes en la


que se expenden unos 30.000 productos distintos.

DISEO DE UN ALMACN DE DATOS


Paso 2. Decidir el grnulo (nivel de detalle) de representacin.

El grnulo define el nivel atmico de datos en el almacn


de datos.
El grnulo determina el significado de las tuplas de la tabla
de hechos.
El grnulo determina las dimensiones bsicas del esquema
transaccin en el OLTP
informacin diaria
informacin semanal
informacin mensual. ....

49

Grnulo: es el nivel de detalle al que se desea almacenar


informacin sobre la actividad a modelar.

DISEO DE UN ALMACN DE DATOS

m1
i
D

id_dim1

m3
i
D

tabla
Dimensin 3

id_dim2
id_dim3
tabla
Dimensin 2

m2
i
D

...
id_dim n
....
(hechos)

mn
i
D

tabla
Dimensin n

50

tabla
Dimensin 1

tabla de
hechos

DISEO DE UN ALMACN DE DATOS


Ejemplo: Cadena de supermercados.

Grnulo: se desea almacenar informacin sobre las ventas


diarias de cada producto en cada almacn de la cadena.
51

Grnulo:
define el significado de las tuplas de la tabla de hechos.
determina las dimensiones bsicas del esquema.

pro

c
du

to

producto
da
almacn

ac
m
l
a

ventas

p
i em

DISEO DE UN ALMACN DE DATOS

Grnulo superior: no se almacena informacin a nivel


semanal o mensual porque se perderan opciones de
anlisis interesantes: ventas en das previos a vacaciones,
ventas en fin de semana, ventas en fin de mes, ....
En un almacn de datos se almacena informacin
a un nivel de detalle (grnulo) fino no porque se
vaya a interrogar el almacn a ese nivel sino
porque ello permite clasificar y estudiar (analizar)
la informacin desde muchos puntos de vista.

52

Grnulo inferior: no se almacena informacin a nivel de


lnea de ticket porque no se puede identificar siempre al
cliente de la venta lo que permitira hacer anlisis del
comportamiento (hbitos de compra) del cliente.

DISEO DE UN ALMACN DE DATOS


pro

c
du

to

p
it em

producto

da
53

almacn
ac
m
l
a

ventas

tabla de id_producto
hechos id_fecha
id_almacn

la clave primaria* est


formada por los
identificadores de las
dimensiones bsicas.

.....
.....
......

datos (medidas) sobre


las ventas diarias de un
producto en un almacn.

* pueden existir excepciones a esta regla general

DISEO DE UN ALMACN DE DATOS


Paso 3. Identificar las dimensiones que caracterizan el proceso.

Tiempo

(dimensin temporal: cundo se produce la actividad?)

Producto (dimensin cul es el objeto de la actividad?)


Almacn (dimensin geogrfica: dnde se produce la actividad?)
Cliente

(dimensin quin es el destinatario de la actividad?)

De cada dimensin se debe decidir los atributos


(propiedades) relevantes para el anlisis de la actividad.
Entre los atributos de una dimensin existen jerarquas
naturales que deben ser identificadas (da-mes-ao)

54

Dimensiones: dimensiones que caracterizan la actividad al


nivel de detalle (grnulo) que se ha elegido.

DISEO DE UN ALMACN DE DATOS

id_dim1
....

rib
t
(a

)
s
o
ut

55

tabla
Dimensin 1

DISEO DE UN ALMACN DE DATOS


Ejemplo: Cadena de supermercados.

definicin de
grnulo

dimensiones
bsicas

producto
establecimiento

Nota: En las aplicaciones reales el nmero de dimensiones


suele variar entre 3 y 15 dimensiones.

56

tiempo

DISEO DE UN ALMACN DE DATOS


Dimensin Tiempo:

aunque el lenguaje SQL ofrece funciones de tipo DATE, una


dimensin Tiempo permite representar otros atributos
temporales no calculables en SQL.
se puede calcular de antemano
atributos frecuentes:
nro. de da, nro. de semana, nro. de ao: valores absolutos
da de la semana (lunes, martes, mircoles,...): permite hacer
anlisis sobre das de la semana concretos (ej. ventas en sbado,
ventas en lunes,..).

57

dimensin presente en todo AD porque el AD contiene


informacin histrica sobre la organizacin.

DISEO DE UN ALMACN DE DATOS


Dimensin Tiempo:
atributos frecuentes:

jerarqua natural:
da - mes - trimestre -ao

58

da del mes (1..31): permite hacer comparaciones sobre el mismo


da en meses distintos (ventas el 1 de mes).
marca de fin de mes, marca de fin de semana : permite hacer
comparaciones sobre el ltimo da del mes o das de fin de semana
en distintos meses.
trimestre del ao (1..4): permite hacer anlisis sobre un trimestre
concreto en distintos aos.
marca de da festivo: permite hacer anlisis sobre los das contiguos
a un da festivo.
estacin (primavera, verano..)
evento especial: permite marcar das de eventos especiales (final de
futbol, elecciones...)

DISEO DE UN ALMACN DE DATOS


Dimensin Producto:

las actualizaciones del fichero maestro de productos deben


reflejarse en la dimensin Producto (cmo?).
la dimensin Producto debe contener el mayor nmero posible
de atributos descriptivos que permitan un anlisis flexible. Un
nmero frecuente es de 50 atributos.
atributos frecuentes: identificador (cdigo estndar),
descripcin, tamao del envase, marca, categora,
departamento, tipo de envase, producto diettico, peso,
unidades de peso, unidades por envase, frmula, ...
jerarquas: producto-categora-departamento

59

la dimensin Producto se define a partir del fichero maestro de


productos del sistema OLTP.

DISEO DE UN ALMACN DE DATOS


Dimensin Establecimiento (store) :
la dimensin Almacn representa la informacin geogrfica bsica.

atributos frecuentes: identificador (cdigo interno), nombre,


direccin, distrito, regin, ciudad, pas, director, telfono, fax, tipo de
almacn, superficie, fecha de apertura, fecha de la ltima
remodelacin, superficie para congelados, superficie para productos
frescos, datos de la poblacin del distrito, zona de ventas, ...
jerarquas:

establecimiento - distrito - ciudad - regin - pas (jerarqua


geogrfica)

establecimiento - zona_ventas - regin_ventas (jerarqua de


ventas)

60

esta dimensin suele ser creada explcitamente recopilando


informacin externa que slo tiene sentido en el A.D y que no la
tiene en un OLTP (nmero de habitantes de la ciudad del
establecimiento, caracterizacin del tipo de poblacin del distrito, ...)

DISEO DE UN ALMACN DE DATOS


Tiempo

Establecimiento

Producto

id_establec

id_producto

da

nro_establec

nro_producto

semana

nombre

descripcin

mes

direccin

marca

ao

distrito

subcategora

da_semana

ciudad

categora

da_mes

pas

departamento

trimestre

tlfno

peso

festivo

fax

unidades_peso

....

superficie

tipo_envase

tipo_almacn

diettico

...

...

61

id_fecha

DISEO DE UN ALMACN DE DATOS


Tiempo

Establecimiento

id_fecha

id_establec

da

Producto

mes

id_producto

ao

nro_producto

da_semana

descripcin

da_mes

marca

trimestre

subcategora

festivo

categora

....

nombre
direccin
distrito
ciudad
pas
tlfno

Ventas

fax

departamento

id_fecha

superficie

peso

id_producto

tipo_almacn

unidades_peso

id_establec

...

tipo_envase

...

diettico

...

...

...

62

nro_establec

semana

DISEO DE UN ALMACN DE DATOS


Paso 4. Decidir la informacin a almacenar sobre el proceso.

Precio
Unidades
Importe
....

Nota: algunos datos que en el OLTP coincidiran con valores de


atributos de dimensiones, en el almacn de datos pueden
representar hechos. (Ejemplo: el precio de venta de un producto).

63

Hechos: informacin (sobre la actividad) que se desea almacenar


en cada tupla de la tabla de hechos y que ser el objeto del
anlisis.

DISEO DE UN ALMACN DE DATOS


Ejemplo: Cadena de supermercados.
64

Grnulo: se desea almacenar informacin sobre las ventas


diarias de cada producto en cada establecimiento de la cadena.
importe total de las ventas del producto en el da
nmero total de unidades vendidas del producto en el da
nmero total de clientes distintos que han comprado el
producto en el da.

DISEO DE UN ALMACN DE DATOS


Tiempo

Establecimiento

id_fecha

id_establec

da

Producto

mes

id_producto

ao

nro_producto

da_semana

descripcin

da_mes

marca

trimestre

subcategora

festivo

categora

....

nombre
direccin
distrito
ciudad
pas
tlfno

Ventas

fax

departamento

id_fecha

superficie

peso

id_producto

tipo_almacn

unidades_peso

id_establec

...

tipo_envase

importe

diettico

unidades

...

nro_clientes

65

nro_establec

semana

DISEO DE UN ALMACN DE DATOS


Otras orientaciones de diseo:

evitar normalizar.
incluir la dimensin Tiempo.
dimensiones que cambian.
definicin de agregados.

66

usar claves sin significado:

DISEO DE UN ALMACN DE DATOS


Otras orientaciones de diseo:

uso de claves sin significado.


67

en un almacn de datos debe evitarse el uso de las claves


del sistema operacional.
las claves de las dimensiones deben ser generadas
artificialmente: claves de tipo entero (4 bytes) son suficiente
para dimensiones de cualquier tamao (232 valores distintos).
la dimensin TIEMPO debe tener tambin una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
en el OLTP se puede decidir reutilizar valores de la clave no
utilizados actualmente.
en el OLTP se puede decidir cambiar la codificacin de las
claves.

DISEO DE UN ALMACN DE DATOS


Otras Orientaciones de diseo:

evitar normalizar.
68

Si se define una tabla de dimensin para cada dimensin


identificada en el anlisis, es frecuente que entre el conjunto de
atributos de la tabla aparezcan dependencias funcionales que
hacen que la tabla no est en 3 F.N.

Evitar normalizar:
el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.

DISEO DE UN ALMACN DE DATOS

siempre introducir la dimensin Tiempo.

En un almacn de Datos muchas consultas son


restringidas y parametrizadas por criterios relativos a
periodos de tiempo (ltimo mes, este ao, ...).

69

Otras Orientaciones de diseo:

DISEO DE UN ALMACN DE DATOS


Otras orientaciones de diseo:

dimensiones que cambian.


70

Se considera relevante el caso en que, en el mundo real, para un


valor de una dimensin, cambia el valor de un atributo que es
significativo para el anlisis sin cambiar el valor de su clave.
Ejemplo: En un A.D existe la dimensin CLIENTE. En la tabla correspondiente
un registro representa la informacin sobre el cliente Mara Garca cuyo
estado civil cambia el 15-01-1994 de soltera a casada. El estado civil del
cliente es utilizado con frecuencia en el anlisis de la informacin.

Existen tres estrategias para el tratamiento de los cambios en


las dimensiones:
Tipo 1: Realizar la modificacin.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.

DISEO DE UN ALMACN DE DATOS


Otras orientaciones de diseo:

definicin de agregados.
71

En un almacn de datos es usual consultar


informacin agregada!
El almacenamiento de datos agregados por distintos criterios de
agregacin en la tabla de hechos mejora la eficiencia del AD.

Estrategias de almacenamiento de datos agregados:


Estrategia 1: definir nuevas tablas de hechos (resp. de
dimensiones) para almacenar la informacin agregada (resp. la
descripcin de los niveles de agregacin).
Estrategia 2: insertar en la tabla de hechos (resp. dimensiones)
tuplas que representan la informacin agregada (resp. los
niveles de agregacin).

LNEAS DE INVESTIGACIN
ABIERTAS
Resmenes:
Widom, J. Research problems in data warehousing
Actas de la International Conference on Information and Knowledge
Management (CIKM95), ACM Press. 1995

Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP


technology.
SIGMOD Records. 26(1), pp. 65-74, 1997.

Wu, Ch., Buchmann, P. Research issues in data warehousing


Datebanksysteme in Bro, Technik und Wissenchaft (BTW),
Informatik Aktuell, pp. 61-62. Springer, 1997

72

COMPONENTES DE LAS HERRAMIENTAS OLAP

COMPONENTES DE LAS HERRAMIENTAS OLAP

Вам также может понравиться