Академический Документы
Профессиональный Документы
Культура Документы
Almacenes de Datos
1 /96
Tabla de Contenido
Introduccin a la Inteligencia de Negocios
OLTP y OLAP
Metodologa
Diseo Lgico
Diseo Fsico
Principios de Diseo
Dimensiones
Cubos y medidas
2 /96
TOMA DE DECISIONES
3 /96
Toma de decisiones
Proceso de toma de decisiones:
Realidad
6 /96
Niveles en el Uso de los Datos
7 /96
Niveles en el uso de los datos
Nivel operacional: Se utilizan sistemas de informacin que
monitorean las actividades y transacciones elementales.
10 /96
Inteligencia de Negocios
Business intelligence.
Es el conjunto de tcnicas y herramientas que apoyan la
toma de decisiones.
Caractersticas:
1. Proveen informacin para el control del proceso de negocio,
independientemente de la fuente de los datos.
2. Dan soporte a la toma de decisiones.
3. Diferencia la informacin til para los usuarios finales.
4. Uniformiza los trminos usados en la institucin.
Independientemente del origen de los datos o de la forma de
extraccin, transformacin y agregacin.
11 /96
Disciplinas
Enterprise Resource
Planning ERP
Supply Chain
Management - SCM
Customer Relationship
Management. - CRM
Data Warehouses -
DW
Business Intelligence
BI
Enterprise Application
Integration EAI
12 /96
Disciplinas
Data Warehousing: Se basa en estructuras
multidimensionales (cubos) que almacenan informacin
calculada previamente de todas las combinaciones de
todos los niveles de todas las aperturas de anlisis. NxM.
13 /96
Evolucin
Business Data to Business Information
Etapa Pregunta del Negocio Tecnologa Proveedores Caractersticas
disponible
Data Cul fue el total de
Computadoras, Retrospectivo
Collection ventas en Lima y en IBM, NCR, etc
cintas, discos Esttico
(1960) Arequipa?
14 /96
Inteligencia de Negocios
Plazo Tcnica Tecnologa Tecnologa Conocimiento
Largo Plazo Minera de Agrupamiento Patrones
Datos Clasificacin
Secuenciacin Nuevos
Reglas de Conocimientos
asociacin
Toma de
Decisiones
15 /96
OLAP Y OLTP
16 /96
OLTP y OLAP
OLTP OLAP
Usuario Operativos, Profesionales TI Trabajadores de conocimiento
Uso Predecible, Repetitivo Ad hoc, Heurstico
Accesos Alta Media y baja
Tipo acceso R/W - actualizacin al campo Lectura - Sumarizacin
T. respuesta Segundos Segundos a minutos
Contenido Valores elementales Datos sumarizados, derivados
Estabilidad Dinmicos Estticos hasta su actualizacin
Funcin Operaciones da a da Soporte a las decisiones
Diseo BD Orientado a la aplicacin Orientado al tema (sujeto)
Estructura Transaccional (NORMALIZADA) Consultas (DESNORMALIZADA)
# filas cientos millones
# usuarios miles cientos
DB Size 100 MB-GB 100GB-TR
mtrica rendimiento de la transaccin rendimiento de la consulta
17 /96
OLTP
On-Line Transaction Processing.
Sistemas operacionales que capturan transacciones y las
almacenan en Base de Datos.
Caractersticas:
Transacciones en tiempo real (con da a da)
Datos almacenados cambian continuamente.
Mantienen los datos (INSER; DELETE;UPDATE)
Estructuras de datos optimizadas normalizadas.
Basado en reglas.
Limitado para la toma de decisiones, las consultas
histricas producen un impacto en la operacin del
sistema.
Usa Diagrama Entidad Relacin (DER).
18 /96
OLTP - Ejemplo
Operacin del Cliente: Operacin en sitio Web:
Tomar la tarjeta del Cliente. Validar al cliente y autenticarlo en el
Validar el Cliente. si el Cliente existe sistema.
confirmar que se encuentra en una Tomar el pedido.
lnea de cajeros habilitada. Controlar los topes de crditos.
Autenticar el cliente en el sistema. Informar los valores parciales de la
compra y acumulados.
Realizar una transferencia: Requerir confirmacin del cliente
Verificar que est autorizado para antes de enviar el pedido.
realizarla. Enviar el pedido.
Verificar que tiene saldo. Descontar del stock las cantidades
Inicializar la transferencia vendidas.
manejndola como una transaccin. Informar el nmero de venta y la
Emitir comprobante. fecha de entrega.
Saludar al Cliente. Saludar al cliente.
Caractersticas:
Optimizado para responder rpidamente a consultas.
Consulta interactiva de los usuarios.
Almacenan varios niveles de datos optimizadas para
responden a consultas.
Proporciona una vista de datos multidimensional.
Se puede cambiar fcilmente filas, columnas, y pginas
en informes de OLAP.
20 /96
OLAP - Ejemplos
Sistemas de Informacin para OLAP en el Marketing
ejecutivos Anlisis de productos.
Alertas. Anlisis de Clientes.
Toma de decisiones. Anlisis de Facturacin.
21 /96
OLAP - OLTP
Anlisis
Entidad UML
Normalizacin Diseo
OLTP Diagrama E-R Lenguaje de
Atributo Integridad Desarrollo
Modelamiento Implementacin
Relacin Referencial
Unificado
Explotacin
Hechos UDM
modelo Diseo
Dimensiones Codificacin
OLAP Cubos dimensional Carga
Jerarquas Granularidad unificado Explotacin
Medidas
22 /96
Ejercicio 2
Responder las siguientes preguntas:
23 /96
METODOLOGIA
24 /96
Metodologa
25 /96
Metodologa
Definicin Construccin
Plantear los objetivos del Construir el DWH
proyecto.
Refinar los desarrollos del ETL
Definir los requerimientos del
negocio. Probar la solucin
Modelar el negocio Prueba de performance
Definir el plan de trabajo y Documentacin
equipo de proyecto.
Produccin
Modelamiento
Poner en operacin del sistema
Comprender los requerimientos
del negocio. Validar y cargar la informacin
Disear la arquitectura del DWH inicial
Definir el equipo de pruebas. Administrar el crecimiento
Revisar el diseo Soporte de la solucin.
Respaldar periodicamente la
informacin.
26 /96
Ejercicio 3
Identifique metodologas para el desarrollo de DWH
Identifique metodologas para el desarrollo de SI
Compare las metodologas de desarrollo de DWH vs SI
Existen metodologas giles para el desarrollo de DWH
27 /96
Ciclo de Vida del Proyecto
Technical Product
Architecture Selection &
Design Installation
Business
Dimensional Data Staging Maintenance
Project Requirement Physical
Modeling Design & Deployment and
Planning Design
Development Growth
Definition
(week1)
End-User End-User
Application Application
Specification Development
Project Management
28 /96
DISEO LGICO
29 /96
Diseo Lgico
30 /96
Diseo Lgico
Esquema conceptual
Esquemas fuentes no integrados
Esquema fuente integrado
Esquema lgico intermedio
Esquema lgico del DWH
Lineamientos de diseo
Mapeos
Reglas
Transformaciones
31 /96
Esquemas
lineamientos carga consultas
reglas de
transformacin
Esquema Esquema
Fuente Intermedio
Integrado 32 /96
Esquema conceptual
Especifica los requerimientos del usuario.
Hechos, Dimensiones, Medidas
Representa los objetos del negocio en trminos de hechos,
dimensiones, atributos de las dimensiones, cruces entre
dimensiones, niveles de las dimensiones y medidas.
Esquemas fuentes
Define el origen de datos:
Esquemas fuentes no integrados
34 /96
Esquema fuente intermedio
Define los cambios desde el esquema fuente integrado
hasta el esquema lgico del DWH
35 /96
Esquema Lgico
La construccin del esquema lgico del DWH se lleva a
cabo mediante transformaciones aplicadas al esquema
lgico de la base de datos fuente.
Estas transformaciones se aplican a sub-esquemas
relacionales, comenzando por el esquema fuente,
generando como resultado el esquema lgico del DWH
Especifica
El estilo de diseo del DH Copo de nieve o Estrella
Normalizacin de dimensiones
Fragmentacin de datos
36 /96
Modelos bsicos dimensionales
37 /96
Esquema Fsico
Existe tres formas de almacenar los datos:
AGREGACIONES
Y DATOS
Vista de
Base de Datos Usuario
Relacional
Base de Datos
Multidimensional
Vista de
Base de Datos Usuario
Vista de Relacional Base de Datos
Base de Datos Usuario Multidimensional
Relacional Base de Datos
Multidimensional
38 /96
Mapeos
Indican donde se encuentran en el esquema lgico fuente,
los elementos del esquema lgico conceptual.
Permiten asociar cada elemento.
39 /96
Transformaciones
El diseo lgico del DW se realiza aplicando sucesivas
transformaciones de esquemas.
De deja una traza del diseo, de las transformaciones.
40 /96
Transformaciones
41 /96
Lineamientos de diseo
Abstrae la estrategia de diseo lgico del DWH y las
restricciones de desempeo y almacenamiento.
Define:
El estilo de diseo del DH Copo de nieve o Estrella
Fragmentacin vertical de dimensiones. Cuando normalizar o de-
normalizar una dimensin.
Estrella de-normaliza las dimensiones
Copo de nieve normaliza las dimensiones
Fragmentacin horizontal de cubos.
Nmero de cubos para el datamart
Cubos con datos histricos
Mapeos
Estable la correspondencia entre esquemas
Reglas
42 /96
DISEO FSICO
43 /96
MOLAP - OLAP Multidimensional
Los datos origen y sus agregaciones estn en una
estructura multidimensional.
Los objetos dimensionales son procesados para incorporar
cambios de los datos operacionales
Existe latencia. tiempo comprendido entre procesamientos
Caractersticas:
Provee excelente rendimiento y compresin de datos.
Mejor tiempo de respuesta, depende de las las agregaciones.
Estructura optimizada para maximizar las consultas.
Apropiado para cubos de rpida respuesta.
AGREGACIONES
Y DATOS
Vista de
Base de Datos Usuario
Relacional
Base de Datos
Multidimensional
44 /96
ROLAP - OLAP Relacional
La informacin del cubo, sus datos, su agregacin, sumas
son almacenados en una base de datos relacional.
No copia la BD original, accede a las tablas origen.
Es ms lenta que las otras estrategias (MOLAP o HOLAP).
Se utiliza para ahorrar espacio de almacenamiento en
grandes DB de baja frecuencia de consulta.
Usos comunes:
Cuando los clientes desean ver los cambios inmediatamente.
Cuando contamos con grandes conjuntos de datos que no son
frecuentemente buscados
AGREGACIONES
Y DATOS
Vista de
Base de Datos Usuario
Relacional Base de Datos
Multidimensional
45 /96
HOLAP OLAP Hbrido
Combina atributos de MOLAP y ROLAP.
Las agregaciones se almacenen en una estructura
multidimensional y los detalle, en la BD original.
Cubos ms pequeos q MOLAP y ms rpidos q ROLAP.
Usos comunes:
Cubos que requieren rpida respuesta
Cuando existen sumarizaciones basadas en una gran cantidad de datos de
origen.
Solucin de compromiso para bajar el espacio ocupado sin perjudicar
totalmente el rendimiento de las consultas.
DATOS AGREGACIONES
Vista de
Base de Datos Usuario
Relacional Base de Datos
Multidimensional
46 /96
Caractersticas
MOLAP ROLAP HOLAP
Almacenamiento
Modelo Base de datos
de las Modelo Multidimensional
Multidimensional relacional
Agregaciones
Almacenamiento Modelo Base de datos
Base de datos relacional
de los datos Multidimensional relacional
Facilidad de
Sencillo Muy Sencillo Sencillo
Creacin
Buena para consultas
Velocidad de que posean
Buena Regular o Baja
respuesta agregaciones, Regular
para datos de bajo nivel
Problemas de
Escalabilidad Son ms escalables
escalabilidad
Datos que no son
Recomendados Cubos con uso Si el cubo requiere una
frecuentemente
para frecuente rpida respuesta
usados
47 /96
Ventajas y Desventajas
Ventajas Desventajas
Duplica el almacenamiento
Mejor performance en los
MOLAP tiempos de respuesta
de datos (ocupa ms
espacio)
Tiempo de Latencia
Ahorra espacio de
almacenamiento.
El tiempo de respuesta a
ROLAP til cuando se trabaja con
consultas es mayor.
muy grandes conjuntos de
datos.
50 /96
Cubos
51 /96
Conceptos de diseo
1. Dimensin: Es una entidad de negocios respecto de la cual
se deben calcular las mtricas. Ejemplos: clientes,
productos, tiempo.
2. Dimension Table (tabla de dimensin): Tablas que
almacenan las dimensiones.
3. Fact table (tabla de hechos): Almacena eventos (por
ejemplo, las ventas). Contiene las mtricas que miden la
efectividad de las operaciones del negocio.
Fact (hecho): Es una fila de la fact table. Representa un
evento especfico.
4. Measures (medidas): Valores cuantitativos que almacenan
las mtricas del negocio. Estn representados por
columnas numricas en la fact table.
52 /96
53 /96
1. Dimensiones
Es un criterio utilizado para cruzar la informacin.
54 /96
1. Dimensiones y niveles
Una dimensin tiene mltiples niveles de agrupacin.
Por ejemplo, la dimensin Ubigeo debe poder disgregarse
en pases, departamentos, provincia, distrito.
Cada uno de estos niveles de agregacin define un nivel.
En el ejemplo antes mencionado, los niveles de la
dimensin Ubigeo son:
. Pas
.. Departamento
Provincia
.Distrito
Cada nivel tiene ocurrencias. Por ejemplo, Lima es una
ocurrencia del nivel Departamento. A estas ocurrencias se
les llama miembros (members).
55 /96
2. Tablas de dimensin
Las dimensiones se almacenan PRODUCTO_DIM
en tablas. Producto_Key
Generalmente, cada nivel IDProducto
representa una columna en la Familia
tabla de dimensin. Subfamilia
Una tabla de dimensin posee Marca
una columna clave, comnmente Presentacin
auto-generada.
Una tabla de dimensin contiene
columnas que almacenan los IDs
de cada registro en sus sistemas
de origen.
56 /96
3. Tabla de Hechos
La tabla de hechos es la tabla primaria del modelo
dimensional, y contiene los valores del negocio que se
desea analizar.
Cada tabla de hechos contiene las claves externas, que se
relacionan con sus respectivas tablas de dimensiones, y las
columnas con los valores que sern analizados.
58 /96
Tabla de hechos y tablas de dimensin
La tabla de
hechos tiene
relaciones de
foreign key con
cada una de las
tablas de
dimensin
59 /96
Esquemas de las Dimensiones
En el modelo STAR, cada nivel corresponde con una
columna adicional en una sola tabla de dimensin.
60 /96
El modelo estrella (STAR)
61 /96
Modelo SNOWFLAKE
62 /96
Modelo STAR vs SNOWFLAKE
STAR SNOWFLAKE
Entendimiento del Sencillo Mayor dificultad
modelo
Nmero de tablas Menor Mayor
Complejidad de la Baja Alta
consulta
Desempeo de las Rpida Lenta
consultas y el
procesamiento del
cubo
63 /96
Modelo STAR vs SNOWFLAKE
64 /96
DIMENSIONES
65 /96
Dimensiones
Las dimensiones se obtienen a partir de los criterios
utilizados por los usuarios para consultar las medidas.
66 /96
Atributos
Un atributo representa una propiedad de inters en una
dimensin.
67 /96
Jerarquas y niveles
Existen en una empresa entidades de negocio que admiten
ms de una interpretacin.
68 /96
Ejercicio 4
Se desea obtener indicadores de rendimiento de los
empleados de la corporacin.
Los reportes de evaluacin de los empleados deben ser
totalizados de acuerdo a las divisiones organizacionales
y regiones geogrficas de la corporacin.
Cada empleado trabaja para una divisin organizacional. A
su vez, cada empleado pertenece a una ciudad, y cada
ciudad est contenida en una regin.
Cul es la manera de definir los niveles de la dimensin
Empleado?
69 /96
Solucin
Crear dos jerarquas: Regin y Divisin.
Empleado.Regin
Regin
Ciudad
Empleado
Empleado.Divisin
Divisin
Empleado
70 /96
Miembros de una dimensin
Cada miembro es una
ocurrencia especfica de
una dimensin.
Las dimensiones suelen
tener una estructura
basada en niveles. Cada
miembro se ubica en un
determinado nivel.
71 /96
Relaciones entre los miembros
Austria es el padre (parent) de
Graz y Salzburg.
Austria y Belgium son hermanos
(siblings).
Graz y Salzburg son hermanos
(siblings).
Graz y Salzburg son hijos
(children) de Austria.
Los ancestros (ancestors) de
Graz son Ubigeo y Austria.
Los descendientes
(descendants) de Ubigeo son
todos los miembros de la
dimensin (Argentina, Austria,
Graz, Salzburg, etc.)
Graz y Salzburg son primos
(cousin) de Bruxelles y Charleroi.|
72 /96
Tipos de dimensiones
1. Dimensiones estndar
2. Dimensiones Time
3. Dimensiones Padre - Hijo
73 /96
Dimensiones estndar
Es el tipo ms sencillo de dimensin.
Una dimensin estndar tiene un conjunto fijo de jerarquas
y niveles, establecido por el diseador a travs de SSBIDS.
Propiedades:
Name: Nombre de la dimensin.
Usage: Uso que se dar a la dimensin.
KeyColumns: Columna(s) de clave para la dimensin.
NameColumn: Columna que proporciona el valor
mostrado en la dimensin al consultar datos.
74 /96
Dimensiones Parent Child
Se basan en relaciones
recursivas existentes en
una tabla de dimensin.
Por ejemplo, un empleado
tiene un jefe. Pero este jefe
es tambin un empleado.
75 /96
Dimensiones Parent Child
Las dimensiones Parent
Child contienen un nmero
variable de niveles.
En la figura, Ken Snchez
es el jefe de Brian Welcker
y David Bradley.
Ejemplos tpicos:
jerarquas de mando,
organigramas.
76 /96
Dimensin Time
El tiempo es parte implcita
de la informacin que
contiene el data mart.
Esta dimensin la
podemos definir
separndola en distintas
jerarquas de tiempo:
Ao
Semestre
Mes
77 /96
CUBOS Y MEDIDAS
78 /96
Cubos
79 /96
Propiedades de los cubos
Name: Nombre del cubo.
Visible: Determina si el cubo es visible o no.
Default Measure: La medida devuelta por el cubo en caso
de que las consultas no especifiquen de forma explcita qu
medida se desea visualizar.
Medida: representa un valor obtenido a partir de una
columna numrica de la tabla de hechos.
Grupo de medidas (measure group): Las medidas se
agrupan en grupos de medidas (grupo de medidas).
Cada grupo de medidas corresponde con una tabla de
hechos. Un cubo puede contener varios grupo de medidas.
80 /96
Propiedades de las medidas
Name: Nombre de la medida.
Description: Descripcin de la medida.
Source: Columna de la tabla de hechos a partir de la cual
se obtiene la medida.
Format String: Determina el formato de visualizacin de la
medida (por ejemplo, porcentaje y moneda). Tambin
permite ingresar una cadena de formato personalizada.
Visible: Determina si la medida es visible o no. Esta
propiedad es til cuando se definen medidas intermedias, a
partir de las cuales se calcularn otras medidas a travs de
MDX.
Data Type: Tipo de dato de la medida. Por defecto, es
heredado del tipo de dato de la columna que genera la
medida.
81 /96
Funcin de agregacin
SUM: Es por defecto. Significa que el valor de la medida para un
miembro de una dimensin es igual a la suma de los valores para todos
sus miembros hijos.
COUNT: Recupera la cuenta de registros en la tabla de hechos.
MIN: Significa que el valor de la medida para un miembro es igual al
valor mnimo encontrado entre sus miembros hijos.
MAX: Significa que el valor de la medida para un miembro es igual al
valor mximo encontrado entre sus miembros hijos.
DISTINCT COUNT: Recupera la cuenta de registros en la tabla de
hechos, eliminando las ocurrencias repetidas.
NONE: No se efecta ningn tipo de agregacin
BY ACCOUNT: Agrega la medida de acuerdo con la funcin de
agregacin asignada a las dimensiones de tipo Account.
82 /96
Funcin de agregacin
AVERAGE OF CHILDREN: Significa que el valor de la medida para un
miembro de una dimensin es igual al promedio de los valores para
todos sus miembros hijos no vacos.
FIRST CHILD: Significa que el valor de la medida para un miembro es
igual al valor de la medida para su primer miembro hijo.
LAST CHILD: Significa que el valor de la medida para un miembro es
igual al valor de la medida para su ltimo miembro hijo.
FIRST NON EMPTY: Significa que el valor de la medida para un
miembro es igual al valor de la medida para su primer miembro hijo no
vaco.
LAST NON EMPTY: Significa que el valor de la medida para un
miembro es igual al valor de la medida para su ltimo miembro hijo no
vaco.
83 /96
Relaciones entre las dimensiones hechos
Regular
Referenciada
Fact
Many to many
84 /96
1. Relacin regular
Relacin uno muchos con la tabla de hechos.
85 /96
Roles de las dimensiones
En ocasiones, una dimensin participa mltiples veces en
el mismo cubo, desempeando distintos roles.
Ejemplos:
Una tabla de hechos puede contener tres columnas que
lo enlacen con la dimensin de tiempo: una columna
para almacenar la fecha de facturacin, otra para
almacenar la fecha de remisin, y otra para almacenar
la fecha de entrega.
Una tabla de hechos puede contener dos columnas
enlazadas con la dimensin de empleados: una
columna para representar al empleado que efectu la
venta, y otra para representar al empleado que efectu
el despacho.
86 /96
Roles de las dimensiones
87 /96
2. Relacin referenciada
Se produce cuando la tabla de dimensin no est
directamente relacionada con la tabla de hechos.
88 /96
2. Relacin referenciada
89 /96
3. Relacin Fact
Frecuentemente, las tablas de hechos contienen, adems
de columnas de medidas y foreign keys, columnas
adicionales que almacenan informacin relevante para el
negocio.
90 /96
3. Relacin Fact
La columna
SalesOrderNumber almacena
el nmero del documento de
orden de venta.
Esta informacin puede ser
usada para definir una
dimensin.
91 /96
4. Relacin Muchos Muchos
Implementan relaciones muchos muchos entre tabla de
hechos y tabla de dimensin.
92 /96
4. Relacin Muchos Muchos
Ejemplos:
Un motivo de venta (tabla de dimensin) puede tener
muchas ventas (tabla de hechos). Una venta especfica,
a su vez, puede tener muchos motivos.
La misma ausencia laboral puede deberse a mltiples
razones. Cada razn tiene varias ausencias
relacionadas.
93 /96
4. Relacin Muchos Muchos
94 /96