Академический Документы
Профессиональный Документы
Культура Документы
TEMA
AUTORES:
LUIS ALBERTO URURI
1
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
Contenido
PLANEACIN Y ADMINISTRACIN DEL PROYECTO..................................................3
DEFINICIN DEL PROBLEMA.......................................................................................3
PLANTEAMIENTO DEL PROBLEMA.............................................................................3
OBJETIVOS (GENERAL ESPECFICO)........................................................................4
OBJETIVOS ESPECFICOS...............................................................................................4
ALCANCE...........................................................................................................................5
JUSTIFICACIN DEL PROYECTO..................................................................................5
DEFINICIN DE LOS REQUERIMIENTOS DEL PROYECTO.....................................6
Diseo Tcnico de la Arquitectura.......................................................................................6
Back Room...........................................................................................................................6
ETL Y Metadatos.................................................................................................................6
Destino de Datos..................................................................................................................7
Front Room..........................................................................................................................7
Seleccin del Producto.........................................................................................................7
Plataforma DBMS................................................................................................................7
Herramienta ETL.................................................................................................................7
Extraccin........................................................................................................................7
Transformacin................................................................................................................7
Carga................................................................................................................................8
Herramienta de BI................................................................................................................8
Estndares de Tabla..............................................................................................................9
a.
Estndares de tabla.................................................................................................9
b.
Estndares de campos............................................................................................9
c.
Estndares de llaves...............................................................................................9
MODELAMIENTO DIMENSIONAL................................................................................9
a. PASO 1: SELECCIN DEL PROCESO DE NEGOCIO.............................................9
b. PASO 2: DEFINICIN DE LA GRANURALIDAD.................................................10
c. PASO 3: IDENTIFICAR LAS DIMENSIONES Y MAPEAR LOS DATOS ORIGEN.
11
d. PASO 4: IDENTIFICAR LOS HECHOS Y MAPEAR LOS DATOS ORIGEN........13
e. DISEO DEL MODELO DIMENSIONAL...............................................................13
2
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
DISEO FSICO...............................................................................................................15
a. BASE DE DATOS ORIGEN.......................................................................................15
BASE DE DATOS DESTINO (DATAWAREHOUSE).....................................................16
DISEO Y DESARROLLO DEL PROCESO ETL..........................................................17
TRAZO UN PLAN DE ALTO NIVEL..........................................................................17
PROFUNDIZAR TABLA DESTINO................................................................................20
POBLAR LAS TABLAS DE DIMENSIONES CON LOS DATOS HISTRICOS........22
DESPLIEGUE BI...............................................................................................................22
REPORTES........................................................................................................................22
CONCLUSIONES.................................................................................................................23
RECOMENDACIONES........................................................................................................24
3
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
PLANEACIN Y ADMINISTRACIN DEL PROYECTO
DEFINICIN DEL PROBLEMA
Este trabajo presenta una experiencia de implementacin de un DataWarehouse (DW) para
analizar los datos del rea caja de la Universidad Tecnologa de los Andes a travs del DW
implementado, se pudo obtener resmenes de datos segn indicadores de gestin y reportabilidad
en lnea mediante la arquitectura OLAP. Se aplic integracin, transformacin y carga de datos
desde un sistema heredado.
Los DW son almacenes de datos muy utilizados a nivel empresarial, dado que permiten a las
organizaciones obtener resmenes estadsticos de grandes volmenes de datos a travs de
consultas e indicadores de gestin, con lo cual pueden analizar el comportamiento histrico de
una organizacin y tomar decisiones en base al mismo conocimiento que se puede extraer desde
sus sistemas operacionales.
Actualmente una de las claves del xito de las empresas se encuentra en la precisin y la
rpida reaccin a los posibles acontecimientos que pueden ocurrir, es por eso que la confianza,
rapidez y precisin de los datos es fundamental para una buena toma de decisin, por este motivo
es necesario contar con las herramientas necesarias que apoyen a una mejor reaccin.
PLANTEAMIENTO DEL PROBLEMA
Hoy en da las empresas en Per requieren ocupar un lugar privilegiado en un mercado
cambiante y lleno de reto .Por esa razn necesitan crear nuevas estrategias enfocadas al
incremento de calidad en servicios.
La capacidad para tomar decisiones de negocio precisas y de forma rpida se ha convertido
en una de las claves para que una empresa llegue al xito. Sin embargo, los sistemas de
informacin tradicionales (como la mayora de los programas de gestin, las aplicaciones a
4
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
medida, e incluso los ERP ms sofisticados), suelen presentar una estructura muy inflexible para
este fin. Aunque su diseo se adapta con mayor o menor medida para manejar los datos de la
empresa, no permite obtener la informacin de los mismos, y mucho menos extrapolar el
conocimiento almacenado en el da a da de las bases de datos.
La inteligencia de negocio acta como un factor estratgico para una
empresa u
organizacin, generando una potencial ventaja competitiva, que no es otra que proporcionar
informacin privilegiada para responder a los problemas de negocio: entrada a nuevos mercados,
servicios que ofrece la universidad, eliminacin de islas de informacin, control financiero,
optimizacin de costes, planificacin de la produccin, etc.
En la Universidad Tecnolgica de los Andes se tiene la necesidad de analizar los registros de
ingresos realizada por el rea de caja, la universidad tecnolgica de los andes, a su vez tomar
decisiones de continuidad, de expansin o de absorcin de las mismas, pero la informacin que
se tiene est desordenada por lo que no se logra tomar decisiones correctas.
El problema principal de la Universidad Tecnolgica de los Andes es que no tienen un
control exacto de los ingresos que realiza el rea de la empresa, no pudiendo tomar
decisiones sobre las mismas.
OBJETIVOS (GENERAL ESPECFICO)
Desarrollar una DataWarehouse cuyo apoyo permitir mejorar la toma de decisiones
gerenciales y estratgico que se lleva a cabo en la Universidad Tecnolgica de los Andes.
OBJETIVOS ESPECFICOS
Identificar los requerimientos de anlisis de informacin para las reas de Caja.
-
5
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
ALCANCE
El diagnstico y anlisis de la gestin administrativa de la referida rea, permitir determinar la
factibilidad y las condiciones necesarias del sistema DataWarehouse; el cual repercutir de
manera positiva en funcin de un posible desarrollo y crecimiento sostenido de la organizacin.
Realizar las acciones necesarias para la oportuna gestin y cobro, ante el rea de caja de
la Universidad Tecnolgico de los Andes, conforme al calendario financiero autorizado.
Atender todos los aspectos relativos a la obtencin de los servicios bancarios que requiera
la operacin financiera de la organizacin.
6
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
DEFINICIN DE LOS REQUERIMIENTOS DEL PROYECTO.
Cantidad y monto requieren optimizar recursos en razn de tiempo, dinero, personal en el
entorno administrativo y tcnico con un manejo rpido y eficaz de la informacin, para ir acorde
con el crecimiento de las organizaciones que consideren competitivo hacer uso de la solucin
pretendida.
INDICADORES
MONTO Y CANTIDAD
ETL Y Metadatos.
En cuanto al proceso ETL se realizar el Mapeo de los datos Origen, que sern
especificados posteriormente en el Modelamiento Dimensional, despus se desarrollar el
proceso de extraccin, seguido de la transformacin de los datos Origen, dependiendo de qu
cambios se les debe adecuar, y finalmente se proceder con la carga hacia el Data Warehouse.
Los metadatos son las especificaciones de transformaciones, mapeos, tareas programadas,
que se almacenarn en el Repositorio del Data Warehouse como soporte al proceso ETL.
Se especificar con ms detalle el Proceso ETL y los Metadatos del Proyecto en la seccin de
Diseo y Desarrollo ETL.
7
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
Destino de Datos.
El destino que es el Almacn de datos, mantendr el modelo dimensional que ser
especificado en la seccin Diseo y Modelamiento Dimensional.
La base de datos destino estar separado fsicamente de las bases de datos Origen, por
motivo de rendimiento y para poder separar el ambiente operacional del ambiente del
DataWarehouse.
Front Room
En esta seccin se especifica la Arquitectura de presentacin del DataWarehouse, mediante
aplicaciones dirigidas al usuario final.
Seleccin del Producto
Plataforma DBMS
La plataforma a utilizar es el motor de base de datos SQL Server
Herramienta ETL
Extraccin
Para llevar a cabo correctamente el proceso de extraccin del ETL, se debe considerar lo
siguiente:
Extraer los datos desde los sistemas de origen.
Analizar los datos extrados obteniendo una revisin.
Interpretar esta revisin para verificar que los datos extrados cumplen la
pauta o estructura que se esperaba. Si no fuese as, los datos deberan ser
rechazados.
Convertir los datos a un formato preparado para iniciar el proceso de
transformacin.
Transformacin.
Esta fase aplica una serie de reglas de negocio o funciones, sobre los datos extrados
para convertirlos en datos que sern cargados. Estas directrices pueden ser declarativas,
8
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
pueden basarse en excepciones o restricciones pero, para potenciar su eficacia, hay que
asegurarse de que sean:
Declarativas.
Independientes.
Claras.
Inteligibles.
Con una finalidad til para el negocio.
Carga
En esta fase, los datos procedentes de la fase anterior son cargados en el sistema de
destino. Dependiendo de los requerimientos de la organizacin, este proceso puede
abarcar una amplia variedad de acciones diferentes.
Herramienta de BI.
El Data Ware house se implement sobre un Sistema Gestor de Bases de Datos que es SQL
Server, y para las cargas peridicas de datos que se realizan sobre l desde diferentes orgenes se
utiliz herramienta ETL, que permiten enlazar la base de datos con los diferentes orgenes,
definir las transformaciones que hay que realizar para la integracin de los datos, y programar o
automatizar las cargas peridicas.
Hay muchas herramientas que diferentes empresas ofrecen para la creacin y explotacin de
un Data Ware house, en este proyecto utilizamos las herramientas como:
-
Pentaho.
SQL server.
Estndares de Tabla
a. Estndares de tabla
<tipo>_<nombre>
<tipo>: El tipo describe si la tabla es Dimensin, Hecho u otro.
9
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
<nombre>: Describe el nombre de la tabla.
b. Estndares de campos
<nombre_campo>
Para los campos no se realizar ningn tipo de especificacin para los nombres
debido a la variedad que pueden tener.
c. Estndares de llaves
<nombre_tabla>_<tipo>
MODELAMIENTO DIMENSIONAL
a. PASO 1: SELECCIN DEL PROCESO DE NEGOCIO
1. Identifica el bien o servicio solicitado por el cliente o el concepto de ingreso a favor
de la Universidad.
2. En los casos en que por el concepto de pago no se requiera documento soporte,
informa al cliente el concepto, el valor a pagar y el cdigo de UTEA a la cual debe
realizar el pago.
3. Si se requiere documento soporte, diligencia en el SIF el formato que soporta el bien
o servicio a prestar (Factura de Venta, Formato de Recaudo General, Comprobante de
pago de Matrcula o de Derechos de Grado) e imprime.
Las liquidaciones de
10
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
5. Efecta el pago mediante una de las siguientes opciones, de acuerdo con el monto y la
forma de pago.
6. Pagos en efectivo menores. Puede realizarlos en las cajas de la Universidad o en las
Entidades Bancarias autorizadas, presentando el documento soporte respectivo
(Factura de Venta, Formato de Recaudo General, Comprobante de pago de Matrcula
o de Derechos de Grado).
7. Si el pago no requiere documento soporte, debe verificar el cdigo de UTEA al cual
se deben registrar los ingresos.
8. Verifica en presencia del cajero, del mensajero o de la persona autorizada, segn el
caso, que los valores entregados en efectivo.
b. PASO 2: DEFINICIN DE LA GRANURALIDAD
Ingresos de caja por semana, transaccin, diario, mes
La granularidad representa el nivel de detalle al que se desea almacenar la
informacin de caja que se est analizando.
Por ejemplo, los datos referentes a graduados, pueden registrarse semestre a
semestre, en cambio, los datos referentes a nivel de posgrado pueden hacerse
mensualmente. Mientras mayor sea el nivel de detalle de los datos, se tendrn mayores
posibilidades de anlisis, ya que los mismos podrn ser resumidos. Es decir, los datos que
posean granularidad na (nivel de detalle), esta granularidad se define por fecha,
contando el nmero de graduados en cada semestre del ao. Otros datos que se pretende
conocer son el nmero de graduados que poseen empleo y que no, esta granularidad se
relacionara por la dimensin NIVEL_EMPLEO.
11
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
c. PASO 3: IDENTIFICAR LAS DIMENSIONES Y MAPEAR LOS DATOS
ORIGEN.
Nombre de Tabla: dimAlumno
Tipo de Tabla: dimensin
Esquema Origen: BD_SIGAF
Tablas Origen: tAlumno
DESTINO
Nombre
Columna
CodigoAlumno,
Codigo
alumno
del
Tipo de
Dato/Tama
o
Char(11)
NombreComple
tro
Nombre
Alumno
del
Varchar(120)
Id_dimAlumno
Descripcin
Identificacin
del alumno
int
Cla
ve
ORIGEN
Sistema/Esqu Campo
ema Tabla
Origen
CodigoAlumno,
tAlumn
o
NombresAlumn
o,
ApellidosAlum
no
Tipo de
Dato
Origen
Char (11)
Varchar(50)
Varchar(70)
id_dimDenominac
ion
CodigoDenomina
cion
NombreDenomin
acion
Descripcin
Identificador
dimensin
denominacio
n
Nombre del
Alumno
Nombre de
la
denominacio
n
Tipo
de
Dato/T
ama
o
Int
ORIGEN
C Sistema/Esquema
Tabla
idTarifasPagosOrdin
arios
DescripciionTarif
a
Campo Origen
tTarifasPagosOrdin
arios
Tipo
de
Dato
Orige
n
Char
(8)
char(8)
Varcha
r(100)
Varchar(1
00)
12
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
Esquema Origen: BD_SIGAF
Tablas Origen: tEscuela
DESTINO
Nombre
Descripci
Columna
n
Tipo
de
Dato/Tama
o
Int
Clave
ORIGEN
Sistema/E
squema
Tabla
Campo Origen
Tipo de
Dato
Origen
id_dimEscuel
a
Identificado
r dimensin
Escuela
CodigoEscue
la
Cdigo de
la escuela
char(8)
idCarreraPr
ofesional
tCarreraProfesional
Char (8)
nombreEscu
ela
Nombre de
la Escuela
Varchar(100
)
NombreCarr
era
tCarreraProfesional
Varchar(1
00)
Facultad
Nombre de
la facultad
Varchar(100
)
idSedeFilial
nombreSed
e
Identificador
dimensin
Sede
Identificador
sede Filial
Nombre de la
Sede
Tipo
de
Dato/Tama
o
Int
ORIGEN
Sistema/Esque
ma Tabla
Campo
Origen
Tipo
Dato
Origen
tSedesFilia
les
tSedesFilia
les
Char (8)
char(8)
idSedeFilial
Varchar(100)
Descripcion
Descripcin
Identificador
Tiempo
dimensin
de
Tipo
Dato/Tamao
Int
de
Clave
x
Varchar(100)
13
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
anio
ao
Int
trimestre
Trimestre
Varchar(13)
Mes
Mes
Varchar(12)
Dia_semana
Da de la semana
Varchar(10)
fecha
Fecha concatenada
date
Id_echocaja
Id_dimalumno
Id_dimsede
Id_dimescuela
Id_dimdenomi
nacion
Id_tiempo
Descripci
n
Llave
subrogada
de
la
dimensin
Llave
subrogada
de
la
dimensin
alumno
Llave
subrogada
de
la
dimensin
sede
Llave
subrogada
de
la
dimensin
escuela
Llave
subrogada
de
la
dimensin
denominac
in
Llave
subrogada
de
la
dimensin
tiempo
Tipo
de
Dato/
Tama
o
Integ
er
Clave
ORIGEN
Sistema/Es
quema
Tabla
Campo
Origen
Primary
key
Tipo
Dato
Origen
integer
Integ
er
Dw/dimalu
mno
Id_dimalumn
o
Integer
Integ
er
Dw/dimsed
e
Id_dimsede
Integer
Integ
er
Dw/dimesc
uela
Id_dimescuel
a
Integer
Integ
er
Dw/dimden
ominacion
Id_dimdeno
mincacion
Integer
Integ
er
Dw/dimtie
mpo
Id_dimtiemp
o
Integer
de
14
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
Hechos: es la representacin en el DataWareHouse de los procesos de negocio de la
organizacin. Por ejemplo: una venta puede identificarse como un proceso de negocio.
Los hechos se podrn reconocer adems porque siempre tienen asociada una fecha, y una
vez registrados no se modifican ni se eliminan (para no perder la historia).
Mtrica: son los indicadores de negocio de un proceso de negocio. Aquellos conceptos
cuantificables que permiten medir nuestro proceso de negocio. Por ejemplo, en una venta
tenemos el importe de la misma y la cantidad vendida. Existen mtricas derivadas, como
el precio unitario, que se obtiene al dividir el importe total por las unidades vendidas.
Dimensin: es la representacin en el datawarehouse de un punto de vista para los
hechos de cierto proceso de negocio. Si regresamos al ejemplo de una venta, para la
misma tenemos el cliente que ha comprado, la fecha en la que se ha realizado, el producto
vendido, Estos conceptos pueden ser considerados como vistas para este proceso de
negocio. Puede ser interesante recuperar todas las compras realizadas por un cliente, o
para un producto o familia de productos, o para un lapso determinado.
f.
(Formato a utilizar)
PROCESO
DE
NEGOCIO
TABLAS DE
HECHO
CAJA UTEA
HECHO_CAJA
GRANULARIDAD
MAS BAJA
DIMENSIN
Alumno
X
DIMENSIN
Escuela
X
Dimension
sedefilial
X
15
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
DISEO FSICO
a. BASE DE DATOS ORIGEN
ESPACIO DE TABLA (TABLESPACE)
ESQUEMA
Se crear un Esquema o Usuario en la Base de Datos Origen que permita administrar los
recursos que sern agregados en ella, as como tambin a travs del cual permita leer los
datos para la extraccin en el proceso ETL. Los privilegios o permisos asignados para la
Base son:
Lectura de Datos.
Creacin de Tablas (Para su Esquema).
Creacin de cualquier Disparador (Trigger).
TABLAS
Se utilizar una nica Tabla de Auditoria CDC, para la captura de datos que hayan
cambiado o que sean nuevos en la Base Origen.
INDICES
Se asignar un ndice nico para la clave primaria de la tabla de Auditoria.
RESTRICCIONES (CONSTRAINTS)
La tabla de Auditoria utilizar una nica restriccin que es la clave primaria.
SECUENCIA
Se utilizar una secuencia incremental para el campo de la clave primaria de la Tabla de
Auditora.
DISPARADORES (TRIGGERS)
Disparador para la tabla de Auditora.
Disparadores para las Tablas de Negocio.
16
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
BASE DE DATOS DESTINO (DATAWAREHOUSE)
ESPACIO DE TABLA (TABLESPACE)
Se crearn 2 Tablespace que se mencionan a continuacin:
REPOSITORIO_WAREHOUSE
En este espacio de tablas se alojarn todos los Metadatos utilizados por la herramienta ETL para
todo el Proceso de integracin de datos.
DATA_WAREHOUSE
En este espacio de tablas se alojarn los datos propios del almacn, es decir todas las
dimensiones, hechos, mtricas, ndices, etc.
TABLAS
Se crearn las Tablas del DataWarehouse, tanto lo que sern las Dimensiones as como tambin
los Hechos. Adems se crear una Tabla para monitorear en caso de que existan errores en la
ejecucin ETL, lo que permitir llevar un control de errores.
INDICES
Se definirn los ndices para cada tabla de Dimensin, Hecho y Log de Errores.
RESTRICCIONES (CONSTRAINTS)
Se crear las restrincciones, lo que son las claves primarias y forneas, tanto para las Tablas de
Dimensiones como para los Hechos y para el Log de Errores.
SECUENCIA
Se crear una secuencia para el incremento de registros de la tabla Log de Error.
DISPARADORES (TRIGGERS)
Se genera un disparador para aumentar la secuencia en uno para cada registro nuevo en la tabla
Log de Error.
17
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
DISEO Y DESARROLLO DEL PROCESO ETL
TRAZO UN PLAN DE ALTO NIVEL
18
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
TRAZO DE ALTO NIVEL DIMENSION ESCUELA
19
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
20
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
DIMALUMNO
DIMESCUELA
DIMSEDEFILIAL
DIMTIEMPO
21
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
Figura
9:
etl
tiempo
HECHO CAJA
Figura
DE
Campo Origen
tarifas
Valor a Reemplazar
NULLO
Campo Destino
DIMTARIFA
Valor Codificado
999999999
Campo Destino
DINTARIFA
Valor decodificado
IDTARIFA
22
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
Desarrollo ETL Inicial de Dimensiones con la Herramienta de PENTAHO
DESPLIEGUE BI
REPORTES
Desarrollo, despliegue y explotacin de sistemas BI
El objetivo es asegurar la correcta implantacin de las soluciones identificadas para
optimizar los procesos de gestin de cliente, as como lograr su aceptacin, considerando en todo
momento las mejoras identificadas en los procesos de negocio.
CONCLUSIONES
El trabajo realizado alcanz todas las perspectivas del cliente y los objetivos de un Data
Warehouse.
La implementacin del DataWarehouse de caja permitir que el usuario pueda contar con
un servicio, de fcil uso, que le permita disminuir el tiempo de procesamiento y dedique mayor
tiempo a la etapa de anlisis de la informacin. Al automatizar la generacin de reportes y
grficos:
Homogeneiz la informacin de caja pudiendo de esta manera comparar y mejorar el
servicio entre los distintos reas, permitindole de esta manera una toma de decisiones rpida,
clara y concisa.
Los mercados, ya maduros y exigentes, demandan de un mejor conocimiento del cliente
para poder ofrecerle una respuesta mucho ms individualizada. Los avances tecnolgicos
permiten hoy obtener rendimientos ptimos en el uso de sistemas de informacin para la
direccin. El Data Warehouse aparece precisamente como una herramienta a disposicin de las
organizaciones que pretende subsanar los problemas clsicos de los sistemas de informacin
23
UNIVERSIDAD TECNOLOGICA DE LOS ANDES
tradicionales, costes, redundancias de datos, dispersin de la informacin, escasa visin global
corporativa y falta de fiabilidad.
La introduccin del Data Warehouse en esta Organizacin en cuanto herramienta que
permite cmulo de informacin tanto detallada y resumida, procedente de datos internos y
externos a la compaa, posibilita una serie de beneficios como reduccin de costes, mejora en el
modelo de comportamiento de la empresa, as como fomentar los procesos de cambio.
RECOMENDACIONES