Вы находитесь на странице: 1из 159

UNIVERSIDAD CENTRAL DEL ECUADOR

FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y MATEMÁTICA

CARRERA INGENIERÍA INFORMÁTICA

DESARROLLO DE UNA SOLUCIÓN DE BUSINESS INTELLIGENCE


ORIENTADO AL ANÁLISIS DEL RENDIMIENTO ACADÉMICO Y LA
PLANIFICACIÓN DE LOS CURSOS DE LA CARRERA DE INGENIERÍA
INFORMÁTICA EN LA FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y
MATEMÁTICA

TRABAJO DE GRADUACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE


INGENIERO EN INFORMÁTICA
AUTOR
JIMENA GUALACATA ANTAMBA
TUTOR
ING. CESAR AUGUSTO MORALES MEJÍA

QUITO – ECUADOR
2015
DEDICATORIA

A Dios por permitirme realizar mi sueño realidad

A mi hija Alejandra mi fuente de inspiración y superación, a ella quien me brindo apoyo


y comprensión incondicional, quien con su amor y sonrisas me alentó y me dio
fuerzas para concluir con éxito este proyecto de tesis.

A mi esposo Néstor por su paciencia, tiempo y ayuda permanente, gracias por estar
siempre a mi lado en esta etapa importante de mi vida.

A mis padres Patricio y Rosana por los ánimos y siempre depositar su confianza en m

ii
AGRADECIMIENTO

Al Ing. Cesar Morales, MSC por promover e impulsar el desarrollo de mi proyecto

Al Mat. Benjamín Valarezo, MSC e Ing. Franz del Pozo por su participación y apoyo
para el avance y finalización de mi trabajo de Grado

iii
iv
v
vi
vii
viii
CONTENIDO

DEDICATORIA ..................................................................................................................................ii
AGRADECIMIENTO ......................................................................................................................... iii
LISTA DE GRÁFICOS ...................................................................................................................... xiii
LISTA DE CUADROS ....................................................................................................................... xv
RESUMEN ................................................................................................................................. xvi
ABSTRACT.................................................................................................................................... xvii
INTRODUCCIÓN.............................................................................................................................. 1
1. CAPITULO: PRESENTACIÓN DEL PROBLEMA .......................................................................... 2
1.1. Planteamiento del Problema ......................................................................................... 2
1.2. Formulación del Problema ............................................................................................. 3
1.3. Interrogantes de la Investigación................................................................................... 3
1.4. Objetivos de la Investigación ......................................................................................... 4
1.4.1. Objetivo General .................................................................................................... 4
1.5. Justificación .................................................................................................................... 4
1.6. Alcance ........................................................................................................................... 6
1.7. Limitaciones ................................................................................................................... 7
2. CAPITULO: REVISION BIBLIOGRAFICA .................................................................................... 9
2.1. Antecedentes ................................................................................................................. 9
2.2. FUNDAMENTACIÓN TEÓRICA ...................................................................................... 10
2.2.1. Marco Teórico ...................................................................................................... 10
2.2.2. Data Warehouse (DW) ......................................................................................... 12
2.2.3. Objetivos de un Data Warehouse ........................................................................ 13
2.2.4. Beneficios del Data Warehouse ........................................................................... 14
2.2.5. Características de un Data Warehouse ................................................................ 16
2.2.6. Estructura del Data Warehouse ........................................................................... 17
2.2.7. Arquitectura del Data Warehouse ....................................................................... 18
2.2.8. Inteligencia de Negocios (BI) ................................................................................ 21
2.2.9. Características de la Inteligencia de Negocios ..................................................... 22
2.2.10. Beneficios de la Inteligencia de Negocios ............................................................ 23
2.2.11. Cadena de Valor de Dato ..................................................................................... 23
2.2.12. Componentes de la Inteligencia de Negocios ...................................................... 24
2.2.13. MySQL .................................................................................................................. 25

ix
2.2.14. Pentaho ................................................................................................................ 28
2.2.15. Pentaho Data Integration (PDI)............................................................................ 29
2.2.16. Pentaho Schema Workbench (PSW) .................................................................... 30
2.2.17. Pentaho Report Designer (PRD) ........................................................................... 31
2.2.18. Modelo Estrella .................................................................................................... 33
2.2.19. Modelo Copo de Nieve ........................................................................................ 35
2.2.20. Modelo Multidimensionales (CUBOS) ................................................................. 36
3. CAPITULO: MODELAMIENTO DIMENSIONAL ....................................................................... 38
3.1. Documentación de los Sistemas Fuentes .................................................................... 38
3.1.1. Archivo Notas.xlsx ................................................................................................ 38
3.1.2. Archivo Facultades.xls .......................................................................................... 40
3.2. Modelo Físico Stage ..................................................................................................... 41
3.2.1. Dsa_notas............................................................................................................. 42
3.2.2. Dsa_Estudiantes_Uce........................................................................................... 42
3.2.3. Dsa_Facultades .................................................................................................... 42
3.3. Modelo Lógico Stage .................................................................................................... 42
3.3.1. Descripción del Modelo ....................................................................................... 44
3.4. Modelo Físico DWH...................................................................................................... 45
3.4.1. Tipos de Datos...................................................................................................... 46
3.4.2. La Precisión de los Flotantes ................................................................................ 46
3.4.3. Llaves Primarias.................................................................................................... 46
3.4.4. Orden de los Atributos (Columnas)...................................................................... 46
3.4.5. Integridad Referencial .......................................................................................... 47
3.4.6. Índices .................................................................................................................. 47
3.4.7. Dim_Fecha ........................................................................................................... 48
3.4.8. Dim_Materias....................................................................................................... 48
3.4.9. Dim_Facultades.................................................................................................... 49
3.4.10. Dim_Estados ........................................................................................................ 49
3.4.11. Dim_Personas ...................................................................................................... 50
3.4.12. Fac_Seguimiento_Notas ...................................................................................... 50
3.5. Modelo Lógico DWH .................................................................................................... 51
3.6. Procesos ETL Diseñados ............................................................................................... 51
3.6.1. Data Stage Notas .................................................................................................. 52

x
3.6.2. Data Stage Estudiantes UCE ................................................................................. 53
3.6.3. Dimensión Fecha .................................................................................................. 53
3.6.4. Dimensión Facultades .......................................................................................... 54
3.6.5. Dimensión Materias ............................................................................................. 55
3.6.6. Dimensión Personas............................................................................................. 55
3.6.7. Dimensión Estados ............................................................................................... 56
3.6.8. Temporal Notas.................................................................................................... 57
3.6.9. Tabla de Hechos Seguimiento Notas ................................................................... 58
3.6.10. Job Notas .............................................................................................................. 59
4. CAPITULO: DESARROLLO Y DISEÑO DEL ETL ........................................................................ 60
4.1. Instalación y Configuración de las Herramientas......................................................... 60
4.1.1. Instalación de Framework 4.0 .............................................................................. 60
4.1.2. Instalación de MySQL ........................................................................................... 63
4.1.3. Instalación de JDK (Java Development Kit) .......................................................... 69
4.1.4. Instalación de Pentaho Data Integration ............................................................. 75
4.1.5. Instalación de Pentaho Schema Workbench ....................................................... 77
4.1.6. Instalación de Pentaho BI Server ......................................................................... 80
4.1.7. Instalación de Pentaho Report Designer ............................................................. 82
4.2. Característica de los datos ........................................................................................... 85
4.3. Diseño del ETL .............................................................................................................. 86
4.3.1. Entrada de Tabla (Table Input) ............................................................................ 86
4.3.2. Salida de Tabla (Table Output) ............................................................................. 87
4.3.3. Entrada Excel (Excel Input)................................................................................... 88
4.3.4. Información del Sistema (Get System Info) ......................................................... 89
4.3.5. Insertar Actualizar (Insert Update) ...................................................................... 90
4.3.6. Generar Filas (Generate Rows) ............................................................................ 91
4.3.7. Seleccionar Valores (Select Values) .................................................................... 91
4.3.8. Calculadora (Calculator) ....................................................................................... 92
4.3.9. Unir Filas (Join Rows) ........................................................................................... 93
4.3.10. Unión Ordenada (Sorted Merge) ......................................................................... 93
4.3.11. Añadir Secuencia (Add Sequence) ....................................................................... 94
4.4. Pruebas del ETL ............................................................................................................ 94
4.5. Cuadre de Datos del Data Warehouse ......................................................................... 96

xi
4.6. Estructura del Diseño del Data Warehouse ................................................................. 97
4.6.1. Estructura de la Dimensión Estado ...................................................................... 98
4.6.2. Estructura dela Dimensión Facultades................................................................. 98
4.6.3. Estructura de la Dimensión Fecha ....................................................................... 99
4.6.4. Estructura de la Dimensión Materias................................................................. 100
4.6.5. Estructura de la Dimensión Persona .................................................................. 100
4.6.6. Estructura de la Tabla de Hechos....................................................................... 100
4.7. Calidad de Datos ........................................................................................................ 102
4.8. Diseño de Cubos OLAP ............................................................................................... 105
4.9. Diseño de Reportes .................................................................................................... 107
4.10. Reportes Diseñados ............................................................................................... 109
5. CAPITULO: CONCLUSIONES Y RECOMENDACIONES .......................................................... 125
5.1. Conclusiones .............................................................................................................. 125
5.2. Recomendaciones ...................................................................................................... 126
5.3. Bibliografía ................................................................................................................. 128
ANEXOS ...................................................................................................................................... 129
Anexo A .............................................................................................................................. 129
Anexo B .............................................................................................................................. 130
Anexo C .............................................................................................................................. 141

xii
LISTA DE GRÁFICOS

Ilustración 1: Ciclo de vida de las aplicaciones de soporte a la decisión ..................................... 11


Ilustración 2: Arquitectura del Data Warehouse (Srl, 1997) ........................................................ 19
Ilustración 3: Arquitectura de Business Intelligence (BYSPEL, 2015)........................................... 22
Ilustración 4: Cadena de Valor del Dato (DAVENPORT, 1998) ..................................................... 24
Ilustración 5: Pentaho Data Integration....................................................................................... 30
Ilustración 6: Pentaho Schema Workbench ................................................................................. 31
Ilustración 7: Pentaho Report Designer ....................................................................................... 32
Ilustración 8: Ejemplo de Modelo Estrella ................................................................................... 33
Ilustración 9: Ejemplo de Modelo Copo de Nieve ....................................................................... 36
Ilustración 10: Archivo Notas.csv ................................................................................................. 38
Ilustración 11: Archivo Notas.csv ................................................................................................. 39
Ilustración 12: Modelo Lógico DSA .............................................................................................. 41
Ilustración 13: Modelo Físico DSA................................................................................................ 43
Ilustración 14: Proceso dsa_notas_TF ......................................................................................... 52
Ilustración 15: Proceso dsa_estudiantes_uce_TF ........................................................................ 53
Ilustración 16: Proceso dim_fecha_TF ......................................................................................... 54
Ilustración 17: Proceso dim_facultades_TF ................................................................................. 54
Ilustración 18: Proceso dim_materias_TF .................................................................................... 55
Ilustración 19: Proceso dim_persona_TF ..................................................................................... 56
Ilustración 20: Proceso dim_estado_TF ....................................................................................... 57
Ilustración 21: Proceso tmp_notas_TF ........................................................................................ 58
Ilustración 22: Proceso fac_seguimiento_notas_TF .................................................................... 58
Ilustración 23: Proceso dwh_fac_notas_JB ................................................................................. 59
Ilustración 24: Página de Descarga de Framework 4.0 ................................................................ 60
Ilustración 25: Instalador de Framework 4.0 ............................................................................... 61
Ilustración 26: Términos de la Licencia ........................................................................................ 61
Ilustración 27: Proceso de Instalación ......................................................................................... 62
Ilustración 28: Finalización de la Instalación................................................................................ 62
Ilustración 29: Página Oficial de MySQL ...................................................................................... 63
Ilustración 30: Selección del Instalador a Utilizar ........................................................................ 64
Ilustración 31: Instalador de MySQL ............................................................................................ 64
Ilustración 32: Pagina Inicial de Instalación ................................................................................. 65
Ilustración 33: Selección del Tipo de Instalación ......................................................................... 65
Ilustración 34: Progreso de la Instalación .................................................................................... 66
Ilustración 35: Pantalla de MySQL Enterprise.............................................................................. 66
Ilustración 36: Tipos de Configuración......................................................................................... 67
Ilustración 37: Opciones de Arranque Automático del motor MySQL ........................................ 67
Ilustración 38: Creación del Usuario root de MySQL ................................................................... 68
Ilustración 39: Proceso de Configuración .................................................................................... 68
Ilustración 40: Procesos Configurados ......................................................................................... 69
Ilustración 41: Página Principal de Java ....................................................................................... 70
Ilustración 42: Enlaces de Descarga del JDK ................................................................................ 70

xiii
Ilustración 43: Instaladores del JDK ............................................................................................. 71
Ilustración 44: Inicio de Instalación del JDK ................................................................................. 71
Ilustración 45: Progreso de Instalación........................................................................................ 72
Ilustración 46: Pagina de Instalación Completada ....................................................................... 72
Ilustración 47: Información del Sistem ........................................................................................ 73
Ilustración 48: Configuración Avanzada del Sistema ................................................................... 73
Ilustración 49: Variables de Ambiente ......................................................................................... 74
Ilustración 50: Configuración del Path del JDK ............................................................................ 74
Ilustración 51: Pagina de Descarga de Pentaho Data Integration ............................................... 75
Ilustración 52: Pentaho Data Integration..................................................................................... 75
Ilustración 53: JDBC de MySQL .................................................................................................... 76
Ilustración 54: Página de Inicio de Pentaho Data Integration ..................................................... 77
Ilustración 55: Página de Descarga de Pentaho Schema Workbench ......................................... 78
Ilustración 56: Pentaho Schema Workbench............................................................................... 78
Ilustración 57: Configuración del JDBC de MySQL ....................................................................... 79
Ilustración 58: Página de Inicio de Pentaho Schema Workbench ............................................... 79
Ilustración 59: Pagina de Descarga de Pentaho BI server............................................................ 80
Ilustración 60: Pentaho BI Server................................................................................................. 81
Ilustración 61: Ejecución del BI Server ......................................................................................... 81
Ilustración 62: Página de Inicio de Pentaho BI Server ................................................................. 82
Ilustración 63: Pagina de Descarga de Pentaho Report Designer................................................ 83
Ilustración 64: Ruta de Instalación de Pentaho Report Designer ................................................ 83
Ilustración 65: Carpeta de Pentaho Report Designer .................................................................. 84
Ilustración 66: Pentaho Report Designer ..................................................................................... 84
Ilustración 67: Archivo Fuente Notas.xlsx .................................................................................... 86
Ilustración 68: Table Input ........................................................................................................... 87
Ilustración 69: Table Output ........................................................................................................ 88
Ilustración 70: Excel Input ............................................................................................................ 89
Ilustración 71: Get System Info .................................................................................................... 90
Ilustración 72: Insert Update ....................................................................................................... 91
Ilustración 73: Generate Rows ..................................................................................................... 91
Ilustración 74: Select Values ........................................................................................................ 92
Ilustración 75: Calculator ............................................................................................................. 93
Ilustración 76: Join Rows.............................................................................................................. 93
Ilustración 77: Sorted Merge ....................................................................................................... 94
Ilustración 78: Add Sequence ...................................................................................................... 94
Ilustración 79: Estructura del Cubo Notas ................................................................................. 107
Ilustración 80: Diseño de la Cabecera del Reporte .................................................................... 108
Ilustración 81: Detalles del Reporte ........................................................................................... 108
Ilustración 82: Pie de Página del Reporte .................................................................................. 109
Ilustración 83: Alumnos Matriculados por Materia ................................................................... 111
Ilustración 84: Distribución de Alumnos por Rangos de Notas ................................................. 113
Ilustración 85: Distribución de Materias y Número de Estudiantes .......................................... 115
Ilustración 86: Distribución por Número de Matrícula y Número de Estudiantes .................... 117

xiv
Ilustración 87: Distribución por Rango de Notas y Número de Matricula ................................. 119
Ilustración 88: Estudiantes Matriculados y Rangos de Notas .................................................... 121
Ilustración 89: Número de Estudiantes por Materia y Carrera.................................................. 122
Ilustración 90: Distribución de Alumnos por Carrera y Su Estado al Final del Semestre ........... 124

LISTA DE CUADROS

Tabla 6: Archivo Facultades.xls ......................................................................................................... 40


Tabla 7: Tablas del Modelo DSA........................................................................................................ 44
Tabla 8: Estructura de la Tabla dsa_estudiantes_uce....................................................................... 44
Tabla 9: Estructura de la Tabla dsa_facultades ................................................................................ 44
Tabla 10: Estructura de la Tabla dsa_notas ...................................................................................... 45
Tabla 11: Modelo Físico del DWH ..................................................................................................... 48
Tabla 12: Posibles Estados de los Estudiantes .................................................................................. 50
Tabla 13: Modelo Lógico del DWH.................................................................................................... 51
Tabla 21: Tiempos de Ejecución........................................................................................................ 95
Tabla 22: Cuadre de Datos ................................................................................................................ 97
Tabla 23: Estructura del DataWarehouse ......................................................................................... 98
Tabla 24: Estructura de la Dimensión Estado ................................................................................... 98
Tabla 25: Estructura de la Dimensión Facultades ............................................................................. 99
Tabla 26: Estructura de la Dimensión Fecha ................................................................................... 100
Tabla 27: Estructura de la Dimensión Materia ............................................................................... 100
Tabla 28: Estructura de la Dimensión Persona ............................................................................... 100
Tabla 29: Estructura de la Tabla de Hechos .................................................................................... 102
Tabla 1: Corrección en Columna de Materias ................................................................................. 102
Tabla 2: Unificación de Nombres de Estudiantes ........................................................................... 103
Tabla 3: Estandarización de los Nombres de Estudiantes .............................................................. 103
Tabla 4: Fechas Inicio y Fin de los Periodos Escolares .................................................................... 104
Tabla 5: Datos Duplicados ............................................................................................................... 104

xv
RESUMEN

DESARROLLO DE UNA SOLUCIÓN DE BUSINESS INTELLIGENCE


ORIENTADO AL ANÁLISIS DEL RENDIMIENTO ACADÉMICO Y LA
PLANIFICACION DE LOS CURSOS DE LA CARRERA DE INGENIERIA
INFORMÁTICA EN LA FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y
MATEMÁTICAS

El presente proyecto se basa en establecer la herramienta de Business para en el análisis


y explotación eficaz de los datos académicos estudiantiles del sistema SAU con la
finalidad de apoyar a las autoridades a la toma de decisiones, de acuerdo a los datos de
interés obtenidos. Además ayuda a la planificación, asignación y distribución de cupos,
mediante la demanda cada una de las asignaturas de distintos periodos lectivos en la
facultad y así aprovechar los datos almacenados obteniendo una utilidad efectiva y el
conocimiento necesario para optimizar el desarrollo estudiantil.

DESCRIPTORES

INTELIGENCIA DE NEGOCIOS / TOMA DE DECISONES ACADÉMICAS/


INFORMACIÓN ANALÍTICA/ REPORTES DINÀMICOS/ CUBOS OLAP/
PROCESOS ETL / BASE DE DATOS CENTRAL

xvi
ABSTRACT

OVERVIEW DEVELOPMENT OF A BUSINESS INTELLIGENCE SOLUTION


ANALYSIS OF PERFORMANCE-ORIENTED ACADEMIC AND PLANNING
OF THE COURSES OF THE CAREER OF COMPUTER ENGINEERING IN
THE FACULTY OF ENGINEERING, MATHEMATICS AND PHYSICAL
SCIENCES

This project is based on establishing the Business tool for analysis and effective
exploitation of the student academic data of the SAU system with the aim of supporting
the authorities to take decisions, according to the data of interest. In addition it helps the
planning, allocation and distribution of quotas, through demand each of the subjects of
different periods in the Faculty and thus take advantage of stored data obtaining an
effective tool and the necessary knowledge to optimize the student development.

DESCRIPTORS

BUSINESS INTELLIGENCE / DECISION DECISIONS ACADEMIC/


INFORMATION ANALYTICAL / REPORTING DYNAMIC / OLAP CUBES / ETL
PROCESSES / CENTRAL DATABASE

xvii
INTRODUCCIÓN

En el entorno en el cual se desarrolla la Carrera de Informática de la Facultad de


Ingeniería, Ciencias Físicas y Matemáticas existe un aspecto muy importante para las
autoridades que es el estado académico de sus estudiantes, este es el motivo principal
por el cual se ha llevado a cabo esfuerzos para realizar mejoras en la calidad de
educación que permita aumentar el nivel educativo.

Con el objetivo de proporcionar a las autoridades los indicadores necesarios que ayuden
en la toma de decisiones se plantea explotar datos académicos de estudiantes
almacenados en el sistema SAU, de esta manera se contara con una herramienta
tecnológica que ayude a garantizar la calidad en la educación superior estableciendo una
correcta interpretación de la información resultante seguido de una corrección de los
datos proporcionados mediante soluciones oportunas.

El presente proyecto de tesis aspira proveer de una herramienta informática que ayude a
evaluar la información académica del sistema SAU de la Carrera de Ingeniería
Informática, a través del desarrollo de una solución de Business Intelligence que
mediante procesos de ingeniería de software ayude a consolidar, depurar e integrar los
datos de los estudiantes (notas, materias) en un almacén de datos centralizado,
comúnmente conocido como Data Warehouse.

Esta investigación permitirá recabar, conocer e intercambiar información valiosa sobre


aspectos vinculados con el entorno académico, además la presente investigación ayudará
a mejorar la planificación, gestión de los cursos, asignación y distribución de cupos, con
el propósito de aprovechar los datos almacenados dándoles una utilidad efectiva y
obteniendo de ellos el conocimiento necesario para optimizar el desarrollo estudiantil.

1
1. CAPITULO: PRESENTACIÓN DEL PROBLEMA

1.1. Planteamiento del Problema

En la actualidad la Facultad cuenta con el sistema SAU, el cual ayuda a administrar las
notas, materias, datos estudiantes e información; sin embargo se ha observado la
carencia de una plataforma tecnológica estructurada y especializada que permita
explotar los datos almacenados y provea de canales dinámicos de acceso autónomos a la
información analítica, así como la generación de reportes académicos desde diferentes
puntos de vista de acuerdo a los requerimientos de cada destinatario, con el objetivo de
mejorar la calidad de educación y optimizar la planificación de los recursos de la
Facultad de Ingeniería, Ciencias Físicas y Matemáticas.

La Carrera de Ingeniería Informática posee toda la información académica de los


estudiantes almacenada en una base de datos pero no se ha pensado que esta información
se puede convertir en conocimiento mediante una plataforma de Business Intelligence
enfocada a la interpretación y análisis adecuado de los datos académicos (recurso
principal), que ayuden a perseguir el descubrimiento o la constatación empírica de una
realidad compleja antes desconocida o solo intuida y así poder detectar o diagnosticar
todas las posibles anomalías y deficiencias que se estén presentando.

La Facultad de Ingeniería, Ciencias Físicas y Matemáticas ha venido presentando


inconvenientes y desigualdades en la distribución de cupos en las distintas asignaturas,
resultando saturaciones de alumnado en algunas materias y carencia en otras; esto ha
provocado en los estudiantes inconformidad, discordia, aplazamiento en la toma de
materias, demora en la culminación de la malla curricular, conflictos al estructurar
horarios y retraso en el aprendizaje, dichos problemas impiden el desarrollo adecuado en
la formación e instrucción de los estudiantes además ocasiona problemas en el
rendimiento y desempeño académico.

2
En relación con los problemas identificados se presenta el siguiente trabajo, destinado a
mejorar el análisis del rendimiento estudiantil y la asignación de cupos en los cursos de
la malla curricular de la Facultad.

1.2. Formulación del Problema

¿Qué ventajas se pueden obtener al analizar el rendimiento estudiantil en la Facultad de


Ingeniería, Ciencias Físicas y Matemáticas mediante una solución de Business
Intelligence?

1.3. Interrogantes de la Investigación

¿La aplicación desarrollada permitirá tener un monitoreo permanente referente a las


actividades estudiantiles en la facultad?

¿Mediante que causas y elementos se determina la asignación y distribución de cupos de


las distintas asignaturas en la facultad?

¿Qué indicadores definirán los aspectos adversos que inciden en el rendimiento


estudiantil?

¿Cuáles son las métricas que en la Carrera de Ingeniería Informática de la Facultad de


Ingeniería, Ciencias Físicas y Matemáticas se utilizan para la toma de decisiones en el
ámbito académico?

¿Qué análisis se establecen para evaluar la calidad académica involucrando a todos sus
actores como son: estudiantes?

3
1.4. Objetivos de la Investigación

1.4.1. Objetivo General

Disponer de una herramienta de Business Intelligence para generar información


analítica y estadística sobre el estado del rendimiento académico en la Facultad de
Ingeniería, Ciencias Físicas y Matemáticas orientado al apoyo en la toma de decisiones
y planificación de cursos.

Objetivos Específicos

 Identificar el sistema fuente que alimentara los datos al Data Warehouse de la


solución.
 Determinar las variables de interés a ser analizadas.
 Formar la base de datos principal donde se alojaran los datos del Data Warehouse.
 Realizar una limpieza y depuración a los datos origen.
 Aplicar los procesos de validación, extracción, transformación y carga de la
información en las tablas de la base de datos.
 Diseñar reportes dinámicos, estáticos y gráficos de fácil interpretación visual en
base a los requerimientos del solicitante.

1.5. Justificación

Para establecer un valor efectivo y mayor potencial a la información educativa del


Sistema SAU se establece una solución de Business Intelligence permanente, en
cualquier momento, sin que el peticionario primario tenga que realizar previas
solicitudes ni dependa de terceros para acceder a la información actualizada.

4
La solución propuesta está destinada a ser una herramienta de distribución de
información on-line, dinámico, hecho a medida de la necesidad del destinatario, de
forma que constituye una transformación apropiada de datos en información
significativa previamente almacenada en un repositorio centralizado.

Este es el motivo fundamental para implementar una herramienta de Business


Intelligence que permita conocer el estado y comportamiento académico a mayor detalle
de cada uno de los estudiantes de la Facultad de Ingeniería Ciencias Físicas y
Matemáticas.

Posteriormente se distribuye a las autoridades de la Facultad toda la información


solicitada sobre rendimiento estudiantil que les permita la realización de un diagnóstico
de la situación, así como las resoluciones necesarias y oportunas para definir un
seguimiento del impacto real del mismo, de acuerdo a las métricas, variables obtenidas y
seguidamente corregir cualquier deficiencia que se tenga en el aprendizaje de los
estudiantes y permita mejorar el desempeño académico.

De igual manera se podrá observar como el estudio planteado permitirá a las


autoridades de la Carrera de Ingeniería Informática tener una planificación prevista de
los cursos mediante una clara perspectiva de la cantidad de cupos necesarios en cada uno
de los cursos y así establecer una acertada demanda estudiantil que puede tener una
materia en particular y ayudar a predecir tendencias y comportamientos para tomar
decisiones proactivas, es decir aumentar o disminuir recursos en la asignación de cupos
de las materias, de esta manera satisfacer la demanda de educación de calidad .

En base a las necesidades descritas anteriormente y dada la flexibilidad, escalabilidad y


naturaleza de este tipo de soluciones, el desarrollo de una solución de Business
Intelligence para el análisis del rendimiento académico de los estudiantes de la Facultad
de Ingeniería, Ciencias Físicas y Matemáticas es una solución factible, óptima y viable,
5
ya que permitirá atender todos los requerimientos de análisis de información
actualmente existentes.

Con el desarrollo de ésta solución de Business Intelligence se verán beneficiados a las


siguientes entidades:

 Facultad de Ingeniería, Ciencias Físicas y Matemáticas: ya que con la creación


de esta solución de Business Intelligence podrá aumentar el nivel académico en
los estudiantes y planificar de mejor manera la distribución de los recursos en la
asignación de cupos y cursos.

 Tesista: con la realización de éste proyecto se pondrá en práctica los


conocimientos adquiridos, durante el desarrollo profesional de la carrera.

1.6. Alcance

El proyecto de Business Intelligence que se propone en el presente documento, se basa


en el desarrollo de una solución web que brinde la información estadística detallada
sobre el desarrollo del proceso académico de los estudiantes de la Facultad de Ingeniera,
Ciencias Físicas y Matemáticas, esta solución tiene el siguiente alcance:

 Diseñar e implementar un Data Warehouse que explote la información


académica obtenida del sistema SAU a partir del periodo lectivo 2008-2009,
usando la herramienta Pentaho Data Integration Community Edition.

 Mostrar el promedio máximos y mínimos académico global o individual de los


estudiantes de la Facultad de Ingeniería, Ciencias Físicas y Matemáticas en un
periodo de tiempo determinado.

6
 Determinar la demanda de estudiantes en cada carrera aprobados, reprobados,
inscritos, matriculados, convalidado, suspenso, anulado.

 Analizar desde la perspectiva de materias: número de estudiantes (matriculados,


aprobados), desertores y promedios de los mismos.

 Analizar desde la dimensión de estudiante: número de materias por ciclo lectivo,


número de créditos, número de materias aprobadas a lo largo de su periodo
estudiantil, aprobación (primera, segunda o tercera matricula), tiempo de
permanencia.

 Demanda de Materias en los periodos lectivos.

 Análisis de la distribución de estudiantes, por clase en un determinado estudio.

Toda esta composición de análisis reflejará el estado histórico de estudiantes en base a


su desempeño para así poder identificar los patrones habituales de abandono en cada
materia. Permitirá la identificación de estudiantes en riesgo y deserción basada en los
datos históricos y previos.

Bajo los puntos descritos anteriormente el presente proyecto ayudara a conocer las
tendencias y previsiones respecto a la demanda de asignaturas y mediante este conjunto
de Análisis optimizar la distribución de estudiantes por clase en una determinada
asignatura.

1.7. Limitaciones

 El trabajo se lo realizará en la Facultad de Ingeniería, Ciencias Físicas y


Matemáticas de la Universidad Central del Ecuador.

7
 Se debe establecer el tipo de información que necesita la Facultad de Ingeniería,
Ciencias Físicas y Matemáticas para poder procesar, depurar y clasificar los datos
de los estudiantes.
 El modelo no contempla minería de datos.
 La autorización de la obtención de datos a nivel de autoridad de la Facultad de
Ingeniería, Ciencias Físicas y Matemáticas de la Universidad Central del Ecuador.
 No controla la obtención de datos fuente en forma automática.
 No garantiza la veracidad de los resultados, si la data fuente cargada en la
aplicación no cumplen los parámetros establecidos.
 Para la implementación de la solución de Business Intelligence se requiere de una
IP fija, espacio en el servidor y en el internet de la facultad
 La aplicación final se la implementará a nivel internet.

8
2. CAPITULO: REVISION BIBLIOGRAFICA

2.1. Antecedentes

En la Facultad de Ingeniería, Ciencias Físicas y Matemáticas se cuenta con un Sistema


SAU donde los docentes pueden registrar las notas que producen los estudiantes en cada
uno de los semestres, este sistema está compuesto por una base de datos transaccional
que sirve para almacenar y consultar información respecto al área académica es decir
matriculación, calificaciones y reportes.

La explotación analítica de los datos en el sistema SAU no está formalizada es decir:

 No existe normalización alguna en los canales, los tiempos de atención ni el


formato de solicitud y entrega de la información.

 Cada petición de datos es atendida y procesada de manera individual por parte de


la unidad administrativa que lo maneja.

 Los distintos docentes y autoridades de la facultad que realicen peticiones de


datos con fines analíticos no tienen acceso a una plataforma tecnológica
determinada, sino que depende de terceros para acceder a la información.

 La disponibilidad, formatos, tiempos de respuesta, criterios aplicados, etc.


dependerán de las circunstancias del departamento de tecnologías en el momento
de la petición.

Una herramienta de estadística y predicción como lo es Business Intelligence establece


un entorno de soporte formal en la explotación analítica de la información, bien
consolidados en un sistema dedicado (Data Warehouse) facilitando el análisis de datos
basado en la necesidad del solicitante.

9
La herramienta está enfocada en analizar el rendimiento académico de los estudiantes de
la Facultad de Ingeniería Ciencias Físicas y Matemáticas mediante un seguimiento
estratégico consolidados en un solo sistema central (Data Warehouse), disponible a todo
aquel que tenga legitimo acceso.

El sistema ayudará a tomar decisiones basadas en las necesidades que se presenten en


la Facultad, de igual manera facilitara el análisis del rendimiento estudiantil, así como
proporcionara un medio por el cual las autoridades podrán analizar las materias que
sufren más deserciones y en las cuales existe mayor cantidad de estudiantes con el fin de
mejorar la planificación de cursos y cupos en futuras materias. La solución planteada
permitirá analizar, evaluar, prevenir y resolver problemas con el objetivo de desarrollar
programas de planificación de cursos e identificar las falencias de los estudiantes en su
formación académica dentro de la Facultad.

Debido a estos antecedentes las autoridades de la Facultad de Ingeniería, Ciencias


Físicas y Matemáticas han decido implementar una solución Business Intelligence que
permita analizar la información y enfoque su funcionamiento en el nivel académico de
los estudiantes para ayudar a tomar decisiones acertadas que contribuyan a mejorar el
desarrollo educativo universitario.

2.2. FUNDAMENTACIÓN TEÓRICA

2.2.1. Marco Teórico

En un tiempo atrás las organizaciones de desarrollaban mediante sus departamentos


tecnológicos informáticos para obtener reportes estándar y condicionados respecto al
hardware. Esto surge en el periodo que se manejaban las computadoras mainframes y
minicomputadoras cuando los usuarios no tenían acceso directo a las computadoras.
10
Los sistemas eran empleados principalmente para transacciones de negocios y la
cantidad de informes era limitada y predefinida por estos tipos de dispositivos, además
había saturación de procesos por lo que los usuarios esperaban días o semanas para la
generación de distintos reportes.

Se desarrollaron después de un tiempo los sistemas de información ejecutiva (EIS) que


sirvieron de soporte a las labores de ejecutivos y administradores. Con la aparición de la
PC, enlaces de computadora, avance de los procesos y aplicaciones informáticas las
herramientas Business Intelligence permitieron a los usuarios crear rutinas propias y así
generar reportes personalizados.

En la siguiente figura se muestra una breve reseña histórica de la evolución de lo que


hoy se conoce como inteligencia de negocios y las aplicaciones relacionadas al apoyo
de decisiones.” (MOSS, 2013)

Ilustración 1: Ciclo de vida de las aplicaciones de soporte a la decisión

11
 1969: Creación del concepto de base de datos (Codd)

 1970: surgimiento de los primeros sistemas de gestión bases de datos, modelos


relacionales y las primeras aplicaciones empresariales (SAP, JD EData
Warehouse ards, Siebel, PeopleSoft). Estas aplicaciones permitieron realizar
“data entry” en los sistemas, aumentando la información disponible, pero no
fueron capaces de ofrecer un acceso rápido y fácil a dicha información, además
los informes eran estáticos y altamente orientados a la información transaccional.

 1980: Creación del concepto Datawarehouse (Ralph Kimball, Bill Inmon), y


desarrollo de los primeros sistemas de reporting. A pesar de todo, seguía siendo
complicado y funcionalmente deficiente. Existían relativamente potentes
sistemas de bases de datos pero no había aplicaciones que facilitasen su
explotación.

 1989: Introducción del término Business Intelligence (Howard Dresner)


 1990: Business Intelligence 1.0. Avance de múltiples aplicaciones Business
Intelligence. Estos proveedores resultaban costosos, pero facilitaron el acceso a
la información.

 2000: Business Intelligence 2.0. Consolidación de las aplicaciones Business


Intelligence en unas pocas plataformas Business Intelligence (Oracle, SAP, IBM,
Microsoft). A parte de la información estructurada, se empieza a considerar otro
tipo de información y documentos no estructurados.

2.2.2. Data Warehouse (DW)

“Un Data Warehouse es una base de datos corporativa que se caracteriza por integrar y
depurar información de una o más fuentes distintas, para luego procesarla permitiendo
su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La

12
creación de un Data Warehouse representa en la mayoría de las ocasiones el primer
paso, desde el punto de vista técnico, para implantar una solución completa y fiable de
Business Intelligence.” (S.L., 2007)

“La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se
almacena la información (modelos de tablas en estrella, en copo de nieve, cubos
relacionales, etc.). Este tipo de persistencia de la información es homogénea y fiable, y
permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno
diferente a los sistemas operacionales).” (S.L., 2007)

2.2.3. Objetivos de un Data Warehouse

De acuerdo a Ralph Kimball, estos son los objetivos de un Data Warehouse:

 “El contenido del Data Warehouse debe ser comprensible, intuitivo y obvio para
el usuario de negocio. La comprensibilidad implica legibilidad, por lo tanto el
contenido del Data Warehouse necesita ser etiquetado de manera significativa. El
usuario de negocio debe estar habilitado para extraer porciones del Data
Warehouse y combinar esta información de todas las formas posibles, utilizando
herramientas simples y fáciles de usar, con un tiempo de respuesta mínimo.”
(KIMBALL, 2002)

 “La información del Data Warehouse deber ser creíble. Los datos deben ser
cuidadosamente reunidos de una variedad de orígenes de toda la organización,
deben ser limpiados con calidad asegurada y liberados cuando sean aptos para el
consumo del usuario. La información de un proceso de negocio debe coincidir
con la información de otro proceso. Si dos métricas tienen el mismo nombre,
entonces deben significar lo mismo y viceversa. Información consistente
significa información de alta calidad, esto significa que todos los datos se
contabilizan y están completos. La consistencia también implica que las

13
definiciones comunes del contenido del Data Warehouse está disponible para
todos los usuarios.” (KIMBALL, 2002)

 “EL Data Warehouse debe ser adaptable y resistente a cambios, simplemente no


se puede evitar los cambios. Las necesidades de los usuarios, las condiciones del
negocio, los datos, y la tecnología están sujetos a las cambiantes arenas del
tiempo. El data warehouse debe estar diseñado para manejar estos inevitables
cambios.” (KIMBALL, 2002)

 “El data warehouse debe contener la información correcta para soportar la toma
de decisiones, solo hay una salida real para un data warehouse. Las decisiones
que son hechas después de que el Data Warehouse ha presentado su evidencia;
estas decisiones entregan al negocio el impacto y valor atribuible al Data
Warehouse.” (KIMBALL, 2002)

2.2.4. Beneficios del Data Warehouse

“Un Data Warehouse puede dar lugar a una serie de importantes beneficios para la
organización. En cualquier caso, su utilización permitirá que la información de gestión
sea: accesible, correcta, uniforme y actualizada.” (CAUCA, 2009)

“Estas características asociadas a la información contenida en un Data Warehouse junto


con otra serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto
de ventajas, que podríamos resumir del siguiente modo:” (CAUCA, 2009)

 “Menor coste en la toma de decisiones: Se suprime el despilfarro de tiempo que


se podía producir al intentar ejecutar consultas de datos largas y complejas con

14
bases de datos que estaban diseñadas específicamente para transacciones más
cortas y sencillas.

 Mayor flexibilidad ante el entorno: El Data Warehouse convierte los datos


operacionales en información relacionada y estructurada, que genera el
"conocimiento" necesario para la toma de decisiones. Esto permite establecer una
base única del modelo de información de la organización, que puede dar lugar a
una visión global de la información en base a los conceptos de negocio que tratan
los usuarios. Además, aporta una mejor calidad y flexibilidad en el análisis del
mercado, y del entorno en general.

Esta visión global puede conllevar también la obtención de otras ventajas


competitivas, al identificar determinados costes que con los sistemas anteriores
podían permanecer ocultos, por ejemplo:

 Mejor servicio al cliente: Todo lo que hemos dicho en el punto anterior implica
una importante mejora en la calidad de gestión, lo que también repercute en la
relación con el cliente, que es, como sabemos, uno de los pilares básicos en los
que descansa cualquier organización ajustada. De hecho, el que un Data
Warehouse implique una mayor flexibilidad ante el entorno tiene una
consecuencia directa en una mayor capacidad para responder a las necesidades
de los clientes.

 Rediseño de procesos: Ofrecer a los usuarios una capacidad de análisis de la


información de su negocio que tiende a ser ilimitada y permite con frecuencia
obtener una visión más profunda y clara de los procesos de negocio propiamente
dichos, lo que a su vez permite obtener ideas renovadoras para la rediseño de los
mismos.” (CAUCA, 2009)

15
“En conclusión, el concepto de Data Warehouse abarca mucho más que simplemente
copiar datos operacionales a una base de datos informacional distinta. El sistema deberá
ofrecer una solución completa para gestionar y controlar el flujo de información desde
bases de datos corporativas y fuentes externas a sistemas de soporte de decisiones de
usuarios finales.” (CAUCA, 2009)

2.2.5. Características de un Data Warehouse

Según definió Bill Inmon, el Data Warehouse se caracteriza por ser:

 “Integrado: los datos almacenados en el Data Warehouse deben integrarse en una


estructura consistente, por lo que las inconsistencias existentes entre los diversos
sistemas operacionales deben ser eliminadas. La información suele estructurarse
también en distintos niveles de detalle para adecuarse a las distintas necesidades
de los usuarios.

 Temático: sólo los datos necesarios para el proceso de generación del


conocimiento del negocio se integran desde el entorno operacional. Los datos se
organizan por temas para facilitar su acceso y entendimiento por parte de los
usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser
consolidados en una única tabla del Data Warehouse. De esta forma, las
peticiones de información sobre clientes serán más fáciles de responder dado que
toda la información reside en el mismo lugar.

 Histórico: el tiempo es parte implícita de la información contenida en un Data


Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de
la actividad del negocio en el momento presente. Por el contrario, la información
almacenada en el Data Warehouse sirve, entre otras cosas, para realizar análisis
de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores
que toma una variable en el tiempo para permitir comparaciones.

16
 No volátil: el almacén de información de un Data Warehouse existe para ser
leído, y no modificado. La información es por tanto permanente, significando la
actualización del Data Warehouse la incorporación de los últimos valores que
tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo
que ya existía.”

2.2.6. Estructura del Data Warehouse

Orlando Pacheco, cita que:

“En la estructura de un Data Warehouse encontraremos 4 niveles de esquematización los


cuales forman la metadata, estos niveles se diferencian por el nivel de síntesis o
depuración de información requerida por la empresa que lo usa. Y son:

 Detalle de datos actuales: En gran parte, el interés más importante radica en el


detalle de los datos actuales, debido a que los datos reflejan las ocurrencias más
recientes, las cuales son de gran interés.
Son voluminosos, ya que se almacenan al más bajo nivel de granularidad (no
están procesados).
Casi siempre se almacena en disco, al cual se tiene fácil acceso, aunque su
administración sea costosa y compleja.

 Detalle de datos antiguos (históricos): Es aquella que se almacena sobre alguna


forma de almacenamiento masivo. No es frecuentemente accedida y se almacena
a un nivel de detalle, consistente con los datos detallados actuales. Mientras no
sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del
gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual
utilizar el disco como medio de almacenamiento.

17
 Datos ligeramente resumidos: Es aquella que proviene desde un bajo nivel de
detalle encontrado al nivel de detalle actual. Este nivel del Data Warehouse casi
siempre se almacena en disco. Los puntos en los que se basa el diseñador para
construirlo son:

Que la unidad de tiempo se encuentre sobre la esquematización hecha.


Qué contenidos (atributos) tendrá la data ligeramente resumida.

 Datos completamente resumidos: El siguiente nivel de datos encontrado en el


Data Warehouse es el de los datos completamente resumidos. Estos datos son
compactos y fácilmente accesibles por lo general son indicadores que son usados
con más frecuencia para el análisis gerencial.” (PACHECO, 2015)

2.2.7. Arquitectura del Data Warehouse

Una arquitectura de Data Warehouse es una forma de representar la estructura global de


los datos, la comunicación, los procesos y la presentación al usuario final. La
arquitectura está constituida por las siguientes partes interconectadas:

18
Ilustración 2: Arquitectura del Data Warehouse (Srl, 1997)

Base de Datos Operacional y Base de Datos Externa

“Las organizaciones adquieren de bases de datos externas a la propia organización, que


incluyen datos demográficos, económicos, datos sobre la competencia, etc.

Mediante el proceso de Data Warehousing se extrae la información que está en la bases


de datos operacionales y se mezcla con otras fuentes de datos. Enriqueciendo la
información.” (BUIGUES, 2015)

Nivel de Acceso a la Información

“Es la capa con la que trata el usuario final. La información almacenada se convierte en
información fácil y transparente para las herramientas que utilizan los usuarios. Se
obtienen informes, gráficos, diagramas, etc.” (BUIGUES, 2015)

19
Nivel de Acceso a los Datos

“Comunica el nivel de acceso a la información con el nivel operacional, es el


responsable de la interfaz entre las herramientas de acceso a la información y las bases
de datos.

La clave de este nivel está en proveer al usuario de un acceso universal a los datos, es
decir, que los usuarios sin tener en cuenta la ubicación de los datos o la herramienta de
acceso a la información, deberían ser capaces de acceder a cualquier dato del Data
Warehouse que les fuera necesario para realizar su trabajo.” (BUIGUES, 2015)

Nivel de Directorio de Datos (Metadatos)

“Para proveer de un acceso universal, es absolutamente necesario mantener alguna clase


de directorio de datos o repositorio de información de metadato que ayude a mantener
un control sobre los datos. El metadato aporta información sobre los datos de la
organización, de dónde proviene, qué formato tenía, cuál era su significado y si se trata
de un agregado, cómo se ha calculado éste.

Para mantener un almacén completamente funcional, es necesario disponer de una


amplia variedad de metadatos, información sobre las vistas de datos para los usuarios
finales y sobre las bases de datos operacionales.” (BUIGUES, 2015)

Nivel de Gestión de Procesos

“Este nivel tiene que ver con la planificación de las tareas que se deben realizar, no sólo
para construir, sino también para mantener el Data Warehouse y la información del
directorio de datos. Es controlador de alto nivel de los procesos que se han de llevar a
cabo para que el Data Warehouse permanezca actualizado.” (BUIGUES, 2015)

20
Nivel de Mensaje de la Aplicación

Este nivel es el encargado del transporte de la información a lo largo del entorno, se


puede pensar en él como un middleware.

Nivel Data Warehouse (Físico)

“Es el núcleo del sistema, el repositorio central de información donde los datos actuales
usados principalmente con fines informacionales residen. En el Data Warehouse físico
se almacenan copias de los datos operacionales y/o externos, en una estructura que
optimiza su acceso para la consulta y que es muy flexible.” (BUIGUES, 2015)

Nivel de Organización de Datos

Incluye todos los procesos necesarios para seleccionar, editar, resumir, combinar y
cargar en el Data Warehouse y en la capa de acceso a la información los datos
operacionales y/o externos.

2.2.8. Inteligencia de Negocios (BI)

“La Inteligencia de negocios es un conjunto de procesos y métodos que permiten


transformar y consolidar los datos disponibles de distintos tipos de fuentes de una
organización en información significativa (conocimiento útil) al servicio de los
intereses de una organización y expuesta en escenarios, pronósticos e informes
dinámicos de acuerdo a las peticiones del usuario y mediante esto establecer decisiones
y resoluciones que establezcan mejora en el desarrollo estratégico, táctico, operativo y
así tener un óptimo desempeño en las funciones y procesos administrativos.”
(BUIGUES, 2015)

21
Ilustración 3: Arquitectura de Business Intelligence (BYSPEL, 2015)

2.2.9. Características de la Inteligencia de Negocios

Principios de la Inteligencia de Negocios

 Accesibilidad a la información: La herramienta en conjunto con las técnicas


facilita a los usuarios el acceso directo y autónomo mediante una “vista”
apropiada de los datos deseados de toda aquella información analítica
independiente de la procedencia de esta.

 Apoyo a la toma de decisiones: el resultado de interpretar y analizar información


adecuadamente presentada de acuerdo las peticiones del usuario, a fin de tomar
mejores y rápidas decisiones mediante la identificación de problemas u
oportunidades en los procesos.

 Orientación al usuario final: llegar alcanzar la autonomía entre los conocimientos


técnicos de los usuarios y su capacidad para utilizar estas herramientas.

22
2.2.10. Beneficios de la Inteligencia de Negocios

 Adquirir información de las organizaciones de manera oportuna y precisa.


 Evaluar el desempeño organizacional.
 Predicción de eventos futuros.
 Descubrimiento de conocimiento oculto.
 Ejecución y monitorización de planes operacionales.
 Analizar condiciones de mercado y entornos de mercado.
 Conocer las tendencias y previsiones.
 Proyección de escenarios ocultos.
 Centraliza datos dispersos.
 Obtener métricas clave del negocio.
 Análisis multidimensionales.

2.2.11. Cadena de Valor de Dato

Dato: Constituye la materia prima con los que cualquier organización dispone, el
elemento primario de la información. También se considerar como la representación de
una realidad discreta, no orientativos, circunscrita a un contexto reducido, de carácter
operacional, consiste en la obtención de los datos de partida, a través de su captura,
estructuración y registro en los sistemas operacionales pertinentes.

Información: conjunto organizado de datos procesados. Resultantes la agregación,


combinación y contextualización de muchos datos con un propósito determinado. Emite
conocimientos o inteligencia, y cambia el estado del sujeto que recibe dicho mensaje,
causando efecto sobre sus juicios de valor y sus comportamientos.

Conocimiento: El producto de deducir y analizar información adecuadamente


presentada, persiguiendo el descubrimiento o la verificación de una realidad compleja
antes desconocida o solo supuesta. Basado en la interpretación de información empírica
y cuantificable. Esta etapa se encarga de diseñar, construir y mantener los canales de

23
distribución de información que permitan y faciliten la comprensión y el análisis por
parte de los usuarios finales.

Decisión: Es el desenlace de la cadena de valor, en donde se efectúa una o varias


acciones, normalmente para cambiar algunas de las realidades constatadas mediante el
conocimiento en la fase anterior, y en esto radica su propuesta de valor: en la
transformación sistemática de datos en decisiones informadas, pertinentes y orientadas a
la mejora, a cualquier nivel, y en cualquier ámbito.

Ilustración 4: Cadena de Valor del Dato (DAVENPORT, 1998)

2.2.12. Componentes de la Inteligencia de Negocios

Los componentes de BI son:

 Multidimensional: La información proviene de diversas fuentes tales como: hojas


de cálculo, bases de datos, la herramienta de business Intelligence debe poder

24
reunir información completa aunque se encuentre separadas para resumirla y
tenga un alcance de análisis profundo, con bases sólidas y datos actualizados.

 Data Mining: Hace una adecuada clasificación de acuerdo a las actividades


competentes y observar tendencias nuevas, comportamientos o cambios.

 Agentes: Los software analizan los datos sin necesidad del raciocinio de las
personas, pues están programadas para interpretar datos.

 Data Warehouse: Como respuesta de las TIC´S para descentralizar la toma


de decisiones, colocando esta en las áreas necesarias de la información y para
quienes toman decisiones, buscan y analizan

2.2.13. MySQL

Es un sistema de gestión o administración de bases de datos relacionales, que puede


ejecutar muchas tareas simultáneamente con otras tareas y es accesible a muchos
usuarios a la hora de obtener información que se encuentra almacenada en este gestor de
base de datos.

Una base de datos es una colección estructurada de datos. La información que puede
almacenar una base de datos puede ser tan simple como la de una agenda, un contador, o
un libro de visitas, o tan grande como la de una tienda en línea, un sistema de noticias,
un portal, o la información generada en una red corporativa. Para agregar, accesar, y
procesar los datos almacenados en una base de datos, se necesita un sistema de
administración de bases de datos, tal como MySQL.

“La historia del MySQL (cuya sigla en inglés se traslada a My Structured Query
Language o Lenguaje de Consulta Estructurado) se remite a principios de la década de

25
1980. Programadores de IBM lo desarrollaron para contar con un código de
programación que permitiera generar múltiples y extendidas bases de datos para
empresas y organizaciones de diferente tipo. Desde esta época numerosas versiones han
surgido y muchas de ellas fueron de gran importancia. Hoy en día MySQL es
desarrollado por la empresa Sun Mycrosystems.” (ABC, 2007)

“MySQL se ejecuta en prácticamente todas las plataformas, incluyendo Linux, UNIX y


Windows. A pesar de que se puede utilizar en una amplia gama de aplicaciones, MySQL
se asocia más con las aplicaciones basadas en la web y la publicación en línea y es un
componente importante de una pila empresarial de código abierto llamado LAMP.
LAMP es una plataforma de desarrollo web que utiliza Linux como sistema operativo,
Apache como servidor web, MySQL como sistema de gestión de base de datos
relacional y PHP como lenguaje de programación orientado a objetos (a veces, Perl o
Python se utiliza en lugar de PHP).” (ABC, 2007)

MySQL, que fue concebido originalmente por la compañía sueca MySQL AB, fue
adquirida por Oracle en 2008. Los desarrolladores todavía pueden usar MySQL bajo la
Licencia Pública General de GNU (GPL), pero las empresas deben obtener una licencia
comercial de Oracle.

Características de MySQL

 Aprovecha la potencia de sistemas multiprocesador, gracias a su implementación


multihilo.

 Soporta gran cantidad de tipos de datos para las columnas.

 Dispone de API's en gran cantidad de lenguajes (C, C++, Java, PHP, etc).

 Gran portabilidad entre sistemas.

26
 Soporta hasta 32 índices por tabla.

 Gestión de usuarios y passwords, manteniendo un muy buen nivel de seguridad


en los datos.

 Condición de open source de MySQL hace que la utilización sea gratuita y se


puede modificar con total libertad.

 Se puede descargar su código fuente. Esto ha favorecido muy positivamente en


su desarrollo y continuas actualizaciones.

 Es una de las herramientas más utilizadas por los programadores orientados a


Internet.

 Infinidad de librerías y otras herramientas que permiten su uso a través de gran


cantidad de lenguajes de programación.

 MYSQL, es el manejador de base de datos considerado como el más rápido de


Internet.

 Gran rapidez y facilidad de uso.

 Infinidad de librerías y otras herramientas que permiten su uso a través de gran


cantidad de lenguajes de programación.

 Fácil instalación y configuración.

Ventajas

 MySQL software es Open Source.

 Velocidad al realizar las operaciones, lo que le hace uno de los gestores con
mejor rendimiento.

27
 Bajo costo en requerimientos para la elaboración de bases de datos, ya que
debido a su bajo consumo puede ser ejecutado en una máquina con escasos
recursos sin ningún problema.
 Facilidad de configuración e instalación.

 Soporta gran variedad de Sistemas Operativos.

 Baja probabilidad de corromper datos, incluso si los errores no se producen en


el propio gestor, sino en el sistema en el que está.

 Su conectividad, velocidad, y seguridad hacen de MySQL Server altamente


apropiado para acceder bases de datos en Internet.

2.2.14. Pentaho

Pentaho es una suite de Business Intelligence abierta, que cuenta con la incorporación de
las principales herramientas del mercado Open Source. Al día de hoy es la más completa
y extendida. Cuenta con una gran comunidad de desarrollo, que realiza constantes
mejoras y extensiones en la Plataforma.

Pentaho se compone de un entorno, al que los usuarios pueden acceder vía web, de
forma segura. Cada usuario visualiza todos los elementos habilitados para su perfil, que
incluirán informes, análisis OLAP y cuadros de mando con indicadores y tablas. Usted
podrá generar nuevas vistas de análisis y nuevos informes y guardarlos asociados a su
perfil, para consultarlos más tarde, así como exportarlos a Excel, PDF o realizar su
impresión en papel.

28
2.2.15. Pentaho Data Integration (PDI)

Pentaho Data Integration (PDI, también llamado Kettle) es el componente de Pentaho


responsable de la extracción, transformación y procesos de carga (ETL). Aunque las
herramientas de ETL se utilizan con mayor frecuencia en entornos de Data Warehouse,
Pentaho Data Integration también puede ser utilizado para otros fines:

 Migración de datos entre aplicaciones o bases de datos


 Exportar datos desde una base de datos hacia archivos planos
 Cargar datos de forma masiva en bases de datos
 Limpieza de datos
 Integración de aplicaciones

Pentaho Data Integration es fácil de usar. Cada proceso se crea con una herramienta
gráfica donde se especifica qué hacer sin necesidad de escribir código para indicar cómo
hacerlo; debido a esto, se podría decir que la Pentaho Data Integration es una
herramienta orientada a metadatos.

Pentaho Data Integration se puede utilizar como una aplicación independiente, o puede
ser utilizado como parte de la Suite de Pentaho. Como una herramienta ETL, es la
herramienta de código abierto más popular disponible. Pentaho Data Integration es
compatible con una amplia gama de formatos de entrada y salida, incluyendo archivos
de texto, hojas de datos, y la mayoría de sistemas gestores de bases de datos comerciales
y gratuitos. Por otra parte, la capacidad de transformación de Pentaho Data Integration le
permite manipular los datos con muy pocas limitaciones.

29
Ilustración 5: Pentaho Data Integration

2.2.16. Pentaho Schema Workbench (PSW)

Es una interfaz de diseño que permite crear y probar esquemas de cubos OLAP
visualmente. El motor de Mondrian procesa solicitudes MDX con esquemas ROLAP
(Relational OLAP). Estos archivos son modelos de metadatos XML que se crean en una
estructura específica utilizada por el motor de Mondrian. Estos modelos XML pueden
ser consideradas estructuras de cubo que utilizan tablas de hechos y dimensiones que se
encuentran en el Data Warehouse.

Schema Mondrian Workbench fue creado originalmente por algunas organizaciones para
crear fácilmente esquemas y utilizarlo como el motor de análisis. Pentaho ha actualizado
el entorno de trabajo de Workbench adicionando estabilidad, validación y Pentaho BI
Server para trabajar con Pentaho Business Intelligence Suite. Un esquema diseñado en
Workbench realmente es un documento XML que utiliza el motor de análisis de
Mondrian.
30
Ilustración 6: Pentaho Schema Workbench

2.2.17. Pentaho Report Designer (PRD)

Pentaho Reporting es un conjunto de herramientas para la creación de informes, con


Pentaho Reporting los usuarios son capaces de transformar datos en información
significativa a la medida de su necesidad. Puede crear reportes en HTML, Excel, PDF,
texto o informes impresos.

El desarrollo de esta herramienta es impulsado con el objetivo de crear un sistema


flexible y fácil de usar informes. El motor de informes le brinda flexibilidad para crear
informes que se adaptan a sus datos, ya que casi todas las propiedades se pueden
calcular durante la generación del informe. Los reportes pueden incluir datos de
prácticamente cualquier fuente de datos debido a la gran selección de fuentes de datos,
incluyendo bases de datos, fuentes de datos OLAP e incluso la herramienta ETL Data-
Integration de Pentaho.
31
Pentaho Report Designer es la herramienta principal de diseño para crear estructura de
informe. Su interfaz de usuario permite crear fácilmente el flujo de datos en el informe y
definir el aspecto visual del mismo.

Pentaho Report Designer ofrece un acceso completo a todas las configuraciones y


opciones de configuración del Pentaho Reporting Engine. Su elevado número de
posibilidades y flexibilidad extrema puede hacer que sea abrumadora para los usuarios
novatos. Esta herramienta está dirigido a usuarios avanzados técnicamente calificados.

Puede utilizar Pentaho Report Designer como herramienta de informes de escritorio


mediante la ejecución de sus informes de forma local. La Pentaho Report Designer
también puede publicar sus informes terminados en Pentaho BI- servidor para que su
informe está disponible para los demás.

Ilustración 7: Pentaho Report Designer

32
2.2.18. Modelo Estrella

“El modelo estrella es el más sencillo en estructura. Consta de una tabla central de
"Hechos" y varias "dimensiones", incluida una dimensión de "Tiempo". Lo
característico de la arquitectura de estrella es que sólo existe una tabla de dimensiones
para cada dimensión. “ (FABRIZZIO, 2010)

“Esto quiere decir que la única tabla que tiene relación con otra es la de hechos, lo que
significa que toda la información relacionada con una dimensión debe estar en una sola
tabla.” (FABRIZZIO, 2010)

Ilustración 8: Ejemplo de Modelo Estrella

33
Dimensiones

También llamada entidad, perspectiva, característica, dato maestro, etc.) Son los grupos
de datos que permiten identificar quién, cuándo o dónde se genera una operación o
transacción del negocio. Por ejemplo: clientes, proveedores, tiempo y lugar son
dimensiones típicas.

La agrupación de dimensiones según una relación de dependencia lógica, se le denomina


jerarquías. Tal es el caso del Tiempo: Año – Mes – Día.

“Una dimensión puede ser creada para usarse en un cubo individual o en múltiples
cubos. Una dimensión creada para un cubo individual, es llamada dimensión privada.
Por el contrario si esta puede ser usada por múltiples cubos, se le llama dimensión
compartida. Estas podrán ser usadas dentro de todo cubo, en la base de datos, así se
optimiza el tiempo y se evita el andar duplicando dimensiones privadas.” (MARTINEZ,
2015)

“Las dimensiones compartidas, también habilitan la estandarización de las métricas de


negocios entre cubos. Por ejemplo, el estandarizar las dimensiones compartidas para el
tiempo y localización geográfica, aseguran que los datos analizados, desde diferentes
cubos, estén organizados similarmente.” (MARTINEZ, 2015)

Tabla de hechos

“Una tabla de hechos (o tabla fact) es la tabla central de un esquema dimensional (en
estrella o en copo de nieve) y contiene los valores de las medidas de negocio. Cada
medida se toma mediante la intersección de las dimensiones que la definen, dichas
dimensiones estarán reflejadas en sus correspondientes tablas de dimensiones que
rodearán la tabla de hechos y estarán relacionadas con ella.” (Creative commons
attribution, 2015)

34
Existen diferentes tipos de tablas de hechos las cuales se describe a continuación:

 “Tabla de hechos de transacciones: representan eventos que suceden en un


determinado espacio-tiempo. Se caracterizan por permitir analizar los datos con
el máximo detalle.

 Tablas de hechos menores/Tablas de Coberturas: Son tablas que no tienen


medidas y tiene sentido dado que representan el hecho que el evento suceda.
Frecuentemente se añaden contadores a dichas tablas para facilitar las consultas
SQL.

 Tablas de hechos instantánea periódica: Son tablas de hecho usadas para recoger
información de forma periódica a intervalos de tiempo regulares. Dependiendo
de la situación medida o de la necesidad de negocio este tipo de tablas de hecho
son una agregación de las anteriores o están diseñadas específicamente.

 Tablas de hechos instantáneas de acumulación: representan el ciclo de vida


completo de una actividad o proceso, que tiene un principio y final. Se
caracterizan por presentar múltiples dimensiones que relacionadas con los
eventos presentes en un proceso.” (Creative commons attribution, 2015)

2.2.19. Modelo Copo de Nieve

“El modelo copo de nieve es una variación o derivación del modelo estrella. En este
modelo la tabla de hechos deja de ser la única relacionada con otras tablas ya que existen
otras tablas que se relacionan con las dimensiones y que no tienen relación directa con la
tabla de hechos. El modelo fue concebido para facilitar el mantenimiento de las
dimensiones, sin embargo esto hace que se vinculen más tablas a las secuencias SQL,
haciendo la extracción de datos más difícil así como vuelve compleja la tarea de
mantener el modelo.” (FABRIZZIO, 2010)

35
Ilustración 9: Ejemplo de Modelo Copo de Nieve

2.2.20. Modelo Multidimensionales (CUBOS)

“Los cubos son una estructura de datos organizada mediante jerarquías. Cada indicador
se puede evaluar en cualquiera de los niveles de las jerarquías. Así, por ejemplo, se
pueden obtener las "ventas" a nivel diario, mensual, o a anual, para un cliente, una
provincia, o un país.” (URQUIZU, 2008)

El uso de cubos OLAP tiene dos ventajas fundamentales:

 “Facilidad de uso: Una vez construido el cubo, el usuario de negocio puede


consultarlo con facilidad, incluso si se trata de un usuario con escasos o nulos
conocimientos técnicos. La estructura jerárquica es sumamente fácil de

36
comprender para la mente humana, y si ésta coincide con el modelo de negocio,
los resultados suelen ser espectaculares, ya que el cubo se convierte en una gran
"tabla dinámica" que el usuario puede consultar en cualquier momento.

 Rapidez de respuesta. Habitualmente, el cubo tiene pre-calculados las distintas


agregaciones, por lo que los tiempos de respuesta son muy cortos. Si el cubo está
bien diseñado, resultará igual de rápido consultar las ventas de una ciudad, o las
ventas de todo el país, o incluso el total de ventas de la compañía.” (URQUIZU,
2008).

37
3. CAPITULO: MODELAMIENTO DIMENSIONAL

3.1. Documentación de los Sistemas Fuentes

Las fuentes en las cuales se cuenta y en las que se basó el desarrollo del Data Warehouse
son archivos Excel y archivos planos, los mismos que van a ser descritos a continuación:

3.1.1. Archivo Notas.xlsx

Este archivo es la fuente principal que alimenta el Data Warehouse, contiene toda la
información de los estudiantes, carrera, notas, número de matrículas, cursos, materias,
asistencia y notas.

Ilustración 10: Archivo Notas.csv

38
Por la cantidad de datos que este archivo contiene fue necesario convertir este archivo
Excel a un archivo plano separado por “;” (CSV), es decir del archivo original
Notas.xlsx fue creado el archivo Notas.csv.

Ilustración 11: Archivo Notas.csv

El archivo Notas.csv se encuentra ubicado en la ruta: C:\Archivos_Planos.

Con el archivo plano se empezó a trabajar y diseñar en un modelo Data Warehouse que
cubra todos los datos que se encuentran contenidos en este archivo, pero antes del
diseñar un modelo se realizó una limpieza y homologación de datos.

39
3.1.2. Archivo Facultades.xls

Este documento Excel fue creado para recopilar todos los nombres de las facultades y
carreras que tiene la Universidad Central, esto con el objetivo de que en un futuro esta
solución pueda ser implementada en otras facultades dentro de la universidad.

Tabla 1: Archivo Facultades.xls

Este archivo contiene las facultades y carreras de toda la universidad así como códigos
que fueron creados para cada una de las facultades, esto con el propósito de que se pueda
obtener una jerarquía natural cuando los usuarios deseen analizar los datos por facultad o
por carrera.

40
3.2. Modelo Físico Stage

Este modelo es más conocido como DSA (Data Stage Area), este modelo se crea para
que los usuarios pueden extraer la información directamente desde las fuentes en
periodos de tiempo determinado, con la finalidad de no interferir con el funcionamiento
normal de las fuentes y tener los datos almacenados en una base de datos propia del Data
Warehouse.

En base a las fuentes entregadas se creó el siguiente modelo DSA:

Ilustración 12: Modelo Lógico DSA

41
Este modelo consta de 3 tablas las cuales se describen a continuación:

3.2.1. Dsa_notas

Tabla creada para almacenar toda la información entregada en el archivo Notas.xlsx,


esta tabla es capaz de guardar los daos de estudiantes, materias, cursos, paralelos,
número de matrícula, número de créditos, notas y asistencia.

3.2.2. Dsa_Estudiantes_Uce

Entidad creada con la finalidad de guardar todos los datos de los estudiantes enviados en
el archivo Notas.xlsx, esta tabla contendrá los solo datos únicos, es decir no habrá datos
de estudiantes repetidos; además se corrige los numero de cedula de los estudiantes que
tenían como inicio el cero (0), pues en el archivo fuente se estaba perdiendo el cero en
los números de cedula.

3.2.3. Dsa_Facultades

Tabla que va a guardar toda la información del archivo Facultades.xlsx, en esta tabla se
va a almacenar las facultades y carreras existentes en la Universidad Central.

Todas las tablas creadas en este modelo tienen un campo llamado etl_tstamp, este campo
sirve para identificar la fecha en la cual fue extraída la información de los sistemas
fuentes.

3.3. Modelo Lógico Stage

El modelo lógico del DSA (Data Stage Area), forma parte del diseño completo de un
data warehouse, es la estructura de cómo está formado el modelo lógico del modelo de
la base de datos

42
Este modelo es creado a partir del modelo físico, del cual se obtuvo el siguiente modelo:

Ilustración 13: Modelo Físico DSA

43
3.3.1. Descripción del Modelo

A continuación se describe la estructura de cada una de las tablas que conforman el


modelo DSA de esta solución:

Owner Name Comment


dsa_estudiante_uce
dsa_facultades
dsa_notas
Tabla 2: Tablas del Modelo DSA

Estructura Dsa_Estudiantes_Uce

Name Datatype Is PK Is FK
identificacion VARCHAR(20) No No
nombre_completo VARCHAR(128) No No
etl_tstamp DATETIME No No
Tabla 3: Estructura de la Tabla dsa_estudiantes_uce

Estructura Dsa_Facultades

Name Datatype Is PK Is FK
codigo_facultad VARCHAR(10) No No
facultad TEXT No No
codigo_carrera VARCHAR(10) No No
carrera TEXT No No
etl_tstamp DATETIME No No
Tabla 4: Estructura de la Tabla dsa_facultades

Estructura Dsa_Notas

Name Datatype Is PK Is FK
Fecha_Inicio_Periodo VARCHAR(20) No No
Fecha_Fin_Periodo VARCHAR(20) No No
Ciclo VARCHAR(20) No No
Carrera VARCHAR(100) No No

44
cedula VARCHAR(20) No No
Apellido_Paterno VARCHAR(64) No No
Apellido_Materno VARCHAR(64) No No
Nombres VARCHAR(64) No No
Apellidos_Nombres VARCHAR(256) No No
Curso VARCHAR(10) No No
Mat_Codigo_UCE VARCHAR(20) No No
Materia_Nombre VARCHAR(100) No No
Paralelo VARCHAR(10) No No
Materia_Ciclo VARCHAR(20) No No
Numero_Matricula VARCHAR(10) No No
Nota_1 NUMERIC(10,3) No No
Nota_2 NUMERIC(10,3) No No
Nota_3 NUMERIC(10,3) No No
Nota_4 NUMERIC(10,3) No No
Nota_5 NUMERIC(10,3) No No
Nota_6 NUMERIC(10,3) No No
Nota_7 NUMERIC(10,3) No No
Nota_8 NUMERIC(10,3) No No
Nota_Final NUMERIC(10,3) No No
Aisstencia_1 VARCHAR(20) No No
Asistencia_Total_1 VARCHAR(20) No No
Asistencia_2 VARCHAR(20) No No
Asistencia_Total_2 VARCHAR(20) No No
Asistencia_3 VARCHAR(20) No No
Asistencia_Total_3 VARCHAR(20) No No
Asistencia_Final VARCHAR(20) No No
Estado VARCHAR(20) No No
Sexo VARCHAR(10) No No
Credito VARCHAR(10) No No
etl_tstamp DATETIME No No
Tabla 5: Estructura de la Tabla dsa_notas

3.4. Modelo Físico DWH

El modelo físico del DWH es una descripción del modelo estrella que se va a
implementar en la base de datos donde se va a almacenar el Data Warehouse, este
modelo describe las estructuras de las entidades donde se almacenara los datos que se
tiene en como origen de esta solución.

Para crear el modelo físico hay que tener en cuenta las siguientes consideraciones:

45
3.4.1. Tipos de Datos

Revisar los tipos de datos disponibles en la base de datos destino, en especial número de
dígitos en números enteros.

3.4.2. La Precisión de los Flotantes

Cadenas de caracteres de longitud fija (char(50)) y variable (varchar(50))

3.4.3. Llaves Primarias

En ocasiones se pueden presentar casos en donde la llave primaria no puede


representarse en algún tipo de datos ofrecidos por la base de datos seleccionada, en ese
caso se optar por otra llave primaria.

Algunas bases de datos poseen la capacidad de "autoincrement" o "identity property"


con la cual pueden automáticamente manipular algún atributo para generar llaves
incrementales. Pero es importante verificar: como se manejan internamente.

3.4.4. Orden de los Atributos (Columnas)

Algo importante dependiendo de la base de datos que se utilice pero por lo general la
secuencia es:

 Columnas de longitud fija que no se actualizan frecuentemente.


 Aquellas que nunca se actualizan que por lo general tendrán longitud variable.
 Las que se actualizan frecuentemente.

46
3.4.5. Integridad Referencial

En la medida que sea posible indicar cuales columnas brindan o sirven de vínculo entre
dos tablas.

El usuario puede hacerse cargo de esto pero es mejor que el administrador de la base de
datos se haga cargo.

3.4.6. Índices

Un índice es un atajo desde un campo llave hacia la localización real de los datos.

Es el punto clave de la optimización de velocidad de toda base de datos.

Si se busca alguna tupla en base a un atributo que no tiene un índice entonces se realiza
un escaneo de la tabla completa lo cual es demasiado costoso, por eso es recomendable
usar índices en:

 Llaves primarias
 Llaves foráneas
 Índices de acceso
 Ordenamiento

En base a todas las consideraciones descritas se construye el siguiente modelo:

47
Tabla 6: Modelo Físico del DWH

Este modelo está compuesto por las siguientes tablas:

3.4.7. Dim_Fecha

Esta es una tabla donde se va a almacenar todo lo que se refiere al tiempo (Años, meses,
días, semestres, trimestres, fechas). Esta dimensión va a ayudar a los usuarios a sacar los
indicadores agrupados definidos en esta tabla.

3.4.8. Dim_Materias

Esta tabla va a guardar la información de todas las materias de las que se compone la
malla curricular, esta tabla guarda las materias agrupadas por cursos es decir por

48
semestres. El campo cod_malla y descripción van a ayudar a identificar cambios de
malla que puedan darse en el futuro.

3.4.9. Dim_Facultades

Tabla que tiene todas las carreras que existen actualmente en la Universidad Central,
estas carreras están agrupadas por facultad. Se tiene todas las facultades para que en el
futuro el modelo de Business Intelligence que se construye en el presente proyecto
pueda implementar en todas las facultades sin ningún problema.

3.4.10. Dim_Estados

En esta tabla se guarda los estados que un estudiante va a tener, es decir Aprobado o
Reprobado, Inscrito, etc.

A todos estos estados se les va a asignar un código:

49
Código Estado Estado

AP Aprobado

RE Reprobado

IN Inscrito

MA Matriculado

CO Convalidado

SU Suspenso

AN Anulado

-999 No definido
Tabla 7: Posibles Estados de los Estudiantes

3.4.11. Dim_Personas

Esta tabla va a guardar toda la información de los estudiantes de la facultad, es decir


que va a guardar número de cedula, nombres y apellidos; además esta tabla contiene una
columna llamada rol, esta columna ayudara a identificar qué papel tiene una persona
dentro de la faculta, es decir que en esta tabla se pueden guardar estudiantes, maestros,
personal docente, etc.

3.4.12. Fac_Seguimiento_Notas

Esta es la tabla de hechos, la tabla principal del modelo estrella, aquí se van a guardar
todos los indicadores, en este caso se va a guardar todas las notas y asistencias de los
estudiantes, con los datos de las notas y asistencias se van a crear muchos indicadores
dependiendo de qué reportes requiera el usuario final, esta tabla tienen las fechas inicio y
fin para que los cálculos de los indicadores se puedan agrupar en un rango de tiempo
definido.

50
3.5. Modelo Lógico DWH

Con el modelo físico creado en el paso anterior se creó el modelo lógico de la solución:

Tabla 8: Modelo Lógico del DWH

Cada una de las tablas que conforman el modelo, tienen su llave primaria, tipo de dato y
longitud.

3.6. Procesos ETL Diseñados

Para construir la solución de Business Intelligence descrita en este documento fue


necesario construir los siguientes procesos para poder extraer toda la información
entregada por el usuario y almacenarla en el Data Warehouse.

51
En todos los procesos construidos se colocó la columna etl_tstamp para poder identificar
la fecha en la que se cargó la información.

Además en los procesos que cargan la información en las dimensiones se ingresó un


registro ficticio llamado NO DEFINIDO, esto con la finalidad de garantizar la integridad
de los datos en los procesos de carga a la tabla de hechos.

A continuación se describe cada uno de los procesos creados.

3.6.1. Data Stage Notas

Este proceso es el encargado de extraer toda la información que se encuentra


almacenada en el archivo Notas.csv y la almacena en la tabla dsa_notas.

La tabla dsa_notas tiene la misma estructura que el archivo csv, esto para garantizar que
no se pierdan datos.

Ilustración 14: Proceso dsa_notas_TF

52
3.6.2. Data Stage Estudiantes UCE

Proceso que se encarga de extraer todos los datos de los estudiantes de la tabla
dsa_notas.

Este proceso solo carga los estudiantes distintos, es decir se quitan todos los valores
duplicados antes de cargar la tabla dsa_estudiantes_uce.

Ilustración 15: Proceso dsa_estudiantes_uce_TF

3.6.3. Dimensión Fecha

Proceso encargado de generar todas las fechas dentro de un intervalo finito, este
intervalo es definido por el usuario, en este caso se definido el intervalo comprendido
desde 1920-01-01hasta 2056-11-21, en el caso de requerir más fechas el usuario puede
modificar dicho intervalo.

Este proceso no tiene una tabla origen, pues se utiliza los transformadores
proporcionados por Pentaho para generar de manera ficticia todas las fechas requeridas y
almacenarlas en la tabla dim_fecha.

53
Ilustración 16: Proceso dim_fecha_TF

3.6.4. Dimensión Facultades

Proceso diseñado para extraer toda la información obtenida en el archivo Excel


Facultades.xls y almacenarla en la tabla dim_facultades.

Este proceso está diseñado para guardar toda la historia de las facultades con sus
respectivas carreras es decir cambios de nombre o incremento de las mismas.

Ilustración 17: Proceso dim_facultades_TF

54
3.6.5. Dimensión Materias

Proceso construido para extraer los códigos y nombres de las materias de la tabla
dsa_notas y cargarlas en la tabla dim_materias.

Este proceso solo va a cargar valores distintos, es decir que dentro de este proceso se
quitan los duplicados antes de cargar la tabla.

Para la construcción de este proceso se tuvo en cuenta la malla y todos los cambios que
pueda haber en el tiempo, de esta manera si ocurre un cambio de malla no será necesario
cambiar el proceso debido a que este si soporte dichos cambios.

Ilustración 18: Proceso dim_materias_TF

3.6.6. Dimensión Personas

Proceso construido en base a los datos entregados de los estudiantes, es decir que va a
guardar todos los datos de los estudiantes que fueron entregados. Dentro de este proceso

55
se define el rol de cada una de las personas que van a ser almacenadas en la tabla
dim_personas.

Por el momento todas las personas que fueron enviadas tienen el rol Estudiantes pero si
en el futuro quieren almacenar datos de Docentes, Personal Administrativo lo podrán
hacer sin ningún problema solo hay que cambiar el rol definido.

Ilustración 19: Proceso dim_persona_TF

3.6.7. Dimensión Estados

Proceso construido para extraer todos los datos de estados de la tabla dsa_notas y
guardar esta información en la tabla dim_estado.

Antes de almacenar la información en la tabla definitiva (dim_estados) se depuran todos


los duplicados, es decir solo se cargar valores distintos.

56
Ilustración 20: Proceso dim_estado_TF

3.6.8. Temporal Notas

Proceso que forma parte de la carga de la tabla de hechos, para cargar la tabla principal
del modelo estrella se dividió el proceso en dos partes debido al volumen de datos que se
tienen en el origen y a que los joins se deben hacer por descripciones.

El realizar los joins por descripciones toma mucho tiempo y desgaste recursos de la
máquina, por tal motivo se dividió el proceso en dos partes.

En esta primera parte se obtienen las llaves primarias de las dimensiones de fecha,
materias, facultades y estados, además de hacer todas las conversiones necesarias para
cargar los indicadores definidos en la tabla de hechos.

57
Ilustración 21: Proceso tmp_notas_TF

3.6.9. Tabla de Hechos Seguimiento Notas

Proceso que realiza la carga de datos desde la tabla temporal tmp_notas creada en el
paso anterior a la tabla de hechos fac_seguimiento_notas, en este proceso se realiza la
búsqueda de cada uno de los estudiantes almacenados en la tabla dim_persona; además
se realiza los cálculos de notas y asistencias (total y promedios), estos cálculos son
necesarios para ser mostrados en los reportes que posteriormente van a ser creados.

Ilustración 22: Proceso fac_seguimiento_notas_TF

58
3.6.10. Job Notas

Este es el Job principal diseñado para invocar a todas las transformaciones descritas
anteriormente.

En este proceso se colocó una sentencia SQL que va a ayudar a realizar reprocesos y
cargas incrementales de los datos en la tabla de hechos.

Ilustración 23: Proceso dwh_fac_notas_JB

59
4. CAPITULO: DESARROLLO Y DISEÑO DEL ETL

4.1. Instalación y Configuración de las Herramientas

4.1.1. Instalación de Framework 4.0

 Este framework es necesario para instalar MySQL, por lo tanto es requisito


indispensable instalar este programa. Para instalar el framework deben seguir los
siguientes pasos:

Descargar el instalador de la página oficial de Microsoft, en el siguiente enlace:


http://www.microsoft.com/es-es/download/details.aspx?id=17851

Ilustración 24: Página de Descarga de Framework 4.0

 Una vez descargado dar clic derecho y ejecutar como administrador sobre
dotNetFx40_Client_x86_x64.exe para ejecutar el instalador.

60
Ilustración 25: Instalador de Framework 4.0

 Se abrirá una ventana donde se desplegará todos los términos de la licencia del
programa a instalar, una vez leído dichos términos clic en la opción He Leído y
Aceptado los Términos de la Licencia, luego clic en Instalar.

Ilustración 26: Términos de la Licencia

61
 Esperar a que le proceso de instalación finalice.

Ilustración 27: Proceso de Instalación

 Cuando la instalación haya finalizado se desplegara una pantalla que le notificara


que los pasos de instalación han sido completados.

Ilustración 28: Finalización de la Instalación

62
4.1.2. Instalación de MySQL

MySQL es un motor de base de datos Open Source utilizado para desarrollar la presente
solución de Business Intelligence.

Estos son los pasos para descargar e instalar la versión MySQL Community Server 5.1

 Ingrese al sitio Web de descargas de MySQL en la siguiente dirección


https://dev.mysql.com/downloads/ y seleccione el enlace “MySQL Community
Server”:

Ilustración 29: Página Oficial de MySQL

63
 Seleccione la opción “Download” de “Windows Essentials”

Ilustración 30: Selección del Instalador a Utilizar

 Guardar el archivo en su computador como se lo indique su navegador, cuando la


descarga se haya completado clic derecho y Ejecutar como Administrador sobre
el instalador (mysql-essential-5.0.16-win32.msi).

Ilustración 31: Instalador de MySQL

64
 Aparece la pantalla de inicio del instalador. Seleccione “Next” para continuar

Ilustración 32: Pagina Inicial de Instalación

 Seleccione el tipo de instalación “Typical” y presione “Next”

Ilustración 33: Selección del Tipo de Instalación

65
 Clic en el botón “Install” para comenzar con la copia de archivos.

Ilustración 34: Progreso de la Instalación

 A continuación aparecen la pantalla de MySQL Enterprise, clic en “Next” para


continuar con la configuración de MySQL

Ilustración 35: Pantalla de MySQL Enterprise

66
 Seleccionar la opción “Standard Configuration” para su instalación y clic en
“Next”

Ilustración 36: Tipos de Configuración

 Seleccione las opciones “Install As Windows Service“ e “Include Bin Directory


in Windows Path”. No siempre se desea que el motor arranque automáticamente
cuando inicie el sistema operativo. Clic en “Next” para continuar.

Ilustración 37: Opciones de Arranque Automático del motor MySQL

67
 Ingrese la contraseña para el usuario root (el administrador del motor).
Si desea administrar el motor de forma remota, seleccione la opción “Enable root
access from remote machines”.
Si desea una cuenta anónima (sin usuario ni clave) seleccione la opción “Create
an Anonymous Account”.
Clic en “Next” para continuar.

Ilustración 38: Creación del Usuario root de MySQL

 Presione “Execute” para realizar la configuración.

Ilustración 39: Proceso de Configuración

68
 Al finalizar el proceso de configuración la pantalla deberá indicar que los pasos
se ejecutaron correctamente. Presione “Finish” para finalizar el proceso.

Ilustración 40: Procesos Configurados

4.1.3. Instalación de JDK (Java Development Kit)

Es necesario instalar JDK debido a que la plataforma de Pentaho la utiliza para su


correcto funcionamiento, para esto se realiza los siguientes pasos:

 Acceder a la página oficial de descarga


(http://www.oracle.com/technetwork/es/java/javase/downloads), desde la cual
descargaremos el JDK de Java SE 7u75, es decir, la versión 7, update 79 (última
versión de Java compatible con Pentaho).

69
Ilustración 41: Página Principal de Java

 Clic en Java Patform (JDK) para acceder a la página que contiene los enlaces de
descarga.

Ilustración 42: Enlaces de Descarga del JDK

 Acepta los términos de licencia de Oracle para que los enlaces se activen y elegir
la opción adecuada en función del sistema de 32 o 64 bits.

70
Ilustración 43: Instaladores del JDK

 Una vez descargado el instalador del JDK con la versión necesaria, empieza la
instalación dando doble clic sobre el instalador.

Ilustración 44: Inicio de Instalación del JDK

71
 Clic sobre Next para que empiece la instalación.

Ilustración 45: Progreso de Instalación

 Si la instalación se ha producido correctamente, el kit de desarrollo Java estará


instalado.

Ilustración 46: Pagina de Instalación Completada

72
 Para poder invocar las diferentes herramientas de Pentaho desde cualquier lugar
en la línea de comandos, es necesario que la carpeta del JDK instalado figure en
el PATH del sistema.
 Clic derecho sobre Mi PC y elegir Propiedades para que se despliegue la
información del sistema.

Ilustración 47: Información del Sistem

 Ingresar a Configuración Avanzada del Sistema.

Ilustración 48: Configuración Avanzada del Sistema

73
 Dentro de la pestaña Opciones avanzadas, pulsa sobre el botón Variables de
entorno para acceder al cuadro de diálogo que nos permite editarlas.

Ilustración 49: Variables de Ambiente

 En el cuadro Variables del sistema, clic en el botón Nueva para configurar una
nueva variable llamada PENTAHO_JAVA_HOME y colocar la ruta donde se
instaló el JDK.

Ilustración 50: Configuración del Path del JDK

 Para finalizar la configuración del JDK, clic en Aceptar

74
4.1.4. Instalación de Pentaho Data Integration

Pentaho Data Integration (PDI) o Kettle, es una poderosa, intuitiva y eficiente


herramienta, para la realización de procesos de Extracción, Transformación y Carga.

Para configurar Pentaho Data Integration hay que realizar los siguientes pasos:

 Descargar la versión Community de Kettle en el siguiente enlace


http://sourceforge.net/projects/pentaho/files/Data%20Integration/5.2/ en este
caso vamos descargar la última versión estable.

Ilustración 51: Pagina de Descarga de Pentaho Data Integration

 Crear un directorio con nombre Pentaho en la raíz del sistema y descomprimir el


archivo. Se creará una carpeta llamada data-integration.

Ilustración 52: Pentaho Data Integration

75
 Si se va a trabajar con bases de datos MySQL, es necesario descargar los
respectivos .jar del JDBC y copiarlos a la ruta C:\Pentaho\data-integration\lib

Ilustración 53: JDBC de MySQL

76
 Ahora los usuarios pueden iniciar el programa entrando al directorio de
instalación (C:\Pentaho\data-integration) y ejecutando el archivo Spoon.bat.

Ilustración 54: Página de Inicio de Pentaho Data Integration

4.1.5. Instalación de Pentaho Schema Workbench

Pentaho Schema Workbench es la herramienta que ayudara a los usuarios a crear,


modificar y publicar cubos OLAP, los cuales permiten a los usuarios realizar análisis
interactivos sobre un Data Warehouse creado.

Para instalar Pentaho Schema Workbench hay que seguir los siguientes pasos:

 Ir a la página de descarga de Pentaho Schema Workbench en el siguiente enlace


http://sourceforge.net/projects/mondrian/files/schema%20workbench/3.6.1-
stable/

77
Ilustración 55: Página de Descarga de Pentaho Schema Workbench

En este caso la última versión estable es la 3.6.1, descargar el archivo .zip.

 Ir a la carpeta Pentaho y descomprimir el archivo descargado, creara una carpeta


con el nombre (schema-workbench).

Ilustración 56: Pentaho Schema Workbench

 El siguiente paso es copiar el JDBC de MySQL dentro de la ruta


C:\Pentaho\schema-workbench\drivers

78
Ilustración 57: Configuración del JDBC de MySQL

 Ahora los usuarios pueden iniciar el programa entrando al directorio de


instalación (C:\Pentaho\schema-workbench) y ejecutando el archivo
workbench.bat.

Ilustración 58: Página de Inicio de Pentaho Schema Workbench

79
4.1.6. Instalación de Pentaho BI Server

Pentaho Business Intelligence Server es una herramienta que permite publicar en el web
reporte de Pentaho generado con otras herramientas.

A continuación se explica cómo instalar y configurar BI server:

 Descargar Pentaho BI server desde el siguiente link


http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
5.0/

Ilustración 59: Pagina de Descarga de Pentaho BI server

 Descomprimir el archivo zip descargado en la ruta C:\Pentaho. Creará una


carpeta llamada (biserver-ce)

80
Ilustración 60: Pentaho BI Server

 Una vez descomprimido el archivo zip, los usuarios ya pueden iniciar BI Server
dando doble clic en start-pentaho.bat

Ilustración 61: Ejecución del BI Server

81
 Cuando el servidor de BI se haya inicializado, los usuarios podrán ingresar a la
página principal de Pentaho ingresando a un navegador y colocando la siguiente
ruta: http://localhost:8080/pentaho/

Ilustración 62: Página de Inicio de Pentaho BI Server

4.1.7. Instalación de Pentaho Report Designer

Pentaho Report Designer es una herramienta de diseño desktop, que permite a los
usuarios definir y construir reportes, y luego publicarlos en el portal de BI de Pentaho
para que puedan ser ejecutados por los usuarios.

A continuación se detallan los pasos que se deben realizar para descargar y configurar
Pentaho Report Designer:

 Ir a la página de descarga utilizando la siguiente dirección


http://sourceforge.net/projects/pentaho/files/Report%20Designer/5.0.1-stable/

82
Ilustración 63: Pagina de Descarga de Pentaho Report Designer

 Seleccionar y descargar el archivo .zip para Windows.

 Una vez descargado, copiar el archivo en la ruta C:\Pentaho y descomprimirlo en


esa misma dirección. Se creara una carpeta report-desinger.

Ilustración 64: Ruta de Instalación de Pentaho Report Designer

83
 Una vez descomprimido el archivo los usuarios ya podrán utilizar Pentaho
Report Designer, ingresando a la carpeta report-designer y dando doble clic en el
fichero report-designer.exe.

Ilustración 65: Carpeta de Pentaho Report Designer

 Les aparece la pantalla principal de bienvenida de Pentaho Report Desginer


donde los usuarios pueden crear nuevos reportes o modificar los existentes.

Ilustración 66: Pentaho Report Designer

84
4.2. Característica de los datos

El archivo fuente (Notas.xlsx) entregado por las autoridades de la Facultad de


Ingeniería, Ciencias Físicas y Matemáticas consta de 34 columnas y de 102872 registros
de los cuales se destacan las siguientes características.

 Las fechas de inicio y fin de cada semestre no estaban contempladas en el


archivo original por la cual estas dos columnas fueron añadidas para poder
relacionar dicho archivo con la dimensión de tiempo, estas dos columnas son de
tipo cadena para mantener el formato en el cual se definió las fechas.

 Existe la columna Carrera que ayuda a identificar a que especialidad pertenece


cada uno de los estudiantes.

 Cinco columnas están destinadas a guardar la información personal (nombres,


apellidos y numero de cedula) de cada estudiantes.

 Tres columnas se utilizan para definir el número del curso, código de la materia y
el nombre de la materia que el estudiante toma en un determinado semestre.

 11 columnas están destinadas a guardar el número de matrícula, notas (1-8), y


asistencia, estos datos se los tiene por cada alumno y materia para poder realizar
un análisis del rendimiento de los estudiantes en un periodo de tiempo
determinado.

 Una columna guarda el estado del estudiante al final del semestre es decir si
aprobó, reprobó o se retiró de la materia en la que al inicio del semestre se
matriculo.

Todas las 34 columnas fueron definidas como cadenas (varchar) para evitar problemas al
momento de realizar los procesos de extracción.

85
Ilustración 67: Archivo Fuente Notas.xlsx

4.3. Diseño del ETL

Los procesos de extracción, transformación y carga fueron diseñados siguiente un


estándar para que cada transformación manejo en su mayor parte los mismos objetos.

A continuación se detallan cada uno de los objetos que fueron utilizados para diseñar los
procesos ETL:

4.3.1. Entrada de Tabla (Table Input)

Lee información de una base de datos fuente mediante un acceso y SQL.

Las opciones proporcionadas en el menú de kettle para permitir las entradas de tabla
son:

86
 Nombre de Paso (Step Name): en este campo se coloca el nombre, debe ser único
en una sola transformación.
 Conexión (Connection): enlace a la base de datos de la cual se van a leer los
datos.
 SQL: sentencia empleada para leer la información con la base de datos
conectada.
 Insertar datos de un paso (Insert data from step): determinar el nombre de paso
de entrada de donde vienen los parámetros para la sentencia, si aplica.
 Limite (Limit): Pone el número de líneas a leer en la base de datos

Ilustración 68: Table Input

4.3.2. Salida de Tabla (Table Output)

Carga información en una tabla de base de datos.

Las opciones proporcionadas en el menú de kettle para generar salidas de tablas son:

 Nombre de Paso (Step Name) en este campo se coloca nombre referencial de la


inserción.
 Conexión (Connection): se selecciona la conexión para cargar los datos.
 Esquema de destino (Target Schema): Presenta y escoge el esquema donde se
cargan los datos.
 Tabla de Destino (Target Table): esta alternativa permite dirigir a la tabla dentro
de un esquema enlazado anteriormente.
 Tamaño de Transacción (Commit Size): Numero de filas procesadas para su
inserción.
 Vaciar Tabla (Truncate Table): opción que permite eliminar los registros de una
tabla ante de su inserción.

87
 Ignorar Errores de Inserción (Ignore Insert Errors): Impide una interrupción si se
produce un error al insertar.
 Especificar los campos de la tabla a cargar (Specify database fields): se activa
esta opción para efectuar el mapeo de los datos en la pestaña Datafields.
 Campos a Mapear (Enter Field Mapping): se activa esta opción para efectuar el
mapeo de los datos.
 Particionar datos sobre las tablas (Partition data over tables): Se usa para dividir
los datos en distintas tablas.
 Usar actualizaciones en lote para inserciones (Use batch Update for inserts) se
activa esta opción para que la actualización de registros sea por bloques y la
carga sea más rápido.

Ilustración 69: Table Output

4.3.3. Entrada Excel (Excel Input)

Lee información de uno o varios archivos en Excel.

Las opciones proporcionadas en el menú de kettle para aceptar las entradas de Excel
son:

 Nombre de Paso (Step Name): en este campo se coloca el nombre, debe ser único
en una sola transformación.
 Pestaña Ficheros: se especifica la ruta o el nombre de uno o más archivos de
entrada a procesar, con soporte de variables.
 Pestaña Hojas: elige las hojas de los archivos que se usan para extraer los
registros.
 Pestaña Contenido: incluye las activaciones de las siguientes opciones.
 Cabecera: si se incluyen los encabezados de las columnas en el flujo.

88
 Eliminar filas vacías: si existen líneas vacías en el flujo.
 Detener al encontrar filas vacías: Detiene el proceso si encuentra filas
vacías en el proceso.
 Límite: filas que ingresan en el flujo.
 Pestaña Manejador de Error: presenta varias opciones cuando un error es
encontrado en el proceso y través de estas el usuario decide qué medidas se
deben tomar en este específico proceso.
 Pestaña Campos: elige los campos de las hojas seleccionadas que van a ser leídos
aquí y se definen los campos tipo, longitud, precisión, formato etc.

Ilustración 70: Excel Input

4.3.4. Información del Sistema (Get System Info)

Adquiere información del flujo de datos a través los saltos existente en el entorno kettle,
contiene filas con campos que comprende información solicitada.

Las opciones proporcionadas en el menú de kettle para esta clase se dato de entrada son:

 Nombre de Paso (Step Name): en este campo se coloca el nombre, debe ser único
en una sola transformación.
 Sección campos se establecen los campos de salida.
 Tipo
 Información de Tiempo (Hora y Fecha)
 Datos de tiempo de la ejecución en la transformación.
 Argumentos de líneas de comando.

89
Ilustración 71: Get System Info

4.3.5. Insertar Actualizar (Insert Update)

El procesamiento de unión se automatiza por realiza la búsqueda de una fila usando una
o más claves de consulta, cuando no se encuentra la fila inserta una nueva fila.

Si los campos de una fila encontrada no son iguales no se hace nada. Si los campos no
son iguales se actualiza la fila.

Las opciones proporcionadas en el menú de kettle para las salidas de insertar/actualizar


son:

 Nombre de Paso (Step Name) en este campo se coloca un nombre único en la


transformación específica.
 Conexión (Connection): se selecciona la conexión para cargar los datos.
 Esquema de destino (Target Schema): Presenta y escoge el esquema donde se
cargan los datos.
 Tabla de Destino (Target Table): esta alternativa permite dirigir a la tabla donde
se van actualizar o insertar los datos.
 Tamaño de Transacción (Commit Size): Número de filas para ejecutar
(insert/update) antes de un commit.
 No realizar actualizaciones funciona como una salida de tabla pero sin insertar
errores por datos duplicados.
 La clave(s) para realizar búsqueda de valor(es) lista valores de campo con
comparadores.

90
 Campos de actualización indica todos los campos de la tabla incluyendo las
llaves que desea insertar o actualizar y se coloca N en el campo que no requiere
actualización.

Ilustración 72: Insert Update

4.3.6. Generar Filas (Generate Rows)

Genera un determinado número de filas por defecto vacías pero también pueden incluir
campos estáticos.

Las opciones que se encuentran en el menú son:

 Nombre del paso: se define el nombre del paso debe ser único en la
transformación indicada.
 Límite: se registra el número de filas que se desea generar.
 Campos: filas con campos estáticos que se incluyen (opcional).

Ilustración 73: Generate Rows

4.3.7. Seleccionar Valores (Select Values)

Selecciona, renombra, borra, modifica los tipos de datos y permite realizar la


configuración de la longitud y precisión de los campos.

En la ventana existen tres pestañas y son:

91
 Seleccionar y Modificar: establece el orden exacto y nombre en que los campos
deben ser ubicados en las filas de salida. Esta pestaña presenta varias opciones
 Nombre del paso: se define el nombre del paso debe ser único en la
transformación indicada.
 Nombre Campo: nombre del campo a seleccionar o modificar.
 Renombrar a: se utiliza para cambiar de nombre un campo caso contrario
se deja en blanco.
 Longitud: se coloca el número que indique la longitud del campo.
 Precisión: se coloca el número que indique la precisión del campo.
 Eliminar: se señalan los campos que van a ser borrados de las filas de salida.
 Meta-Información: Permite cambiar nombre, tipo, precisión (meta data de uno o
más campos)

Ilustración 74: Select Values

4.3.8. Calculadora (Calculator)

Proporciona una serie de funciones que pueden ser aplicados sobre los valores de los
campos de entrada.

 Es importante mencionar que la velocidad de ejecución de la calculadora es


mayor a la dada por JavaScript personalizado.
 La calculadora incluye funciones matemáticas y de fecha frecuentemente usados.
 Además el usuario también debe especificar el tipo de retorno de la función de
los argumentos (campo A, campo B, campo C).
 Además se puede eliminar el campo del resultado (salida) luego de que todos los
valores sean calculados .Esto se realiza para quitar valores temporales.

92
Ilustración 75: Calculator

4.3.9. Unir Filas (Join Rows)

Efectúa combinaciones (producto cartesiano) de todas las filas del flujo de entrada.

Las opciones que se encuentran en el menú son:

 Nombre del paso: se define el nombre del paso debe ser único en la
transformación indicada.
 Directorio Temporal: Señala el nombre del directorio en donde el sistema guarda
los archivos temporales.
 Prefijo fichero TMP: Es el prefijo de los archivos temporales cuando se generan.
 Max tamaño cache en filas: Se fija el número de filas en la cache antes que el
sistema lea los datos de los archivos temporales.
 Paso principal desde el que: selecciona el paso en donde se lee la mayoría de
datos. En este paso no se cachean los datos.
 Condición: cuando se establece condiciones complejas para limitar el cantidad de
filas de salida.

Ilustración 76: Join Rows

4.3.10. Unión Ordenada (Sorted Merge)

Asocia filas de entrada de diferentes pasos y las opciones que se encuentran en el menú
son:

93
 Nombre del paso: se define el nombre del paso debe ser único en la
transformación indicada.
 Sección campos: se determina el nombre del campo y la trayectoria de
orientación (ascendente y descendente).

Ilustración 77: Sorted Merge

4.3.11. Añadir Secuencia (Add Sequence)

Se introduce un valor de secuencia que se restaura cada vez que se cambia un valor en la
lista de campos definidos

Ilustración 78: Add Sequence

4.4. Pruebas del ETL

Cada uno de los procesos creados y desarrollados en el presente proyecto fue probado
más de una vez para garantizar que el proceso funcione bien bajo condiciones normales.

De cada ejecución que se realizó de los procesos diseñados se guardó los tiempos de
duración que se tomó en terminar su proceso normal de ejecución, esto con la finalidad
de tener un tiempo estimado para próximas ejecuciones de los ETL’s,

Los tiempos que arrojaron las ejecuciones de los procesos DSA y DWH son los
siguientes:

94
Nombre del Proceso Tiempo de Ejecución

1 dsa_notas_TF 0:02:45

2 dsa_estudiantes_uce_TF 0:01:49

3 dsa_facultades_TF 0:01:36

4 dwh_tmp_fecha_TF 0:01:38

8 dwh_dim_fecha_TF 0:01:04

6 dwh_dim_personas_TF 0:01:46

7 dwh_dim_materias_TF 0:01:37

8 dwh_dim_estado_TF 0:04:45

9 dwh_dim_facultades_TF 0:01:36

10 dwh_tmp_notas_TF 32:05:26

11 dwh_fac_seguimiento_notas_TF 0:07:28

Total 33:07:11
Tabla 9: Tiempos de Ejecución

Cada proceso está garantizado que funciona normalmente siempre cuando se mantenga
el mismo origen de datos (hojas Excel) y el formato, si el usuario cambio el formato del
Excel y en su defecto cambio de origen el proceso va a fallar en su ejecución.

95
4.5. Cuadre de Datos del Data Warehouse

Una vez finalizado la construcción y pruebas de los procesos ETL se procedió y validar
la información cargada en el Data Warehouse para garantizar que no se estén perdiendo
datos en los procesos de transformación desde el DSA hacia el DWH.

El proceso de cuadre de datos consiste en realizar un conteo de registros entre el origen


vs el destino para observar que todos los registros fueron almacenados correctamente en
el Data Warehouse.

Todos los procesos fueron sometidos a un cuadre de datos, este cuadre se lo realizo en
base al excel que se utilizó para cargar la información.

Para realizar el proceso de cuadre hay que tener en cuenta que en cada una de las
dimensiones del Data Warehouse fueron insertados un registro ficticio llamado NO
DEFINIDO.

Además se adjuntan los select que fueron utilizados para cuadrar los datos con la
finalidad que cualquier usuario pueda validar la transparencia que se tuvo al realizar este
proceso.

A continuación se detallan cada uno de los cuadres realizados.

Query DSA Registros DSA Registros Query DWH


DWH

select count(*) from dsa_notas; 102867 102867 select count(*) from


fac_seguimiento_notas;

select count(*) from 3803 3804 select count(*) from


dsa_estudiante_uce; dim_persona;

select count(*) from 56 57 select count(*) from


dsa_facultades; dim_facultades;

select count(distinct estado) from 7 8 select count(*) from

96
dsa_notas; dim_estados;

select count(distinct curso, 2151 2152 select count(*) from


mat_codigo_uce,materia_nombre) dim_materias;
from dsa_notas;
Tabla 10: Cuadre de Datos

La dimensión de fechas (dim_fecha) no tiene un proceso de cuadre de datos debido a


que esta dimensión no tiene un origen del cual se pueda obtener la información, todas las
fechas contenidas en esta tabla se las inserto de forma ficticia.

En esta dimensión se puede ver fechas desde 1920-01-01 hasta 2056-11-21.

4.6. Estructura del Diseño del Data Warehouse

Con el proceso de cuadre de datos se certifica que el modelo estrella construido para el
presente Data Warehouse cumpla con todas las condiciones y especificaciones
realizadas en fases anteriores, por lo tanto el modelo construido en esta solución de
Business Intelligence cumple con los requisitos levantados por los usuarios.

De esta manera se procesó a describir cada una de las estructuras (campos y tipos de
dato de dimensiones y tabla de hechos) que forman parte del Data Warehouse
construido.

Este proceso se lo realiza en base al modelo construido en Erwin Data Modeling, del
cual se va a obtener las estructuras de las tablas.

El Data Warehouse consta de las siguientes tablas:

Estructura del Data Warehouse


Owner Name Comment
dim_estados

97
dim_facultades
dim_fecha
dim_materias
dim_persona
fac_seguimiento_notas
Tabla 11: Estructura del DataWarehouse

Se procede a detallar cada una de las tablas utilizadas en el Data Warehouse.

4.6.1. Estructura de la Dimensión Estado

Estructura de la Dimensión Estado


Name Datatype Is PK Is FK Comment
sid_estado INTEGER Yes No
cod_estado VARCHAR(20) No No
nom_estado VARCHAR(64) No No
etl_tstamp DATETIME No No
Tabla 12: Estructura de la Dimensión Estado

4.6.2. Estructura dela Dimensión Facultades

Estructura dela Dimensión Facultades


Name Datatype Is PK Is FK Comment
sid_facultades INTEGER Yes No Identificador
unico de la tabla
de facultades
cod_facultades VARCHAR(20) No No Código
establecido a
cada una de las
facultades de la
universidad
facultades VARCHAR(256) No No Nombre de cada
una de las
facultades
existentes en la
universidad
cod_carrera VARCHAR(20) No No Código
establecido a
cada una de las
carreras dentro de
la facultad
carrera VARCHAR(128) No No Nombre de las
diferentes
carreras

98
establecidas en
cada facultad
etl_tstamp DATETIME No No Fecha de carga

Tabla 13: Estructura de la Dimensión Facultades

4.6.3. Estructura de la Dimensión Fecha

Estructura de la Dimensión Fecha


Name Datatype Is PK Is FK Comment
sid_fecha INTEGER Yes No Identificador
unico de la tabla
de fechas
fecha DATE No No Todas las fechas
anio INTEGER No No Año de cada una
de las fechas
trimestre INTEGER No No Número del
trimestre del año
des_trimestre VARCHAR(20) No No Descripción de
cada uno de los
trimestre
fecha_inicio_trim DATE No No Fecha en la cual
estre inicia el trimestre
fecha_fin_trimestr DATE No No Fecha en la cual
e finaliza el
trimestre
semestre INTEGER No No Número del
semestre a la que
pertenece la
fecha
des_semestre VARCHAR(20) No No Descripción de
cada semestre a
la que pertenece
la fecha
fecha_inicio_seme DATE No No Fecha en la cual
stre inicia el semestre
fecha_fin_semestr DATE No No Fecha en la cual
e finaliza el
semestre
mes INTEGER No No Mes de cada una
de las fechas
des_mes VARCHAR(20) No No Descripción del
mes de cada una
de las fechas
des_corta_mes VARCHAR(20) No No Descripción corta
de cada una de
las fechas

99
fecha_inicio_mes DATE No No Fecha en la cual
inicia el mes
fecha_fin_mes DATE No No Fecha en la cual
finaliza el mes
etl_tstamp DATETIME No No Fecha de carga
Tabla 14: Estructura de la Dimensión Fecha

4.6.4. Estructura de la Dimensión Materias

Estructura de la Dimensión Materias


Name Datatype Is PK Is FK Comment
sid_materias INTEGER Yes No
cod_malla VARCHAR(20) No No
nom_malla VARCHAR(100) No No
cod_materia VARCHAR(20) No No
num_curso INTEGER No No
desc_materia VARCHAR(64) No No
etl_tstamp DATETIME No No
Tabla 15: Estructura de la Dimensión Materia

4.6.5. Estructura de la Dimensión Persona

Estructura de la Dimensión Persona


Name Datatype Is PK Is FK Comment
sid_persona INTEGER Yes No Identificador
unico de la tabla
de estudiantes
identificador VARCHAR(20) No No Número de
cedula o de
pasaporte de cada
uno de los
estudiantes
nombres_complet VARCHAR(128) No No Nombre de cada
os una de los
estudiantes
registrados en el
sistema
rol VARCHAR(20) No No
etl_tstamp DATETIME No No Fecha de carga
Tabla 16: Estructura de la Dimensión Persona

4.6.6. Estructura de la Tabla de Hechos

100
Estructura de la Tabla de Hechos
Name Datatype Is PK Is FK Comment
sid_fecha_inicio INTEGER Yes Yes Identificador
unico de la tabla
de fechas
sid_fecha_fin INTEGER Yes Yes Identificador
unico de la tabla
de fechas
sid_facultades INTEGER Yes Yes Identificador
unico de la tabla
de facultades
sid_persona INTEGER Yes Yes Identificador
unico de la tabla
de estudiantes
sid_materias INTEGER Yes Yes
sid_estado INTEGER Yes Yes
num_matricula INTEGER Yes No
nota_1 NUMERIC(10, No No
3)
nota_2 NUMERIC(10, No No
3)
nota_3 NUMERIC(10, No No
3)
nota_4 NUMERIC(10, No No
3)
nota_5 NUMERIC(10, No No
3)
nota_6 NUMERIC(10, No No
3)
nota_7 NUMERIC(10, No No
3)
nota_8 NUMERIC(10, No No
3)
asistencia_1 INTEGER No No
asistencia_2 INTEGER No No
asistencia_3 INTEGER No No
asistencia_total INTEGER No No
nota_final NUMERIC(10, No No
3)
promedio_notas NUMERIC(10, No No
3)
promedio_asiste NUMERIC(10, No No
ncia 3)
num_creditos INTEGER No No
conteo INTEGER No No
etl_tstamp DATETIME No No
101
Tabla 17: Estructura de la Tabla de Hechos

4.7. Calidad de Datos

Después de haber recibo el archivo fuente en el que se basa todos los procesos
construidos, se realizó un paso previo que es Calidad de Datos a cada uno de los campos
enviados en el archivo Notas.xlsx.

Este paso ayudo a observar algunas inconsistencias que se estaban dando en los datos de
los estudiantes, así mismo ayudo a limpiar duplicados, caracteres especiales y datos
basura que no aportaban valor al DataWarehouse.

De esta manera se garantizó que al Data Warehouse solo se cargan los datos limpios y
validos sin duplicados y datos basura que podrían dañar la información que se va a
almacenar en la estructura del Data Warehouse.

Todos los detalles a los que se les aplico calidad de datos se describen a continuación
para que el usuario puede ver los problemas que tenía el Excel donde almacenada los
datos de los estudiantes, esto con la finalidad que en procesos posteriores la limpieza de
datos se los haga antes de ejecutar los procesos ETL construidos.

La limpieza de los datos abarco los siguientes puntos:

 Se colocó todos los códigos de las materias en la columna mat_codigo_uce


dejando solo el nombre de las materias en la columna materia_nombre

mat_codigo_uce materia_nombre
101 CALCULO DIFERENCIAL
102 FISICA I
103 PROGRAMACION I
104 TOPOGRAFIA I
105 QUIMICA DE MATERIALES DE CONSTRUCCION
Tabla 18: Corrección en Columna de Materias

102
 Se unificó los nombres de los estudiantes, pues se encontraron casos en los que
había espacios y tab entre los nombres y los apellidos.

Apellidos y Nombre

ABARCA SOLIS JESSICA MARIBEL

ABRIL BUENAÑO NELLY CAROLINA

ACERO REINOSO MIRIAN LUCIA

ABRIL BUENAÑO NELLY CAROLINA

ABARCA SOLIS JESSICA MARIBEL

ACERO REINOSO MIRIAN


Tabla 19: Unificación de Nombres de Estudiantes

 Se encontró casos en los cuales los nombre de los estudiantes estaban sin
espacios, es decir no se podía diferenciar entre sus nombres y apellidos para lo
cual se coloca espacios entre nombres y apellidos.

Apellidos y Nombre
PAGUAY YUPA JUAN JONNATHAN
HIDALGO RUMIGUANO DIEGO
ISRAEL
ESCOBAR MUÑOZ LUIS JOSE
ROJAS MUÑOZ ELVIS JORDANO
FIGUEROA CUASPA CARLOS
ANDRES
Tabla 20: Estandarización de los Nombres de Estudiantes

 Se colocó una fecha inicio y una fecha fin de semestre, las cuales van a ayudar a
identificar los periodos a los cuales pertenecen las materias, notas y estudiantes.

103
fecha_inicio_periodo fecha_fin_periodo
2014-09-01 2015-03-31
2012-09-01 2013-03-31
2013-04-01 2014-08-31
2014-09-01 2015-03-31
Tabla 21: Fechas Inicio y Fin de los Periodos Escolares

 Se depuro todos los registros que se encontraron repetidos en el archivo


Notas.csv, dejando valores únicos para no tener problemas al cargar los datos.

INGENI 8026 BER AND DARIO BERMUDEZ 6 6 HORMIGO 1 SEME 1


ERÍA 6195 MUD RAD JAVIE ANDRADE DARIO 0 N STRA
CIVIL 9 EZ E R JAVIER 5 ARMADO II L
INGENI 8026 BER AND DARIO BERMUDEZ 6 6 HORMIGO 2 SEME 1
ERÍA 6195 MUD RAD JAVIE ANDRADE DARIO 0 N STRA
CIVIL 9 EZ E R JAVIER 5 ARMADO II L
Tabla 22: Datos Duplicados

104
4.8. Diseño de Cubos OLAP

Para el Data Warehouse construido se diseñó un cubo OLAP llamado Notas, el cual
contiene todas las dimensiones y medidas necesarias para que el usuario pueda realizar
un análisis interactivo e intuitivo.

Para la construcción y diseño de los cubos OLAP se utilizó la herramienta Pentaho


Schema Workbench la cual ayudara a los usuarios funcionales y administradores a dar
mantenimiento a los cubos construidos y permitirá desarrollar más cubos si fuese el
caso.

La plataforma Pentaho permite que todos los cubos OLAP que sean diseñados en
Schema Workbench se los pueda publicar en el servidor web de dicha plataforma, de
esta manera el usuario pueda acceder vía web a visualizar los cubos OLAP y realizar
análisis interactivo con todos los datos almacenados en el Data Warehouse.

El cubo diseñado (Notas), contiene la siguiente estructura:

 Inicio del Semestre: Mostrara la fecha en la que se inició cada semestre en la


Universidad Central del Ecuador.
 Fin del Semestre: Contiene la fecha en la que finalizo las clases en cada uno de
los semestres.
 Estudiantes: Muestra la cedula y los nombres de cada uno de los estudiantes de la
facultad.
 Materias: Contiene toda la información de los cursos, códigos de materias y
nombres de la materias que se imparten o se impartieron en la malla curricular de
la Facultad.
 Facultades: Tiene la información de todas las facultades y carreras existentes en
la Universidad Central del Ecuador, con la finalidad que el proyecto se pueda
implementar en otras facultades en el futuro.

105
Además de todas las descripciones se incluyó las siguientes medidas para que el usuario
las utilice en diferentes análisis:

 Nota 1: Muestra la primer nota que el estudiante obtuvo en un semestre


determinado una materia determinada.
 Nota 2: Muestra la segunda nota que el estudiante obtuvo en un semestre
determinado una materia determinada.
 Nota 3: Muestra la tercera nota que el estudiante obtuvo en un semestre
determinado una materia determinada.
 Nota 4: Muestra la cuarta nota que el estudiante obtuvo en un semestre
determinado una materia determinada.
 Nota 5: Muestra la quinta nota que el estudiante obtuvo en un semestre
determinado una materia determinada.
 Nota 6: Muestra la sexta nota que el estudiante obtuvo en un semestre
determinado una materia determinada.
 Nota 7: Muestra la séptima nota que el estudiante obtuvo en un semestre
determinado una materia determinada.
 Total Notas: Contiene la suma total de las siete notas obtenidas por el estudiantes
en un semestre en una determinada materia.
 Promedio Notas: Contiene el promedio del total de notas dividido para el número
de notas que el estudiante obtuvo.
 Numero de Matricula: Muestra el número de matrícula que un estudiante está
realizando en un semestre determinado.
 Número de Créditos: Muestra el número de créditos que el estudiante está
cogiendo dentro de un periodo escolar determinado.
 Número de Estudiantes: Contiene el número de total de estudiantes que se tiene
registrado en el sistema.

106
Ilustración 79: Estructura del Cubo Notas

4.9. Diseño de Reportes

Al diseñar los reportes que van a ser vistos tanto por usuarios finales como autoridades y
docentes de la facultad se tomó en cuenta la homogeneidad al crear el formato al que
todos los reportes deben acogerse.

Siguiendo este lineamiento se diseñó un estándar para los reportes que van a ser
creados, el formato definido consta de tres partes:

 Cabecera: En esta sección se colocara el nombre de la institución educativa, el


logo que la identifica, la facultad a la que pertenece el reporte diseñado la
especialidad que se está consultando en un momento determinado.

107
Ilustración 80: Diseño de la Cabecera del Reporte

 Detalles del Reporte: Esta sección fue creada para colocar todos los datos que la
consulta genere, estos datos van a ser mostrados en forma de tablas para que el
usuario pueda exportar o guardarlos en el formato que lo desee, además en esta
parte del reporte se podrá visualizar el periodo (fecha inicio y fecha fin) que los
usuarios están consultado en un tiempo determinado.

Ilustración 81: Detalles del Reporte

 Pie de Página del Reporte: en esta sección se mostrara todos los gráficos (barras,
pastel) que generen los datos mostrados en la sección de detalles del reporte, de
esta manera se le proporciona otra forma de visualizar los datos y permite que el
usuario tenga dos perspectivas de los datos almacenados en el Data Warehouse.

108
Ilustración 82: Pie de Página del Reporte

4.10. Reportes Diseñados

Para la solución de Business Intelligence desarrollada se construyeron los siguientes


reportes:

 Alumnos Matriculados por Materia: Muestra todos las materias de una carrera
específica, el número de estudiantes que se encuentran tomando dicha materia,
además se realiza el cálculo del promedio de las notas, así como se obtiene la
nota máxima y mínima de todos los estudiantes dentro de una materia.

109
110
Ilustración 83: Alumnos Matriculados por Materia

 Distribución de Alumnos por Rangos de Notas: Se construyó este reporte con la


finalidad de mostrar por cada una de las carreras existentes en la facultad, el
rango total de las notas obtenidas por todos los estudiantes que pertenecen a cada
una de las carreras, además de mostrar el número de estudiantes que están dentro
de dicho rango clasificado.

Para clasificar las notas se definió los siguientes rangos 0, 0-3.99, 4-6.99, 7-10

Todos los estudiantes deben estar dentro de algún rango definido

111
112
Ilustración 84: Distribución de Alumnos por Rangos de Notas

 Distribución de Materias y Número de Estudiantes: Este reporte muestra todas


las materias de una carrera determinada de la facultad y el número de estudiantes
que están tomando las materia en un periodo de tiempo específico, además se
definido rangos que abarquen a todos los números de estudiantes.

Para este reporte se construyó los siguientes rangos 004-, 005-009, 010-014, 015-
024, 025-059, 060-099, 100-149, 150-189, 200+.

113
114
Ilustración 85: Distribución de Materias y Número de Estudiantes

 Distribución por Número de Matrícula y Número de Estudiantes: Este reporte


muestra todas las carreras existentes en la facultad y el número total de
estudiantes agrupados por el número de matrícula que están cursando dentro de
una materia dada. Este reporte mostrara las tres posibilidades que un estudiante
tiene de tomar una materia (primera, segunda y tercera matricula) agrupados por
carrera.

115
116
Ilustración 86: Distribución por Número de Matrícula y Número de Estudiantes

 Distribución por Rango de Notas y Número de Matrícula: Este reporte muestra


todas las carreras que existen en la facultad, el número de estudiantes que
pertenecen a cada una de las especialidades, estudiantes agrupadas por el número
de matrícula (primera, segunda y tercera matricula) y el rango de notas de dichos
estudiantes dentro de cada matricula que están tomando.

117
118
Ilustración 87: Distribución por Rango de Notas y Número de Matricula

 Estudiantes Matriculados y Rangos de Notas: Este reporte muestra todas las


carreras de la facultad con todos los cursos que existen dentro de las mismas, el
total de estudiantes de cada curso de cada carrera y el rango de notas que cada
estudiante obtuvo en un semestre determinado. Se determinaron los siguientes
rangos para la construcción de este reporte 0, 0-3.99, 4-6.99, 7-10, con dichos
rangos se cubren la totalidad de notas obtenidas por los estudiantes.

119
120
Ilustración 88: Estudiantes Matriculados y Rangos de Notas

 Número de Estudiantes por Materia y Carrera: Muestra todas las materias que se
dictan en la malla actual en la facultad, estas materias están agrupadas por
carrera; además se muestra el número total de estudiantes que toman cada una de
las materias, toda esta información se muestra para un periodo que determine el
usuario.

121
Ilustración 89: Número de Estudiantes por Materia y Carrera

122
 Distribución de Alumnos por Carrera y Su Estado al Final del Semestre: Muestra
todos los alumnos de cada una de las carreras existentes en la facultad con su
respectiva estado al final del semestre. El usuario podrá observar todos los
estados que un estudiante puede tener.

Los estados pueden ser: Aprobado, reprobado, Convalidado, Inscrito.

Toda la información se muestra por un periodo lectivo escogido por el usuario.

123
Ilustración 90: Distribución de Alumnos por Carrera y Su Estado al Final del Semestre

124
5. CAPITULO: CONCLUSIONES Y RECOMENDACIONES

5.1. Conclusiones

 La herramienta de Business Intelligence desarrollada permite organizar y conocer el


rendimiento académico estudiantil de las carreras existentes en la Facultad de
Ingeniería, Ciencias Físicas y Matemáticas dando a cada destinatario la información
que necesita de manera oportuna, mediante la ejecución de consulta en los reportes
académicos estadísticos interactivos y bajo criterios propios de análisis.
.
 En base a los datos proporcionados por el sistema SAU se definió en el archivo
fuente Notas.csv para el flujo principal.

 El proceso ETL, se realizó de acuerdo a las características de los datos fuente


proporcionados , se utilizó una instancia de base de datos llamada STAGE para
ejecutar los procedimientos de cálculos y depuración de los datos.

 La información ya analizada de los datos académicos de los estudiantes de la


Facultad de Ingeniería, Ciencias Físicas y Matemáticas se consolidan en una base de
datos central (Data Warehouse) denominada en el sistema DWH.

 Mediante los reportes y cubos se obtienen indicadores de rendimiento clave como:


mínimos, máximos, suma, conteos, promedios de notas, estado, numero matricula,
materias, periodo, estudiante, número de créditos, carrera.

 La planificación de cursos se da mediante el reconocimiento de mayor demanda


actual e histórica de alumnado en ciertos cursos y asignaturas relacionados al estado
del estudiante y el periodo lectivo que permite analizar el comportamiento durante
varios años y con ello predecir situaciones futuras.
.
 Los reportes ofrecen al usuario una serie de opciones para personalizar el análisis
interactivo entre filtrar los campos por determinados conceptos, así como también
125
la inclusión o exclusión de diversos elementos bajo amplios criterios de clasificación
y agregación en donde la información es desglosada y totalizada.

 Para la implementación rápida de esta solución de Bussines Intelligence se utilizó


una metodología en cascada la cual brinda una secuencia lógica y eficaz en el
desarrollo del Data Warehouse; además está metodología garantiza que el producto
final cumpla todos los requisitos que el usuario final necesita para el análisis
estadístico sobre el rendimiento académico

 De acuerdo a las métricas obtenidas en los informes las autoridades podrán observar
fácilmente el rendimiento académico de los estudiantes de la Facultad de Ciencias
Físicas y Matemáticas y tomas las decisiones pertinentes.

5.2. Recomendaciones

 Para iniciar el desarrollo de la aplicación de Business Intelligence se debe conocer


todos los detalles relativos a la estructura, tipología, relación y naturaleza de los
datos almacenados, tener claro los objetivos, identificar formalmente las variables y
los requerimientos una vez definidos establecer el Data Warehouse y modelos
multidimensionales que se articulen de manera armónica y poder obtener los
resultados esperados por el usuario.

 Estandarizar el formato del archivo fuente de datos para no generar conflictos y


errores en la ejecución de los procesos ETL.

 El presente proyecto de tesis puede tener un alcance más amplio y extenderse en


otras facultades en cuanto a la data mantenga el formato y orden del archivo fuentes
notas .csv.

126
 Antes de cargar los datos al Data Warehouse se debe realizar una limpieza y
tratamiento de la información espacios marcados entre palabras, correcta ubicación
de datos en los campos correspondientes caracteres especiales.

 El presente trabajo de tesis está diseñado para soportar los diferentes cambios de
malla que se pueden dar a lo largo del tiempo en la facultad. La dimensión de
materias tiene el código y la descripción de la malla que ayudaran a identificar las
cambios de la misma.

 Para mejorar la utilidad del sistema en una fase posterior a la solución de Business
Intelligence, en sus procesos ETL (dsa_notas_TF) se podrá conectar directamente a
la base de datos del sistema SAU para garantizar la veracidad de los datos.

 El modelo del Business Intelligence puede ser alojado en un servidor que tenga
mayor capacidad de almacenamiento con la finalidad de mejorar el funcionamiento
de la solución.

127
5.3. Bibliografía

1.- ABC, d. (2007). definición ABC. Obtenido de


http://www.definicionabc.com/tecnologia/mysql.php

2.- BUIGUES, A. (2015). El blog de Ana Buigues. Obtenido de el blog de Ana Buigues:
http://anabuigues.com/2010/03/05/arquitectura-de-un-data-warehouse/

3.- BYSPEL. (2015). byspel. Obtenido de byspel: http://www.byspel.com/fundamentos-de-


inteligencia-de-negocios/

4.- CAUCA, U. (2009). universidad del cauca. Obtenido de


http://fccea.unicauca.edu.co/old/datawarehouse.htm

5.- Creative commons attribution. (2015). Data Warehouse. Obtenido de http://data-


warehouse.wikispaces.com/

6.- DAVENPORT, T. H. (1998). working knowledge: how organizations manage what they know.

7.- FABRIZZIO. (2010). business intelligence. Obtenido de


http://biverano2011.blogspot.com/2011/09/modelo-estrella-y-modelo-copo-de-
nieve.html

8.- KIMBALL, R. (2002). the data warehouse toolkit. New York.

9.- MARTINEZ, J. A. (2015). gestiopolis. Obtenido de http://www.gestiopolis.com/olap-y-el-


diseno-de-cubos/

10.- (2013). Business intelligence road map. En A. MOSS, business intelligence road map.

11.- PACHECO, O. (2015). data warehouse. Obtenido de data warehouse:


http://dwhucv.blogspot.com/p/estructuar-de-un-data-warehouse.html

12.- S.L., s. e. (2007). sinnexus. Obtenido de sinnexus:


http://www.sinnexus.com/business_intelligence/datawarehouse.aspx

13.- Srl, t. c. (1997). técnicas cuantitativas srl. Obtenido de técnicas cuantitativas srl:
http://www.tecnicas.com/conceptos/olap/elementos.aspx

14.- URQUIZU, P. (2008). business intelligence fácil. Obtenido de


http://www.businessintelligence.info/definiciones/cubos-olap.html

128
ANEXOS

Anexo A

Requisitos del Sistema

El proyecto para brindar portabilidad a los usuarios se lo realizo en una máquina virtual
desarrollada en VMWare versión 10.

Para el correcto funcionamiento la maquina donde se requiera instalar la máquina virtual


debe tener como requisitos mínimos los siguientes parámetros:

Disco 120 GB

Procesador Intel (R) Core (TM) i5 M330 2.5 GHz

Memoria RAM 8 GB.

Sistema Operativo Windows XP o superior.

MySQL versión 5.0 para Windows.

Pentaho BI Server- Community Edition 5.0.1 Stable

Pentaho Data Integrator Community Edition 5.2.

Pentaho Reopor Designer Community Edition 5.0.1-stable

Pentaho Schema Workbench Community Edition 3.6.1

Java JDK, JRE Versión 7 update 75 para Windows de 64 bits

Vcredist_x86.exe Microsoft Visual C++ 2005 Redistributable Package.

129
Anexo B

Manual de Usuario

Para utilizar el prototipo desarrollado en este proyecto, se debe realizar los siguientes
pasos:

 Abrir VMware Workstation.

 Una vez abierto el programa, buscamos en el equipo la máquina virtual llamada


Pentaho.

 Normalmente las máquinas virtuales se las pueden encontrar en la siguiente ruta


C:\Users\XXXX\Documents\Virtual Machines

130
 Abrimos la máquina y le damos play para que empiece el encendido de la misma.

 La máquina virtual Pentaho es Windows server 2003, cuando la maquina ya este


encendida el sistema operativo pedirá usuario y contraseña.

131
 Ingresamos los siguientes datos:

Usuario: Administrador.

Contraseña:

 Clic en Aceptar para que el sistema operativo termine de iniciarse.

132
 Cuando el sistema operativo se inicie, deben subir el servidor BI Server, para lo
cual deben dirigirse a la siguiente ruta:

 Clic en el archivo start-pentaho.bat y esperamos a que el servidor de Pentaho


suba todos sus servicios.

133
 Cuando en la pantalla del servidor aparezca el mensaje INFORMACION: Server
startup in 231449 ms podemos estar seguro de que el Servidor de BI subió con
normalidad todos sus servicios.

134
 El siguiente paso es ingresar al portal web de Pentaho, la ruta es
http://ip_maquina_virtual:8080/pentaho

 Ingresar los datos de usuario y contraseña.

Usuario: Admin

Contraseña: password

 Esperamos a que la página de inicio se cargue.

135
En esta página los usuarios pueden ver todos los reportes construidos, administrar las
cuentas de usuarios y ver los cubos construidos.

Esta pantalla es la página principal de la plataforma Web de Pentaho y proporciona


opciones de selección al usuario.

Opciones de la Pantalla Descripción

Browse Files Navegar por el directorio interno de Pentaho y ver todos


los reportes publicados.
Create New Permite crear nuevos análisis interactivos con los cubos
OLAP publicados.
Manage Data Sources Esta opción sirve para administrar todas las conexiones a
la base de datos que los usuarios requieren. Se puede crear
conexiones ODBC, JDBC y JDNI
Documentation Documentos de ayuda, guía, manuales de usuario, páginas
web y blogs de consulta sobre la plataforma Web de
Pentaho

136
 Para ver y ejecutar los reportes publicados los usuarios debe escoger la opción
Browse Files. Mostrará el directorio interno con todas que se encuentran creadas
dentro de la plataforma.

 Ir a la ruta Home/Admin/Reportes, en la carpeta reportes se encuentran


publicados todos los reportes diseñados.

En el recuadro de Files se mostrara todos los reportes que están disponibles para
su ejecución y visualización.

137
 El usuario podrá seleccionar cualquier reporte disponible. Una vez escogido el
reporte deseado clic en la opción Open a New Windows.

138
 Se desplegara una ventana donde se muestran todos los parámetros requeridos
para ejecutar el reporte, el usuario debe ingresar de manera obligatorio todos los
parámetros para que el reporte muestre información.

 Luego de haber ingresado los valores en los parámetros clic en View Report y
esperar a que el reporte se despliegue con los datos requeridos.

139
De esta manera los usuarios pueden ver todos los reportes que fueron creados y
publicados en este proyecto.

Cabe recalcar que todos los reportes tienen parámetros debido a que esto permite que los
reportes diseñados puedan ser ejecutados para un periodo de tiempo y facultad
determinada, de esta manera si la aplicación es implementada en otras facultades los
reportes pueden ser reutilizados.

140
Anexo C

TERMINOLOGÍA BASICA

BI: Business Intelligence es un conjunto de procedimientos y métodos que transforman


los datos de una organización en información significativa para su desarrollo estratégico,
táctico y operativo.

DATA WAREHOUSE: es la base de datos central donde se consolidan todos los datos
procedentes de los diferentes sistemas fuente.

SISTEMAS FUENTE: constituyen el origen de los datos que aportan al data


warehouse.

ETL: procesos de extracción, transformación y carga son programas encargados de


extraer los datos de los sistemas fuente, por medio canales por los que los datos de los
fluyen hasta el data warehouse.

DIMENSIÒN: Tablas conectadas a la tabla de hechos en el modelo estrella.

TABLA DE HECHOS: la tabla central de un diagrama dimensional (esquema


estrella) y contiene los valores de las medidas de negocio.

OLAP: On Line Analytical Processing es una solución utilizada en el campo de


Business Intelligence con la finalidad de agilizar la consulta de grandes cantidades de
datos

141
SPOON: Es una herramienta gráfica que modelar transformaciones y tareas

SALTO: representación gráfica que indica el paso de uno o más flujos de datos entre
pasos.

PASO: serie de tareas lógicas organizadas en una secuencia

142

Вам также может понравиться