Tesisterminada PDF

FACULTAD DE INGENIERIA, ARQUITECTURA Y
URBANISMO
ESCUELA ACADÉMICO PROFESIONAL DE INGENIERIA
DE SISTEMAS
TESIS
“APLICACIÓN DE TÉCNICAS DE MINERIA DE
DATOS PARA PREDECIR LA DESERCION
ESTUDIANTIL EN LA EDUCACION BASICA
REGULAR EN LA REGION DE LAMBAYEQUE”
Para optar el Título Profesional de Ingeniero de Sistemas
Autor
Bach. Piscoya Ordoñez Luis Emir
ASESOR:
Ing. Carlos Alberto Chirinos Mundaca
Pimentel, 08 Marzo del 2016
i
“APLICACIÓN DE TÉCNICAS DE MINERIA DE DATOS PARA PREDECIR LA
DESERCION ESTUDIANTIL EN LA EDUCACION BASICA REGULAR EN LA
REGION DE LAMBAYEQUE”
Aprobación de la Tesis
Ing. Denny John Fuentes Adrianzén Ing. Carlos Alberto Chirinos Mundaca
Presidente del jurado de tesis Asesor especialista
Asesor metodólogo
Ing. Rosa América Cobeñas Sánchez Mg. Victor Tuesta Monteza

Secretario del jurado de tesis Vocal del jurado de tesis
II
DEDICATORIA
A Dios, por su amor y fortaleza para lograr mis metas; a mis padres, por su buen
ejemplo que me hizo mejor persona; a mis maestros, que a lo largo de nuestra
vida académica han iluminado mi mente y ampliado mis conocimientos.
III
AGRADECIMIENTO
A mi familia, por alentarme a seguir adelante, aún en los momentos más difíciles.
También mi reconocimiento a las personas que han hecho posible la culminación
de este trabajo de investigación; al Mg. Carlos Alberto Chirinos Mundaca quien
fue mi Asesor Especialista de mi Tesis, el cual fue una pieza fundamental para la
realización de este proyecto, quien con sus sabios consejos, orientaciones,
revisión y corrección, permite la conclusión correcta de este documento; también
a la Ingeniera Lourdes Esquivez Paredes como Asesora Metodológica; y a todas
las personas que con las facilidades otorgadas permitieron superar largamente las
limitaciones encontradas en la realización del presente trabajo de investigación.
IV
RESUMEN
En la presente investigación tiene como objetivo proponer una herramienta

utilizando las técnicas de minería de datos, donde permita al usuario tener acceso
a la información precisa donde se realicen predicciones sobre los alumnos que se
matriculen en los próximos años, obteniendo resultados a corto plazo, que
permitirá asegurar la confiabilidad de éstos, sirviendo de apoyo a la institución
para las decisiones futuras que se puedan tomar.
Dentro de las técnicas predictivas se determinó utilizar los algoritmos de ETS y

Redes Neuronales, al realizar el análisis se descartaron algunas técnicas
adicionales por no tener los criterios necesarios para su implementación en el
modelo a desarrollar.
Además, se presentan los antecedentes de estudio a nivel de base teórica,

tomando como fuentes libros, publicaciones, entre otros, los cuales permiten
justificar muchos de los conceptos abarcados durante el proceso de investigación.
Se presenta el desarrollo de las metodologías empleadas para la solución del

problema planteado; se utilizó la Metodología CRISP DM, como guía para la
construcción del modelo de minería de datos basado en series de tiempo
logrando realizar las predicciones de deserción escolar en la región de
Lambayeque donde solo se tomó como muestra la Ugel de Chiclayo en periodos
anuales de manera automatizada dejando de lado el uso de herramientas
ofimáticas que retrasan el proceso de los resultados; y el uso de la metodología
XP para el desarrollo del sistema como solución a la optimización de los
procesos mostrando los resultados
Palabras claves: Minería de Datos, Metodologia Xp, CRISP DM, Ets,Redes

Neutronales.
V
Abstract
In this research it is to propose a tool using data mining techniques, which allow
the user to have access to accurate predictions of where students who enroll in
the coming years are made, obtaining short-term results, it will ensure the
reliability of these, serving as support to the institution for future decisions can be
taken.
In predictive techniques, we were determined using algorithms Ets and Neural

Networks, since executing some additional analysis techniques were discarded for
not having the necessary criteria for its implementation in the model to be
developed.
In addition, the background level study theoretical basis, taking as sources books,
publications, among others, which can justify many of the concepts covered during
the research process are presented.
the development of methodologies for the solution of the problem is presented;

CRISP DM Methodology was used as a guide for building the data mining model
based on time series managed to obtain predictions dropout in the region of
Lambayeque where only took as shown in Chiclayo ugel annual periods so
automated aside the use of office tools that slow the process of results; and using
the methodology for developing XP system as a solution to the optimization of
processes showing the results
Keywords: Data Mining, Methodology Xp, CRISP DM, ETS, Neutronales

Networks.
VI
INTRODUCCIÓN
La deserción estudiantil se ha convertido en un problema social que afecta a
muchas Instituciones Educativas en todo el mundo, reducir el número de
estudiantes desertores es un tema. Que tienen muy presente cada uno de las
Instituciones educativas, donde las mismas planean implementar un plan
estratégico para reducir el índice de estudiantes que deciden abandonar sus
estudios.
Para contribuir con la solución al problema de la deserción estudiantil se plantea
realizar un estudio comparativo de técnicas de minería de datos para predecir la
deserción estudiantil en la educación básica regular en la región de Lambayeque.
Donde se seleccionaron las técnicas predictivas para luego compáralas; así
mismo también se elaboró una aplicación web usando las técnicas de predicción,
para luego evaluar los resultados obtenidos en la investigación.
De acuerdo a (Hand, 2011) , “la Minería de datos es un proceso que reúne un
conjunto de herramientas de diversas ciencias, (Estadística, Informática, entre
otras)” que persigue extraer conocimiento oculto o información no trivial de
grandes volúmenes de datos, con la finalidad de dar soluciones a problemas
específicos en las empresas.
CRISM-DM fue la metodología utilizada para la creación del modelo, la misma
que es una de las más usadas en la actualidad para la generación de proyectos
de Minería de datos, con ella se pretende obtener un modelo de análisis de datos,
que con la ayuda de la implementación de algoritmos de Inteligencia Artificial, ya
incorporados en la herramienta r-Project, se pueda predecir la probable deserción
en las Instituciones educativas y así tomar las medidas preventivas.
VII
Contenido
RESUMEN.......................................................................................................................5
INTRODUCCIÓN............................................................................................................vii
CAPITULO I: EL PROBLEMA DE INVESTIGACION ............................................... 17
1.1. Situación Problemática: ................................................................................ 14
1.2. Formulación del Problema............................................................................ 16
1.3. Delimitación del Problema: ........................................................................... 17
1.4. Justificación e Importancia de la Investigación ............................................. 18
1.5. Limitaciones de la Investigación ................................................................... 18
1.6. Objetivo ........................................................................................................ 19
Objetivo General ........................................................................................... 19
Objetivos específicos ................................................................................... 19
CAPITULO II: MARCO TEÓRICO ............................................................................. 21
2.1. Antecedentes de Estudios ..................................................................... 21
2.2. Estado del arte ...................................................................................... 23
2.3. Base Teórica Científicas ....................................................................... 25
2.3.1. Deserción Escolar ...................................................................... 25
2.3.2. Minería de Datos ........................................................................ 26
2.3.3. KDD: Proceso De Extracción de Conocimiento .......................... 26
2.3.4. Fases de KDD ............................................................................ 27
2.3.5. Clasificación de las Técnicas de Minería .................................... 30
2.3.6. Técnicas de minería de Datos .................................................... 34
2.3.7. Metodologías para la aplicación de minería de datos ................. 41
2.3.8. Aplicación web ........................................................................... 43
2.3.9. Herramientas de Minería de datos.............................................. 43
2.4. Definición De Términos Básicos ............................................................ 47
2.4.1. Método ....................................................................................... 47
2.4.2. Metodología ............................................................................... 47
2.4.3. Predicción .................................................................................. 47
2.4.4. Deserción Escolar ...................................................................... 47
2.4.5. Minería De Datos ....................................................................... 47
2.4.6. Técnicas De Predicción .............................................................. 48
VIII
CAPÍTULO III: MARCO METODOLÓGICO ............................................................... 50
3.1. Tipo y diseño de la investigación ........................................................... 50
3.2. Población y muestra .............................................................................. 50
3.3. Hipótesis ............................................................................................... 50
3.4. Operacionalización ................................................................................ 50
3.5. Métodos, técnicas e instrumentos de recolección de datos ................... 52
3.5.1. Métodos de la Investigación: ...................................................... 52
3.5.2. Técnicas de la Investigación....................................................... 52
3.5.3. Instrumento de la Investigación .................................................. 53
3.6. Procedimiento para la recolección de datos .......................................... 53
3.7. Análisis Estadístico e interpretación de los datos .................................. 55
3.8. Criterios de rigor científico ..................................................................... 56
CAPITULO IV: ANALISIS E INTERPRETACION DE LOS RESULTADOS ....................... 58
4.1. Resultados................................................................................................................. 58
4.1. Discusión de resultados ........................................................................................ 67
CAPITULO V: DESARROLLO DE LA PROPUESTA ............................................................ 69
5.1. Generalidades .................................................................................................................. 69
5.2. Metodología ...................................................................................................................... 69
CAPITULO VI: CONCLUSIONES Y RECOMENDACIONES ................................................ 92
6.1. Conclusiones .................................................................................................................... 92
6.2. Recomendaciones........................................................................................................... 93
BIBLIOGRAFÍA ............................................................................................................................. 94
ANEXO...........................................................................................................................................95
IX
Índice de Figuras
Figura 1: Comparación de los conceptos de Minería de Datos, KDD y Knowledge

Discovery ........................................................................................................................................ 28
Figura 2 : Proceso KDD ................................................................................................................ 29
Figura 3: Árbol de decisión .......................................................................................................... 35
Figura 4: Esquema de una Neurona Artificial con sus principales Elementos..................37
Figura 5: Gráfico de Tendencia de un conjunto de datos de los años 1974-1989.............. 39
Figura 6 : Gráfica de valores en el tiempo, donde se observa la estacionalidad ................ 40
Figura 7: Fases del Modelo CRISP-DM ..................................................................................... 42
Figura 8: Cliente-Servidor .......................................................................................44
Figura 9: Etapas de Desarrollo ..................................................................................71
Figura 10: Datos de alumnos Matriculados ................................................................75
Figura 11: Tratamiento de Datos nulos ....................................................................76
Figura 12: Datos Sin datos Nulos ..............................................................................76
Figura 13: Tratamiento de Datos................................................................................77
Figura 14: Datos tratados ............................................................................................77
Figura 15: Diagrama E-R Esquema ............................................................................78
Figura 16: Scripts SQL para análisis de data ..............................................................79
Figura 17: Data para analisis.....................................................................................80
Figura 18: Algoritmo R-Nnetar......................................................................................82
Figura 19: Aplicación del Algoritmo Nnetar.................................................................84
Figura 20: Nnetar................................................................................................................84
Figura 21: Algotirmo ETS...................................................................................................85
Figura 22: Aplicación del Algoritmo ETS............................................................................86
X
Índice de Tablas
Tabla 1: Operacionalización de variables ................................................................................. 52

Tabla 2: Generación de Pronósticos Primaria .......................................................................... 59
Tabla 3: Generación de Pronósticos Secundaria .................................................................... 60
Tabla 4: Resultados Obtenidos del nivel secundario aplicando formula.............................. 61
Tabla 5: Resultados Obtenidos del nivel primaria aplicando formula................................... 62
Tabla 6: Tiempo de Procesamiento entre Red neuronal y ETS-Primaria .................. 63
Tabla 7: Tiempo de Procesamiento entre Red neuronal y ETS-Secundaria ...................... 64
Tabla 8: Tiempo de Procesamiento del Sistema Web-Primaria ............................................ 66
Tabla 9: Tiempo de Procesamiento del Sistema Web-Secundaria ...................................... 67
Tabla 10: Metodologías de Desarrollo de Modelo de Minería de Datos .............................. 71
Tabla 11: Periodo - Matriculados................................................................................................ 72
Tabla 12: Alumnos matriculados 2006-2015 ............................................................................ 79
Tabla 13: Evaluación de las técnicas de minería de datos .................................................... 80
Tabla 14: Modelos de Minería de Datos ................................................................................... 81
Tabla 15: Datos algoritmo Red Neuronal .................................................................................. 83
Tabla 16: Prioridad y Dificultad de Historia de Usuario........................................................... 87
Tabla 17: Requerimiento 01 ........................................................................................................ 87
XI
Índice de Gráficos
Grafico 1: Pronósticos de Matriculas: ETS y Red Neuronal-Secundaria ............................ 59

Grafico 2 : Pronósticos de Matriculas: ETS y Red Neuronal-Primaria .................................. 60
Grafico 3: Tiempo de Procesamiento entre Red Neuronal y ETS-Primaria ............. 64
Grafico 4: Tiempo de Procesamiento entre Red Neuronal y ETS-Secundaria................... 65
Grafico 5: Tiempo de generación de pronósticos en Módulo-Primaria ................................ 66
Grafico 6: Tiempo de generación de pronósticos en Módulo-Secundaria........................... 67
XII
CAPITULO I
EL PROBLEMA DE
INVESTIGACIÓN
13
CAPITULO I: EL PROBLEMA DE INVESTIGACIÓN
1.1. Situación Problemática:
La deserción escolar es un problema que en estos últimos años ha surgido
en muchos países. La mayoría de los trabajos que intentan resolver este
problema están enfocados en determinar cuáles son los factores que más
afectan al rendimiento de los estudiantes, del nivel educativo básico
regular, esta realidad es generalizada en los países de Latinoamérica
incluyendo el Perú, tal es el caso de (Irizarry & Quintero, 2006), donde la
deserción escolar en Puerto Rico es uno de los principales problemas
sociales y económicos por una mala planificación familiar donde solo uno
de todo el núcleo familiar que la conforma aporta y esto conlleva a que los
demás dejen de lado los estudios es por tal motivo que la tasa de
deserción se encuentra en un 42%.
Según (Espíndola & León, 2002) señalan que los sistemas educativos de
gran parte de América Latina tienen como principal problema una escasa
capacidad de retención de los niños y de los adolescentes.
Por otro lado (Elias & Molina, 2005), demuestran que el problema
deserción para Paraguay es que a partir de la organización, la comparación
y el contraste de las percepciones de educandos y educadores hacen
posible que existan inferencias sobre el fenómeno de la deserción escolar.
Los puntos emergentes hacen referencia al distanciamiento de la escuela
de la realidad del adolescente, los mecanismos de discriminación de
género que no son replanteados en la escuela y la violencia contra los
propios alumnos que se da dentro de las instituciones escolares.
14
Por otro lado en Finlandia, no aparece de manera tan problemática ya que
cuenta con una tasa del 5% de deserción escolar y una calidad de
educación básica mundialmente reconocida. Los factores del por qué en
Finlandia la tasa de deserción es baja son diversos pero entre ellos
tenemos que cuenta con un sistema educativo que se da de forma gratuita
y obligatoria, otro de los factores es la inversión del 6% de su PBI a la
enseñanza , llegando así a alcanzar liderar las pruebas Pisa.
Por otro lado en estos últimos años se han realizado investigaciones,
congresos, talleres sobre minería de datos tal es el caso (Timarán,
Calderón, & Jiménez, 2013) en su investigación, “Aplicación de la minería
de datos en la extracción de perfiles de deserción estudiantil”, donde de los
15.805 registros se seleccionaron únicamente los datos con los atributos
más relevantes de los estudiantes de los años 2004 - 2006 , obteniéndose
como resultados 6870 registros y 62 atributos correspondientes a la
información socioeconómica, académica, disciplinar e institucional. Al
finalizar la investigación el autor llego a la conclusión que los factores más
relevantes que se determinaron fueron socioeconómicos y académicos
asociados a la deserción estudiantil. La minería de datos o data mining se
ha ido interrelacionando a lo largo de la vida de cada empresa donde se
están interesando en explorar sus bases de datos.
Por otro lado en el Perú, existe un problema fundamental es el identificar
y encontrar información útil para poder predecir cuál sería la probabilidad
de que un estudiante deserte ya que uno de los inconvenientes que se
presenta es la falta de conocimientos de las variables que influyen en la
deserción escolar ya que los diversos datos se encuentran por lo general
15
en forma no refinada y para poder analizarlos con fiabilidad es necesario
que exista una cierta estructuración y coherencia entre los mismos.
Según (Ministerio de Educación, el 14% de niños y jóvenes entre los 13 y
19 años dejó el colegio o nunca se matriculó, 2014) En el Perú de los 4
millones 300 mil escolares entre los 13 y 19 años de edad. Estas cifras se
darían a entender que más del 14 de cada 100 alumnos abandona las
aulas en todo el país.
En la mayoría de los casos, las deserciones escolares (de alumnos
entre (13 y 19 años) obedecen a problemas económicos
(45,1%), desinterés por estudiar (27,2%), problemas familiares (16,6%), y
por quehaceres en casa (5,4%).
En Lambayeque, la deserción escolar es un problema preocupante. Solo
en el 2013, el total 8.162 alumnos de colegios públicos abandonaron las
aulas para trabajar. Esto equivale a un 4.36% del total de escolares
lambayecanos que se matricularon en ese mismo año. Por otro lado solo
en las ciudades de Chiclayo el ausentismo en las aulas fue alrededor de
4,356 y en la de Ferreñafe fue alrededor de 2,641 escolares.
1.2. Formulación del Problema
La situación actual en el Perú se estimaba que existían alrededor de 3.5
millones de niños y niñas entre 6 y 11 años, edades en las que se debería
iniciar y culminar, respectivamente, la educación primaria. (Unicef, s.f.)
De acuerdo con lo expuesto anteriormente se describe en varias
investigaciones con respecto al tema donde están tratando de dar solución
desde distintos ángulos tal es el caso de (Valero, Salvador, & García, 2003)
, Donde en su investigación de Predicción de la deserción escolar,
16
tomando como base de análisis los datos del estudio socioeconómico del
EXANI-II, elaborado por el CENEVAL, se usó el algoritmo de árboles de
decisiones y el de los k vecinos más cercanos para buscar predecir la
deserción escolar en la Universidad Tecnológica de Izucar de Matamoros.
Obteniendo como resultado el 70% de aciertos.
(Márquez, Romero, & Ventura, 2012) , en su investigación de Predicción
del Fracaso Escolar mediante Técnicas de Minería de Datos, utilizando la
técnica de Árbol de decisión, donde buscó predecir la deserción escolar.
Los datos que se obtuvieron se recopilaron de tres diferentes fuentes los
cuales fueron: una Encuesta, CENEVAL y el departamento escolar de la
misma.
Por lo antes expuesto que hasta la fecha cabe destacar que la mayor parte
de las investigaciones sobre minería de datos aplicada a los problemas de
abandono y fracaso, se han aplicado, sobre todo, en el nivel de educación
superior y, en mayor medida en la modalidad de educación a distancia.
En el presente trabajo de investigación se plantea utilizar distintas técnicas
de Minería de Datos y compararlas para predecir la deserción estudiantil de
la educación regular Lambayecana. Formulando la siguiente pregunta ¿De
qué manera las técnicas de minería de datos permiten predecir la
deserción estudiantil en la educación básica regular en la región de
Lambayeque?
1.3. Delimitación del Problema:
Este trabajo busca a través de una aplicación web usando las técnicas de
minería de datos (redes neuronales y serie de tiempo) para predecir la
17
deserción estudiantil en la educación básica regular (primaria y secundaria)
en la región de Lambayeque, tomando como referencia la Ugel Chiclayo.
1.4. Justificación e Importancia de la Investigación
Históricamente la deserción de los alumnos se identifica en el momento
que ellos soliciten su baja, sin encontrar claramente las causas a los
problemas anteriormente mencionadas; por ello con la presente
investigación y a través de la aplicación web que utiliza las diferentes
técnicas de minería de datos, para así identificar y calcular el porcentaje de
probabilidad de que un alumno pueda desertar y poder aplicar estrategias
necesarias para disminuir el índice de deserción.
Por lo tanto, con la investigación se busca realizar un estudio de las
técnicas de minería de datos para la predicción de la deserción estudiantil
en la educación básica regular y mediante el análisis de las diversas
técnicas que existen en el campo de la minería de datos y con los
resultados se podrá llevar a cabo una predicción eficiente.
1.5. Limitaciones de la Investigación
Datos incompletos: De los datos obtenidos, se ha observado que algunas
encuestas base, no tiene datos en alguno de sus campos, inconsistencia
generada por las autoridades de los colegios, que no cumplieron con
registrar la información en forma completa.
18
Incertidumbre: En los diferentes datos obtenidos en formatos pdf, se
puede observar que la definición y expresión de los campos requeridos
para la investigación no están homogeneizadas, lo que implicara una
estandarización en el tipo de dato de la futura base de datos.
Tamaño: La gran cantidad de registros obtenidos, dará lugar a una base
de datos de dimensiones considerables en tamaño por el gran número de
registros a manejar y la gran complejidad de datos (campos) a definir.
1.6. Objetivo
Objetivo General
Aplicar técnicas de minería de datos para predecir la deserción estudiantil
de la educación básica regular Lambayecana.
Objetivos específicos
a) Recopilar y analizar los archivos ofimáticos del nivel básico de la Ugel
Chiclayo.
b) Seleccionar las técnicas predictivas de minería de datos.
c) Comparar técnicas de minería de datos a aplicar que mejoren la
predicción de la deserción escolar del nivel básico regular.
d) Analizar resultados obtenidos con las diferentes técnicas de minería de
datos.
e) Construir un aplicativo web usando las técnicas de predicción.
19
CAPITULO II
MARCO TEÓRICO
20
CAPITULO II: MARCO TEÓRICO
2.1. Antecedentes de Estudios
Sobre la aplicación de técnicas de minería de datos se han realizado
diferentes investigaciones, como tal es el caso de, (Spositto, Etcheverry,
Ryckeboer, & Bossero, 2010), La investigación se realizó aplicando el árbol
de decisiones (j48) y el algoritmo FT sobre los datos de alumnos del
período 2003-2008 para evaluar el rendimiento académico y la deserción
de los estudiantes del Departamento de Ingeniería e Investigaciones
Tecnológicas sobre los datos de los alumnos del periodo 2003 al 2008.
Donde se obtuvieron como resultados con el algoritmo FT un 78,07 %
mientras que con el algoritmo j48 72,53% llegando a la conclusión que el
algoritmo FT es mejor cuanto al rendimiento escolar es superior al
algoritmo j48.
Por otro lado (Valero, Salvador, & García, 2003), en su investigación
utilizaron las técnicas de minería de datos para poder predecir la deserción
escolar en la Universidad Tecnológica de Izúcar de Matamoros, donde
utilizaron los algoritmos tales como: C4.5 y el algoritmo de los k vecinos
más cercanos. Obteniendo como resultado que las causas principales que
desertan son: La edad, los ingresos familiares, El nivel de inglés. Llegando
a la conclusión que con la propuesta planteada podrán determinar los
factores de riesgos de manera oportuna.
21
Por otro lado (Timarán, Calderón, & Jiménez, 2013), en su investigación
el objetivo fue la detección de patrones de deserción estudiantil partiendo
a partir de los datos socioeconómicos, académicos, disciplinares e
institucionales de los estudiantes de los programas de pregrado de la
Universidad de Nariño e Institución Universitaria IUCESMAG, donde
utilizando técnicas de minería de datos su clasificación estuvo basada en
árboles de decisión (j48), donde se seleccionaron los datos socio-
económicos, académicos, disciplinares e institucionales de los estudiantes
que ingresaron en los años 2004, 2005 y 2006. Obteniendo como resultado
que la deserción en la Universidad de Nariño es estrictamente académico.
Por lo que llegaron a la conclusión que aplicando las técnicas de
clasificación y clustering sobre los datos de los estudiantes se ha obtenido
un patrón común de deserción estudiantil, determinado por un promedio
bajo y el tener materias perdidas en los primeros semestres de la carrera.
También (Silvaz Wanumen, 2010).En su investigación que hizo que lleva
por nombre Minería de datos para la predicción de fraudes en tarjetas de
crédito uso los algoritmos de árboles de clasificación (j48) y también uso
las reglas de asociación (a priori), para la posible detección de fraudes a
nivel de tarjetas de crédito.
Donde se compraron los dos algoritmos llegando a la conclusión que las
reglas de asociación (a priori), fue menos efectiva que la de clasificación
(j48)
22
2.2. Estado del arte
(Timarán, Calderón, & Jiménez, 2013)
Refiere que el objetivo es detectar patrones de deserción estudiantil
partiendo de los datos socioeconómicos, académicos, disciplinares e
institucionales de los estudiantes de los programas de pregrado de la
Universidad de Nariño e Institución Universitaria IUCESMAG. Utilizando
técnicas de minería de datos su clasificación estuvo basada en árboles de
decisión (j48), donde se seleccionaron los datos socio-económicos,
académicos, disciplinares e institucionales de los estudiantes que
ingresaron en los años 2004, 2005 y 2006. Obteniendo como resultado
que la deserción en la Universidad de Nariño es estrictamente académico.
Por lo que llegaron a la conclusión que aplicando las técnicas de
clasificación y clustering sobre los datos de los estudiantes se ha obtenido
un patrón común de deserción estudiantil, determinado por un promedio
bajo y el tener materias perdidas en los primeros semestres de la carrera.
(Formia, Lanzarini, & Hasperué, 2013)
En el presente trabajo se explica el proceso de identificación de las
características más relevantes del problema donde a través , utilizando
técnicas de Minería de Datos (DM), puede obtenerse un modelo de la
deserción universitaria en la unidad académica mencionada, para lo cual se
utilizó el algoritmo de agrupamiento K-medias así se pudo segmentar a los
alumnos desertores en grupos.
23
Se eliminaron atributos no generalizables, se redujo la cardinalidad de
algunos atributos utilizando categorías más genéricas, se construyeron
nuevos atributos mediante funciones de sumarización (summarize), se
discretizaron o numerizaron atributos según la necesidad de los algoritmos
y se realizaron normalizaciones de rango. Finalmente, se estableció un
atributo de estado que diferencia a los alumnos que ya han abandonado
(luego1 de un año sin actividad académica) de los que cursan
normalmente.
(Barrientos & Ríos, 2013)
En su investigación expone que tenía por objetivo mostrar una metodología
para poder predecir la fuga de clientes ó Churn en un ambiente
Multiplataforma en la industria de las telecomunicaciones. Además.
El chrun que se calculó en la investigación es aquel referente al servicio
debido a que para que sea aplicable a nivel de cliente se debe implementar
el KDD como procedimiento relevante en la compañía, además, ésta debe
presentar una cultura más orientada a la retención en vez de a la fuerza de
venta.
Donde se usaron algunos algoritmos tales como Redes Neuronales,
Support Vector Machines y Árboles de Decisión donde se estimó la calidad
como el porcentaje de aciertos en la variable predicha.
24
(Ortiz Farro, 2015)
En su investigación tuvo como propósito el desarrollo de un sistema
Inteligente donde se utilizó técnicas de minería de datos para lo cual se
utilizó series de tiempo para poder predecir la producción de arroz. Donde
se seleccionaron los datos de año y producción total de los periodos 2001
al 2011.
2.3. Base Teórica Científicas
Se presentan los conocimientos o bases teóricas que serán empleadas a lo
largo del desarrollo.
2.3.1. Deserción Escolar
(Bachman, Green, & Wirtanen, 1971), definen que la deserción escolar se
ocasiona por aquellos estudiantes que interrumpen su asistencia a la
escuela por varias semanas por diferentes razones, exceptuando aquellos
por enfermedad.
(Morrow, 1985), define a la deserción cuando un estudiante el cual
estuvo inscrito en la escuela, deja la misma por un largo periodo de
tiempo y no se inscribió en otro colegio. Donde, no se toman en cuenta,a
los estudiantes que estuvieron enfermos o fallecieron.
(Fitzpatrick & Yoels, 1992), se refieren a la deserción, cuando un
estudiante deja la escuela sin graduarse, independientemente si regresan
o reciben algún certificado equivalente.
(Lavado & Gallegos, 2005), elaboran su propia definición partiendo de las
definiciones anteriores, donde llegaron a establecer que la deserción
escolar se da siempre y cuando los individuos que habiendo asistido a la
25
escuela el año anterior, en el año actual o corriente no lo están haciendo,
exceptuando solo a aquellos que han dejado de asistir por diversos
motivos.
Por lo tanto la deserción escolar se define como aquel estudiante que
realizo su matrícula o inscripción en un determinado año, y por causas
determinadas deja inconclusa su preparación académica.
2.3.2. Minería de Datos
Según (Pérez & Santín, 2008), se refieren inicialmente a la minería de
datos como un proceso de descubrimiento de nuevas y significativas
relaciones, patrones al examinar grandes volúmenes de datos.
Por otro lado (Carrasco, 2011), expone que la minería de datos es el
proceso de extracción de la información de interés partiendo de los datos,
donde se entiende que solo el conocimiento es de interés siempre y
cuando sea novedoso.
Según (Weiss & Indurkhya, 1998), Define a la minería de datos es la
búsqueda de información valiosa en grandes volúmenes de datos. Se
trata de un esfuerzo entre los humanos y las computadoras.
2.3.3. KDD: Proceso De Extracción de Conocimiento
Según (Usama & Wierse, 2002), refieren que el KDD es un proceso no
trivial para poder identificar patrones válidos, novedosos, potencialmente
útiles a partir de los datos.
Por otro lado (Guallart Romeu, 2010), contextualizan al KDD como al
proceso de búsqueda y extracción de conocimiento partiendo de las
bases de datos, mientras que la Minería de Datos es la parte de este
26
proceso en la que se utilizan las técnicas de inteligencia artificial para
obtener un modelo.
Hoy en día se puede confundir a la minería de datos con el proceso KDD.
Donde la minería de datos forma parte del proceso de KDD como Se
puede ver en la Figura. 1 (Guallart Romeu, 2010)
Figura1: Comparación de los conceptos de Minería de Datos, KDD y

Knowledge Discovery
Fuente: (Guallart Romeu, 2010)
El KDD forma parte de un área científica más amplia como es el
descubrimiento de conocimiento que tiene otras muchas partes dentro de
ella diferentes al KDD.
2.3.4. Fases de KDD
Según (Pernía & F., 2001) las fases KDD son:
1. Exploración del Dominio.
2. Recolección de los datos
3. Extracción de patrones en los datos
4. Inducir generalizaciones
5. Verificación del conocimiento
27
6. Transformación del conocimiento.
Por otro lado (Brachman & Anand, 1996) define las fases así:
Figura 2: Proceso KDD
Fuente: (Brachman & Anand, 1996)
En (Hernández & Ferri, 2004), en su investigación expone las siguientes
fases en el proceso de KDD:
1. Preparar los datos:
a. Especificar las fuentes de información las cuales puedan ser útiles.
b. Elaborar un esquema de almacén de datos (Data Warehouse) para
poder unificar toda la información recogida.
c. Implantación del almacén de datos que permita la “navegación” y
Visualización previa de sus datos, y asi poder diferenciar que atributos
pueden ser interesantes para el estudio.
28
d. Selección, limpieza y transformación de los datos que se van a
analizar. La selección incluye tanto una criba o fusión horizontal (filas)
como vertical (atributos).
2. Minería de Datos:
a. Seleccionar y aplicar el método más apropiado.
b. Evaluación/Interpretación/Visualización.
c. Evaluar, interpretar, transformar y representar los patronos que se
extraen.
d. Difundir y uso del nuevo conocimiento que se obtiene.
Según (WebMining Consultores, 2014), las etapas o fases del proceso
KDD las divides en 5:
1. Selección de datos. En esta fase es determinar cuáles son las
fuentes y el tipo de información que se va a utilizar. En esta fase los datos
relevantes son extraídos desde la o las fuentes de datos.
2. Pre procesamiento. En esta fase se prepara y se limpia los datos que
son extraídos desde las distintas fuentes de datos ya que van a ser
necesario en las fases posteriores. En esta fase se emplean diversas
estrategias para poder manejar datos faltantes, datos inconsistentes o
que están fuera de rango, con la finalidad de obtener una estructura
adecuada para posteriormente transformarla.
29
3. Transformación. En esta fase consiste en el tratamiento preliminar
de los datos, transformación y generación de nuevas variables partiendo
de las existentes con una estructura de datos apropiada. En esta fase se
realizan las operaciones de agregación o normalización, donde se
consolidan los datos de una forma necesaria para la fase siguiente.
4. Data Mining. Es la fase de modelamiento, en donde métodos
inteligentes son aplicados con la finalidad de extraer patrones
previamente desconocidos, validos, nuevos y potencialmente útiles que
están contenidos u ocultos.
5. Interpretación y Evaluación. En esta fase es donde se identifican l
patrones obtenidos y que son realmente interesantes, y que se basan en
algunas medidas y se basándose en algunas medidas y se efectúa la
evaluación de los resultados que se obtienen.
2.3.5. Clasificación de las Técnicas de Minería
En tanto la clasificación de la minería de datos entre autores se difiere:
Según, (Joshi, 1997), los componentes de la minería de datos son los
siguientes:
1. Clustering: Donde se analizan los datos y se generan conjuntos
de reglas que agrupan y clasifican los datos futuros.
2. Reglas de asociación: Son aquellas reglas o condiciones que
presentan un grupo de objetos de una base de datos un ejemplo de regla
de asociación o condición sería: “Un 30% de las transacciones que
contienen toallitas de bebé, también contienen pañales; 2% de las
transacciones contienen toallitas de bebé”. En el ejemplo antes
30
mencionado el 30% es el nivel de confianza de la regla y 2% es la
cantidad de casos que respaldan la regla.
3. Análisis de secuencias: Trata de descubrir patrones que suceden
en una Secuencia determinada. Trabaja sobre datos que se presentan en
Distintas transacciones. “Muchos usuarios que han comprado X luego
Han comprado Y”.
4. Reconocimiento de patrones: Analiza la asociación de una señal
de Información de entrada con aquella o aquellas con las que guarda
mayor similitud, de entre las catalogadas por el sistema. Se usan para
identificar causas de problemas o incidencias y buscar posibles
soluciones, siempre y cuando se adecua a la base de información
necesaria en donde buscar.
5. Predicción: Se busca determinar el comportamiento futuro de una
variable o un conjunto de variables a partir de la evolución pasada y
presente de las mismas o de otras de las que dependen. Las técnicas
asociadas a estas herramientas tienen ya un elevado grado de madurez.
6. Simulación: Comparan la situación actual de una variable y su
posible evolución futura.
7. Optimización: Resuelve el problema de la minimización o
maximización de una función que depende de una serie de variables.
8. Clasificación: Permiten asignar a un elemento la pertenencia a un
determinado grupo o clase. Se establece un perfil característico de cada
clase y su expresión en términos de un algoritmo o reglas, en función de
distintas variables. Se establece también el grado de discriminación o
31
influencia de estas últimas. Con ello es posible clasificar un nuevo
elemento una vez conocidos los valores de las variables presentes en él.
Mientras que para (Cabena, 1998) , compone a la minería de datos en
cuatro grandes operaciones soportadas por algunas técnicas
comúnmente usadas
1. Modelización predictiva: Que usa las técnicas de:
a) Clasificación
b) Predicción de valores
2. Segmentación de bases de datos: Que usa técnicas de:
a) Clustering poblacional
b) Clustering por redes neuronales
3. Análisis de relaciones: Que utiliza las técnicas de:
a) Descubrimiento de asociaciones
b) Descubrimiento de secuencias de patrones
c) Descubrimiento de secuencias temporales similares
4. Detección de desviaciones:
a) Técnicas estadísticas
b) Técnicas de visualización
Según (Guallart Romeu, 2010) se puede clasificar las técnicas de
aprendizaje de la siguiente manera:
1. Métodos inductivos: Son aquellos que partiendo de los datos
iniciales y del conocimiento generado son capaces de construir
modelos que a partir de los datos generen los resultados.
32
2. Técnicas predictivas:
Interpolación: Es la generación de una función continua sobre
varias dimensiones.
Predicción secuencial: Es cuando las observaciones están
ordenadas en forma secuencial y se puede predecir el siguiente
valor de la secuencia.
Aprendizaje supervisado: En éstas técnicas cada observación,
compuesta por muchos valores de atributos, donde se interpone un
valor de la clase a la que corresponde. Se genera un clasificador a
partir de clases que se proporcionan. Es un caso particular de
interpolación en el que la función genera un valor discreto en lugar
de continuo
3. Técnicas descriptivas:
Aprendizaje no supervisado: Es el conjunto de observaciones las
cuales no tienen algunas clases asociadas. Tiene como objetivo la
detección regularidades en datos de cualquier tipo: agrupaciones de
datos parecidos o próximos, contornos de delimitación de grupos,
asociaciones o valores anómalos.
Métodos abductivos: Se pretende, partiendo de los valores
generados y de las reglas, obtener los datos de origen. El objetivo es
la explicación de evidencia con respecto a los sucesos que se han
producido, tal cual haría un investigador privado, que a partir de las
consecuencias de los hechos y de ciertas reglas
33
2.3.6. Técnicas de minería de Datos
2.3.6.1. Arboles de decisiones
Los árboles de decisión son una de las formas más populares de Minería
de Datos porque tienen una representación sencilla de problemas con un
número finito (y a ser posible reducido) de clases. Además son modelos
comprensibles y proposicionales (Hernández & Ferri, 2004).
Un claro ejemplo de un árbol de decisión en (Guallart Romeu, 2010)
.Donde partir del valor de la variable X8, si el valor es menor de 3.2 se
continuará la toma de decisiones por la rama izquierda y si es mayor o
igual se continuará por la rama de la derecha. A partir de aquí cada rama
tiene una variable separadora con un valor de separación, y así
sucesivamente formando un árbol.
Figura 3: Árbol de decisión
Fuente: (Guallart Romeu, 2010)
34
Donde también (Mazo & Bedoya, 2010), puntualizan que un árbol de
decisión es una estructura en la cual cada nodo interno significa una
prueba sobre uno o varios atributos, donde cada rama representa una
salida de la prueba y los nodos hojas representan clases.
2.3.6.2. C4.5
Según (Quinlan, 1993), y su versión comercial C5.0 Es una extensión de
ID3, el cual permite que se trabaje con valores continuos para los atributos,
donde se separan los resultados en dos ramas: una para aquellos Ai=N y la
otra para Ai>C4.5, donde es capaz de trabajar con ejemplos que contienen
valores desconocidos y es tolerante a datos con ruido.
2.3.6.3. Métodos Bayesianos
Una de las características primordiales de los métodos bayesianos es el
uso de distribuciones de probabilidad para cuantificar incertidumbre de los
datos que se desea modelar. Estos métodos proporcionan una metodología
práctica para la inferencia y predicción y, en última instancia, para tomar
decisiones que involucran cantidades inciertas (Hernández & Ferri, 2004)
(Hernández & Ferri, 2004) , dice que “es una de las que más se han
utilizado en problemas de inteligencia artificial, con ello en el aprendizaje
automático y minería de datos, ya que es un método práctico para realizar
inferencias a partir de los datos, la misma que se basa en estimar la
probabilidad de pertenecía (a una clase o grupo) mediante la estimación de
las probabilidades, utilizando para ello el teorema de Bayes”.
35
2.3.6.4. Redes neuronales artificiales
Según (Hernández & Ferri, 2004) señala que las redes neuronales posee
dos tipos de aprendizaje uno es el supervisado, en el mismo que se le
proporciona un conjunto de datos de entrada y la respuesta correcta es útil
en tareas de regresión y clasificación. Y el aprendizaje no supervisado solo
se le da a la red un conjunto de datos de entrada y la red debe auto-
enseñarse para proporcionar una respuesta, este aprendizaje es útil para
las tareas de agrupamiento.
Donde las redes neuronales han sido utilizadas en diversas áreas de
estudio tal es el caso en la predicción de mercados financieros, control de
robots, etc. (Guallart Romeu, 2010).
Figura 4: Esquema de una Neurona Artificial con sus principales

Elementos
Fuente: (Lopez Alfonso, 2015)
36
En redes neuronales hay dos tipos principales de aprendizaje en RNA:
a) Aprendizaje supervisado: Estos algoritmos precisan que cada vector
de entrada se empareje con su correspondiente vector de salida. Mientras
que el entrenamiento se basa en la de mostrar un vector de entrada a la
red, donde se calcula la salida de la red y después se compara con la
salida deseada y por otro lado el error o diferencia resultante se emplea
para realimentar la red y modificar los pesos de acuerdo con un algoritmo
que tiende a minimizar el error. (Olabe Basogain, 2008)
b) Aprendizaje no supervisado: Son aquellos sistemas donde al
aprendizaje solo se le da un determinado conjunto de datos de entrada y la
red debe auto-enseñarse y así proporcionar una respuesta, donde este
aprendizaje es de gran utilidad para tareas de agrupamiento. (Olabe
Basogain, 2008).
2.3.6.5. K –means
Este algoritmo es uno de los más utilizados con lo que respecta al
agrupamiento de datos, es el K-Medias o también conocido como K-Means
por ser uno de los más veloces y eficaces. El algoritmo trabaja con un
método de agrupamiento por vecindad, en el que se parte de un número
determinado de prototipos y de un conjunto de ejemplos a agrupar sin
etiquetar.
El propósito de K-Means es ubicar a los prototipos o centros en el espacio,
de forma que los datos pertenecientes al mismo prototipo tengan
características similares. (Moody & Darken, 1989)
37
Todo ejemplo nuevo, una vez que los prototipos han sido correctamente
situados, es comparado con estos y asociado a aquel que sea el más
próximo, en los términos de una distancia previamente elegida.
Normalmente, se utiliza la distancia euclidiana. El objetivo que se busca
mediante el algoritmo K-Means es minimizar la varianza total intragrupo o
la función de error cuadrático, para que el algoritmo pueda generar los
mejores resultados.
2.3.6.6 Series de tiempo
Es aquel conocimiento que se obtiene atrevés de la recopilación de datos,
la observación o el registro de intervalos de tiempos regulares, donde que
a partir de ese conocimiento y con el supuesto de que no se producirán
cambios, y así poder realizar predicciones. Algunas definiciones que se
usan con esta técnica son:
A) Tendencia: Es aquel componente a largo plazo la cual
representa la disminución o crecimiento en un amplio periodo de
tiempo.
Figura 5: Gráfico de Tendencia de un conjunto de datos de los

años 1974-1989.
38
Fuente: (Cruz Arrela, 2010)
B) Estacionalidad: Es aquel elemento en el cual se presenta en
series de frecuencia inferior a la anual, y se presume oscilaciones a
un corto plazo regular, inferior al año y amplitud regular.
Figura 7: Gráfica de valores en el tiempo, donde se observa la

estacionalidad
Fuente: (Cruz Arrela, 2010)
C) ETS (Exponential smoothing state)
(Hyndman R. J., 2014), Los Métodos de suavización exponencial han

existido desde la década de 1950, y son los métodos de pronóstico
más populares utilizados en los negocios y la industria.
Recientemente, suavizado exponencial ha revolucionado con la
introducción de un marco de modelización completa incorporando
innovaciones modelos de estado espacio, cálculo de probabilidades,
los intervalos de predicción y los procedimientos para la selección del
modelo.
39
ETS (M, N, N) Suavización exponencial simple con errores
multiplicativos: Según (Hyndman,2014) se puede especificar
modelos con errores multiplicativos escribiendo los errores aleatorios
de un solo paso como errores relativos:
Entonces se puede escribir la forma multiplicativa del modelo de

espacio de estados como se muestra:
D) Holwinters:
Es una variante, donde es conocida como alisado exponencial lineas

con doble parámetro,donde consigue la eliminacion del sesgo de la
predicción de una serie de tendencia , a través de la inclusión en la
media móvil de un componente de tendencia.
Por otro lado comprando con diversas técnicas, tal como ARIMA,
donde el tiempo necesario para el calculo en la predicción es
considerablemente rápido.
De hecho, Holt-Winters es utilizado por diversas compañías para el

pronóstico de la demanda a corto plazo siempre y cuando los datos
de venta contengan tendencia y patrones estacionales de un modo
subyacente.
40
2.3.7. Metodologías para la aplicación de minería de datos
a) CRISP – DM (Cross Industry Standard Process for Data Mining)
CRISP-DM organiza el desarrollo de un proyecto de Data Mining en una

serie de fases o etapas, con tareas generales y específicas que permitan
cumplir con los objetivos del proyecto. Estas fases funcionan de manera
Cíclica e iterativa, pudiendo regresar desde alguna fase a otra anterior.
Se basa en función a un modelo jerárquico de procesos, donde se

establece un ciclo de vida de los proyectos de explotación de información
Figura 7: Fases del modelo CRISP - DM
Fuente: “CRISP – DM 1.0: Step by Step Data Mining guide”.
Según (Orallo Hérnandez, 2015) las fases de la metodología crisp son las
siguientes:
a. Comprensión del negocio: Es donde se infiere tanto como los
objetivos y requerimientos del proyecto desde una perspectiva de negocio.
b. Comprensión de los datos: Se selecciona y adapta los datos, para
poder identificar los problemas de calidad de datos y así obtener datos
potenciales para poder analizar.
41
c. Preparación de los datos: Transformación de los datos. Se
seleccionan los datos a utilizar y éstos pasan a una fase de limpieza,
estructuración, integración y formateo.
d. Modelamiento y evaluación: Selección y aplicación de Data Mining
e Interpretación y evaluación. Se selecciona la técnica a utilizar,
construyendo el modelo, para luego ser sometido a diferentes pruebas y
evaluaciones.
e. Despliegue del proyecto: Es donde se explota todo el potencial de
los modelos y así intégralos en los procesos de toma de decisión de
organización, y así difundir el conocimiento extraido, etc.
b) SEMMA
La metodología semma se caracteriza principalmente por la que toma su
nombre de las etapas que esta metodología define para procesos de
explotación de información, estas etapas son: muestreo (sample),
exploración (explore), modificación (modify), modelado (model) y
valoración (assess).
La metodología semma fue desarrollada por la empresa SAS Institute
Inc.,una de las mayores organizaciones relacionadas con el desarrollo con
el software de inteligencia de negocios.SEMMA esta desarrollada para
aplicarla sobre la herramienta de minería de datos “SAS Entreprise Miner”.
42
2.3.8. Aplicación web
Según (Mora, 2002), afirma que “una aplicación web es un tipo especial de
aplicación cliente/servidor, donde el cliente, el servidor y el protocolo
mediante el que se comunican, están estandarizados y no han de ser
creados por el programador de aplicaciones” (p.48).
Según (Mora, 2002), afirma que “suelen distinguirse en tres niveles: el nivel
superior que interacciona con el usuario el nivel inferior que proporciona los
datos y el nivel intermedio que procesa los datos.”(p.47).
Figura 8: Cliente-Servidor
Figura N° 4: Cliente- Servidor
Fuente: “Programación de aplicaciones web: Historia, principios
básicos y clientes web.”
2.3.9. Herramientas de Minería de datos
Según (oocities, s.f.) , para la aplicación de técnicas de minería de datos se
clasificaría en dos Librerías y herramientas específicas:
Donde las librerías de Minería de datos son un conjunto de métodos donde
se implementan funcionalidades y utilidades básicas como el acceso a
datos, modelos de redes neuronales, métodos bayesianos, exportación de
resultados Las librerías se encargan principalmente de facilitar el desarrollo
43
de las tareas de Minería de Datos que son más complejas, como el diseño
de experimentos. El problema de las librerías, es que es precisa la
comprensión de conocimientos de programación.
Algunas de las Librerías más importantes son:
1. Xelopes (Extended Library For Prudys Embedded Solution): Es una
librería bajo la licencia pública GNU para el desarrollo de aplicaciones
de Minería de Datos. Esta librería está implementada para que sea
eficiente para la mayoría de los algoritmos de aprendizaje, por eso, es
importante destacar que el usuario puede desarrollar aplicaciones
particulares de Minería de Datos. Sus principales características son:
1. Acceso a datos
2. Modelos de redes neuronales
3. Métodos de agrupamiento
4. Métodos de reglas de asociación
5. Árboles lineales
6. Árboles no lineales
2. Mlc++ (Machine Learning Library In C++): Es un conjunto de librerías
que fueron desarrolladas por la Universidad de Standford. La mayoría
de las versiones son bajo dominio de investigación, a excepción de la
versión 1.3.x, que se distribuye bajo licencia de dominio público. Las
principales características son:
1. Acceso a datos.
2. Transformaciones de datos
3. Métodos de aprendizaje mediante objetos
44
3. Suites: Posee las mismas capacidades que el procesamiento de datos,
los modelos de análisis, el diseño de experimentos o el soporte gráfico
para la visualización de resultados. En este caso, Suites destaca
porque existe una interfaz que facilita la interacción entre el usuario y la
herramienta.
4. R-Project: Es un entorno de trabajo basado en los entornos de
programación S y S-PLUS desarrollados a principios de los años
noventa del pasado siglo por Bill Venables y David M. Como señalan
Venables et al. (2011), es un entono integrado de facilidades
informáticas para la manipulación de datos, el cálculo y la generación
de gráficos. R-Project pretende convertirse en un sistema internamente
coherente que se caracterizaría por un desarrollo basado en la
contribución relativamente altruista de la comunidad científica. ( López
Puga, 2010)
5. Spss Clementine: Es uno de los sistemas de Minería de Datos más
conocidos. Posee una herramienta visual desarrollada por ISL que tiene
una arquitectura cliente / servidor. Este sistema se caracteriza por:
1. Acceso a datos.
2. Procesamiento de Datos.
3. Técnicas de Aprendizaje.
4. Técnicas de evaluación de modelos.
5. Visualización de resultados.
6. Exportación.
45
6. Weka (Waikato Environment For Knowledge Analysis): Es una
herramienta visual de libre distribución desarrollada por los
investigadores de la Universidad de Waikato en Nueva Zelanda. Sus
principales características son:
1. Acceso a los datos desde un archivo en formato ARFF.
2. Pre procesado de datos.
3. Modelos de Aprendizaje.
4. Visualización del entorno.
7. Kepler: Sistema desarrollador y transformado en una herramienta
comercial distribuida por Dialogis. Posee múltiples modelos de análisis.
Sus principales herramientas de aprendizaje son:
1. Árboles de decisión.
2. Redes neuronales.
3. Regresión no lineal.
4. Aplicaciones estadísticas.
8. Odms (Oracle Data Mining Suite): Está diseñado sobre una
arquitectura cliente servidor; ofrece una gran versatilidad en cuanto al
acceso a grandes volúmenes de información. Se caracteriza
principalmente por:
1. Acceso a datos en diversos formatos: almacenes de datos,
bases de datos relacionales como SQL, Oracle,etc.
2. Pre procesado de datos: muestreo de datos, patrones de datos.
3. Modelos de aprendizaje: redes neuronales, regresión lineal.
4. Herramientas de visualización.
46
9. Yale: herramienta de aprendizaje automático implementado en Java por
la Universidad de Dormund. El sistema incluye operaciones para:
1. Importación y pre-procesamiento de datos
2. Aprendizaje automático
3. Validación de modelos
2.4. Definición De Términos Básicos
2.4.1. Método
Modo ordenado y sistemático de proceder para lograr un fin / conjunto de
reglas (Getoor & Ben, 2007)
2.4.2. Metodología
Conjunto de métodos que se siguen en una disciplina científica / ciencia del
método y de la sistematización científica. (Grudnitsky, 1992)
2.4.3. Predicción
Es la acción de aquello que supuestamente va ocurrir. Donde se puede
predecir partiendo de conocimientos científicos, revelaciones o de algún tipo
de indicios. (Española)
2.4.4. Deserción Escolar
(Bachman, Green, & Wirtanen, 1971), Refieren que la deserción escolar se
originan siempre y cuando aquellos estudiantes irrumpen su asistencia al
colegio por varias semanas.
2.4.5. Minería De Datos
(Sinnexus, s.f.), exponen que minería de datos es un conjunto de técnicas y
tecnologías donde permitirían explorar grandes bases de datos, de manera
47
automática, donde tiene como objetivo el encontrar patrones repetitivos, para
así poder explicar el comportamiento de los datos en un contexto
determinado.
2.4.6. Técnicas De Predicción
(Universidad de Barcelona, s.f.), se refiere que es lograr la obtención de
estimaciones de una serie temporal partiendo de su información histórica
inicial hasta la actualidad.
48
CAPITULO III
MARCO
METODOLOGICO
49
CAPÍTULO III: MARCO METODOLÓGICO
3.1. Tipo y diseño de la investigación
La presente investigación es de tipo Tecnológica y diseño Experimental.
Es tecnológica porque a través del uso científico se buscan aplicaciones
prácticas (investigación aplicada) para el uso de un producto o también el
mejoramiento del mismo.
Es cuasi experimental, ya que se buscara dar explicación como la variable
independiente influirá en la variable dependiente.
3.2. Población y muestra
Población
El elemento de estudio determinado como población es el Elemento de
Registro en los períodos 2006 – 2015 en la Región Lambayeque donde
está conformado por tres ugeles: Chiclayo,Lambayeque y ferreñafe.
Muestra
Ugel Chiclayo
3.3. Hipótesis
La deserción estudiantil de la educación básica regular se puede
predecir usando técnicas de minería de datos.
3.4. Operacionalización
Variable independiente
Técnicas predictivas de minería de datos.
Variable dependiente
Predicción de la deserción estudiantil.
50
Tabla 1: Operacionalización de variables
VARIABLES DIMENSIONES INDICADORES ÍTEMS O RESPUESTAS
Confiabilidad de la CP = # Pruebas sin error / Total
DEPENDIENTE Predicción predicción. Población Registrado.

Predicción de la Tiempo para TS=Tiempo en segundos
deserción
generar
estudiantil
estimación.
Tiempo de TPM = Técnica Modelo Anterior -Técnica

INDEPENDIENTE
Técnica Procesamiento del del Modelo Propuesto.
Técnicas
Modelo.
predictivas de
minería de datos.
Fuente: Elaboración Propia
51
3.5. Métodos, técnicas e instrumentos de recolección de datos
3.5.1. Métodos de la Investigación:
En la presente investigación el método de investigación que se utiliza
son: la observación, análisis, síntesis y experimental.
a) Observación, Son los análisis que puedo realizar yo mismo,
asesores y jurado calificador de la presente investigación.
b) Síntesis, Porque una vez que se analizado el problema planteado
y los métodos de visión artificial a implementar, se plantea a desarrollar
una solución bajos lo métodos que se han seleccionados.
c) Análisis, Porque se tiene que descomponer el objeto de estudio
en sus partes para conocer sus riesgos y propiedades.
d) Experimental, Puesto que se ejecuta a partir de una situación
real de un problema, abordándose en la implementación de métodos de
visión artificial en la cual fundamento la elaboración y verificación de la
hipótesis.
3.5.2. Técnicas de la Investigación
Las técnicas de investigación que se utiliza en el estudio son el análisis y
observación.
a. Análisis documental, Consiste en extraer la información de los
diferentes, libros, papers, artículos, los cuales presentan una serie de
teorías, técnicas, métodos que dan solución a determinados problemas.
Todo servirá para limitar la investigación y caracterizar el modelo a
estudiar, para analizar resultados obtenidos con las técnicas aplicadas.
52
b. Observación: Es el registro visual de lo que ocurre en una
situación real, donde se clasifican los acontecimientos con algún
esquema y dependiendo el problema que se estudia. En esta técnica es
debido está atento para determinar de una forma adecuada todos los
resultados confiables de las predicciones.
3.5.3. Instrumento de la Investigación
Cuadro resumen de predicciones: Se realizará una ficha que
servirá para recopilar los resultados predictivos que se obtendrán
a partir de las técnicas de minería de datos aplicadas en la
investigación.
3.6. Procedimiento para la recolección de datos
Para el desarrollo de la presente investigación, está basado en la
utilización de técnicas de minería de datos donde se compone de los
siguientes pasos:
1. Recopilación De Datos. En esta fase es donde se recolecta toda la
información disponible. Para lo cual en primer lugar se debe de
seleccionar el conjunto de factores que puedan afectar esto primero el
conjunto de los factores que puedan afectar y después se deberán
recoger a partir de las diferentes fuentes de datos disponibles.
Finalmente toda la información se deberá integrar en un solo y único
conjunto de datos
53
2. Pre-Procesado. En esta fase es donde se prepara los datos para
poder así posteriormente, aplicar las diversas técnicas de minería de
datos se deberá preparar los datos para poder aplicar posteriormente,
las diversas técnicas de minería de datos. Para ello se deberán realizar
las tareas de pre-procesado tales como: limpieza de datos,
transformación de variables y particionado de datos, donde también se
aplican otras técnicas como la selección de atributo y el re-balanceado
de datos para así poder intentar dar solución a los problemas de alta
dimensionalidad y desbalanceo que se presentan en este tipo de
conjunto de datos.
3. Minería De Datos. En esta fase se aplicaran los diversos
algoritmos de minería de datos para poder predecir la deserción
escolar como si fuera un problema de clasificación. Donde finalmente,
los diversos algoritmos empleados deberán ser evaluados y
comparados para luego establecer cuál de ellos obtiene el mejor
resultado.
4. Interpretación De Los Resultados. En esta última fase, es
donde se analizan los modelos que obtuvieron unos resultados óptimos
para predecir la deserción.
54
3.7. Análisis Estadístico e interpretación de los datos
El análisis Estadístico de datos se basa en lo siguiente:

3.7.1 En el uso de tablas, para la evaluación de las técnicas
predictivas en minería de datos.
3.7.2 En el uso de gráficos estadísticos, para la evaluación de las
técnicas predictivas en minería de datos
3.7.3 Tiempo de Procesamiento del Modelo, denotada por “TPM”,
es el resultado de la Técnica del Modelo Anterior en comparación
a la Técnica del Modelo Propuesto:
𝑡𝑚𝑎
𝑡𝑝𝑚 =
𝑡𝑚𝑝
Dónde:
tpm = Tiempo de Procesamiento del Modelo.
tma = Técnica del Modelo Anterior.
tmp = Técnica del Modelo Propuesto
55
3.8. Criterios de rigor científico
Criterios Características éticas de los
criterios
Confidencialidad Asegurar la protección de identidad
de sus fuentes, como también de las
personas que participan como
informantes de la investigación.
Manejo de Riesgos La investigación requiere de una
eficiencia y no de un beneficio
personal para realizar una
investigación consistente.
Observación Participante. La participación los tesistas requiere
una responsabilidad ética por los
efectos y consecuencias que pueden
surgir durante la investigación.
56
CAPITULO IV
ANALISIS E
INTERPRETACION DE
LOS RESULTADOS
57
CAPITULO IV: ANALISIS E INTERPRETACION DE LOS RESULTADOS
4.1. Resultados
A. Confiabilidad de la Predicción
En este indicador mide el grado de confianza de cada algoritmo

seleccionado, dado los objetivos de la presente investigación donde se
debe evaluar las técnicas, en este caso son: Redes Neuronales y ETS.
𝑀𝑅 − 𝑀𝑃
∑
𝑃𝐶𝑃 = 100 − ( 𝑀𝑅 ∗ 100)
𝑁
PCP: Porcentaje de confiabilidad de predicción.

MP: Monto pronosticado
MR: Monto real
N: Número de observaciones
Tabla 2: Generación de Pronósticos Primaria
Colegio Año Nivel Grado Consolidado ETS Red

Matricula Neuronal
276188 2015 Primaria Primero 109 120 125
277098 2015 Primaria Segundo 108 150 154
278658 2015 Primaria Tercero 269 139 143
278601 2015 Primaria Cuarto 154 244 248
278516 2015 Primaria Quinto 175 173 177
278658 2015 Primaria Sexto 309 184 188
En la tabla 2 se muestra los resultados obtenidos del pronóstico
generado para el nivel primario utilizando los algoritmos: Red neuronal
y ETS en comparación al consolidado de Matricula del año 2015.
58
Grafico 1: Pronósticos de Matriculas: ETS y Red Neuronal-Secundaria
Comparacion Ets vs NN
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
Primero Segundo Tercero Cuarto Quinto Sexto
Certeza ETS Certeza NN
Fuente: Elaboración propia
En el gráfico N° 1 podemos observar gráficamente la comparación

entre las dos técnicas NN y ETS.
Tabla 3: Generación de Pronósticos Secundaria
Colegio Año Nivel Grado Consolidado ETS Red

Matricula Neuronal
276188 2015 Secundaria Primero 167 108 106
277098 2015 Secundaria Segundo 242 103 104
278658 2015 Secundaria Tercero 194 263 260
276032 2015 Secundaria Cuarto 193 150 150
674187 2015 Secundaria Quinto 158 172 171
En la tabla 03 se muestra los resultados obtenidos del pronóstico
generado para el nivel Secundario utilizando los algoritmos: Red
neuronal y ETS en comparación al consolidado de Matricula del año
2015.
59
Grafico 2: Pronósticos de Matriculas: ETS y Red Neuronal-Primaria
Comparacion Ets vs NN
1
0.995
0.99
0.985
0.98
0.975
0.97
0.965
0.96
0.955
0.95
0.945
Primero Segundo Tercero Cuarto Quinto Sexto
Certeza ETS Certeza NN
En el gráfico N° 2 podemos observar gráficamente la comparación

entre las dos técnicas NN y ETS.
Tabla 4: Resultados Obtenidos del nivel secundario aplicando formula
Colegio Año Nivel ETS Red

Neuronal
276188 2015 Secundaria 1.81818182 3.63636364
277098 2015 Secundaria 2.83018868 1.88679245
278658 2015 Secundaria 0.75471698 1.88679245
278601 2015 Secundaria 1.31578947 1.31578947
278516 2015 Secundaria 1.14942529 1.72413793
278658 2015 Secundaria 0.6514658 2.28013029
Total 8.51976804 12.7300062
Grado de confianza=100-Total
Red 91.48023196 ETS 87.2699938

Neuronal
En la tabla 4, observamos que de acuerdo a la fórmula aplicada el
porcentaje de confiabilidad del modelo con respecto a los pronósticos para
el nivel secundario arrojados en los años determinados en la muestra
60
obteniendo un grado de confianza en ETS se obtuvo el 87.27%,contra
la red Neuronal que obtuvo un 91.48%. Por lo tanto el nivel de
confianza más elevado corresponde a la red neuronal con respecto a
ETS.
Tabla 5: Resultados Obtenidos del nivel Primario aplicando formula
Colegio Año Nivel ETS Red

Neuronal
276188 2015 Primaria 0.92592593 1.83486239
277098 2015 Primaria 0.93457944 1.85185185
278658 2015 Primaria 0.37313433 0.74349442
276032 2015 Primaria 0.52083333 0.51813472
674187 2015 Primaria 0.63694268 1.26582278
Total 8.51976804 6.21416616
Grado de confianza=100-Total
Red 96.6085843 ETS 93.78583384

Neuronal
En la tabla N° 05, observamos que de acuerdo a la fórmula aplicada el
porcentaje de confiabilidad del modelo con respecto a los pronósticos para
el nivel primario arrojados en los años determinados en la muestra
obteniendo un grado de confianza en Red Neuronal se obtuvo el
96.60%,contra ETS que obtuvo un 93.76%. Por lo tanto el nivel de
confianza más elevado corresponde a la red neuronal con respecto a
Red Neuronal.
61
B. Tiempo de Procesamiento del Modelo.
Este indicador mide el tiempo que le toma a cada técnica calcular u
obtener la estimación requerida. Según los objetivos iniciales de la
investigación.
𝑇1 ⁄ 𝑇2
T1: TIEMPO DE PROCESAMIENTO DE ALGORITMO 1
T2: TIEMPO DE PROCESAMIENTO DE ALGORITMO 2
Tabla 6: Tiempo de Procesamiento entre Red neuronal y ETS-

Primaria
Escenarios ETS Red
Evaluados neuronal
1 3.26 4.15
2 4.48 5.15
3 2.7 3.85
4 3.15 5.65
5 4.15 4.58
6 3.56 5.85
7 2.87 6.56
8 3.45 5.63
9 4.15 6.23
10 1.78 3.15
Total 3.355 5.08

En la Tabla N° 06 podemos apreciar las iteraciones y el tiempo en
segundos que demoran los algoritmos para el procesamiento de los
datos. El algoritmo de ETS tiene mejor tiempo de procesamiento en cada
iteración equivalente a un promedio de 3.355 segundos.
62
Grafico 3: Tiempo de Procesamiento entre Red Neuronal y ETS-Primaria
Tiempo Promedio: ETSvs NN

6
0
ETS NN
El gráfico 3 representa el promedio de los algoritmos usados para el
procesamiento de los datos, en el cual podemos observar que el
algoritmo de redes neuronales es el que mayor tiempo demoró para
dicho procesamiento.
Tabla 7: Tiempo de Procesamiento entre Red neuronal y ETS-

Secundaria
Escenarios ETS Redneuronal
Evaluados
1 3,03 4,1
2 4,2 5,25
3 2,8 4,05
4 3,01 5,6
5 2,5 4,6
6 3,05 5,8
7 2,09 6,52
8 3,04 5,58
9 4,02 6,2
10 1,7 3,1
Total 2,944 5,08
63
En la Tabla N° 07 podemos apreciar las iteraciones y el tiempo en
segundos que demoran los algoritmos para el procesamiento de los
datos. El algoritmo de ETS tiene mejor tiempo de procesamiento en cada
iteración equivalente a un promedio de 2.944 segundos.
Grafico 4: Tiempo de Procesamiento entre Red Neuronal y ETS-Secundaria
Tiempo Promedio: ETS vs NN

6
0
ETS NN
El gráfico 4 representa el promedio de los algoritmos usados para el
procesamiento de los datos, en el cual podemos observar que el
algoritmo de redes neuronales es el que mayor tiempo demoró para
dicho procesamiento.
64
C. Tiempo para generar estimación en el sistema
Este indicador mide el tiempo en la solución diseñada, con respecto a la
Usabilidad del usuario en el simulador del sistema web para generar un
Análisis que obtenga una estimación requerida.
Tabla 8: Tiempo de Procesamiento del Sistema Web-Primaria
Escenarios Sistema
Evaluados Web
1 15
2 25
3 28
4 30
5 32
6 30
7 33
8 35
9 38
10 40
Promedio 30,60 seg.

En la Tabla N° 8 se observa que el tiempo promedio de generación de
estimaciones en el sistema web para el nivel primario es de 30,60
segundos.
Gráfico 5: Tiempo de generación de pronósticos en Módulo-

Primaria
Tiempo de generación de estimaciones en Módulo

Web
60
Segundos
40
20
0
1 2 3 4 5 6 7 8 9 10
Escenarios evaluados
65
El gráfico 5 nos permite observar la variación del tiempo de generación
de pronósticos en el Módulo Web para el nivel primario.
Tabla 9: Tiempo de Procesamiento del Sistema Web-Secundaria
Escenarios Sistema
Evaluados Web
1 14
2 24
3 27
4 29
5 31
6 28
7 32
8 34
9 37
10 39
Promedio 29,5
En la Tabla N° 9 se observa que el tiempo promedio de generación de
estimaciones en el sistema web para el nivel secundario es de 29,5
segundos.
Gráfico 6: Tiempo de generación de pronósticos en Módulo-

Secundario
Tiempo de generación de estimaciones en

Modulo Web
45
40
35
30
25
20
15
10
5
0
1 2 3 4 5 6 7 8 9 10
66
El gráfico 6 nos permite observar la variación del tiempo de generación
de pronósticos en el Módulo Web para el nivel secundario.
4.1. Discusión de resultados
A. Grado de confiabilidad
Con respecto al primer indicador comparando las dos técnicas, es

decir Redes Neuronales y ETS. Podemos decir que la red neuronal
obtuvo el nivel de confianza más elevado en comparación a ETS, esto
se denota en los valores obtenidos al calcular la razón (valor
calculado entre el monto real y el monto pronóstico para saber el
grado de relación que existe uno con respecto del otro).
B. Tiempo de Procesamiento del Modelo.

En el tiempo de procesamiento al evaluar estas técnicas se obtuvo
que con ETS el tiempo promedio de ejecución de 3.355 segundos
siendo superior a diferencia de la red neuronal, que tiene 5.08
segundos.
Por otro lado para el nivel secundario el tiempo de procesamiento la
técnica ETS obtuvo un tiempo promedio de ejecución de 2.944
segundos siendo superior a diferencia de la red neuronal, que tiene
5.08 segundos.
C. Tiempo para generar estimación en el sistema

Para el último indicador se obtuvo que, en la usabilidad del sistema
web, se generó un tiempo promedio de 30.6 segundos para generar
una estimación.
Donde para el nivel secundario, se obtuvo que en la usabilidad del
sistema, genero un tiempo promedio de 29.5 segundos para generar
una estimación.
67
CAPITULO V
DESARROLLO DE LA
PROPUESTA
68
CAPITULO V: DESARROLLO DE LA PROPUESTA
5.1. Generalidades
Para el desarrollo de la propuesta de investigación se planteó dos
metodologías, la metodología CRISP-DM la cual se utilizó para la
generación de los modelos aplicando técnicas de minería de datos y la
metodología XP, para la construcción del sistema analítico web en el
cual se mostraron los resultados del modelo con la data tratada y un
simulador con escenarios de comparación de algoritmos de predicción
de minería de datos. La justificación de la utilización de las
metodologías se expuso en el marco teórico de la presente
investigación.
5.2. Metodología
La siguiente investigación consta de dos etapas, la primera que abarca
todo lo relacionado al desarrollo de modelos de predicción usando la
minería de datos, en esta etapa se contempla todas las fases que se
utilizan en la Metodología de desarrollo de modelos de minería de
datos (Crisp-DM), desde la comprensión del negocio, datos iniciales,
transformación de datos, modelado y aplicación del algoritmo,
evaluación de performance. En la segunda etapa se desarrolla la
metodología de desarrollo ágil XP, con las fases para el diseño y
construcción del sistema web
Se aplica el siguiente marco conceptual para el desarrollo de esta
investigación:
69
Dado que la investigación tiene como esquema principal, el modelo de
minería de datos se ha realizado un cuadro comparativo para la
determinación de la metodología que permita resolver esta etapa.
Como se puede apreciar en el la tabla 8.
Tabla 10: Metodologías de Desarrollo de Modelo de Minería de
Datos
CRISP-DM SEMMA
Libre elección de herramientas SI NO
Cantidad de fases 6 5
Todas las fases pueden relacionar SI NO
Procesos de Inteligencia de Negocios SI NO
Comercial – Licencias – Privativa NO SI
Técnicas de ETL SI SI
Fuente: (Flores, 2009)
Se establece usar CRISP-DM, por ser una metodología flexible en
cuanto a herramientas, además que integra el proceso de comprensión
de negocio (Gestión del proyecto por objetivos empresariales), en
cuanto la metodología SEMMA es una buena alternativa siempre y
cuando se use en proyecto con tecnologías SAS.
Figura 9: Etapas de Desarrollo

Comprension del negocio Analisis (Requerimiento de interfaz
Etapa I - Crisp DM
Etapa II - XP
(Requerimiento y objetivos del de usuario)

negocio) Diseño (Preparacion de la
Comprension de los datos arquitectura de la aplicacion)
(Entendimiento de la estructura de Implementacion (Codificacion de la
datos de la entidad) aplicacion)
Preparacion de los datos Pruebas Entorno de desarrollo
(Adecuacion de los datos para el
modelo)
Modelado (Implementacion de los
algoritmos de entrenamiento a
utilizar)
Evaluacion (Analisis comparativo de
algoritmos)
70
5.2.1. Metodología CRISP DM Minería de Datos
5.2.1.1. Comprensión del negocio
La Ugel Chiclayo es una entidad gubernamental. Donde cada fin del año
escolar se hace de manera manual el consolidado de todos los alumnos
de cada institución educativa las que conforman la Ugel Chiclayo.
Donde toda esa información que se pasan a un archivo Excel y de esa
manera tener registrados el total de alumnos matriculados en cada
respectiva institución educativa.
Tabla 11: Periodo - Matriculados
Año Matriculados
2006 154466
2007 375200
2008 148647
2009 79156
2010 78009
2011 77918
2012 74050
2013 104116
2014 76860
2015 77483
b. Necesidades y Expectativas
b.1.Búsqueda de la mejora en las predicciones con respecto a los

alumnos matriculados de una institución educativa en un periodo
determinado.
b.2.Implementar una nueva y mejor técnica en cuanto al proceso
predictivo.
71
c. Objetivos de Negocio
c.1 Analizar tendencias de predicción con respecto a los alumnos

matriculados de un determinada Institución.
c.2 Realizar pronósticos de forma anual, con base en un nivel de

confianza previamente definido en un periodo determinado.
d. Criterios de Éxito
d.1 Confiabilidad de los pronósticos realizados en un determinado

periodo.
d.2 Facilidad de acceso con respecto al aplicativo web.
e. Evaluación de la situación
e.1 Se cuenta con la base de datos de alumnos matriculados en la

región de Lambayeque desde el año 2006. Esta información es
utilizada como fuente principal para la creación del modelo de series
de tiempo.
f. Requerimientos
f.1 El sistema permitirá la generación de reportes para la

visualización de las predicciones de alumnos que podrían desertar en
los próximos años.
f.2 Visualizar la comparación de modelos predictivos y utilizando el

mejor para beneficios de la institución educativa.
g. Restricciones
g.1 Se requiere la base de datos de todos los alumnos matriculados
desde hace 9 años de antigüedad como mínimo para el
entrenamiento y testeo del modelo.
72
g.2 De la información obtenida, los datos deben estar libre de errores
y valores en valores en blanco.
h. Determinación de los Objetivos de minería de datos

h.1 Objetivos del Proyecto
h.1.1 Generar un modelo de series de tiempo, que arroje

predicciones con un alto grado de confianza en un tiempo
determinado.
h.2.2 Entrenar el modelo para su mejor eficiencia.
h.3.3 Testear el modelo para el resultado.
h.2 Criterios de éxito del proyecto
h.2.1 Confiabilidad del modelo diseñado e implementado.
h.2.2 Optimización del tiempo para la generación de reportes.
5.2.1.2. Comprensión de los datos

A. Recolección de los Datos del Negocio Iniciales
A.1 Proceso de Adquisición
Los datos obtenidos corresponden a los alumnos matriculados en la

Ugel de Chiclayo de forma anual y por colegios.
No se realizará una transformación de datos ya que la información con
la que se cuenta es real; dichos datos son utilizados como ingreso para
el entrenamiento del modelo.
A.2. Selección de las Variables a utilizar
Para la creación del modelo con series de tiempo, los atributos

utilizados son identificados de la siguiente manera: El atributo
codigocolegio se denota como el código de cada colegio, el atributo
Dato01h es la cantidad de hombres matriculados en 1 grado de
primaria, Dato01M es la cantidad de mujeres matriculados en 1 grado
de primaria, el atributo Dato02h es la cantidad de hombres
73
matriculados en 2 grado de primaria, Dato02M es la cantidad de
mujeres matriculados en 2 grado de primaria, el atributo Dato03h es la
cantidad de hombres matriculados en 3 grado de primaria, Dato03M es
la cantidad de mujeres matriculados en 3 grado de primaria, el atributo
Dato4h es la cantidad de hombres matriculados en 4 grado de primaria,
Dato04M es la cantidad de mujeres matriculados en 4 grado de
primaria, el atributo Dato5h es la cantidad de hombres matriculados en
5 grado de primaria, Dato05M es la cantidad de mujeres matriculados
en 5 grado de primaria, el atributo Dato6h es la cantidad de hombres
matriculados en 6 grado de primaria, Dato06M es la cantidad de
mujeres matriculados en 6 grado de primaria, el atributo CODOOII es el
código de la ugel de Chiclayo CODOOII=140001, el atributo NIV_MOD
es el código del nivel Bo=primaria, Fo=secundaria, el atributo AREA es
para identificar 1=rural, 2=urbano, como se detalla en la siguiente
imagen.
Figura 10: Datos de alumnos Matriculados
Fuente: Base de datos en excel “Mat2x00”

Tratamiento de nulos (Directo)
Los valores nulos se pueden dar por las siguientes razones:
- No se pudo capturar cuantos alumnos están matriculados.
74
En el nulo directo, aun así cuando en el registro de alumnos matriculados
en cada aula.
Figura 11: Tratamiento de Datos Nulos
Luego de limpiar los datos nulos del archivo de Microsoft Excel
“MAT2X00.xls”, donde luego se pasara a una base de datos “Deserción”.
Así como lo visualiza en la siguiente imagen.
Figura 12: Datos Sin datos Nulos
75
A.3. Datos y métodos de captura
Los datos han sido extraídos de la base de datos que están

almacenados en Microsoft Excel. Para luego pasarlos a la herramienta
Spss para luego pasarlo al formato requerido como se muestra en la
imagen.
Figura 13: Tratamiento de Datos
Fuente: “Spss”
Donde luego de haber homogenizado la data se exporta a un archivo
Excel para cada uno de los años como se muestra en la imagen:
Figura 14: Datos Tratados
Fuente: Base de datos en Excel “Mat2x00”

Después de haber pasado los datos a un formato homogéneo se realizó
la migración manual de documentos ofimáticos a la base de datos
“Deserción”, a partir de estas tablas se procede a realizar el modelo
predictivo.
76
A.4. Exploración de Datos
La construcción del modelo de predicción se desarrolla con información

obtenida desde el año 2006 hasta el año 2015. Estos datos son los que
ingresan en una pequeña base de datos obtenida por la migración de
datos en repositorios ofimáticos a la base de datos “Deserción” en el
gestor SQL SERVER 2008 para que realice el entrenamiento del
modelo; de los cuales se utiliza el 70% para el entrenamiento y el 30%
para las pruebas de predicciones.
Al realizar este proceso de aprendizaje en el modelo se obtiene un valor

aproximado que medirá el rendimiento del modelo mostrando el
porcentaje de error, el cuan deberá ser mínimo para demostrar que el
modelo está bien creado con un alto grado de certeza.
Figura 15: Diagrama E-R Esquema Matriculas
Después del proceso de aprendizaje del modelo se obtiene un valor

aproximado que medirá el rendimiento del modelo mostrando el
porcentaje de error, el cual deberá ser mínimo para demostrar que el
modelo esta creado con un grado de certeza muy alto.
77
Tabla 12: Alumnos matriculados 2006-2015
Año Total_matricula
2006 154466
2007 375200
2008 148647
2009 79156
2010 78009
2011 77918
2012 74050
2013 104116
2014 76860
2015 77483
5.2.1.3. Preparación de los datos

A. Datos Seleccionados
De la base de datos obtenida, se obtienen diferentes tipos de

información con respecto a los alumnos matriculados, lo cual son datos
relevantes, para ello, se ha realizado un análisis de la data con los
atributos a utilizar para el correcto funcionamiento del modelo. Debe
considerarse además que se ha analizado y utilizado el campo Nivel,
para el proceso de limpieza de datos.
Figura 16: Scripts SQL para análisis de data
78
B. Estructuración de los datos
Para la creación del modelo con series de tiempo, los atributos utilizados
son identificados de la siguiente manera: al atributo Año, Primero,
Segundo, Tercero, Cuarto, Quinto, Sexto, Total que se denota a la
cantidad total de alumnos ya que representa el objetivo a predecir. Como
se demuestra en nuestra imagen.
Figura 17: Data para análisis
5.2.1.4. Modelado
En la investigación se propone construir un modelo de minería de datos
utilizando técnicas de pronósticos, a continuación, se presenta la tabla que
se realizó para la selección de las técnicas adecuadas.
Tabla 13: Evaluación de las técnicas de minería de datos
TÉCNICA DE DESCRIPCIÓN DE LA ¿ES

MINERÍA DE TÉCNICA ALGORITM ADECUADO
DATOS OS PARA LA
INVESTIGACI
ÓN?
REGRESIÓN Modelos de 2 variables Redes SI
Neuronales,
ETS
ASOCIACION Hechos en común para A priori NO
determinado grupo de datos FP-Growth
múltiples variables Éclat
79
Basado en reglas por Árbol de
CLASIFICACION construcciones lógicas decisiones, NO
AD HOC múltiples variables Redes
Bayesianas
Para lo cual se han establecido los siguientes criterios de evaluación de los
Algoritmos a utilizar.
Tabla 14: Modelos de Minería de Datos
RED
ETS HOLT NEURONAL
AUTO
REGRESIVA
Evaluación fundamento teórico
Modelo parametrizado X X ----
Datos estacionales X X X
Método estadístico X X ----
Capacidad iterativa ----- ----- X
(Aprendizaje)
Cantidad de datos de la 25 28 3
serie
Evaluación fundamento computacional
Procesamiento CPU Mínimo Mínimo Medio
Consumo RAM Mínimo Mínimo Medio
Tiempo computacional Mínimo Mínimo Medio
Evaluación fundamento objetivo del modelo
Confiabilidad de Después de Después Después de
precisión pronostico pruebas de pruebas
pruebas
Confiabilidad de Después de Después Después de
precisión consistencias pruebas de pruebas
pruebas
80
Se ha considerado usar ETS y REDES NEURONALES, donde ETS se utilizó
por requerir la cantidad de datos necesarios con la que se dispone en el
histórico de cada colegio, y la red neuronal auto regresiva se utilizó por la
naturaleza de la investigación donde se utiliza series de tiempo como refiere
(Vílchez García, 2010) , sin embargo para este caso debido a la cantidad de
datos se cuenta no es factible emplear el algoritmo Holt. Después de la
pruebas de laboratorio como se muestra en el Anexo 3 se determinó que el
tiempo de procesamiento es mínimo
5.2.1.4.1. Modelo A
5.2.1.4.1.1. Descripción del Modelo A
Nnetar es una Red neuronal auto regresivo, el modelo es de tipo

regresión, la cual analiza el comportamiento de múltiples variables
para determinar un estado objetivo.
Figura 18: Algoritmo R - Nnetar
Fuente: R Project 3.2.2
En el caso de la investigación, el único valor que se ingresa está

dado por un vector numérico de series de tiempo.
81
El análisis de la serie entonces por una red neuronal debe tratarse
con un método previo, que es la teoría de ventanas, se trata de un
algoritmo que expande y genera atributos (columnas) a partir de los
datos iniciales del vector, por lo que al generar dichos atributos se
trata de explicar la relación de estos a partir de un modelo regresivo.
5.2.1.4.1.2. Evaluación del Modelo A

En R aplicamos el algoritmo al histórico del colegio, el modelo
realiza el entrenamiento de la serie donde determina de manera
automática e interpretativa los valores de componentes de la serie
de tiempo.
Tabla 15: Datos algoritmo Red Neuronal
Año V Original V-1 V-2 V-3
2010 45 ¿ ¿ ¿
2011 65 45 ¿ ¿
2012 55 65 45 ¿
2013 75 55 65 45
2014 89 75 55 65
2015 13 89 75 55
2016(Objetivo) X ¿ ¿ ¿
En la tabla anterior la tomamos con un ejemplo para mostrar que el

formato a analizar por la red neuronal trata de explicar el fenómeno
obteniendo para cada año, además se puede apreciar cómo se
distribuye según la información que contiene el vector original.
A continuación, se presenta el Algoritmo Nnetar en líneas de
código.
82
Figura 19: Aplicación del Algoritmo Nnetar
Después de Implementar el algoritmo Nnetar, en la siguiente

imagen se puede apreciar el funcionamiento del algoritmo.
Figura 20: Nnetar
Fuente: Elaboración propia.
83
5.2.1.4.2. Modelo B
5.2.1.4.2.1. Descripción del Modelo B
Es una regla de la técnica general para suavizar los datos de series
de tiempo, sobre todo para aplicar de forma recursiva hasta tres
filtros de paso bajo con funciones de la ventana exponenciales.
Figura 21: Algoritmo ETS
Fuente: (Hyndman R. , 2015)
A continuación, se presenta el Algoritmo ETS en líneas de código.
84
Figura 22: Aplicación del Algoritmo ETS

Después de Implementar el algoritmo ETS, en la siguiente imagen
se puede apreciar el funcionamiento del algoritmo.
Figura 22: ETS
Fuente: Elaboración propia.
5.2.1.4.2.2. Evaluación del Modelo B

En R aplicamos el algoritmo al histórico del colegio, el modelo
realiza el entrenamiento de la serie donde determina de manera
automática e interpretativa los valores de componentes de la serie
de tiempo.
85
5.2.1.5. Etapa II – Metodología XP para el desarrollo de aplicación web
a) Planificación del Proyecto
Tabla 16: Prioridad y Dificultad de Historia de Usuario
HISTORIA DE USUARIO PRIORIDAD N° ITERACIONES
1. CONSULTAR Y GENERAR ALTA 3

REPORTES
2. GENERAR ALTA 3
PROYECCIONES Y
ESTIMACIONES.
3. GESTION DE USUARIOS. MEDIA 2
4. GESTION DE REPORTES MEDIA 2
Fuente: Extraído de la Metodología XP
La prioridad está definido por el aspecto del sistema, es decir que está
en función principal por las historias de usuarios.
Historia de usuario detallado

Tabla 17: Requerimiento 01
Historia de Usuario
Número: 1 Usuario: Estadisticos,Especialistas,estudiantes,invitados
Nombre historia: CONSULTAR Y GENERAR REPORTES
Prioridad en negocio: Riesgo en desarrollo:
Alta Baja
Entrevistado:Estadistico,Usuario Funcional
Descripción:Podrán acceder al módulo de monitoreo de información anual.
Observaciones:

Historia de Usuario
Número: 2 Usuario:Analistas de datos
Nombre historia: GENERAR PROYECCIONES Y ESTIMACIONES

Alta Baja
86
Entrevistado: Analista de datos
Descripción:
El analista de datos podrá entrar en el módulo de proyecciones y
estimaciones donde podrán simular con los datos cualquier escenario
posible que le permita el sistema de análisis, puede visualizar el modelo por
defecto o generar nuevos valores a partir de simulaciones.
Observaciones:

Historia de Usuario
Número: 3 Usuario: Administrador del Sistema
Nombre historia: GESTIÓN DE USUARIOS

Alta Baja
Entrevistado:
Descripción:
El sistema contará con 2 niveles de usuario: Administrador y Estadísticos.
Cada uno de ellos tendrá restricciones en el sistema.
Administrador: Acceso a todos los módulos del sistema.
Estadísticos: Acceso a la visualización de reportes del modelo, que son los
resultados de las predicciones.
El sistema debe permitir, visualizar y estructurar nuevos reportes.
Observaciones:
B) Diseño
Base de Datos Relacional
El sistema está diseñado para cumplir dos propósitos, la captura de los

datos que viene a ser la migración de los documentos ofimáticos en
función al consolidado de Matriculados, siendo este la mínima unidad
representativa de tiempo registrado, por lo tanto, el sistema contempla
esta captura de datos y el almacenamiento de información por parte de
la ejecución del modelo, así como los datos administrativos del sistema.
87
C) Interfaz web de simulaciones
Se diseñó una interfaz web usando php para extraer los resultados del
modelo de minería aplicando las técnicas documentadas en la fase de
modelado, a fin de recrear un simulador del proceso.
Interfaces relevantes del sistema
A. Interfaz de Logueo a simulador
B. Análisis de un determinado Colegio.
88
C. Análisis de Descomposición vista R Project a interfaz PHP
D. Generación de gráficos de la representación matricial
E. Pronósticos
Visualización General de los resultados
89
Visualización por cada colegio
90
CAPITULO VI
CONCLUSIONES Y
RECOMENDACIONES
91
CAPITULO VI: CONCLUSIONES Y RECOMENDACIONES
6.1. Conclusiones
a. Se recopilo y analizo la información brindada por la Ugel Chiclayo, se
hizo el análisis de los archivos ofimáticos con los datos históricos de
todos los alumnos matriculados, donde se determinó que se tuvo que
homogenizar los campos, donde inicialmente comprendía 4831254
registros obtenidos están entre los años 2006 hasta 2015.
b. Se realizó la selección de las técnicas predictivas de minería de
datos, determinando que el modelo a utilizar sería uno de series de
tiempo y redes neuronales, dada la naturaleza de los datos
analizados en el datawarehouse, se realizó un breve análisis de las
técnicas u algoritmos que intervenían en este tipo de modelo como
se muestra en la tabla 13.
c. Dentro de las técnicas predictivas se determinó utilizar los algoritmos
de Redes Neuronales y ETS, ya que al realizar el análisis como se
muestra en la tabla 14 se descartaron algunas técnicas adicionales
por no tener los criterios necesarios para su implementación en el
modelo a desarrollar.
d. Se realizó el análisis comparativo de técnicas de minería de datos

con lo cual se demostró que para esta investigación las de series
temporales se ajusta a nuestro estudio para lo cual dicha
comparación y análisis se muestra en la tabla N° 14, de acuerdo a
los criterios de selección se obtuvo que para el presente trabajo de
investigación las técnicas más adecuadas son ETS y redes
neuronales. Siendo las redes neuronales autoregresiva el que mejor
confiabilidad presenta, Tanto para el nivel primario y secundario con
92
un 91% y 96% respectivamente.Podemos decir que Red neuronal
autoregresiva obtuvo el nivel de confianza más elevado en
comparación a ETS.
En el tiempo de procesamiento al evaluar estas técnicas se obtuvo

que con el método red neuronal autoregresiva el tiempo promedio de
ejecución de 3.355 segundos siendo superior a diferencia de ETS,
que tiene 5,08.
e. Se construyó una aplicación web para evaluar los resultados
obtenidos. El sistema se diseñó en php obteniendo una interfaz
donde es capaz de interactuar con el servidor a fin de ejecutar los
modelos ya sean reales o simulaciones donde se extrae el histórico
de cada colegio analizado del datawarehouse,para que el usuario
realice las pruebas pertinentes.
6.2. Recomendaciones
a. Se recomienda un licenciamiento en cuanto para el software
SPSS.Para el tratamiento de los datos.
b. Los tratamientos de valores nulos en datos de esta naturaleza deben
ser tratados con el mayor detalle posible, una matriz consolidada
permitió identificar los valores faltantes en la base de datos que
podían ocasionar daños en los cálculos de la serie.
c. Se recomienda que los formatos ofimáticos deberían de estar en un
formato homogéneo.
93
BIBLIOGRAFÍA
López Puga, J. (2010). INTRODUCCIÓN AL ANÁLISIS DE DATOS CON R Y R COMMANDER EN
PSICOLOGÍA Y EDUCACIÓN. Bogotá, Colombia.
Bachman, J., Green, S., & Wirtanen, I. (1971). Dropping out: Problem or symptom? Ann Arbor.
Michigan: Institute for Social Research, University of Michigan.
Barrientos, F., & Ríos, S. (2013). Aplicación de Minería de Datos para Predecir Fuga de Clientes
en la Industria de las Telecomunicaciones. 1-36.
Brachman, R., & Anand, T. (1996). The process of Knowledge Discovery in Databases: A human
centered approach. Advances in Knowledge Discovery and Data Mining. AAAII MIT
Press.
Cabena, P. H. (1998). Discovering Data Minin:From Concepts to Implementation. New Jersey:

Prentice Hall Saddle River.
Carrasco, R. A. (2011). Data Mining: Aplicaciones Económico-Financieras. España: Académica

Española.
Cruz Arrela, L. (2010). Minería de datos con aplicaciones. Mexico: Universidad Nacional
Autonoma de Mexico.
El Comercio. (26 de 06 de 2013). Más de 8.000 escolares abandonaron las aulas durante el
2013.
Elias, R., & Molina, J. (2005). La deserción escolar de adolescentes en Paraguay.

Asuncion,Paraguay: Instituto de Desarrollo.
Española, R. A. (s.f.). Diccionario de la Real Academia Española.
Espíndola, E., & León, A. (2002). Éducación y conocimiento: una nueva mirada. OEI, 62.
Esteve, Juan Domingo. (s.f.).

http://platea.pntic.mec.es/vgonzale/cyr_0708/archivos/_15/Tema_5.6.htm. Obtenido
de http://platea.pntic.mec.es/vgonzale/cyr_0708/archivos/_15/Tema_5.6.htm
Fitzpatrick, K., & Yoels, W. (1992). Policy, school structure, and sociodemographic effects on
statewide high school dropout rates. En K. Fitzpatrick, & W. Yoels, Policy, school
structure, and sociodemographic effects on statewide high school dropout rates (págs.
76-93). Alabama: US: American Sociological Assn.
Flores, H. D. (2009). Detección de Patrones de Daños y Averías en la Industria. Buenos Aires.
Formia, S., Lanzarini, L., & Hasperué, W. (2013). Caracterización de la deserción universitaria
en la UNRN utilizando Minería de Datos.
George Lee ;H. Jacky Chang,. (s.f.). http://www.solociencia.com/ingenieria/07071201.htm.

Obtenido de http://www.solociencia.com/ingenieria/07071201.htm
Getoor, L., & Ben, T. (2007). Introducción a estadística de relación de aprendizaje. MIT.
94
Grudnitsky, B. J. (1992). Diseño de sistemas de información. Teoría y Práctica. México:
Megabyte Grupo Noriega.
Guallart Romeu, P. M. (2010). MINERÍA DE DATOS APLICADA AL ANÁLISIS DEL TRATAMIENTO

INFORMATIVO DE LA DROGADICCIÓN. 28.
Hand, M. &. (2011). Principles of Data Mining. Cambridge: MIT Press Cambridge.
Hernández & Ferri, C. (2004). Introducción a la Minería de Datos. España: Pearson.
Hyndman, R. (11 de Enero de 2015). github.com. Obtenido de github.com:

https://github.com/robjhyndman/forecast
Hyndman, R. J. (2014). Forecasting: principles and practice. OTexts.
Irizarry, R., & Quintero, A. (2006). ESTUDIOS DE CASOS NACIONALES: PUERTO RICO.
Joshi, K. (1997). Analysis of data mining algorithms. University of Minnesota.
Lavado, P., & Gallegos, J. (2005). La dinámica de la deserción escolar en el Perú:un enfoque
usando modelos de duración. Lima: Grade.
Lopez Alfonso, J. (06 de 02 de 2015). Redes Neuronales. Obtenido de Lopez Alfonso, Jesus:
http://members.tripod.com/jesus_alfonso_lopez/RnaIntro2.html
Márquez, C., Romero, C., & Ventura, S. (2012). Predicción del Fracaso Escolar mediante
Técnicas de Minería de Datos. 1.
Mazo, C. X., & Bedoya, O. (2010). PESPAD: una nueva herramienta para la predicción de la
estructura secundaria de la proteína basada en árboles de decisión. Ingeniería y
Competitividad, 9-22.
Ministerio de Educación, el 14% de niños y jóvenes entre los 13 y 19 años dejó el colegio o
nunca se matriculó. (18 de Junio de 2014). ProExpansion.
Moody , J., & Darken, C. (1989). Fast Learning in networks of locally tuned processing .
Mora, S. L. (2002). Programación de aplicaciones web. Alicante, Argentina: Editorial Club

Universitario.
Mora, S. L. (2002). Programación de aplicaciones web . Alicante, Argentina: Facultad de

Ingeniería - Universidad de Buenos Aires.
Morrow, G. (1985). Standardizing Practice in the Analysis of School Dropouts. Columbia:

Teachers College, Columbia University.
Msc. Marvin Lemos, AJ Alves, Douglas S. Kridi, Kannya Leal . (2015).

https://github.com/zerokol/. Obtenido de https://github.com/zerokol/eFLL
Olabe Basogain, X. (2008). Redes Neuronales Artificiales y sus apliciones. España: Escuela
Superior de Ingenieria de Bilbao.
oocities. (s.f.). Sistemas y herramientas de minería de datos. Recuperado el 22 de 08 de 2014,

de
http://www.oocities.org/es/mineria.datos/sistemas_herramientas_mineria_datos.pdf
95
Orallo Hérnandez, J. (12 de 12 de 2015). Minería de Datos. Obtenido de
http://users.dsic.upv.es/~jorallo/master/dm5.pdf
Ortiz Farro, P. (2015). Minería de datos con series de tiempo en el desarrollo e implementacíon
del sistema inteligente que predice la produccíon de arroz en el ámbito de la gerencia
regional de Agricultura. Chiclayo.
Pérez, C., & Santín, D. (2008). Minería de Datos:Técnicas y Herramientas. España: Thompson
Ediciones Paraninfo,S.A.
Pernía, A., & F., C. (2001). Gestión del Conocimiento y Minería de datos. XVII Congreso
Nacional de Ingeniería de Proyectos, Murcia, Anonymous .
Quinlan, J. R. (1993). C4. 5: programs for machine learning. Morgan Kaufmann.
Silvaz Wanumen, L. (2010). Minería de datos para la predicción de fraudes en tarjetas de

crédito. 1-14.
Sinnexus. (s.f.). Minería de datos. Recuperado el 25 de 08 de 2014, de

http://www.sinnexus.com/business_intelligence/datamining.aspx
Spositto, O., Etcheverry, M. E., Ryckeboer, H., & Bossero, J. (2010). Aplicación de técnicas de
minería de datos para la evaluación del rendimiento académico y la deserción
estudiantil. 1-5.
Timarán, R., Calderón, A., & Jiménez, J. (2013). Aplicación de la minería de datos en la
extraccion de perfiles de desercion estudiantil.
Unicef. (s.f.). Recuperado el 19 de Agosto de 2014, de

http://www.unicef.org/peru/spanish/children_3787.htm
Universidad de Barcelona. (s.f.). TÉCNICAS DE PREDICCIÓN. Recuperado el 22 de 08 de 2014,

de http://www.ub.edu/aplica_infor/spss/cap8-5.htm
Usama, A., & Wierse, G. (2002). Information and Visualization in Data Mining and Knowledge
Diskovery. Morgan Kauffmann.
Valero, S., Salvador, A., & García, M. (2003). Minería de datos: predicción de la deserción
escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos
más cercanos. 1-8.
Vílchez García, V. (2010). Estimación y clasificación de daños en materiales utilizando modelos

AR y redes neuronales para la evaluaciónno destructiva con ultrasonidos. Granada.
WebMining Consultores. (10 de 01 de 2014). KDD: Proceso de Extracción de conocimiento.

Recuperado el 12 de 07 de 2014, de http://www.webmining.cl/2011/01/proceso-de-
extraccion-de-conocimiento/
Weiss, S., & Indurkhya, N. (1998). Predictive Data Mining: A Practical Guide. EE UU: Morgan
Kaufmann.
96
ANEXO
97
ANEXO 01: Diccionario de datos
CÓDIGO MODULAR:
98
99
Anexo 02: Extracción del Conocimiento
Adquisición de la data
Como se muestra en la imagen es la data inicial, como la ugel de Chiclayo

entrego para la presente investigación.
Selección de variable
En la imagen se muestra la selección de variables para trabajar las cuales

fueron CODOOII=código de Ugel, para esto código de la Ugel 14001,
NIV_MOD=modalidad, y en la modalidad es BO y FO, las cuales representa al
nivel primario y secundario respectivamente, y también CUADRO=el número
de cuadro que para el estudio se basó en el 2200
100
Tratamiento de datos Nulos
Para el tratamiento de los datos nulos se utilizó la formula

=+CONTAR.BLANCO(D3:O3)+CONTAR.SI(D3:O3;0), donde solo se tomarían
los que tengan como valor 0.
Pasando Datos Al Spss
Luego de haber tratado los datos nulos se pasó toda la data a la herramienta
spss para hacer un pivoteo.
Migrando Del Spss al excel
Una vez realizado el pivoteo en la herramienta Spss se pasó a un formato

homogéneo en Excel donde estarán alojados todos los registros por año así
como se muestra en la imagen
101
Migrando Del Excel a Sql Server
Una vez realizado la migración del spss al Excel, se procedio a migrar la data
al sql para realizar más adelante la aplicación de los algoritmos seleccionaos
anteriormente.
Anexo 03: Laboratorio

Evaluación de tiempo de Holwinter
102
Evaluación de tiempo de Red Neuronal Autoregresiva
Anexo 04: Evaluación Económica

Para hacer el cálculo del costo del software se utilizó el modelo
COCOMO (COnstructive COst MOdel)
ANÁLISIS PRELIMINAR
DEFINICIÓN DE REQUERIMIENTOS:
Donde:
RS = Responsabilidades del Sistema
Se considera la siguiente lista, siendo seis:
a. Generar modelo de series de tiempo

b. Entrenar modelo
c. Realizar estimaciones
d. Generar reportes
e. Visualizar comparación de modelos predictivos
RS = 5
F = Funciones de Sistema:
F = 280 ∗ RS
𝐅 = 𝟏𝟒𝟎𝟎
103
MF = Miles de Funciones
F
MF =
1000
1400
MF =
1000
𝐌𝐅 = 𝟏. 𝟒
ESF = Esfuerzo.
ESF = 2.4(MF)1.05
ESF = 2.4(1.4)1.05
𝐄𝐒𝐅 = 𝟑. 𝟗𝟕𝟓𝟔𝟎𝟓𝟔𝟏
TDES = Tiempo de Desarrollo
TDES = 2.5(ESF)0.38
TDES = 2.5(3.97560561)0.38
𝐓𝐃𝐄𝐒 = 𝟒. 𝟐𝟐
CH = Cantidad de Hombres por MES
CH = ESF/TDES
𝟑. 𝟗𝟕𝟓𝟔𝟎𝟓𝟔𝟏
CH =
4.22
CH = 0.94208
𝐂𝐇 = 𝟏 𝐩𝐞𝐫𝐬𝐨𝐧𝐚𝐬 𝐩𝐨𝐫 𝐦𝐞𝐬
CHM = Costo Hombre por Mes
CHM = CH ∗ SPM (Salario Promedio Mensual)
CHM = 1 ∗ 2400
𝐂𝐇𝐌 = 𝟐𝟒𝟎𝟎
CD = Costo de Desarrollo
CD = ESF ∗ CHM
104
CD = 3.975 ∗ 2400
𝐂𝐃 = S/. 9,480.00
Los costos obtenidos serán asumidos en su totalidad por el responsable de la

investigación.
Anexo 05: Simulación

Módulo de Simulación
Como se muestra en la imagen se puede visualizar el módulo de simulación

donde se tiene que seleccionar el nivel (Primaria o Secundaria), el colegio y el
grado que se quiere simular. Donde también se selecciona los años que se
quiere simular en este caso se va a simular tres años para predecir el año
2010. Donde en la Columna Tercero es La cantidad de Alumnos que han
desertado donde luego se pasara a la red neuronal
105
Configurando Red Neuronal
En la imagen se muestra la configuración de la red neuronal, donde se ingresa

la entrada en este caso se ingresan 3 entradas a la red neuronal, la capa
oculta es 2 ,el desfase es 1 y el ciclo de repeticiones(Iteraciones). Luego se da
clic en el botón procesar simulación y luego se da clic en el botón recargar
Resultados de Simulación
En la imagen se muestra la simulación que se hizo con el algoritmo.
106

Tesisterminada PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tesisterminada PDF

Загружено:

Авторское право:

Доступные форматы

FACULTAD DE INGENIERIA, ARQUITECTURA Y

“APLICACIÓN DE TÉCNICAS DE MINERIA DE

DATOS PARA PREDECIR LA DESERCION

ESTUDIANTIL EN LA EDUCACION BASICA

REGULAR EN LA REGION DE LAMBAYEQUE”

Para optar el Título Profesional de Ingeniero de Sistemas

Bach. Piscoya Ordoñez Luis Emir

DESERCION ESTUDIANTIL EN LA EDUCACION BASICA REGULAR EN LA

Ing. Rosa América Cobeñas Sánchez Mg. Victor Tuesta Monteza

vida académica han iluminado mi mente y ampliado mis conocimientos.

También mi reconocimiento a las personas que han hecho posible la culminación

de este trabajo de investigación; al Mg. Carlos Alberto Chirinos Mundaca quien

realización de este proyecto, quien con sus sabios consejos, orientaciones,

revisión y corrección, permite la conclusión correcta de este documento; también

a la Ingeniera Lourdes Esquivez Paredes como Asesora Metodológica; y a todas

limitaciones encontradas en la realización del presente trabajo de investigación.

En la presente investigación tiene como objetivo proponer una herramienta

Dentro de las técnicas predictivas se determinó utilizar los algoritmos de ETS y

Además, se presentan los antecedentes de estudio a nivel de base teórica,

Se presenta el desarrollo de las metodologías empleadas para la solución del

Palabras claves: Minería de Datos, Metodologia Xp, CRISP DM, Ets,Redes

In predictive techniques, we were determined using algorithms Ets and Neural

the development of methodologies for the solution of the problem is presented;

Keywords: Data Mining, Methodology Xp, CRISP DM, ETS, Neutronales

muchas Instituciones Educativas en todo el mundo, reducir el número de

Instituciones educativas, donde las mismas planean implementar un plan

estratégico para reducir el índice de estudiantes que deciden abandonar sus

Para contribuir con la solución al problema de la deserción estudiantil se plantea

realizar un estudio comparativo de técnicas de minería de datos para predecir la

deserción estudiantil en la educación básica regular en la región de Lambayeque.

Donde se seleccionaron las técnicas predictivas para luego compáralas; así

para luego evaluar los resultados obtenidos en la investigación.

De acuerdo a (Hand, 2011) , “la Minería de datos es un proceso que reúne un

conjunto de herramientas de diversas ciencias, (Estadística, Informática, entre

otras)” que persigue extraer conocimiento oculto o información no trivial de

grandes volúmenes de datos, con la finalidad de dar soluciones a problemas

específicos en las empresas.

CRISM-DM fue la metodología utilizada para la creación del modelo, la misma

que es una de las más usadas en la actualidad para la generación de proyectos

de Minería de datos, con ella se pretende obtener un modelo de análisis de datos,

que con la ayuda de la implementación de algoritmos de Inteligencia Artificial, ya

incorporados en la herramienta r-Project, se pueda predecir la probable deserción

en las Instituciones educativas y así tomar las medidas preventivas.

Figura 1: Comparación de los conceptos de Minería de Datos, KDD y Knowledge

Tabla 1: Operacionalización de variables ................................................................................. 52

Grafico 1: Pronósticos de Matriculas: ETS y Red Neuronal-Secundaria ............................ 59

La deserción escolar es un problema que en estos últimos años ha surgido

en muchos países. La mayoría de los trabajos que intentan resolver este

afectan al rendimiento de los estudiantes, del nivel educativo básico

regular, esta realidad es generalizada en los países de Latinoamérica

incluyendo el Perú, tal es el caso de (Irizarry & Quintero, 2006), donde la

deserción escolar en Puerto Rico es uno de los principales problemas

deserción se encuentra en un 42%.

capacidad de retención de los niños y de los adolescentes.

deserción para Paraguay es que a partir de la organización, la comparación

y el contraste de las percepciones de educandos y educadores hacen

posible que existan inferencias sobre el fenómeno de la deserción escolar.

Los puntos emergentes hacen referencia al distanciamiento de la escuela

de la realidad del adolescente, los mecanismos de discriminación de

género que no son replanteados en la escuela y la violencia contra los

propios alumnos que se da dentro de las instituciones escolares.

cuenta con una tasa del 5% de deserción escolar y una calidad de

educación básica mundialmente reconocida. Los factores del por qué en