Академический Документы
Профессиональный Документы
Культура Документы
URBANISMO
ESCUELA ACADÉMICO PROFESIONAL DE INGENIERIA
DE SISTEMAS
TESIS
Autor
ASESOR:
Ing. Carlos Alberto Chirinos Mundaca
Pimentel, 08 Marzo del 2016
i
“APLICACIÓN DE TÉCNICAS DE MINERIA DE DATOS PARA PREDECIR LA
REGION DE LAMBAYEQUE”
Aprobación de la Tesis
Ing. Denny John Fuentes Adrianzén Ing. Carlos Alberto Chirinos Mundaca
Presidente del jurado de tesis Asesor especialista
Asesor metodólogo
II
DEDICATORIA
A Dios, por su amor y fortaleza para lograr mis metas; a mis padres, por su buen
ejemplo que me hizo mejor persona; a mis maestros, que a lo largo de nuestra
III
AGRADECIMIENTO
A mi familia, por alentarme a seguir adelante, aún en los momentos más difíciles.
fue mi Asesor Especialista de mi Tesis, el cual fue una pieza fundamental para la
las personas que con las facilidades otorgadas permitieron superar largamente las
IV
RESUMEN
V
Abstract
In this research it is to propose a tool using data mining techniques, which allow
the user to have access to accurate predictions of where students who enroll in
the coming years are made, obtaining short-term results, it will ensure the
reliability of these, serving as support to the institution for future decisions can be
taken.
In addition, the background level study theoretical basis, taking as sources books,
publications, among others, which can justify many of the concepts covered during
the research process are presented.
VI
INTRODUCCIÓN
La deserción estudiantil se ha convertido en un problema social que afecta a
estudiantes desertores es un tema. Que tienen muy presente cada uno de las
estudios.
mismo también se elaboró una aplicación web usando las técnicas de predicción,
VII
Contenido
RESUMEN.......................................................................................................................5
INTRODUCCIÓN............................................................................................................vii
CAPITULO I: EL PROBLEMA DE INVESTIGACION ............................................... 17
1.1. Situación Problemática: ................................................................................ 14
1.2. Formulación del Problema............................................................................ 16
1.3. Delimitación del Problema: ........................................................................... 17
1.4. Justificación e Importancia de la Investigación ............................................. 18
1.5. Limitaciones de la Investigación ................................................................... 18
1.6. Objetivo ........................................................................................................ 19
Objetivo General ........................................................................................... 19
Objetivos específicos ................................................................................... 19
CAPITULO II: MARCO TEÓRICO ............................................................................. 21
2.1. Antecedentes de Estudios ..................................................................... 21
2.2. Estado del arte ...................................................................................... 23
2.3. Base Teórica Científicas ....................................................................... 25
2.3.1. Deserción Escolar ...................................................................... 25
2.3.2. Minería de Datos ........................................................................ 26
2.3.3. KDD: Proceso De Extracción de Conocimiento .......................... 26
2.3.4. Fases de KDD ............................................................................ 27
2.3.5. Clasificación de las Técnicas de Minería .................................... 30
2.3.6. Técnicas de minería de Datos .................................................... 34
2.3.7. Metodologías para la aplicación de minería de datos ................. 41
2.3.8. Aplicación web ........................................................................... 43
2.3.9. Herramientas de Minería de datos.............................................. 43
2.4. Definición De Términos Básicos ............................................................ 47
2.4.1. Método ....................................................................................... 47
2.4.2. Metodología ............................................................................... 47
2.4.3. Predicción .................................................................................. 47
2.4.4. Deserción Escolar ...................................................................... 47
2.4.5. Minería De Datos ....................................................................... 47
2.4.6. Técnicas De Predicción .............................................................. 48
VIII
CAPÍTULO III: MARCO METODOLÓGICO ............................................................... 50
3.1. Tipo y diseño de la investigación ........................................................... 50
3.2. Población y muestra .............................................................................. 50
3.3. Hipótesis ............................................................................................... 50
3.4. Operacionalización ................................................................................ 50
3.5. Métodos, técnicas e instrumentos de recolección de datos ................... 52
3.5.1. Métodos de la Investigación: ...................................................... 52
3.5.2. Técnicas de la Investigación....................................................... 52
3.5.3. Instrumento de la Investigación .................................................. 53
3.6. Procedimiento para la recolección de datos .......................................... 53
3.7. Análisis Estadístico e interpretación de los datos .................................. 55
3.8. Criterios de rigor científico ..................................................................... 56
CAPITULO IV: ANALISIS E INTERPRETACION DE LOS RESULTADOS ....................... 58
4.1. Resultados................................................................................................................. 58
4.1. Discusión de resultados ........................................................................................ 67
CAPITULO V: DESARROLLO DE LA PROPUESTA ............................................................ 69
5.1. Generalidades .................................................................................................................. 69
5.2. Metodología ...................................................................................................................... 69
CAPITULO VI: CONCLUSIONES Y RECOMENDACIONES ................................................ 92
6.1. Conclusiones .................................................................................................................... 92
6.2. Recomendaciones........................................................................................................... 93
BIBLIOGRAFÍA ............................................................................................................................. 94
ANEXO...........................................................................................................................................95
IX
Índice de Figuras
X
Índice de Tablas
XI
Índice de Gráficos
XII
CAPITULO I
EL PROBLEMA DE
INVESTIGACIÓN
13
CAPITULO I: EL PROBLEMA DE INVESTIGACIÓN
1.1. Situación Problemática:
problema están enfocados en determinar cuáles son los factores que más
sociales y económicos por una mala planificación familiar donde solo uno
de todo el núcleo familiar que la conforma aporta y esto conlleva a que los
demás dejen de lado los estudios es por tal motivo que la tasa de
Según (Espíndola & León, 2002) señalan que los sistemas educativos de
gran parte de América Latina tienen como principal problema una escasa
Por otro lado (Elias & Molina, 2005), demuestran que el problema
14
Por otro lado en Finlandia, no aparece de manera tan problemática ya que
15
en forma no refinada y para poder analizarlos con fiabilidad es necesario
millones 300 mil escolares entre los 13 y 19 años de edad. Estas cifras se
darían a entender que más del 14 de cada 100 alumnos abandona las
lambayecanos que se matricularon en ese mismo año. Por otro lado solo
desde distintos ángulos tal es el caso de (Valero, Salvador, & García, 2003)
16
tomando como base de análisis los datos del estudio socioeconómico del
misma.
Por lo antes expuesto que hasta la fecha cabe destacar que la mayor parte
Lambayeque?
Este trabajo busca a través de una aplicación web usando las técnicas de
17
deserción estudiantil en la educación básica regular (primaria y secundaria)
que ellos soliciten su baja, sin encontrar claramente las causas a los
18
Incertidumbre: En los diferentes datos obtenidos en formatos pdf, se
1.6. Objetivo
Objetivo General
Objetivos específicos
Chiclayo.
datos.
19
CAPITULO II
MARCO TEÓRICO
20
CAPITULO II: MARCO TEÓRICO
Tecnológicas sobre los datos de los alumnos del periodo 2003 al 2008.
algoritmo j48.
más cercanos. Obteniendo como resultado que las causas principales que
21
Por otro lado (Timarán, Calderón, & Jiménez, 2013), en su investigación
que ingresaron en los años 2004, 2005 y 2006. Obteniendo como resultado
(j48)
22
2.2. Estado del arte
23
Se eliminaron atributos no generalizables, se redujo la cardinalidad de
normalmente.
debido a que para que sea aplicable a nivel de cliente se debe implementar
venta.
24
(Ortiz Farro, 2015)
al 2011.
por enfermedad.
25
escuela el año anterior, en el año actual o corriente no lo están haciendo,
motivos.
26
proceso en la que se utilizan las técnicas de inteligencia artificial para
obtener un modelo.
4. Inducir generalizaciones
27
6. Transformación del conocimiento.
Por otro lado (Brachman & Anand, 1996) define las fases así:
28
d. Selección, limpieza y transformación de los datos que se van a
2. Minería de Datos:
b. Evaluación/Interpretación/Visualización.
extraen.
son extraídos desde las distintas fuentes de datos ya que van a ser
29
3. Transformación. En esta fase consiste en el tratamiento preliminar
siguientes:
30
mencionado el 30% es el nivel de confianza de la regla y 2% es la
31
influencia de estas últimas. Con ello es posible clasificar un nuevo
elemento una vez conocidos los valores de las variables presentes en él.
comúnmente usadas
a) Clasificación
b) Predicción de valores
a) Clustering poblacional
a) Descubrimiento de asociaciones
4. Detección de desviaciones:
a) Técnicas estadísticas
b) Técnicas de visualización
32
2. Técnicas predictivas:
varias dimensiones.
valor de la secuencia.
de continuo
3. Técnicas descriptivas:
33
2.3.6. Técnicas de minería de Datos
Los árboles de decisión son una de las formas más populares de Minería
34
Donde también (Mazo & Bedoya, 2010), puntualizan que un árbol de
prueba sobre uno o varios atributos, donde cada rama representa una
2.3.6.2. C4.5
ID3, el cual permite que se trabaje con valores continuos para los atributos,
donde se separan los resultados en dos ramas: una para aquellos Ai=N y la
otra para Ai>C4.5, donde es capaz de trabajar con ejemplos que contienen
(Hernández & Ferri, 2004) , dice que “es una de las que más se han
35
2.3.6.4. Redes neuronales artificiales
Según (Hernández & Ferri, 2004) señala que las redes neuronales posee
36
En redes neuronales hay dos tipos principales de aprendizaje en RNA:
Basogain, 2008).
2.3.6.5. K –means
por ser uno de los más veloces y eficaces. El algoritmo trabaja con un
etiquetar.
37
Todo ejemplo nuevo, una vez que los prototipos han sido correctamente
mejores resultados.
tiempo.
38
Fuente: (Cruz Arrela, 2010)
39
ETS (M, N, N) Suavización exponencial simple con errores
multiplicativos: Según (Hyndman,2014) se puede especificar
modelos con errores multiplicativos escribiendo los errores aleatorios
de un solo paso como errores relativos:
D) Holwinters:
Por otro lado comprando con diversas técnicas, tal como ARIMA,
donde el tiempo necesario para el calculo en la predicción es
considerablemente rápido.
40
2.3.7. Metodologías para la aplicación de minería de datos
Según (Orallo Hérnandez, 2015) las fases de la metodología crisp son las
siguientes:
41
c. Preparación de los datos: Transformación de los datos. Se
evaluaciones.
b) SEMMA
valoración (assess).
42
2.3.8. Aplicación web
Según (Mora, 2002), afirma que “una aplicación web es un tipo especial de
Según (Mora, 2002), afirma que “suelen distinguirse en tres niveles: el nivel
superior que interacciona con el usuario el nivel inferior que proporciona los
Figura 8: Cliente-Servidor
43
de las tareas de Minería de Datos que son más complejas, como el diseño
1. Acceso a datos
3. Métodos de agrupamiento
5. Árboles lineales
6. Árboles no lineales
1. Acceso a datos.
2. Transformaciones de datos
44
3. Suites: Posee las mismas capacidades que el procesamiento de datos,
herramienta.
noventa del pasado siglo por Bill Venables y David M. Como señalan
Puga, 2010)
conocidos. Posee una herramienta visual desarrollada por ISL que tiene
1. Acceso a datos.
2. Procesamiento de Datos.
3. Técnicas de Aprendizaje.
5. Visualización de resultados.
6. Exportación.
45
6. Weka (Waikato Environment For Knowledge Analysis): Es una
3. Modelos de Aprendizaje.
1. Árboles de decisión.
2. Redes neuronales.
3. Regresión no lineal.
4. Aplicaciones estadísticas.
principalmente por:
4. Herramientas de visualización.
46
9. Yale: herramienta de aprendizaje automático implementado en Java por
2. Aprendizaje automático
3. Validación de modelos
2.4.1. Método
2.4.2. Metodología
2.4.3. Predicción
de indicios. (Española)
47
automática, donde tiene como objetivo el encontrar patrones repetitivos, para
determinado.
48
CAPITULO III
MARCO
METODOLOGICO
49
CAPÍTULO III: MARCO METODOLÓGICO
Población
Muestra
Ugel Chiclayo
3.3. Hipótesis
3.4. Operacionalización
Variable independiente
Variable dependiente
50
Tabla 1: Operacionalización de variables
minería de datos.
51
3.5. Métodos, técnicas e instrumentos de recolección de datos
hipótesis.
observación.
52
b. Observación: Es el registro visual de lo que ocurre en una
debido está atento para determinar de una forma adecuada todos los
investigación.
siguientes pasos:
conjunto de datos
53
2. Pre-Procesado. En esta fase es donde se prepara los datos para
de datos para así poder intentar dar solución a los problemas de alta
conjunto de datos.
resultado.
54
3.7. Análisis Estadístico e interpretación de los datos
𝑡𝑚𝑎
𝑡𝑝𝑚 =
𝑡𝑚𝑝
Dónde:
tpm = Tiempo de Procesamiento del Modelo.
tma = Técnica del Modelo Anterior.
tmp = Técnica del Modelo Propuesto
55
3.8. Criterios de rigor científico
criterios
informantes de la investigación.
eficiencia y no de un beneficio
investigación consistente.
56
CAPITULO IV
ANALISIS E
INTERPRETACION DE
LOS RESULTADOS
57
CAPITULO IV: ANALISIS E INTERPRETACION DE LOS RESULTADOS
4.1. Resultados
A. Confiabilidad de la Predicción
𝑀𝑅 − 𝑀𝑃
∑
𝑃𝐶𝑃 = 100 − ( 𝑀𝑅 ∗ 100)
𝑁
58
Grafico 1: Pronósticos de Matriculas: ETS y Red Neuronal-Secundaria
Comparacion Ets vs NN
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
Primero Segundo Tercero Cuarto Quinto Sexto
2015.
59
Grafico 2: Pronósticos de Matriculas: ETS y Red Neuronal-Primaria
Comparacion Ets vs NN
1
0.995
0.99
0.985
0.98
0.975
0.97
0.965
0.96
0.955
0.95
0.945
Primero Segundo Tercero Cuarto Quinto Sexto
Grado de confianza=100-Total
60
obteniendo un grado de confianza en ETS se obtuvo el 87.27%,contra
ETS.
Grado de confianza=100-Total
Red Neuronal.
61
B. Tiempo de Procesamiento del Modelo.
investigación.
𝑇1 ⁄ 𝑇2
T1: TIEMPO DE PROCESAMIENTO DE ALGORITMO 1
T2: TIEMPO DE PROCESAMIENTO DE ALGORITMO 2
62
Grafico 3: Tiempo de Procesamiento entre Red Neuronal y ETS-Primaria
0
ETS NN
dicho procesamiento.
63
En la Tabla N° 07 podemos apreciar las iteraciones y el tiempo en
0
ETS NN
dicho procesamiento.
64
C. Tiempo para generar estimación en el sistema
Escenarios Sistema
Evaluados Web
1 15
2 25
3 28
4 30
5 32
6 30
7 33
8 35
9 38
10 40
Promedio 30,60 seg.
40
20
0
1 2 3 4 5 6 7 8 9 10
Escenarios evaluados
65
El gráfico 5 nos permite observar la variación del tiempo de generación
de pronósticos en el Módulo Web para el nivel primario.
Escenarios Sistema
Evaluados Web
1 14
2 24
3 27
4 29
5 31
6 28
7 32
8 34
9 37
10 39
Promedio 29,5
Fuente: Elaboración propia
En la Tabla N° 9 se observa que el tiempo promedio de generación de
estimaciones en el sistema web para el nivel secundario es de 29,5
segundos.
66
El gráfico 6 nos permite observar la variación del tiempo de generación
de pronósticos en el Módulo Web para el nivel secundario.
A. Grado de confiabilidad
67
CAPITULO V
DESARROLLO DE LA
PROPUESTA
68
CAPITULO V: DESARROLLO DE LA PROPUESTA
5.1. Generalidades
investigación.
5.2. Metodología
La siguiente investigación consta de dos etapas, la primera que abarca
investigación:
69
Dado que la investigación tiene como esquema principal, el modelo de
Datos
CRISP-DM SEMMA
Libre elección de herramientas SI NO
Cantidad de fases 6 5
Todas las fases pueden relacionar SI NO
Procesos de Inteligencia de Negocios SI NO
Comercial – Licencias – Privativa NO SI
Técnicas de ETL SI SI
Fuente: (Flores, 2009)
Se establece usar CRISP-DM, por ser una metodología flexible en
Etapa II - XP
70
5.2.1. Metodología CRISP DM Minería de Datos
5.2.1.1. Comprensión del negocio
La Ugel Chiclayo es una entidad gubernamental. Donde cada fin del año
escolar se hace de manera manual el consolidado de todos los alumnos
de cada institución educativa las que conforman la Ugel Chiclayo.
Donde toda esa información que se pasan a un archivo Excel y de esa
manera tener registrados el total de alumnos matriculados en cada
respectiva institución educativa.
Año Matriculados
2006 154466
2007 375200
2008 148647
2009 79156
2010 78009
2011 77918
2012 74050
2013 104116
2014 76860
2015 77483
Fuente: Elaboración Propia
b. Necesidades y Expectativas
71
c. Objetivos de Negocio
d. Criterios de Éxito
e. Evaluación de la situación
f. Requerimientos
g. Restricciones
g.1 Se requiere la base de datos de todos los alumnos matriculados
desde hace 9 años de antigüedad como mínimo para el
entrenamiento y testeo del modelo.
72
g.2 De la información obtenida, los datos deben estar libre de errores
y valores en valores en blanco.
73
matriculados en 2 grado de primaria, Dato02M es la cantidad de
mujeres matriculados en 2 grado de primaria, el atributo Dato03h es la
cantidad de hombres matriculados en 3 grado de primaria, Dato03M es
la cantidad de mujeres matriculados en 3 grado de primaria, el atributo
Dato4h es la cantidad de hombres matriculados en 4 grado de primaria,
Dato04M es la cantidad de mujeres matriculados en 4 grado de
primaria, el atributo Dato5h es la cantidad de hombres matriculados en
5 grado de primaria, Dato05M es la cantidad de mujeres matriculados
en 5 grado de primaria, el atributo Dato6h es la cantidad de hombres
matriculados en 6 grado de primaria, Dato06M es la cantidad de
mujeres matriculados en 6 grado de primaria, el atributo CODOOII es el
código de la ugel de Chiclayo CODOOII=140001, el atributo NIV_MOD
es el código del nivel Bo=primaria, Fo=secundaria, el atributo AREA es
para identificar 1=rural, 2=urbano, como se detalla en la siguiente
imagen.
74
En el nulo directo, aun así cuando en el registro de alumnos matriculados
en cada aula.
75
A.3. Datos y métodos de captura
Fuente: “Spss”
Donde luego de haber homogenizado la data se exporta a un archivo
Excel para cada uno de los años como se muestra en la imagen:
Figura 14: Datos Tratados
76
A.4. Exploración de Datos
77
Tabla 12: Alumnos matriculados 2006-2015
Año Total_matricula
2006 154466
2007 375200
2008 148647
2009 79156
2010 78009
2011 77918
2012 74050
2013 104116
2014 76860
2015 77483
Fuente: Elaboración propia
78
B. Estructuración de los datos
Para la creación del modelo con series de tiempo, los atributos utilizados
son identificados de la siguiente manera: al atributo Año, Primero,
Segundo, Tercero, Cuarto, Quinto, Sexto, Total que se denota a la
cantidad total de alumnos ya que representa el objetivo a predecir. Como
se demuestra en nuestra imagen.
5.2.1.4. Modelado
En la investigación se propone construir un modelo de minería de datos
utilizando técnicas de pronósticos, a continuación, se presenta la tabla que
se realizó para la selección de las técnicas adecuadas.
79
Basado en reglas por Árbol de
CLASIFICACION construcciones lógicas decisiones, NO
AD HOC múltiples variables Redes
Bayesianas
Algoritmos a utilizar.
RED
ETS HOLT NEURONAL
AUTO
REGRESIVA
Evaluación fundamento teórico
Modelo parametrizado X X ----
Datos estacionales X X X
Método estadístico X X ----
Capacidad iterativa ----- ----- X
(Aprendizaje)
Cantidad de datos de la 25 28 3
serie
Evaluación fundamento computacional
Procesamiento CPU Mínimo Mínimo Medio
Consumo RAM Mínimo Mínimo Medio
Tiempo computacional Mínimo Mínimo Medio
Evaluación fundamento objetivo del modelo
Confiabilidad de Después de Después Después de
precisión pronostico pruebas de pruebas
pruebas
Confiabilidad de Después de Después Después de
precisión consistencias pruebas de pruebas
pruebas
80
Se ha considerado usar ETS y REDES NEURONALES, donde ETS se utilizó
por requerir la cantidad de datos necesarios con la que se dispone en el
histórico de cada colegio, y la red neuronal auto regresiva se utilizó por la
naturaleza de la investigación donde se utiliza series de tiempo como refiere
(Vílchez García, 2010) , sin embargo para este caso debido a la cantidad de
datos se cuenta no es factible emplear el algoritmo Holt. Después de la
pruebas de laboratorio como se muestra en el Anexo 3 se determinó que el
tiempo de procesamiento es mínimo
5.2.1.4.1. Modelo A
5.2.1.4.1.1. Descripción del Modelo A
81
El análisis de la serie entonces por una red neuronal debe tratarse
con un método previo, que es la teoría de ventanas, se trata de un
algoritmo que expande y genera atributos (columnas) a partir de los
datos iniciales del vector, por lo que al generar dichos atributos se
trata de explicar la relación de estos a partir de un modelo regresivo.
2010 45 ¿ ¿ ¿
2011 65 45 ¿ ¿
2012 55 65 45 ¿
2013 75 55 65 45
2014 89 75 55 65
2015 13 89 75 55
2016(Objetivo) X ¿ ¿ ¿
código.
82
Figura 19: Aplicación del Algoritmo Nnetar
83
5.2.1.4.2. Modelo B
5.2.1.4.2.1. Descripción del Modelo B
84
Figura 22: Aplicación del Algoritmo ETS
85
5.2.1.5. Etapa II – Metodología XP para el desarrollo de aplicación web
2. GENERAR ALTA 3
PROYECCIONES Y
ESTIMACIONES.
La prioridad está definido por el aspecto del sistema, es decir que está
en función principal por las historias de usuarios.
86
Entrevistado: Analista de datos
Descripción:
El analista de datos podrá entrar en el módulo de proyecciones y
estimaciones donde podrán simular con los datos cualquier escenario
posible que le permita el sistema de análisis, puede visualizar el modelo por
defecto o generar nuevos valores a partir de simulaciones.
Observaciones:
B) Diseño
87
C) Interfaz web de simulaciones
Se diseñó una interfaz web usando php para extraer los resultados del
modelo de minería aplicando las técnicas documentadas en la fase de
modelado, a fin de recrear un simulador del proceso.
88
C. Análisis de Descomposición vista R Project a interfaz PHP
E. Pronósticos
89
Visualización por cada colegio
90
CAPITULO VI
CONCLUSIONES Y
RECOMENDACIONES
91
CAPITULO VI: CONCLUSIONES Y RECOMENDACIONES
6.1. Conclusiones
modelo a desarrollar.
92
un 91% y 96% respectivamente.Podemos decir que Red neuronal
autoregresiva obtuvo el nivel de confianza más elevado en
comparación a ETS.
6.2. Recomendaciones
formato homogéneo.
93
BIBLIOGRAFÍA
López Puga, J. (2010). INTRODUCCIÓN AL ANÁLISIS DE DATOS CON R Y R COMMANDER EN
PSICOLOGÍA Y EDUCACIÓN. Bogotá, Colombia.
Bachman, J., Green, S., & Wirtanen, I. (1971). Dropping out: Problem or symptom? Ann Arbor.
Michigan: Institute for Social Research, University of Michigan.
Barrientos, F., & Ríos, S. (2013). Aplicación de Minería de Datos para Predecir Fuga de Clientes
en la Industria de las Telecomunicaciones. 1-36.
Brachman, R., & Anand, T. (1996). The process of Knowledge Discovery in Databases: A human
centered approach. Advances in Knowledge Discovery and Data Mining. AAAII MIT
Press.
Cruz Arrela, L. (2010). Minería de datos con aplicaciones. Mexico: Universidad Nacional
Autonoma de Mexico.
El Comercio. (26 de 06 de 2013). Más de 8.000 escolares abandonaron las aulas durante el
2013.
Espíndola, E., & León, A. (2002). Éducación y conocimiento: una nueva mirada. OEI, 62.
Fitzpatrick, K., & Yoels, W. (1992). Policy, school structure, and sociodemographic effects on
statewide high school dropout rates. En K. Fitzpatrick, & W. Yoels, Policy, school
structure, and sociodemographic effects on statewide high school dropout rates (págs.
76-93). Alabama: US: American Sociological Assn.
Formia, S., Lanzarini, L., & Hasperué, W. (2013). Caracterización de la deserción universitaria
en la UNRN utilizando Minería de Datos.
Getoor, L., & Ben, T. (2007). Introducción a estadística de relación de aprendizaje. MIT.
94
Grudnitsky, B. J. (1992). Diseño de sistemas de información. Teoría y Práctica. México:
Megabyte Grupo Noriega.
Hand, M. &. (2011). Principles of Data Mining. Cambridge: MIT Press Cambridge.
Irizarry, R., & Quintero, A. (2006). ESTUDIOS DE CASOS NACIONALES: PUERTO RICO.
Lavado, P., & Gallegos, J. (2005). La dinámica de la deserción escolar en el Perú:un enfoque
usando modelos de duración. Lima: Grade.
Lopez Alfonso, J. (06 de 02 de 2015). Redes Neuronales. Obtenido de Lopez Alfonso, Jesus:
http://members.tripod.com/jesus_alfonso_lopez/RnaIntro2.html
Márquez, C., Romero, C., & Ventura, S. (2012). Predicción del Fracaso Escolar mediante
Técnicas de Minería de Datos. 1.
Mazo, C. X., & Bedoya, O. (2010). PESPAD: una nueva herramienta para la predicción de la
estructura secundaria de la proteína basada en árboles de decisión. Ingeniería y
Competitividad, 9-22.
Ministerio de Educación, el 14% de niños y jóvenes entre los 13 y 19 años dejó el colegio o
nunca se matriculó. (18 de Junio de 2014). ProExpansion.
Moody , J., & Darken, C. (1989). Fast Learning in networks of locally tuned processing .
Olabe Basogain, X. (2008). Redes Neuronales Artificiales y sus apliciones. España: Escuela
Superior de Ingenieria de Bilbao.
95
Orallo Hérnandez, J. (12 de 12 de 2015). Minería de Datos. Obtenido de
http://users.dsic.upv.es/~jorallo/master/dm5.pdf
Ortiz Farro, P. (2015). Minería de datos con series de tiempo en el desarrollo e implementacíon
del sistema inteligente que predice la produccíon de arroz en el ámbito de la gerencia
regional de Agricultura. Chiclayo.
Pérez, C., & Santín, D. (2008). Minería de Datos:Técnicas y Herramientas. España: Thompson
Ediciones Paraninfo,S.A.
Pernía, A., & F., C. (2001). Gestión del Conocimiento y Minería de datos. XVII Congreso
Nacional de Ingeniería de Proyectos, Murcia, Anonymous .
Spositto, O., Etcheverry, M. E., Ryckeboer, H., & Bossero, J. (2010). Aplicación de técnicas de
minería de datos para la evaluación del rendimiento académico y la deserción
estudiantil. 1-5.
Timarán, R., Calderón, A., & Jiménez, J. (2013). Aplicación de la minería de datos en la
extraccion de perfiles de desercion estudiantil.
Usama, A., & Wierse, G. (2002). Information and Visualization in Data Mining and Knowledge
Diskovery. Morgan Kauffmann.
Valero, S., Salvador, A., & García, M. (2003). Minería de datos: predicción de la deserción
escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos
más cercanos. 1-8.
Weiss, S., & Indurkhya, N. (1998). Predictive Data Mining: A Practical Guide. EE UU: Morgan
Kaufmann.
96
ANEXO
97
ANEXO 01: Diccionario de datos
CÓDIGO MODULAR:
98
99
Anexo 02: Extracción del Conocimiento
Adquisición de la data
Selección de variable
100
Tratamiento de datos Nulos
Luego de haber tratado los datos nulos se pasó toda la data a la herramienta
spss para hacer un pivoteo.
101
Migrando Del Excel a Sql Server
Una vez realizado la migración del spss al Excel, se procedio a migrar la data
al sql para realizar más adelante la aplicación de los algoritmos seleccionaos
anteriormente.
102
Evaluación de tiempo de Red Neuronal Autoregresiva
ANÁLISIS PRELIMINAR
DEFINICIÓN DE REQUERIMIENTOS:
Donde:
RS = 5
F = Funciones de Sistema:
F = 280 ∗ RS
𝐅 = 𝟏𝟒𝟎𝟎
103
MF = Miles de Funciones
F
MF =
1000
1400
MF =
1000
𝐌𝐅 = 𝟏. 𝟒
ESF = Esfuerzo.
ESF = 2.4(MF)1.05
ESF = 2.4(1.4)1.05
𝐄𝐒𝐅 = 𝟑. 𝟗𝟕𝟓𝟔𝟎𝟓𝟔𝟏
TDES = 2.5(ESF)0.38
TDES = 2.5(3.97560561)0.38
𝐓𝐃𝐄𝐒 = 𝟒. 𝟐𝟐
CH = ESF/TDES
𝟑. 𝟗𝟕𝟓𝟔𝟎𝟓𝟔𝟏
CH =
4.22
CH = 0.94208
CHM = 1 ∗ 2400
𝐂𝐇𝐌 = 𝟐𝟒𝟎𝟎
CD = Costo de Desarrollo
CD = ESF ∗ CHM
104
CD = 3.975 ∗ 2400
𝐂𝐃 = S/. 9,480.00
105
Configurando Red Neuronal
106