Академический Документы
Профессиональный Документы
Культура Документы
“PROYECTO DE GRADO”
TEMA:
La Paz - Bolivia
1
.
AGRADECIMIENTOS
A Dios por guiar mi camino para alcanzar esta etapa de mi vida.
Al Dr. Ing. Ramiro Aguilar Quispe, por su gran apoyo en el desarrollo del proyecto, por sus
contribuciones y su generosa disposición para realizar las correcciones que han permitido
concluir el presente proyecto.
A la Lic. Menfy Morales Ríos, por su disponibilidad en el proceso de revisión del proyecto, por
sus sugerencias y su valiosas recomendaciones.
Al Lic. Mario Loayza Molina, por la confianza depositada y por haberme guiado en el
desarrollo del proyecto.
A la Lic. Wendy Sotomayor Segales, por sus sugerencias, sus recomendaciones y el incentivo
para la realización de este proyecto.
A todos los docentes de la carrera por haberme transmitido sus enseñanzas y paciencia a lo largo
de la carrera.
A mis amigos por su gran cariño y amistad en especial a mis amigos: Aleida, Mirian, Zulma,
Yolanda, Verónica, Grober, Jheny, Karen, María, Waldir.
2
.
RESUMEN
En la etapa de minería de datos se utiliza la herramienta Weka para aplicar Clustering con
el objeto de agrupar los datos para detectar similitudes entre las unidades educativas y
también se aplican Árboles de Decisión para tratar de conocer los atributos relevantes en el
clustering.
3
.
INDICE GENERAL
Dedicatoria
Agradecimientos
Resumen
CAPITULO I
4
.
2.3.3.1 Exploración mediante visualización........................................... 17
2.4 Técnicas de Minería de Datos................................................................................. 18
2.5 Agrupamiento (Clustering)..................................................................................... 19
2.5.1 Algoritmo k-means................................................................................... 20
2.5.1.1 Medida de distancias ................................................................ 22
2.6 Árboles de decisión............................................................................................... 23
2.6.1 Algoritmo ID3.......................................................................................... 24
2.6.2 Algoritmo C4.5......................................................................................... 25
2.7 La Educación Formal en Bolivia........................................................................... 27
2.7.1 Sistema de Información Educativa (SIE)................................................ 28
2.7.2 Distritos Educativos................................................................................. 29
2.7.3 Población Escolar ................................................................................... 29
2.7.4 Indicadores.............................................................................................. 31
2.7.4.1 Tasa de Culminación por Niveles............................................ 31
2.7.4.2 Tasa de Aprobación por Niveles............................................. 32
2.7.4.3 Tasa de Abandono por Niveles............................................... 33
2.7.4.4 Rezago Escolar........................................................................ 33
2.8 Herramientas de Minería de Datos........................................................................ 34
2.8.1 WEKA..................................................................................................... 34
2.8.1.1 Formatos de entrada.................................................................. 35
2.8.1.2 Tareas........................................................................................ 36
2.8.1.3 Formas de acceso...................................................................... 37
2.9 Conclusiones del capítulo....................................................................................... 38
5
.
3.2.2.2 Tratamiento de valores erróneos.............................. 56
3.3 Proceso de Transformación ................................................................................ 57
3.4 Minería de Datos.................................................................................................. 60
3.4.1 Análisis mediante la herramienta de Minería de Datos WEKA.................. 61
3.4.1.1 Aplicación de Clustering......................................................... 66
3.4.1.2 Análisis de distancias para determinar el número de clusters.... 65
3.4.1.3 Análisis de los grupos............................................................ 67
3.4.1.2 Aplicación de árboles de decisión........................................................ 73
3.5 Implementación de la herramienta de minería de datos........................................... 76
3.5.1 Visualización Multidimensional............................................................. 79
3.5.2 Algoritmo k-means.............................................................................. 83
3.5.3 Criterios de calidad de la herramienta........................................................ 86
3.5.4 Análisis de los grupos obtenidos por la herramienta. ............................... 86
3.6 Conclusiones del capítulo............................................................................................. 87
5.1 Conclusiones.................................................................................................................101
5.2 Recomendaciones ........................................................................................................102
REFERENCIAS
ANEXOS
6
.
CAPÍTULO I
1.1 INTRODUCCIÓN
La educación en Bolivia es uno de los pilares fundamentales para el desarrollo de nuestro
País, es por ello que uno de los objetivos que persigue el Ministerio de Educación y
Culturas es brindar una educación con calidad y pertinencia para todos mediante políticas
educativas.
Para diseñar políticas educativas es necesario conocer la situación educativa. Una manera
de conocer la situación educativa es analizar minuciosamente los datos estadísticos que nos
servirán para encontrar indicadores educativos, índices, frecuencias y otros componentes
del estado situacional de la educación.
7
.
Registro de Unidades Educativas (RUE), Registro Único de Estudiantes (RUDE), Sistema de
Infraestructura Educativa (INFRAEDU); todas ellas conforman el SIE.
El SIE comenzó su operación en 1998 y hasta el momento cuenta con una inmensa
cantidad de información que debería ser aprovechada en la toma de decisiones. En los
últimos años ha surgido una serie de técnicas que facilitan el procesamiento avanzado de los
datos y permiten realizar un análisis en profundidad de forma semiautomática , una de ellas
es la Minería de Datos para extraer conocimiento útil y comprensible en grandes cantidades
de datos.
En este sentido aplicar técnicas de Minería de datos en el SIE resulta un gran avance para
la toma de decisiones y coadyuvará a la formulación de nuevos programas en el área
educativa.
1.2 ANTECEDENTES
Las necesidades organizacionales en cuanto a requerimientos de información esta creciendo, por
lo que surge el concepto de información estratégica que corresponde a la información con una
visión global.
Para superar este problema, en los últimos años ha surgido una serie de técnicas que facilitan
el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los
mismos de forma automática. La Minería de Datos se define como el proceso no trivial de
extraer conocimiento de forma automática o semiautomática desde grandes cantidades de
datos[Witten].
8
.
En el Ministerio de Educación y Culturas la primera publicación sobre indicadores
educativos se desarrolló en la gestión 2004 con el libro titulado “La Educación en
Bolivia, indicadores, cifras y resultados” desarrollado por la Dirección de Análisis de la
Dirección General de Estrategia Educativa. Esta publicación contiene información y datos
estadísticos sobre la población en edad escolar, analfabetismo, características
demográficas, económicas y sociales, educación superior y alternativa. Actualmente está
publicada en la página web del Ministerio de Educación , en la sección de estadísticas
educativas. A partir de esta publicación se han realizado varios informes e indicadores
estadísticos de cada gestión.
Los informes Estadísticos y los Cubos dinámicos están publicados en la página del Ministerio
de Educación para que la población pueda adquirir información sobre la situación educativa.
9
.
Actualmente, el Ministerio cuenta con cuadros estadísticos y cubos dinámicos como
herramientas para el análisis de los datos del Sistema de Información Educativa. El
problema de esta información es que resulta más descriptiva que cuando se trata de
gran cantidad de datos. Por otra parte, a pesar de que los cubos dinámicos y
herramientas OLAP soportan cierto análisis descriptivo y de "sumarización" que
permite transformar los datos en otros datos agregados o cruzados de manera sofisticada,
no generan reglas, patrones, pautas, es decir conocimiento que pueda ser entendido a más
alto nivel. Por tanto, se hace necesario alguna metodología que nos ayude a comprender
mejor los datos.
Estos problemas y limitaciones han dado lugar al surgimiento de la Minería de Datos, que
constituye una herramienta de análisis que permite obtener patrones de conocimiento útil
a partir de grandes volúmenes de datos.
1. 4. OBJETIVOS
10
.
9 Aplicar árboles de decisión para identificar modelos de predicción
mediante reglas con la herramienta WEKA
1. 5 LIMITES Y ALCANCES
Este proyecto se delimitará en analizar los datos sobre la matriculación de la
Educación Formal proporcionada por el Sistema de Información Educativa (SIE)
entre las gestiones 2000 al 2006 y no así sobre la Educación Alternativa ni
la Educación Superior. La Educación Formal o Educación Regular se refiere al proceso
educativo que consiste los niveles Inicial ( Preescolar), Primaria y Secundaria para la población
de, más o menos, 4 a 17 años de edad .
1. 6. JUSTIFICACIÓN
11
.
1.6.2 JUSTIFICACIÓN SOCIAL
El Equipo de Indicadores e Investigación Sectorial del Ministerio de Educación busca aplicar
tecnologías Matemáticas e Informáticas para entender mejor los datos del Sistema de Información
Educativa, de esta manera aplicar Minería de datos resulta adecuado para coadyuvar a la toma
de decisiones.
La Minería de Datos no obtiene información extensional o descriptiva, sino intencional es decir
conocimiento que por lo general no es una parametrización de ningún modelo preestablecido o
intuido por el usuario, sino que es un modelo novedoso y original.
Por otro lado, el análisis visual de los datos aprovecha la gran capacidad humana para facilitar la
compresión de los datos a partir de imágenes, es por ello que en el proyecto se realizará una
herramienta de visualización y exploración de datos para su mejor comprensión y sugerir
posibles patrones.
¾ Preparación de datos
Selección de datos
Preprocesamiento
¾ Transformación de datos
¾ Minería de datos
¾ Interpretación y Evaluación.
Selección de Datos: En esta fase se realiza la extracción de los datos relevantes para el
análisis siguiendo los objetivos trazados a un principio.
12
.
Preprocesamiento: El objetivo del preprocesamiento es asegurar la calidad de los datos
seleccionados, para ello se utiliza una combinación de métodos estadísticos y técnicas de
visualización de datos como Distribución de frecuencia, histogramas, gráficos de dispersión,
Con la ayuda de los resúmenes y características de los valores nominales se puede
determinar fácilmente valores faltantes y valores erróneos.
Minería de datos: La fase de Minería de Datos es la más característica del KDD. El objetivo de
esta fase es producir nuevo conocimiento que pueda utilizar el usuario. Esto ser realiza
construyendo un modelo basado en los datos recopilados para este efecto. El modelo de
descripción de los patrones y relaciones entre los datos que pueden usarse para hacer
predicciones , para entender los datos o para explicar situaciones pasadas.
Interpretación y Evaluación: Idealmente, los patrones descubiertos deben tener tres cualidades:
ser precisos, comprensibles e interesantes.
13
.
CAPÍTULO II
MARCO TEORICO
Pero, ¿por qué y para qué lograr este aprendizaje?. Algunas razones ingenieriles son
[Aguilar, 2003]:
14
.
• Algunas tareas no pueden ser definidas excepto por ejemplos; esto es, se pueden
disponer de pares de entrada y salida pero no se puede explicar una relación concisa
entre ellas. Entonces, se necesitan máquinas que ajusten sus estructuras internas
aprendiendo enormes cantidades de ejemplos y posteriormente emitan una salida
coherente a la vez que generen una función aproximada con la relación implícita de
los ejemplos.
• Los entornos cambian en el tiempo. Las máquinas pueden adaptarse a estos cambios
reduciendo la constante necesidad de rediseño.
15
.
conocimiento, elementalmente busca predecir y descubrir. La predicción involucra el uso de
algunas variables o atributos en el conjunto de datos para predecir otras variables de interés o
características desconocidas. La descripción se enfoca en busca de patrones humanamente
interpretables que divulguen a los datos. En este entendido, la Minería de Datos puede
entenderse como un proceso dual de síntesis ( predicción) y análisis (descripción) sobre los
datos [Aguilar, 2003].
Según algunos autores [Fayyad, 1996], la Minería de Datos como análisis de información
sólo es un paso en todo el proceso de descubrimiento de conocimiento, pero actualmente se
considera la Minería de Datos como todo el proceso de descubrimiento de conocimiento
como el núcleo fundamental dentro del contexto de la ingeniería del conocimiento [Aguilar,
2003].
16
.
El proceso de descubrimiento de conocimiento se divide en las siguientes etapas [Fayyad
1996]:
Interpretación
y evaluación
Minería de
datos
Transfor-
mación
Preprocesa-
miento
Selección Conocimiento
de datos
Patrones
Datos
Datos transformados
Preprocesados
Datos
seleccionados
Datos
Además de las fases descritas en la Figura II.1 frecuentemente se incluye una fase previa de
análisis de las necesidades de la organización y definición del problema en la que se
establecen los objetivos de minería de datos [Hernández, 2000].
17
.
2.3.1 PREPARACIÓN DE DATOS
En algunos casos, y dependiendo de la aplicación, los datos necesarios para poder llevar a
cabo un proceso de KDD pertenecen a diferentes organizaciones, a distintos departamentos
de una misma entidad. Esto representa un reto, ya que cada fuente de datos usa diferentes
formatos de registro, diferentes claves primarias, diferentes tipos de error, etc. Lo primero
por lo tanto, es integrar todos estos datos mediante la tecnología de almacenes de datos (
Data Warehousing) [Hernández, 2004].
Esencialmente, los almacenes de datos se utilizan para poder agregar y cruzar eficientemente
la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de
base de datos multidimensional. Esta visión multidimensional hace a los almacenes de datos
adecuados para el procesamiento analítico en línea ( on-line analytical processing, OLAP).
18
.
después de la recopilación, el siguiente paso en el proceso es seleccionar y preparar el
subconjunto de datos sobre los que se realizará el descubrimiento [Hernández, 2004].
Se selecciona los datos con variables de tipo [Aguilar, 2003]:
Clasificatorias: que toman valores finitos y difieren en el tipo.
Nominales: nombran el tipo de objeto sin establecer un orden
Ordinales: sus valores posibles tienen un orden.
Las variables seleccionadas para minería de datos se llaman variables activas. En esta etapa
hay que determinar la estabilidad de las variables y tener en cuenta los algoritmos posibles de
minería para tratar esos datos [Aguilar, 2003].
Si se han conseguido establecer los datos faltantes e, idealmente, sus causas, se procederá a
su tratamiento. Un método es reemplazar la información faltante por la media o la moda del
atributo [Ochoa, 2004]. Pero existen otras acciones que se mencionan a continuación:
19
.
Valores erróneos: son valores en la que una o más variables tienen valores que están
significativamente fuera de la línea del valor promedio que es espera para esas variables. Del
mismo modo que para los campos faltantes, se debe distinguir entre la detección y el
tratamiento de los mismos, los tratamientos sobre datos erróneos son [Hernández, 2004]. :
• Ignorar, algunos algoritmos son robustos a datos anómalos
2.3.2 TRANSFORMACIÓN
La transformación de datos engloba cualquier proceso que modifique la forma de los datos
para que se refinen y ajusten a los requisitos de entrada del algoritmo de minería de datos
[Pyle, 1999] Las operaciones que transforman los datos son: Reducción de dimensionalidad,
aumento de dimensionalidad, discretización, numeración y normalización [Hernández,
2004].
Discretización
La discretización o cuantización es la conversión de un valor numérico a un valor nominal
ordenado. No obstante, el orden del atributo nominal puede ser preservado y utilizado por los
pasos subsiguientes o bien puede olvidarse y tratarse el atributo como un valor nominal sin
orden [Hernández, 2004].
20
.
Numerización
Es el proceso inverso a la discretización. Aunque es menos común que la discretización,
también existen casos donde puede ser extremadamente útil, especialmente cuando el
método de Minería de Datos que se vamos a utilizar no admite datos nominales por ejemplo
regresión lineal [Hernández, 2004].
Normalización
Las variables tienden a tener rangos que varían mucho de unos a otros. Por ejemplo, si en las
Ligas de Béisbol, los jugadores promedios de bateo que van desde cero a menos de 0.4,
mientras que el número de cuadrangulares éxito en una temporada que van desde cero a
alrededor de 70. Para algunos algoritmos de minería de datos, tales diferencias en los rangos
dan lugar a una tendencia a que la variable con mayor rango va ha tener una influencia
indebida sobre los resultados. Por lo tanto, antes de aplicar un algoritmo los datos, se deben
normalizar sus variables numéricas, para normalizar la magnitud del efecto que cada variable
tiene sobre los resultados. Existen varias técnicas. Existen varias técnicas para la
normalización, y vamos a examinar dos de los métodos más frecuentes: Normalización Min-
Max y la Estandarización Z-Score [Larose, 2005].
Normalización Min-Max
X − min( X ) X − min ( X )
X* = =
range ( X ) max( X ) − min ( X )
X − mean ( X )
X* =
SD( X )
21
.
2.3.3 EXPLORACIÓN DE DATOS
La Minería de Datos abarca un terreno muy amplio, no es solamente aplicar un algoritmo
existente a un conjunto de datos. Las herramientas existentes actualmente incluyen
mecanismos para la preparación de los datos, su visualización y la interpretación de los
resultados. Muchas de las herramientas funcionan bien en espacios de pocas dimensiones
con datos numéricos, pero sus limitaciones comienzan a aparecer en espacios de mayores
dimensiones o con datos no numéricos, por lo tanto es necesario realizar un análisis
exploratorio [Thrun et al, 1998].
Una vez los datos están recopilados, integrados y limpios, todavía no están listos para aplicar
una tarea de minería de datos. Es necesario, además, realizar un reconocimiento o análisis
exploratorio de los datos con el objetivo de conocerlos con detalle, para tal efecto se cuenta
con técnicas diversas : algunas técnicas simples del análisis exploratorio de datos, técnicas de
visualización previa, de agrupamiento exploratorio, técnicas de selección, ya sea, eliminando
filas o eliminando atributos, interfaces gráficas y técnicas de consulta y agregación
[Hernández, 2004].
CONOCIENTO
PREVIO
Dominio
Desnormaliza-
ción,
agregaciones, VISTA
generalizaciones,
selección de MINABLE
Datos atributos
muestreo.....
TAREA Y CRITERIOS
NECESIDADES Y DE EVALUACIÓN
EXPECTATIVAS
PRESENTACIÓN DEL
CONOCIMIENTO
Figura II.2 De los datos, dominio y usuarios a la vista minable [Hernández, 2004].
22
.
La figura II.2 esquematiza el proceso que lleva de los datos, del conocimiento del dominio y
de los usuarios a cuatro aspectos que son necesarios para llevar a cabo la fase propia de
minería de datos. Estos cuatro aspectos se explican a continuación [Hernández 2004]:
Vista minable : consiste en una vista en el sentido más clásico de base de datos: una tabla.
La mayoría de métodos de minería de datos son sólo capaces de tratar una tabla en cada
tarea.
Conocimiento previo: para ayudar al propio algoritmo de minería de datos puede ser
necesario establecer e incluso expresar de una manera formal cierto conocimiento previo.
Según algunos autores [Wong, 1999], el término "minería de datos visual" realiza minería
de datos manejando e interactuando con gráficos, pero según otros autores [Cleveland, 1993]
no se puede hacer minería de datos sólo con gráficas porque lo que caracteriza la minería de
datos de técnicas del análisis de datos es que los modelos son extraídos por algoritmos y por
tanto no son vistos o descubiertos visualmente por el usuario ,éste último es el enfoque
adoptado para la realización del presente proyecto.
23
.
Las técnicas de visualización de datos se utilizan fundamentalmente con dos objetivos
[Hernández, 2004]:
24
.
Entrenamiento (construcción de un modelo usando un subconjunto de datos con etiqueta
conocida) y prueba (prueba del modelo sobre el resto de los datos) [Moreno, 2001].
Dos de los algoritmos de clustering más utilizados son Self Organizing Maps (SOM) y K-
means [Mirkin, 2005].
SOM, también denominado redes de Kohonen, fue creado por Teuvo Kohonen en 1982. Se
trata de un modelo de red neuronal con capacidad para formar mapas de características de
manera similar a como ocurre en el cerebro. SOM está basado en el aprendizaje no
supervisado y competitivo, lo cual quiere decir que no se necesita intervención humana
durante el mismo y que se necesita saber muy poco sobre las características de la información
de entrada. SOM provee un mapa topológico de datos, que se representan en varias
dimensiones, utilizando unidades de mapa (las neuronas) para simplificar la representación
25
.
[Kohonen, 1995]. Las neuronas usualmente forman un mapa bidimensional, por lo que el
mapeo transforma un problema de muchas dimensiones en el espacio, a un plano. La
propiedad de preservar la topología significa que el mapeo preserva las distancias relativas
entre puntos. Los puntos que están cerca unos de los otros en el espacio original de entrada
son mapeados a neuronas cercanas en SOM. Por esta razón, SOM es muy útil como
herramienta de análisis de clases de datos de muchas dimensiones [Vesanto, 2000], y además
tiene la capacidad de generalizar [Essenreiter, 1999], lo que implica que la red puede
reconocer o caracterizar entradas que nunca antes ha encontrado.
Otros algoritmos de clustering son: PAM (Partition around medoids) y CLARA (Clustering
Large Applications) [Kaufman, 1990]. Este último permite manejar conjuntos de datos más
grandes que el primero. CLARANS [Han, 1994] integra los algoritmos PAM y CLARA en uno.
En primer lugar se debe especificar por adelantado cuantos clusters se van a crear, éste es el
parámetro k, para lo cual se seleccionan k elementos aleatoriamente, que representarán el
centro o media de cada cluster. A continuación cada una de las instancias, ejemplos, es
asignada al centro del cluster más cercano de acuerdo con la distancia que le separa de él.
Para cada uno de los clusters así construidos se calcula el centroide(representante de clase)
de todas sus instancias. Estos centroides son tomados como los nuevos centros de sus
respectivos clusters. Finalmente se repite el proceso completo con los nuevos centros de los
clusters. La iteración continúa hasta que se repite la asignación de los mismos ejemplos a los
mismos clusters, ya que los puntos centrales de los clusters se han estabilizado y
permanecerán invariables después de cada iteración. El algoritmo de k-means es el
siguiente[Molina, 2006]:
26
.
1. Elegir k ejemplos que actúan como semillas(k número de clusters).
3. Calcular el centroide de cada clase, que pasan a ser las nuevas semillas.
Para obtener los centroides, se calcula la media o la moda según se trate de atributos
numéricos o simbólicos. A continuación, en la Figura II.4, se muestra un ejemplo de
clustering con el algoritmo kmeans.
27
.
El algoritmo puede seguir dos enfoques distintos: kmeans por lotes y kmeans en línea. El
primero se aplica cuando todos los datos de entrada están disponibles desde un principio,
mientras que el segundo se aplica cuando no se dispone de todos los datos desde el primer
momento, sino que pueden añadirse ejemplos adicionales más tarde. Cuando se aplica la
versión por lotes, se debe seleccionar arbitrariamente una partición inicial de forma que cada
clase disponga de, al menos, un ejemplo. Como la totalidad de los datos están disponibles,
los centros de cada partición se calculan como la media de los ejemplos pertenecientes a esa
clase [Hernández, 2004].
n
d( O 1 , O 2 ) = ∑ (x
i =1
1 ( O1 ) − x 1 ( O 2 )) 2
Manhattan :
n
D ( O1 , O 2 ) = ∑ x 1 ( O1 ) − x 2 ( O 2 )
i =1
Chebychev:
n
D ( O1 , O 2 ) = max x 1 (O1 ) − x 2 (O 2 )
i =1
28
.
Minkowsky :
1
⎛ n r ⎞r
D ( O1 , O 2 ) = ⎜⎜ ∑ x 1 (O1 ) − x 2 (O 2 ) ⎟⎟
⎝ i =1 ⎠
La distancia euclidiana, al igual que las distancias anteriores se emplea en el caso en que
todos los atributos del objeto son valores numéricos [Olvera 2005].
Una de las primeras técnicas asociadas a la inducción por medio de árboles de decisión fue la
presentada por Ross Quinlan y fue denominada ID3 . Ésta fue una gran influencia para gran
número de investigaciones efectuadas sobre árboles de decisión. En este método se
seleccionan atributos en cada uno de los nodos del arbol y se trata de minimizar la cantidad
de atributos a analizar para determinar a qué clase corresponde una muestra. El criterio es el
de ubicar lo más alto posible en el arbol a aquellos atributos cuyos valores se corresponden
consistentemente con instancias que tienen valores particulares para el atributo
objetivo[Cartagenova, 2005].
29
.
Pero, ¿ cómo puede cuantificarse la relación entre el valor y el atributo objetivo ? Una
medida utilizada de la Teoría de la Información en el algoritmo ID3 y en muchos otros
árboles de decisión es la “Entropía”. Podemos decir que la entropía de un conjunto de datos
puede ser vista como cuán desordenados se encuentran dichos datos. De alguna manera se ha
demostrado que cuanto mayor es el valor de la entropía o la incertidumbre de algunos datos,
se requiere más información para describir de manera completa a los datos.
En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir dividiendo, y
el criterio que se toma para elegirlo es: se selecciona el atributo que mejor separe (ordene) los
ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medida de cómo
está ordenado el universo. La teoría de la información (basada en la entropía) calcula el
número de bits (información, preguntas sobre atributos) que hace falta suministrar para
conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía,
menor será la incertidumbre y más útil será el atributo para la clasificación. La definición de
entropía que da Shannon en su Teoría de la Información (1948) es: Dado un conjunto de
eventos A={A1, A2,..., An}, con probabilidades {p1, p2,..., pn}, la información en el
30
.
conocimiento de un suceso Ai (bits) y A(bits) se define las siguientes ecuaciones [Molina,
2006]:
⎛1⎞
I( A1 ) = log 2 ⎜⎜ ⎟⎟ = − log 2 ( p1 )
⎝ p1 ⎠
n n
I( A ) = ∑ p1 I( A 1 ) = − ∑ p1 log 2 ( p1 )
i =1 i =1
2. Crear un nodo para este atributo con tantos sucesores como valores tenga.
3. Introducir los ejemplos en los sucesores según el valore que tenga el atributo Ai.
a. Si sólo hay ejemplos de una clase, Ck, entonces etiquetarlo con Ck.
b. Si no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo,
eliminando la columna del atributo Ai.
El algoritmo C4.5 desarrollado por Quinlan es la extensión del algoritmo ID3 para generar
árboles de decisión. El algoritmo utiliza el concepto de ganancia de información o de
reducción de la entropía para seleccionar la óptima división.[Larose, 2005].
El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma.
El C4.5 construye un árbol de decisión y evalúa la información en cada caso utilizando los
31
.
criterios de entropía y ganancia o proporción de ganancia, según sea el caso [Servente,
2002].
El algoritmo ID3, toma objetos de una clase conocida y los describe en términos de una
colección fija de propiedades o de variables, produciendo un árbol de decisión sobre estas
variables que clasifica correctamente todos los objetos [Quinlan, 1993]. Hay ciertas
cualidades que diferencian a este algoritmo de otros sistemas generales de inferencia. La
primera se basa en la forma en que el esfuerzo requerido para realizar una tarea de inducción
crece con la dificultad de la tarea. El ID3 fue diseñado específicamente para trabajar con
masas de objetos, y el tiempo requerido para procesar los datos crece sólo linealmente con
dificultad [Servente, 2002].
En cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Los tres tipos
de pruebas posibles propuestas por C4.5 son [Quinlan, 1993]:
ii. Una prueba más compleja, basada en una variable discreta, en donde los
valores posibles son asignados a un número variable de grupos con un
resultado posible para cada grupo, en lugar de para cada valor
iii. Si una variable A tiene valores numéricos continuos, se realiza una prueba
binaria con resultados A <= Z y A > Z, para lo cual debe determinarse el
valor límite Z.
32
.
Pseudo-código del algoritmo C4.5
El algoritmo del método C4.5 para la construcción de árboles de decisión a grandes
rasgos es muy similar al del ID3. Varía en la manera en que realiza las pruebas sobre las
variables. A continuación se muestra el Pseudo-código [Servente, 2002] :
Función C4.5
(R: conjunto de atributos no clasificadores,
C: atributo clasificador,
S: conjunto de entrenamiento) devuelve un árbol de decisión;
Comienzo
Si S está vacío,
Devolver un único nodo con Valor Falla;
Si todos los registros de S tienen el mismo valor para el atributo clasificador,
Devolver un único nodo con dicho valor;
Si R está vacío,
Devolver un único nodo con el valor más frecuente del atributo clasificador en los
registros de S [Nota: habrá errores, es decir, registros que no estarán bien
clasificados en este caso];
Si R no está vacío,
D Å atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R;
Sean {dj | j=1,2,...., m} los valores del atributo D;
Sean {dj | j=1,2,...., m} los subconjuntos de S correspondientes a los valores de dj
respectivamente;
Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1,
d2,....,dm, que van respectivamente a los árboles
C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm);
Fin
33
.
La educación en Bolivia engloba la educación formal, alternativa y superior. La educación
formal se refiere a la educación de niveles Inicial, Primaria y Secundaria sin tomar en
cuenta la educación de adultos o educación especial .
34
.
y tecnología a todo el Sistema Nacional de Educación en Bolivia y a todas las entidades
relacionadas con el Sector. En la Figura II.6 se muestra la descripción general del SIE.
35
.
la relación de mujeres frente a hombres es 50,2% frente a 49,8% respectivamente, se deduce
que la población total de mujeres es considerablemente baja frente a la población de mujeres
en edad escolar (de 4 a 18 años), es decir 1,1% de diferencia.
36
.
2.7.4 INDICADORES
La Figura II.7 muestra la evolución de las tasas de término neta y bruta en el periodo de
tiempo de los años 2000 al 2006 en dos grados: 8° de primaria y 4° de secundaria. En 8° de
primaria, las tasas de término tuvieron un ascenso leve en dicho periodo; pasaron de 26,1% a
32,2% en niñas y de 25% a 29,8% en niños. Pero esos valores no son alentadores ya que la
tasa de término neta no supera en ningún caso el 33%, eso significa que apenas uno de cada
tres adolescentes de la población escolarizada de 13 años de edad permanece y culmina 8° de
primaria. Peor aún, la tasa de término neta en cuarto de secundaria en todo el periodo de
tiempo no supera el 25% (aunque haya ascendido levemente de 17,7% a 23,1% en mujeres y
de 15,9% a 20,4% en varones) lo que significa que apenas uno de cuatro estudiantes de 17
años de último grado de secundaria permanece y culmina dicho grado.
37
.
38
.
2.7.4.3 TASA DE ABANDONO POR NIVELES
La evolución de la tasa de abandono de los años 2000 al 2006 no experimentó grandes
cambios y tanto para el área Rural como para el área Urbana. Pero hay diferencias
significativas en el nivel secundaria sobretodo en el área Urbana, ya que la tasa de abandono
de las mujeres ronda el 7% mientras que la tasa de abandono de los hombres es del 9%. En
general, la mayor tasa de abandono se presenta en nivel secundario del área Rural, con un
valor de 10% tanto en hombres como en mujeres. Por su parte, la tasa de abandono del nivel
primaria del área Urbana es la que presenta tasas no muy alarmantes pero significativas
rondando el 5%. Observe esos comportamientos en la Figura II.9.
La tasa de sobreedad por grado en el año 2006 mejoró respecto del año 2000 (Ver Figura
II.10). En el año 2000 se observaba una mayor tasa de sobreedad en las unidades educativas
rurales públicas y en las unidades educativas urbanas públicas.
39
.
Figura II.10. Tasa de sobre edad por área geográfica y por dependencia
[Fuente: Ministerio de Educación]
En las unidades educativas rurales públicas, en quinto de primaria se tenía un 38,7% y los
grados posteriores 36%, 37% y 38%; en las unidades educativas urbanas públicas el mayor
rezago se presentaba en secundaria con porcentajes cercanos al 30%. Pero en el año 2006, las
unidades educativas públicas rurales tenían menor tasa de sobreedad que en el año 2000, por
ejemplo en el nivel secundaria, los valores porcentuales bajaron del 38% al 33%, y el rezago
en 5° de primaria se convirtió en de 38,7% a 26,5% .
2.8.1 WEKA
Weka (Waikato Envioronment for Knowledge Análisis), es una herramienta desarrollada por
un equipo de investigadores de la universidad de Waikato ( Nueva Zelanda),esta
implementada en Java con arquitectura independientes, ya que funciona en cualquier
plataforma. La licencia de Weka es GPL lo que significa que este programa es de libre
distribución y de difusión [Garcia, 2005].
40
.
WEKA está constituido por una serie de paquetes de código abierto con diferentes técnicas
de preprocesado, clasificación, agrupamiento, asociación, y visualización, así como
facilidades para su aplicación y análisis de prestaciones cuando son aplicadas a los datos de
entrada seleccionados. Estos paquetes pueden ser integrados en cualquier proyecto de
análisis de datos, e incluso pueden extenderse con contribuciones de los usuarios que
desarrollen nuevos algoritmos. Con objeto de facilitar su uso por un mayor número de
usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar
las diferentes herramientas integradas [Garcia, 2005].
41
.
@relation <nombre-de-la-relación> Donde <nombre-de-la-relación> es de tipo
String*. Si dicho nombre contiene algún espacio será necesario expresarlo
entrecomillado.
Sección de datos. Declaramos los datos que componen la relación separando entre
comas los atributos y con saltos de línea las relaciones.
Aunque éste es el modo “completo" es posible definir los datos de una forma abreviada
(sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos
expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de
las filas entre llaves y situando delante de cada uno de los datos el número de atributo.
2. CSV, corresponde a un formato de Excel en la que los datos están separados por
comas. La primera línea contiene los atributos.
3. C4.5, corresponde a archivos según el formato C4.5. Unos datos codificados según
este formato estarían agrupados de tal manera que en un fichero .names estarían los
nombres de los atributos y en un fichero .data estarían los datos en sí.
42
.
2.8.1.2 TAREAS
Weka permite tareas de Preprocesado, Clasificación, Clustering, Asociaciones,
Selección y Visualización [Molina, 2006].
2. Clasificación. En este modo se puede clasificar por varios métodos los datos ya
cargados como por ejemplo bayes, function, trees, rules y otros.
1. Desde la línea de comandos : cada uno de los algoritmos incluidos en WEKA se pueden
invocar desde la línea de comandos de MS-DOS como programas individuales. Los
resultados se muestran únicamente en modo texto.
43
.
2. Desde uno de los interfaces de usuario WEKA dispone de 4 interfaces de usuario
distintos, que se pueden elegir después de lanzar la aplicación completa. Los interfaces son:
• Simple CLI (command line interface): interfaz en modo texto.
Para elegir una técnica de Minería de datos depende de los resultados que se quiera
obtener, se puede elegir entre técnicas supervisadas y no supervisadas. Un ejemplo de una
técnica no supervisada es el agrupamiento o clustering que busca segmentar o agrupar un
conjunto de datos en subconjuntos o grupos según sus similitudes, un algoritmo de
clustering comúnmente utilizado es el algoritmo k-means Para tratar de conocer los
atributos relevantes después de aplicar clustering se puede aplicar árboles de decisión.
44
.
Para analizar los datos proporcionados por el Sistema de Información Educativa (SIE), se
tiene varios indicadores como la población escolar, la tasa de aprobación por niveles, la tasa
de abandono y el rezago escolar, en los que se concluye que los resultados son críticos más
que todo en el área rural.
Por lo tanto, en este capítulo se ha desarrollado los conceptos más importantes que son
útiles para el siguiente capítulo, en el que se llevará a cabo las etapas del descubrimiento de
conocimiento aplicando el algoritmo k-means y reglas de asociación para finalmente
interpretar los resultados obtenidos.
45
.
CAPÍTULO III
DESARROLLO
Toda la información con la que cuenta el SIE esta almacenada en tablas de una base de
datos estructurada en SQL Server de Microsoft y engloba una amplia gama de información,
que incluye varios temas como:
• Infraestructura
• Matrícula
• Formación Docente
• Recursos Humanos
• Materiales
46
.
las UE pero dicha información no será considerada por el momento.
Interpretación
Minería
De Datos
Transformación
Conocimiento
Preprocesamiento
Patrones
4
Selección 3
2 Datos
1
Transformados
Datos
Datos Preprocesados
Seleccionados
SIE
Datos
Este proceso puede realizarse de manera cíclica porque muchas veces al aplicar una técnica
de Minería de Datos no se obtiene los resultados satisfactorios, por lo que se regresa a las
fases anteriores. En este capítulo se explicará el desarrollo y análisis de cada etapa para el
descubrimiento de conocimiento (Ver Figura III.1). En la fase de selección se extraen los
atributos de las tablas más relevantes relacionados con la matriculación del sistema SIE
para unificar en una sola tabla denominada data set. En la fase de preprocesamiento se
utilizan métodos estadísticos como histogramas para conocer mejor los datos seleccionados,
de esta manera se identifican valores faltantes, mínimos, máximos y erróneos. En la fase
de transformación se realiza la normalización, la numerización, el tratamiento de
dimensionalidad, el tratamiento de valores erróneos y faltantes.
47
.
Una vez concluida las fases anteriores ya se tiene un data set limpio preliminar. En la fase
de minería de datos se aplica el algoritmo k-means de Clustering y el algoritmo J.48 de
Árboles de Decisión mediante la herramienta WEKA. Posteriormente se desarrolla una
herramienta de minería de datos programado en Delphi que incluye una herramienta de
visualización multidimensional para realizar un análisis exploratorio visual de los datos y
el algoritmo k-means de Clustering para agrupar los datos de acuerdo a su similitud.
Finalmente, se interpretan y analizan los resultados obtenidos. El diagrama de proceso de
éstas etapas se muestra en la Figura III.2
INTERPRETACIÓN
DEL PROBLEMA - ANÁLISIS DE LA FUENTE
DE DATOS SIE
- SELECCIÓN DE
SELECCIÓN ATRIBUTOS RELEVANTES
PREPARACIÓN
DE DATOS - HISTOGRAMAS
PREPROCESAMIENTO - VALORES MÁXIMOS
- VALORES MÍNIMOS
- MEDIA.
- VALORES FALTANTES
- VALORES ERRONEOS
- NUMERIZACIÓN
- REDUCCIÓN DE ATRIBUTOS
TRANFORMACIÓN - ATRIBUTOS DERIVADOS
PROGRAMACIÓN DE UNA
EXPLORACIÓN
HERRAMIENTA
MEDIANTE
VISUALIZACIÓN
VISUALIZACIÓN
MULTIDIMENSIONAL
ALGORITMO
K-MEANS
APLICACIÓN DE LA
HERRAMIENTA WEKA
MINERÍA DE
DATOS
ALGORITMO
J.48
PROGRAMACIÓN DEL
ALGORITMO K-MEANS
INTERPRETACIÓN Y
ANÁLISIS DE
PATRONES
48
.
3.2 PREPARACIÓN DE DATOS
• Tabla Unidad Educativa (t_ues): esta tabla contiene información acerca de las
características de las unidades educativas como el código, nombre, teléfono, multigrado,
etc.
49
.
• Tabla Matricula-Grado (t_mat_grad): indica la cantidad de matriculados de cada
gestión (1999-2007) de un determinado nivel y grado, que a su vez están separados por
inicio de gestión y fin de gestión por la variable operat ( 1 significa inicio de gestión y 3
significa fin de gestión).
50
.
• Tabla Departamento (t_depar): asigna un código único a cada uno de los nueve
departamentos para que puedan acceder las tablas que hacen referencia al departamento.
• Tabla Nivel (t_nivel): asigna un código único a los nueve niveles existentes tanto en la
educación formal como alternativa.
51
.
• Tabla Grado(t_grado): asigna un código único a los nueve grados existentes incluyendo
la edad establecida para cursar cada grado.
• Tabla Tipo de Matricula (t_tipo_mat): Esta tabla contiene los códigos y descripciones
del tipo de matrícula como por ejemplo: inscritos nuevos, efectivos,
promovidos(aprobados), reprobados, etc.
52
.
8 Extemporáneo repitente
9 Retirado Traslado
10 Retirado Abandono
11 Reprobados
Unidad Educativa
Los atributos seleccionados con respecto a las características de la UE son:
9 Nombre de la UE.
9 Gestión: 2000-2006
53
.
9 Nivel: Inicial, Primario y Secundario.
Matrícula
54
.
Por lo tanto, el Data set conformado por los atributos seleccionados se muestra en la Tabla
III.10. Se ha preparado 63 tablas, una para cada Departamento (9 departamentos) y
Gestión (2000-2006) con los mismos atributos. Por ejemplo en la Tabla III.10 se muestra el
data set perteneciente a La Paz de la gestión 2005.
55
.
Mat_SEC2 Matriculados en 2do de Secundaria numérico 0 386
Mat_SEC3 Matriculados en 3ro de Secundaria numérico 0 355
Mat_SEC4 Matriculados en 4to de Secundaria numérico 0 318
Efectivos Cantidad de Efectivos numérico 8 4.531
Promovidos Cantidad de Aprobados numérico 8 4.070
Reprobados Cantidad de Reprobados numérico 0 461
Insc_nuevos Inscritos Nuevos numérico 8 4.552
Insc_rep Inscritos Repitentes numérico 0 198
No_incorpor No incorporados numérico 0 152
Retir_tras Retirados por traslados numérico 0 152
Retir_aban Retirados por abandono numérico 0 354
Multigrado Aula multigrado booleano 0 1
Dependencia Tipo de UE Nominal
Dirección Ubicación Nominal
Zona Ubicación Nominal
Provincia Ubicación Nominal
Sección Ubicación Nominal
Cantón Ubicación Nominal
Localidad Ubicación Nominal
Area Área Rural o urbana Nominal
El data set que se analizará es el perteneciente a los datos de La Paz de la gestión 2005.A
continuación se muestra la distribución de la matrícula por niveles de éstos datos.
Nivel Inicial
Solo hay 13 UE que tienen el Nivel Inicial 0 de las que 12 UE tienen menos de 50
alumnos y una UE tiene 103 alumnos (JESUS OBRERO MAÑANA) En el Nivel Inicial 1
56
.
hay 215 UE de las cuales 171 tienen menos de 50 alumnos. En el Nivel Inicial 2 hay 2.113
UE de las cuales 1.857 tienen menos de 50 alumnos (Ver Figura III.3)
2000 1857
1900
1800
1700
1600
1500
1400
1300
1200
1100
1000
900
800
700
600
500
400
300 171 151
200 95
100 12 1 29 15 10
0
<50 103 <50 51-100 101-192 <50 50- 100 101- 200 201- 336
INICIAL 0
INICIAL 1
INICIAL 2
En la Figura III.4 se muestra que un gran porcentaje de UE tienen una matrícula menor a
10 de 1ro a 5to de primaria. Por ejemplo hay 3.374 UE que tienen Primero de Primaria
(azul) tanto del área rural como urbana de las cuales 752 UE tienen menos de 10 alumnos.
2200
1752
1800
1600
1458
1400
1224
1200 1105
600
400
213 196 204 194 183 211
180 172 173 178
200 124 116 117 115 110
0
<10 10--30 31-50 51- 100- <10 10--30 31-50 51- 101- <10 10--30 31-50 51- 101- <10 10--30 31-50 51- 101- <10 10--30 31-50 51- 101-
100 283 100 284 100 286 100 269 100 280
57
.
Para conocer mejor los datos a continuación se describe la matriculación de los nueve
departamentos. En la Tabla III.11 se muestra la cantidad de Unidades Educativas en cada
departamento de la gestión 2006. Se puede observar que en La Paz, Santa Cruz,
Cochabamba y Potosí existe mayor porcentaje de Unidades Educativas que en el resto de
los departamentos.
Pando
U.E. Gestión 2006 T arija
Oruro
5% 2%
5%
Departamento Cantidad
Beni La Paz
La Paz 4003 5% 26%
Sucre
Sucre 1168
8%
Cochabamba 2337
Santa Cruz 2795
Potosí
Potosí 2151
14%
Matriculación La Paz
185
Valor Valor
Gestión Promedio 180
Máximo Mínimo
2000 163 4025 7 175
58
.
En el Departamento de Sucre la distribución de alumnos efectivos es ascendente ( Figura
III.7). La Unidad con menor matricula es la UE LAS LOMAS 2006 con 7 alumnos. La
Unidad con mayor matricula es la UE LA RECOLETA 2006 con 2.228 alumnos.
Matriculación Sucre
135
Valor Valor
Gestión Promedio
Máximo Mínimo 130
2000 117 2009 14
125
2001 122 2085 7
120
2002 126 2122 10
115
2003 129 2146 9
110
2004 133 2166 9
105
2005 133 2188 9
2000 2001 2002 2003 2004 2005 2006
2006 133 2228 7
Matriculación Cochabamba
Valor Valor 195
Gestión Promedio
Máximo Mínimo 190
2000 178 1883 2 185
2001 168 1877 7 180
59
.
La Unidad con mayor matricula es la UE INTERNACIONAL BETHESDA II 2006 con
3.173 alumnos.
Matriculación Potosí
104
Valor Valor
Gestión Promedio
Máximo Mínimo 102
2000 95 1155 4
100
2001 96 1171 5 98
2002 99 1159 7 96
2003 101 1228 6 94
2004 101 1265 5 92
60
.
La Unidad con mayor matrícula es la UE LA SALLE. 2006 con 1.260 alumnos.
Matriculación Tarija
Valor Valor 165
Gestión Promedio
Máximo Mínimo 160
2000 142 1191 7
155
2001 147 1141 7
150
2002 150 1148 8 145
Matriculación Beni
Valor Valor 160
Gestión Promedio
Máximo Mínimo
155
2000 137 801 7
150
2001 143 861 10
145
2002 151 942 6
140
2003 156 1060 7
135
2004 158 1030 6 130
2005 157 1064 7 125
2000 2001 2002 2003 2004 2005 2006
2006 155 1136 4
61
.
Matriculación Pando
90
Valor Valor
Gestión Promedio 80
Máximo Mínimo
2000 53 710 3 70
60
2001 57 780 4
50
2002 62 838 7 40
30
2003 65 831 6
20
2004 67 868 4 10
2005 71 872 6 0
2000 2001 2002 2003 2004 2005 2006
2006 77 801 6
Existe además otras UE con información incompleta sobre matriculación, que no cuentan
con información de fin de gestión. Solo están registrados los de inicio de gestión que no
incluyen información de reprobados, aprobados, efectivos y retirados. Estos datos faltantes
se ha detectado con consultas SQL y con la comparación con los cubos dinámicos
publicados en la página del Ministerio de Educación.
La acción que se decidió con estos datos es eliminarlos porque representan solo el 6% de
toda la información.
62
.
En la Tabla III.20 se muestran las características de las Unidades Educativas que tienen la
menor cantidad de alumnos efectivos, por ejemplo (columna 4) en los departamentos de
Santa Cruz y Pando existen tres unidades educativas (SANTA ELENA 2000,
CHIRGUANAÑAN 2006 y PIQUIRI 2000) con tres alumnos efectivos del área rural y
pertenece a multigrado.
2 1 Urbana No Cochabamba
3 1 Urbana No La Paz
Numerización
Es el proceso de convertir valores nominales a numéricos. Este cambio se realiza porque
se adecua mejor los valores numéricos a los distintos algoritmos que se aplicarán más
adelante. Se tratará los atributos de área y dependencia.
63
.
Área :
Rural Æ 1
Urbana Æ 2
Dependencia :
Pública o Fiscal Æ 1
Convenio Æ2
Privada Æ3
Comunitaria Æ4
Atributos omitidos
Algunos atributos del data set no están adecuados para aplicar algoritmos de agrupamiento,
por ejemplo en el caso del atributo código que es único para cada UE , por lo que no resulta
adecuado introducirlo. Se eliminarán además los atributos de domiciliaria porque el
algoritmo de agrupamiento tratará de agruparlos simultáneamente por ubicación pero lo que
se quiere lograr es agrupar distintos comportamientos acerca de la matriculación.
Por lo que se procederá a eliminar los siguientes atributos:
9 Cod_UE
9 Nombre
9 Dirección
9 Zona
9 Provincia
9 Sección
9 Cantón
9 Localidad
Extracción de Características
En la transformación de atributos se puede transformar un conjunto de atributos en otros, o
bien derivar nuevos atributos a partir de otros.
En el proyecto se genera dos nuevos atributos: tasa de aprobación y tasa de abandono,
usando los datos de: efectivos, promovidos, reprobados, inscritos nuevos, inscritos repitentes,
no incorporados, retirado traslado y retirado abandono. Para el cálculo de la tasa de
64
.
aprobación se divide la cantidad de estudiantes promovidos entre la cantidad de estudiantes
efectivos como se muestra a continuación:
1
El cálculo de la tasa de abandono se puede realizar de varias formas, no necesariamente de la forma
propuesta.
65
.
Mat_INI2 Matriculados en el grado 2 del nivel inicial numérico
Mat_PRIM1 Matriculados en 1ro de Primaria numérico
Mat_PRIM2 Matriculados en 2do de Primaria numérico
Mat_PRIM3 Matriculados en 3ro de Primaria numérico
Mat_PRIM4 Matriculados en 4to de Primaria numérico
Mat_PRIM5 Matriculados en 5to de Primaria numérico
Mat_PRIM6 Matriculados en 6to de Primaria numérico
Mat_PRIM7 Matriculados en 7mo de Primaria numérico
Mat_PRIM8 Matriculados en 8vo de Primaria numérico
Mat_SEC1 Matriculados en 1ro de Secundaria numérico
Mat_SEC2 Matriculados en 2do de Secundaria numérico
Mat_SEC3 Matriculados en 3ro de Secundaria numérico
Mat_SEC4 Matriculados en 4to de Secundaria numérico
Efectivos Cantidad de Efectivos numérico
Promovidos Cantidad de Aprobados numérico
Insc_nuevos Inscritos Nuevos numérico
Insc_rep Inscritos Repitentes numérico
No_incorpor No incorporados numérico
Retir_tras Retirados por traslados numérico
Retir_aban Retirados por abandono numérico
Tasa_Aprob Tasa de aprobación numérico
66
.
3.4.1 ANÁLISIS MEDIATE LA HERRAMIENTA DE MINERÍA DE DATOS
WEKA
Se ha elegido la herramienta WEKA(Waikato Environment for Knowledge Analysis) por
contar con varias ventajas que le distinguen de las demás herramientas. A continuación se
listan algunas de estas ventajas:
Actualmente existen varias versiones de esta herramienta, pero para el desarrollo del
proyecto se utiliza la Versión 3.4.5. La ventana inicial se muestra en la Figura III.14. Tiene
cuatro opciones de acceso Simple CLI, Explorer, Experimenter y KnowledgeFlow, la más
utilizada por contar una interfaz gráfica es Explorer, es por ello que se elige esta opción.
La ventana Explorer (Ver Figura III.15) tiene las opciones de: Preprocesamiento,
Clasificación, Agrupamiento , Asociación, Selección de atributos y Visualización.
67
.
Los datos se introducen en el formato CSV (Ver Figura III.16), por ejemplo una hoja de
cálculo tiene la opción de guardar los datos con esta extensión.
68
.
1
2
En la Figura III.18a se muestra la distribución del atributo ÁREA, se observa que hay
3.038 UE rurales (representado por el color azúl) y 971 UE urbanas (representado por el
color rojo). En la Figura III.18b se muestra la distribución del atributo DEPENDENCIA
clasificado por área, se observa 3.548 UE fiscales en su mayoría rurales (azul), 239 UE
privadas en su mayoría urbanas(rojo), 212 UE de convenio en su mayoría rurales y 10 UE
comunitarias.
RURAL
FISCAL
URBANO
Figura III.18a Distribución del atributo área. Figura III.18b Distribución del atributo área.
69
.
En la Figura III.18c se muestra la distribución de MULTIGRADO, se observa que la
mayoría de las UE son de tipo multigrado. En la figura III.18d se muestra el atributo TASA
DE APROBACIÓN en el rango de 0,66 como mínimo y 1 como máximo, se observa que la
mayoría tiene una tasa de aprobación de 1 en el área rural.
MULTIGRADO
NO MULTIGRADO
Figura III.18c Distribución del atributo multigrado Figura III.18d Distribución de tasa de aprobación
70
.
El algoritmo requiere el número de Clusters se probará con 2, 3, 4 y 5, posteriormente se
elegirá el número adecuado de clusters por medio de una análisis de distancias. Después
de ejecutar el algoritmo se muestra en la parte derecha el número de iteraciones, los
Centroides (representantes de grupo) representados por la media y la desviación estándar y
la cantidad de instancias pertenecientes a cada grupo.
El criterio que se tomó en cuenta para seleccionar el número adecuado de clusters es : "el
número óptimo de clusters es aquel en el que los ejemplos tienen características que
generan pequeñas distancias dentro de los grupos y grandes distancias entre los grupos",
Para el análisis de distancias la función más común es la distancia euclidiana que se basa
en la longitud de la recta que une dos puntos en el espacio euclídeo, para ello las instancias
numéricas. La función esta expresada de la siguiente manera:
n
d( O1 , O 2 ) = ∑ (x
i =1
1 ( O1 ) − x 1 ( O 2 )) 2
Es necesario normalizar los valores para que no ocurra problemas con los valores mínimos
y máximos . Por ejemplo las distancias debidas a diferencias de un atributo que va entre 0 y
100 serán mucho mayores que las distancias debidas a diferencias de un atributo que va
entre 0 y 10. La normalización más común es la normalización lineal uniforme, es la que se
utilizará en el presente proyecto, donde la variable normalizada esta en el rango de 0 a 1.
71
.
y − min
y' =
max − min
Donde: v es la variable a normalizar
min es el mínimo de los valores dados para ese atributo
max es el máximo de los valores dados para ese atributo
v' es la variable normalizada.
Los valores de las distancias calculadas para 2, 3 ,4 y 5 clusters se muestra en la Tabla
III.22.
DOS CLUSTERING CINCO CLUSTERING
Distancia entre clusters Distancia entre clusters
Distancia 0-1 1,3 Distancia 0-1 1,5
Distancia Acumulado dentro del cluster Distancia 0-2 1
Acumulado Cluster 0 2.891 Distancia 0-3 0,3
Acumulado Cluster 1 5.288 Distancia 0-4 0,7
Distancia 1-2 1
TRES CLUSTERING Distancia 1-3 1,5
Distancia entre clusters Distancia 1-4 1,2
Distancia 0-1 1,5 Distancia 2-3 1
Distancia 0-2 1,4 Distancia 2-4 1,2
Distancia 1-2 1,3 Distancia 3-4 0,7
Distancia Acumulado dentro del cluster Distancia Acumulado dentro del cluster
Acumulado Cluster 0 2.886 Acumulado Cluster 0 2.925
Acumulado Cluster 1 5.022 Acumulado Cluster 1 5.404
Acumulado Cluster 2 4.093 Acumulado Cluster 2 4.715
Acumulado Cluster 3 3.062
CUATRO CLUSTERING Acumulado Cluster 4 4.067
Distancia entre clusters
Distancia 0-1 1,5
Distancia 0-2 1
Distancia 0-3 0,3
Distancia 1-2 1
Distancia 1-3 1
Distancia 2-3 1
Distancia Acumulado dentro del cluster
Acumulado Cluster 0 3.923
Acumulado Cluster 1 5.330
Acumulado Cluster 2 4.193
Acumulado Cluster 3 4.396
72
.
Se observa que al aplicar dos clusters se tiene una distancia entre clusters de 1,3 y un
promedio de la distancia acumulada de 4.089 Con tres clusters la distancia máxima es 1,5 y
la mínima es de 1,3 y el promedio de la distancia mínima acumulada es de 4.000. Con
cuatro clusters las distancias entre clusters no son tan bajas, pero los acumulados son
mayores que con dos y tres clusters, lo mismo pasa con cinco clusters por lo que se descartan
Entre dos clustes y tres clusters no hay mucha diferencia pero el acumulado con tres clusters
es menor, es por ello que se ha elegido aplicar tres clusters.
P_INI0 P_INI1 P_INI2 P_PRIM1 P_PRIM2 P_PRIM3 P_PRIM4 P_PRIM5 P_PRIM6 P_PRIM7
Cluster 0 0 0.0215 0.5055 0.959 0.9176 0.898 0.7594 0.6723 0.3855 0.2348
Cluster 1 0 0.029 0.5176 0.5921 0.5797 0.6046 0.5942 0.6149 0.7267 0.8219
Cluster 2 0.0145 0.2298 1.1408 1.4648 1.4141 1.3892 1.3706 1.3696 1.3737 1.3137
P_PRIM8 P_SEC1 P_SEC2 P_SEC3 P_SEC4 MAT_INI0 MAT_INI1 MAT_INI2 MAT_PRIM1 MAT_PRIM2 MATPRIM3
0.2121 0.0852 0.0797 0.0699 0.0609 0 0.1297 4.073 7.6746 6.1121 5.9832
0.8302 0.8923 0.8323 0.7847 0.7391 0 0.2774 10.735 12.1511 11.7557 12.4596
1.2702 1.1749 1.0611 0.9876 0.8944 0.2433 5.5828 34.736. 44.4534 42.4834 41.7474
73
.
Diagramas de Venn
Para comprender mejor las características de los grupos se puede aplicar diagramas de
Venn como se muestra en las Figuras III.20. El diagrama de Venn del Cluster 0 (Figura III.20
a) se interpreta de la siguiente manera: 2.445 instancias que son de tipo multigrado, fiscales
y del área rural; 5 instancias que son de tipo multigrado, fiscales y no pertenecen al área
rural; 110 instancias son de tipo multigrado, del área rural pero no son fiscales.
0 5 0
2445
110 0
En el diagrama de Venn del Cluster 1 (Figura III.20 b) se observa 439 instancias son de tipo
multigrado, fiscales y pertenecientes al área rural, sin embargo sólo 44 instancias son de tipo
multigrado que no son fiscales y pertenecen al área rural.
En el diagrama del cluster 2 (Figura III.20 c) se observa que 659 instancias son fiscales que
pertenecen al área urbana y no son de tipo multigrado, en cambio 307 instancias no son
fiscales, pertenecen al área urbana y no son de tipo multigrado.
74
.
Cluster 1 ( 483 Instancias)
0 0 0
439
44 0
0 0 0
659
307 0
Gráficos de Dispersión
Con Weka se puede analizar los grupos de forma visual mediante gráficos de dispersión Por
ejemplo en la Figura III.21 se muestra la distribución de los grupos respecto a la
dependencia. Se observa que el primer grupo (azul) presenta una alta proporción de UE
fiscales, seguida por las de convenio y muy pocas privadas El segundo grupo(rojo) en su
mayoría son fiscales, seguido por convenio y no presenta ninguna comunitaria. El tercer
75
.
grupo(verde) tiene mayor distribución en privadas y de convenio a diferencia de los dos
grupos anteriores.
Con respecto a la matriculación en 4to de secundaria (Ver Figura III.22), se observa que el
tercer grupo tiene mayor dispersión acercándose más a la máxima matriculación, en
contraposición la distribución del primer grupo se acerca más a cero.
76
.
Gráfico de Barras.
Por medio de los gráficos de barras (Ver Figura III.23) que proporciona Weka, también se
puede visualizar la distribución de los grupos.
En la figura b se confirma que la mayor parte del cluster 0 pertenece al área rural y todos
los del cluster 2 son urbanas. En la figura c se muestra que la mayor parte del cluster 0
tiene una tasa de aprobación de 1, sin embargo en el cluster 2 se tiene una distribución más
homogénea, porque va reduciendo desde 1 casi en la misma proporción hasta
aproximadamente 0,7. En la figura d se muestra que la tasa de abandono del cluster 0 en su
mayoría es 0 y va descendiendo hasta 0,28. En la figura e se muestra que la mayoría del
cluster 0 y cluster 1 son unidades educativas fiscales, mientras que la mayoría del cluster 2
son unidades educativas privadas.
CLUSTER 0 RURAL
CLUSTER 2
URBANO
CLUSTER 1
77
.
MULTIGRADO
FISCAL
NO MULTIGRADO
PRIVADO CONVENIO
COMUNITARIO
Por lo tanto, en base al análisis de la tabla de centroides, los diagramas de Venn y las
herramientas de visualización se puede dar una primera interpretación:
El primer grupo (64%) se caracteriza por unidades educativas con una baja cantidad de
alumnos efectivos, son de tipo multigrado y del área rural que tienen una tasa de abandono
promedio del 10% . A diferencia de los demás grupos es el que tiene mayor tasa de
aprobación. En cuanto a la matriculación, en el nivel primario se tiene un promedio de 6
alumnos por grado, sin embargo esta matriculación disminuye a 1 en el nivel secundario.
El segundo grupo (12%) se caracteriza por unidades educativas fiscales del área rural pero
que no son de tipo multigrado, tienen mayor tasa de abandono a diferencia de los dos
grupos y la distribución de la matrícula en todos los niveles es casi homogénea.
78
.
El tercer grupo (24%) se caracteriza por unidades educativas urbanas, en su mayoría son
fiscales y no son de tipo multigrado, se caracterizan además por contar con una alta
matriculación en todos los niveles con un promedio de 516 alumnos efectivos y tienen
menor tasa de abandono.
Como los datos ya están etiquetados ahora se puede aplicar algoritmos pertenecientes a los
árboles de decisión para identificar reglas pertenecientes a los grupos. Un algoritmo de
árbol de decisión muy utilizado es el algoritmo C4.5, en Weka se utiliza la terminología
J48 para referirse a este algoritmo. Para ejecutar esta opción se ingresa a la ventana de
clasificación, se ejecuta la opción J.48 y se elige el atributo clasificador como se muestra
en la Figura. III.25
79
.
80
.
En la Figura III.27 se muestra el gráfico del árbol de decisión. Con la matriz de confusión se
comprueba que los clusters tienen sentido, ya que la confusión es cero.
81
.
" si una UE es de tipo multigrado, entonces pertenece al cluster 0, esta regla se cumple en
2.560 instancias".
" si una UE no es multigrado y pertenece al área rural, entonces pertenece al cluster1 (483
instancias)".
DATA
SET
VISUALIZACIÓN
NORMALIZACIÓN
MULTIDIMENSIONAL
ANÁLISIS MEDIANTE
ALGORITMO K-MEANS
EXPLORACIÓN
VISUALIZACIÓN DE
ANÁLISIS DE
CENTROIDES
RESULTADOS
82
.
Una presentación inicial del programa se muestra en las Figuras III.29.
83
.
Se tiene cuatro opciones principales: el acceso a los datos, la normalización, la
visualización multidimensional y el algoritmo k-means.(Ver Figura III.30)
Los datos se cargan en formato de texto donde, en la primera fila están los nombres de los
atributos separados por tabulador y continúa con los datos a partir de la segunda fila también
separados por tabulador.
Para graficar es necesario normalizar los datos, se debe normalizar las variables numéricas
para normalizar la magnitud del efecto que cada variable tiene sobre los resultados. La
normalización se hace en los datos de los atributos y no así en todos los datos del Data
set.
ENTRADA DE
DATOS
NORMALIZACIÓN DE
DATOS
INGRESO A LA
PANTALLA DE
VISUALIZACIÓN
ALGORITMO K-
MEANS
84
.
3.5.1 VISUALIZACIÓN MULTIDIMENSIONAL
Aunque los datos están recopilados, seleccionados y limpios todavía no están listos para
realizar una tarea de minería de datos.
85
.
En la Figura anterior se muestra en el eje x la tasa de aprobación, en el eje y la cantidad de
alumnos efectivos , en el eje z la tasa de abandono, en el color la dependencia (Rojo=Fiscal,
Amarillo=Convenio, Cian = Privado, Azúl = Comunitaria) y en la forma el área ( cubo=
rural , esfera = urbana). Una vez cargado los datos se procede a la interpretación, por ejemplo
el punto encerrado en una circunferencia de la gráfica se puede interpretar de la siguiente
manera:
"El punto representa a una UE fiscal del área urbana con una baja cantidad de alumnos
efectivos, una tasa de aprobación regular y una alta tasa de abandono ".
"Hay más unidades educativas fiscales (representado por el color rojo), se observa
además que a mayor matrícula existe menor tasa de abandono" ( Ver Figura III.32).
Los datos en el ejemplo de la Figura III.33 pertenecen al área urbana, en la parte inferior se
muestra a las UE fiscales(rojo), seguido por las UE de convenio (amarillo) y las UE
privadas ( cyan). en la que se observa el siguiente comportamiento
86
.
" La tasa de aprobación es mayor en las unidades educativas privadas y de convenio que
en las unidades educativas fiscales del área urbana".
En las Figuras III.34 y III.35 se muestra la distribución con respecto a la matrícula en 5to de
primaria( representado por el eje y), la tasa de aprobación( representado por el eje x), y la
tasa de abandono( representado por el eje z), del área rural y urbana.
87
.
"En 5to de primaria del área rural se tiene mayor tasa de abandono y mayor tasa de
aprobación. Sin embargo el área urbana se tiene una distribución más dispersa, donde
las unidades educativas con menor matrícula tienen menor tasa de aprobación y mayor tasa
de abandono. Estos comportamientos son similares en los grados de 1ro a 4to de
Primaria".
Con respecto a la matrícula en 4to de secundaria se muestran en las Figuras III.36 y III37.
88
.
89
.
3. Se calcula el centroide de cada grupo por medio de la media o la mediana si los
datos son numéricos y la moda si los datos son nominales, que pasan a ser las nuevas
semillas.
En la Figura III.38 se muestra la pantalla de k-means donde los datos ya están cargados y se
muestran normalizados, en consiguiente ya se puede elegir la cantidad de grupos y
determinar los centroides.
Cantidad
de grupos
Atributo a
graficar
En la Figura III.39 se muestra un ejemplo con tres grupos, los centroides se muestran en
una tabla y para comprender mejor la distribución de los grupos se muestra una gráfica en la
parte inferior.
90
.
Para ver los datos completos de los centroides y no así normalizados, se elige la opción
Datos Completos donde se visualizan los datos con código, nombre, paralelo, matrícula y el
resto de atributos de cada grupo y centroide (Ver Figura III.40).
91
.
3.5.3 CRITERIOS DE CALIDAD DE LA HERRAMIENTA
Para evaluar los criterios de calidad de la herramienta implementada se basa en la Norma
ISO IECE 9126 en la que evaluando las seis características para categorizar la calidad del
software se llegó a la siguiente conclusión:
El primer grupo (75%) representa a las UE del área rural que en su mayoría son
multigrado y fiscales, tienen un promedio de 70 alumnos efectivos, una tasa de aprobación
promedio de 98% y una tasa de abandono promedio de 4%"
92
.
El tercer grupo(8%) se caracteriza por UE privadas del área urbana, con un promedio de
953 alumnos efectivos.
Los patrones de comportamiento de los tres grupos encontrados aplicando k-means y las
reglas mediante árboles de decisión reflejan el estado situacional de la educación formal.
La herramienta weka resulta útil para encontrar éstos patrones, además contiene lo
necesario para realizar el análisis como la visualización, las estadísticas, el filtrado entre
otros.
Los patrones obtenidos con la herramienta weka son similares a los encontrados con la
herramienta implementada, con lo que se asegura y refuerza el conocimiento encontrado.
93
.
CAPITULO IV
ANÁLISIS DE RESULTADOS.
El segundo cluster se caracteriza por unidades educativas fiscales del área rural pero que
no son de tipo multigrado, tienen mayor tasa de abandono a diferencia de los dos grupos y
la distribución de la matrícula en todos los niveles es casi homogénea.
El tercer cluster se caracteriza por unidades educativas urbanas, en su mayoría son fiscales
y no son de tipo multigrado, se caracterizan además por contar con una alta matriculación
94
.
en todos los niveles con un promedio de 516 alumnos efectivos y tienen menor tasa de
abandono.
"Si se tiene mayor matriculación y menor tasa de abandono y una tasa de aprobación
menor que 97%, entonces pertenece al área urbana" .
Regla 1
Si multigrado = si
entonces pertenece al Cluster 0. (2.560 instancias)
Regla 2
Si multigrado = no
y área = rural
entonces pertenece al Cluster 1. (483 instancias)
95
.
Regla 3
Si multigrado = no
y área = urbana
entonces pertenece al Cluster 2 (966 instancias).
Analizando estas reglas se tiene que el algoritmo k-means para la segmentación en tres
grupos se ha basado principalmente en los atributos multigrado y área.
Los patrones de comportamiento encontrados coinciden con los aspectos de los indicadores
existentes, por ejemplo el algoritmo de minería de datos ha segmentado en dos grupos a las
unidades educativas del área rural, una con mayor tasa de abandono porque de hecho incluye
el nivel secundario y el otro grupo con menor tasa de abandono pero mayor tasa de
aprobación porque en su mayoría pertenecen al nivel primario.
96
.
pruebas con el mismo data set (La Paz 2005). A continuación se muestra a detalle éstos
resultados.
Regla 1
Si área =rural
entonces es fiscal (3.038 instancias)
Regla 2
Si área = urbana
y matrícula en Primero de Secundaria >33
y tasa de abandono >0.06
entonces es fiscal (114 instancias)
Regla 3
Si matrícula en cuarto de secundaria >22
y tasa de aprobación >0.97
y tasa de abandono <=0.15
entonces es privado(80 instancias)
Regla 4
Si área = urbano
y Matrícula en quinto de primaria <=38
y Tasa de aprobación >0.92
entonces es privado (127 instancias)
97
.
"La tasa de aprobación es de 1 en 2.231 UE de tipo multigrado con una confianza del
100%".
"Si una UE es de tipo multigrado y tiene una matrícula en primaria menor a 10, entonces
pertenece al área rural. Esta regla se cumple en 1.086 UE con una confianza de 100%."
Como hay muchas UE que tienen sólo el nivel inicial, o el nivel primario o sólo el nivel
secundario, generan varios ceros por lo que aplicando Clustering la media puede variar
enormemente. Por este motivo se ha agrupado por niveles, por ejemplo en el nivel inicial
hay 1.893 UE con matriculación mayor a cero en todos los grados de este nivel.
Nivel Inicial
Por lo tanto se conforma un data set con 1.893 instancias y se procede a aplicar Clustering.
Los centroides encontrados se muestra en la Tabla IV.1
Cluster P_INI0 P_INI1 P_INI2 MAT_INI0 MAT_INI1 MAT_INI2 EFECTIVOS RET_TRASL RET_ABAN
98
.
T_APROB T_ABAND MULTIG DEPEN AREA
El comportamiento de los grupos es similar a los encontrados con el total de instancias (4.009
instancias), pero se añade la información de que en el grupo de UE multigrado del área
rural se tienen un promedio de 8 alumnos por paralelo en el nivel inicial, sin embargo en el
grupo de las UE no multigrado del área rural se tiene un promedio de 23 alumnos por
paralelo, y en el grupo de las UE del área urbana se tiene un promedio de 27 alumnos por
paralelo.
a b c <-- classified as
1249 0 0 | a = cluster1
0 211 0 | b = cluster2
0 0 433 | c = cluster0
99
.
1ero a 5to de Primaria
Hay 2.307 UE que tienen una matrícula mayor a cero en los cursos de 1ro a 5to de primaria.
Aplicando clustering se ha encontrado los centroides mostrados en la tabla III.
CLUSTER P_PRIM1 P_PRIM2 P_PRIM3 P_PRIM4 P_PRIM5 MAT_PRIM1 MAT_PRIM2 MAT_PRIM3 MAT_PRIM4
Cluster 0 1.0019 1 1 1 1 8.6027 7.5278 7.4299 8.3109
Cluster 1 1.8532 1.7941 1.7831 1.7601 1.77 53.2968 51.0515 50.7021 50.5498
Cluster 2 1.0011 1.0011 1.0023 1.0023 1.0057 9.63 8.0859 7.9404 8.6804
CLUSTER MAT_PRIM5 EFECTIVOS RET_TRAS RET_ABAN T_APROB T _ABAND MULTIG DEPEND AREA
Cluster 0 8.5969 76.8733 0.3704 13.572 0.988 0.1871 1 1.0269 1.0019
Cluster 1 50.789 449.809 5.7656 21.104 0.9832 0.0818 0 1.5235 1.736
Cluster 2 8.8981 68.3265 0.1649 3.7171 0.9946 0.0513 1 1.0779 1.0034
Otro conocimiento que se aporta con el análisis de éstos grupos es que: en el nivel primario,
si pertenece al área rural entonces es de tipo multigrado y tienen un promedio de 8 alumnos
por paralelo, esto significa que hay pocas unidades educativas de este nivel que pertenecen al
área rural pero que no son de tipo multigrado. Además se observa que en un grupo de 521
instancias de tipo multigrado se tiene mayor tasa de abandono expresado en un porcentaje de
18,7%.
100
.
a b c <-- classified as
514 0 7 | a = cluster0
0 913 0 | b = cluster1
6 0 867 | c = cluster2
Figura IV.2 Árbol de decisión ( 1ro a 5to de Primaria)
Regla 1
Si multigrado = no
entonces pertenece al Cluster 1 (913 instancias)
Regla 2
Si multigrado = si
y tasa de abandono <=0.11
entonces pertenece al Cluster 2. (834 instancias)
101
.
Regla 3
Si multigrado = si
y tasa de abandono >0.12
entonces pertenece al Cluster 0 (485 instancias)
Regla 4
Si multigrado = si
y tasa de abandono =0.12
y efectivos<=62
entonces pertenece al Cluster 2. (37 instancias)
Se tiene un total de 1327 instancias con matrícula distinto de cero de 6to a 8vo de Primaria.
La tabla de centroides se muestra en la siguiente Tabla IV.3
De 6to a 8vo de primaria, pertenecientes al grupo del área rural se tiene menor cantidad de
unidades educativas multigrado comparado con 1ro a 5to de primaria, sin embargo en el
grupo del área urbana se incrementa la matrícula, llegando a un promedio de 77 alumnos
distribuidos en aproximadamente dos paralelos, esto en las UE fiscales, en cambio en las UE
privadas se tiene un promedio de 32 alumnos.
102
.
El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.3
a b c <-- classified as
734 0 1 | a = cluster1
3 202 0 | b = cluster0
0 1 386 | c = cluster2
Regla 1
Si área = fiscal
entonces pertenece al Cluster 1(737 instancias)
Regla 2
Si área = urbano
y dependencia= privado
entonces pertenece al Cluster 0(193 instancias)
103
.
Regla 3
Si área = urbano
y dependencia= fiscal
entonces pertenece al Cluster 2(350instancias)
Regla 4
Si área = urbano
y dependencia= convenio
y matrícula de 6to de primaria >58
entonces pertenece al Cluster 2(37instancias)
Regla 5
Si área = urbano
y dependencia= convenio
y matrícula de 6to de primaria <=58
entonces pertenece al Cluster 0(10instancias)
Nivel Secundario
Hay 949 UE que tienen el nivel Secundario de 1ro a 4to. La tabla de centroides se muestra
en la Tabla IV.4
104
.
El Cluster 0 es el que más instancias tiene, se caracteriza por UE del área urbana, en su
mayoría son privadas y de convenio, tienen un tasa de aprobación y de abandono menor
que los dos grupos la matriculación en secundaria disminuye de 77 en primero de secundaria
a 62 en 4to de secundaria.
a b c <-- classified as
317 0 0 | a = cluster1
0 156 0 | b = cluster2
0 0 476 | c = cluster0
Regla 1
Si multigrado = si
entonces pertenece al Cluster 2 (156 instancias)
105
.
Regla 2
Si multigrado = no
y área = urbano
entonces pertenece al Cluster 0. (476 instancias)
Regla 3
Si multigrado = no
y área = rural
entonces pertenece al Cluster 1. (317 instancias).
Estos patrones dan mayor valor agregado al conocimiento del Sistema de Información
Educativa generando varios patrones de conocimiento que coadyuvan a los insumos
necesarios de la línea base para la construcción del Plan Estratégico Sectorial
106
.
CAPITULO V
CONCLUSIONES Y RECOMENDACIONES
5.1 CONCLUSIONES
Aplicar minería de datos a la fuente del sistema de información educativa resulta útil por el
crecimiento de la cantidad de información y por el aporte de conocimiento mediante
patrones de comportamiento de la población estudiantil en el sector educativo.
Se ha mostrado en el desarrollo del proyecto que Weka es una herramienta muy potente
porque no sólo contiene un conjunto de técnicas de Minería de datos, si no que tiene
herramientas como el preprocesamiento y la visualización para mostrar la dispersión de los
datos.
107
.
La exploración de datos mediante visualización multidimensional aprovecha la gran
capacidad humana de ver por ejemplo tendencias o patrones a partir de los datos, de esta
forma se aprovecha esta capacidad para facilitar la comprensión de datos.
5.2 RECOMENDACIONES
Con la experiencia obtenida después del desarrollo del proyecto se concluye las siguientes
recomendaciones:
Se debe tener un objetivo claro antes de proceder a las siguientes etapas y se debe fortalecer
este objetivo aclarando la idea de que patrones se quieren extraer, para ello se puede utilizar
herramientas de exploración de datos.
Se debe tener mucho cuidado con los valores ruidosos , o posiblemente erróneos porque
pueden afectar de gran manera a los patrones encontrados.
108
.
REFERENCIAS
[Aguilar, 2003] Aguilar Quispe,R (2003): " Minería de Datos: Fundamentos, Técnicas y
Aplicaciones.
[Chen, 1996] Chen, M., J. Han, 1996. Data mining: An overview from database perspective.
IEEE Transactions on Knowledge and Data Eng.
[Fayyad, 1996] Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uhturudsamy, R. (eds).
1996 Advances in Knowledge Discovery and Data Mining.
[Fisher, 1996] Fisher, D., 1996. Iterative optimization and simplification of hierarchical
clusterings. Departament of Computer Science. Vanderbilt University, Nashville, EEUU.
[Han, 2006] Han, Jiawei., M. Kamber, 2006. Data mining: Concepts and techniques.
[Larose, 2005] Larose, D., 2005 Discovering Knowledge in Data. An Introduction to Data
Mining. Central Connecticut State University. Published by John Wiley & Sons, Inc.,
Hoboken, New Jersey.
[MacQueen. 1967] MacQueen. 1967 “Some methods for classification and analysis of
multivariate observations”. Proc. 5th Berkeley Symp. Math. Statisi.
109
.
[Michalski, 1998] Michalski R., I. Bratko, M. Kubat, 1998. Machine Learning and data
mining: Methods and Applications. Wiley & Sons Ltd., EE.UU.
[Mirkini, 2005] Mirkin Boris 2005. Clustering for Data Mining. A data Recovery Approach.
[Molina, 2006] Molina, J., García J. 2006 Técnias de Análisis de Datos Aplicaciones
prácticas utilizando Microsoft Excel y Weka Universidad Carlos III de Madrid
[Olvera, 2005] Olvera, A., Carrasco,A. 2005. Edición de muestras basada en búsqueda
secuencial Coordinación de Ciencias Computacionales INAOE
[Pyle, 1999] Pyle, Dorian 1999. Data Preparation for Data Mining Published 1999 Morgan
Kaufmann.
[Thurn, 1998] Thrun, S., Faloustos, C., Mitchell, T., Wasserman, L. 1998 Automated
Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field.
CMU-CALD-98-100
[Wang, 2004] Wang, G.A., H. Atabakhsh, T.Petersen, H.Chen, 2004. Discovering Identity
Problems a Case Study.
[Witten, 2000] Witten, I.H., Frank, E. 2000. Data Mining: Practical Machine Learning Tools
and Techniques with Java Implementations. Morgan Kaufmann, San Diego, EE.UU.
[Weiss, 1998] Weiss,S., Indurkhya,N. 1998. Predictive Data Mining a Practical Guide
110