Ejemplos de Minerias de Datos

EJEMPLO 1.
Aplicación de la minería de datos

Las técnicas empleadas en la minería de datos dependen del tipo de
conocimiento que se desee obtener. Existen dos clasificaciones que agrupan
los algoritmos de minería, estas son: minería dirigida y no dirigida. Para el
primer caso se conoce el tipo de decisión (clase) al que se desea llegar, como
por ejemplo: booleano (si /no), tipo, acción.
Las entradas son de tipo numérico o bien de tipo nominal. Los datos numéricos
presentan valores talesvv que las comparaciones en rangos tengan sentido,
mientras que los datos nominales tienen un significado específico. El dato
nominal más común es algo que puede ser clasificado como cierto o falso.
A continuación vamos a realizar un ejemplo de minería dirigida con una

muestra de datos referentes a las preferencias de compra de automóviles. La
muestra fue recabada dentro de una población reducida de clase media, cuyo
centro de trabajo se encuentra en la zona centro de la ciudad. Los tipos de
datos son nominales.
La siguiente figura presenta un extracto del conjunto de datos nominales,

previamente procesados para realizar la minería.
Figura 6. Preferencias en compra de automóviles.

Tabla 1. Cálculo de entropía primer nivel.
El dato que se pretende pronosticar es la marca. Es decir, si se presenta un

nuevo individuo a comprar un vehículo, ¿cuál es la marca que podría escoger?
Realicemos la minería paso a paso, con un pequeño subconjunto de los datos

anteriores, el método que emplearemos se conoce como ID3, éste es una
estrategia que divide y conquista, que opera tratando de maximizar el nivel de
ganancia en cada paso. La siguiente tabla contiene el cálculo de la entropía
para el atributo edad, se realiza el cálculo de la entropía de cada atributo, la
cuál es una medida de la incertidumbre existente en el conjunto de atributos, de
los cuales se escoge sólo aquel atributo con mayor ganancia (diferencia entre
la entropía del sistema y la entropía del atributo). El atributo seleccionado es el
nodo del árbol. Este cálculo se repite desde la selección de la raíz y para cada
nivel del árbol.
Calculando las entropías de cada atributo para el primer nivel del árbol
tenemos:
Esto nos da el primer nodo de nuestro árbol, el nodo seleccionado es aquel que
presenta la mayor ganancia. El proceso continúa hasta explorar nuevamente
los atributos restantes y obtener los nodos del árbol de los niveles inferiores.
En el mercado existen varias herramientas comerciales que realizan el minado

de datos. Éstas desarrollan técnicas de aprendizaje automatizado y permiten
aplicarlas a problemas reales de minería de datos. También se encuentran
disponibles en el web algunas herramientas como Weka y See5, ambas
contienen diversos algoritmos de clasificación y asociación.
La siguiente figura presenta una fracción del árbol de decisión, obtenido de

efectuar la minería en el conjunto de datos seleccionados.
En el árbol podemos observar que la delegación es el principal atributo que
interviene en la selección de una marca particular de vehículo, en el caso de
las delegaciones, en particular los casos de Azcapotzalco y Gustavo A.
Madero, se observa que el siguiente factor determinante es la edad de la
persona, sin embargo, en Naulcalpan se observa que se tienen motivos
particulares que marcan la preferencia en la selección del auto, por ejemplo: la
gente prefiere Toyota si se guían por los costos y calidad de los servicios. Por
supuesto mientras más grande y variado sea el conjunto de datos
seleccionados, el resultado será más aproximado a la realidad.
La minería de datos en este ejemplo nos permitió obtener conclusiones que, a

simple vista no son aparentes: uno no esperaría que la delegación fuera un
factor determinante en la selección de un vehículo, esperando que cuestiones
como el precio o los servicios fueran más significativos. Sin embargo, el
proceso de minado descubre esta relación. El analista de datos debe ahora
interpretarla. Por ejemplo, es posible que la variable delegación esté actuando
como un indicador del estilo de vida de las personas, lo que definitivamente
influiría en la elección del auto a comprar. Esta interpretación parece apoyada
por el hecho de que las personas más jóvenes prefieran autos de línea más
deportiva.
http://www.sg.com.mx/content/view/807/
EJEMPLO 2.
Minería de datos con Weka (ficheros ARFF)
En el artículo anterior vimos un ejemplo de utilización de la herramienta

Explorer de Weka con uno de los ficheros de ejemplo que vienen con la
aplicación. El ejemplo era algo sencillo, pero vimos también alguna posible
aplicación de la herramienta a la vida real.
Aunque Weka acepta en teoría ficheros csv para obtener los datos de
entrada e incluso soporta consultas a base de datos, yo he tenido
problemas para cargar datos en los dos formatos, por lo que recomiendo
crear nosotros mismos un fichero con formato ARFF (el formato propio de
Weka) con nuestros propios datos para empezar a sacarles todo el jugo.
La estructura de un fichero con formato ARFF es muy sencilla, por lo que
seguro que no tendremos ningún problema a la hora de crearlo. Vamos a ver
primero un ejemplo y después lo comentaremos paso a paso:
1 @relation weather
2
3 @attribute outlook {sunny, overcast, rainy}
4 @attribute temperature real
5 @attribute humidity real
6 @attribute windy {TRUE, FALSE}
7 @attribute play {yes, no}
8
9 @data
10 sunny,85,85,FALSE,no
11 sunny,80,90,TRUE,no
12 overcast,83,86,FALSE,yes
13 rainy,70,96,FALSE,yes
15 rainy,65,70,TRUE,no
16 overcast,64,65,TRUE,yes
17 sunny,72,95,FALSE,no
18 sunny,69,70,FALSE,yes
20 sunny,75,70,TRUE,yes
21 overcast,72,90,TRUE,yes
22 overcast,81,75,FALSE,yes
23 rainy,71,91,TRUE,no
Este fichero con formato ARFF es el que utilizamos en el artículo anterior

para nuestro primer ejemplo de introducción a la minería de datos. Se divide
en tres partes: @relation, @attribute y @data:
1. @relation <relation-name> (línea 1)
Todo fichero ARFF debe comenzar con esta declaración en su primera
línea (no podemos dejar líneas en blanco al principio). <relation-name>
será una cadena de caracteres y si contiene espacios la pondremos entre
comillas.
2. @attribute <attribute-name> <datatype> (líneas de la 3 a la 7)
En esta sección incluiremos una línea por cada atributo (o columna) que
vayamos a incluir en nuestro conjunto de datos, indicando su nombre y el
tipo de dato.
Con <attribute-name> indicaremos el nombre del atributo, que debe
comenzar por una letra y si contiene espacios tendrá que estar
entrecomillado.
Con <datatype> indicaremos el tipo de dato para este atributo (o
columna) que puede ser:
numeric (numérico)
string (texto)
date [<date-format>] (fecha). En <date-format> indicaremos el
formato de la fecha, que será del tipo "yyyy-MM-dd'T'HH:mm:ss".
<nominal-specification>. Estos son tipos de datos definidos por
nosotros mismos y que pueden tomar una serie de valores que
indicamos (línea 3).
3. @data (a partir de la línea 9)
En esta sección incluiremos los datos propiamente dichos. Separaremos
cada columna por comas y todas filas deberán tener el mismo número de
columnas, número que coincide con el de declaraciónes @attribute que
añadimos en la sección anterior.
Si no disponemos de algún dato, colocaremos un signo de interrogación
(?) en su lugar. El separador de decimales tiene que ser obligatoriamente
el punto y las cadenas de tipo string tienen que estar entre comillas
simples.
http://www.locualo.net/programacion/mineria-datos-weka-ficheros-
arff/00000019.aspx
EJEMPLO 3.
Minería de datos en la empresa

Las técnicas de minería de datos, pueden ser implementadas en las empresas
para el descubrimiento de información, aportando valor a los procesos de
negocio, por ejemplo, incrementando niveles de venta, aumentando la
diversificación de mercado, y mejorando la satisfacción del cliente, entre otros.
En general, el proceso de toma de decisiones mejora de manera significativa.
Las aportaciones que este tipo de tecnología puede hacer en las empresas,
son encausadas a mantener el nivel competitivo de la empresa, los beneficios
de la minería como la capacidad de identificar patrones, comportamientos,
reglas y relaciones en los datos, permiten realizar previsiones y encontrar
nuevas soluciones o rutas de acción.
Para obtener el valor máximo de las técnicas de minería en las soluciones de

inteligencia de negocio, es necesario contar con tecnología que pueda llevar a
cabo el proceso en tiempos satisfactorios al negocio y pueda permitir a los
tomadores de decisiones, en cada nivel de su organización, analizar la
información y actuar con base a los resultados obtenidos.
Referencias
[ Sholom Weiss, Nitin Indurkhya,Tong
Zhang & Fred J. Damerau. Text Mining.
Springer, 2005 ]
[ Ian H. Witten, Eibe Frank. Data Mining:
Practical Machine Learning Tools and
Techniques. Second Edition ]
http://www.sg.com.mx/content/view/807/
EJEMPLO 4.
Un ejemplo práctico que se convirtió en leyenda urbana
En muchos cursos sobre minería de datos se cuenta una bonita historia sobre
una gran cadena estadounidense de supermercados, Wal-Mart, que realizó a
finales de los años 90 un análisis de los hábitos de compra de sus clientes.
Sorprendentemente, descubrieron una correlación estadísticamente

significativa entre las compras de pañales y cerveza: los viernes por la tarde,
los hombres entre 25 y 35 años que compraban cerveza también
compraban pañales.
Después de un análisis detallado, este resultado se explica de forma bastante

curiosa. Como los pañales son bastante voluminosos, las mujeres
habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres,
jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan
pequeños), solían ir a la compra los viernes, algo reticentes, en el último
momento posible. Estos pobres padres, con una vida social no demasiado
boyante, a la vez que compraban pañales para sus bebés, aprovechaban para
comprar cerveza, ya que no podrían salir a tomarlas al pub.
También se cuenta que Wal-Mart utilizó este resultado para reubicar estos
productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca
de los pañales. El resultado fue que los padres que habitualmente compraban
cerveza después compraron todavía más, al estar tan cómodamente situada.
Además, los que antes no compraban cerveza, empezaron a hacerlo al estar
tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un
aumento espectacular.
Este es un buen ejemplo de los beneficios que puede aportar la Minería de

Datos y, en particular, el análisis de la cesta de la compra (market basket
analysis) (*ver abajo).
El problema es que esta historia existe en diferentes versiones, a veces se

habla de 7 Eleven en vez de Wal-Mart, otras veces se adorna con datos
específicos de porcentajes de incremento de ventas... Además no se conoce
quiénes pudieron realizar esos estudios y, de hecho, no existe documentación
específica de ningún proyecto en esta línea en ninguna de las dos
organizaciones.
Por todo ello, no hay más remedio que pensar que se trata de una leyenda
urbana, un bonito mito del mundo de la minería de datos.
Beer and Nappies - A Data Mining Urban Legend

Data Mining – If Only It Really Were about Beer and Diapers
Ejemplo ilustrado del análisis de la cesta de la compra
Supongamos el siguiente ejemplo:
800.000 clientes
40.000 compraron pañales (5%)
60.000 compraron cerveza (7,5%)
16.000 compraron pañales y cerveza (2%)
El soporte es el porcentaje del total de transacciones que incluyen un

determinado producto. En este ejemplo, la compra de pañales tiene un soporte
del 5%.
La confianza mide hasta qué punto un producto depende del otro:
16.000 de los 40.000 clientes que compraron pañales también compraron

cerveza (40%)
Por tanto, la regla de asociación pañales>cerveza tendría un soporte del 5% y

una confianza del 40%. También se puede leer de otra forma:
el 5% de los clientes compraron pañales; de ellos, el 40% además compraron

cerveza
Las compras de pañales son el antecedente de la regla (la parte izquierda) y

las de cerveza, el consecuente (la parte derecha).
Los valores del 5% y 7,5% de compras respectivamente con pañales y con
cerveza se denominan confianza esperada: proporción de compras que
incluyen un determinado producto, independientemente de los demás.
Por último, el lift (habitualmente sin traducción al español, aunque sería algo
parecido a mejora) mide la proporción entre la confianza de una regla y la
confianza esperada para el producto consecuente. En el ejemplo, la confianza
de la regla pañales>cerveza es un 40%, y la confianza esperada de que un
cliente cualquiera compre cerveza es un 7,5%, por tanto, el lift es 5,33 (40/7,5):
los clientes que compran pañales son 5,33 veces más propensos a comprar
cerveza (que quienes no los compran)
El objetivo del análisis de la cesta de la compra es encontrar asociaciones con

un lift lo más elevado posible, para maximizar el posible beneficio. Por
supuesto, este mismo análisis se puede extender a asociaciones de tres o más
productos.
http://cronicasdesofia.blogspot.com/2009/06/que-es-la-mineria-de-datos.html
EJEMPLO 5.
USANDO MINERÍA DE DATOS PARA LA CONTINUA
MEJORA DE CURSOS DE E-LEARNING
1. INTRODUCCIÓN
Actualmente, el gran incremento del acceso a Internet ha provocado que la
educación online o e-learning sea
una realidad. Cada vez son más los centros de enseñanza públicos o privados
que ponen a disposición de sus
alumnos plataformas de aprendizaje (LMS) basadas en la web. WebCT
(WebCT, 2006), Virtual-U (Virtual-
U, 2006), TopClass (TopClass, 2006) son ejemplos de LMS de tipo comercial
aunque cada vez cobran mayor
protagonismo las plataformas de libre distribución como Moodle, ATutor, ILIAS
entre otras. Estudios
comparativos entre LMS podemos encontrar en (Itmazi, 2005). Sin embargo, la
gran mayoría de los sistemas
e-learning anteriores, muestran los cursos y materiales educativos de una
forma estática, el alumno puede
elegir un camino de navegación a través del curso que necesariamente no
tiene que ser el más efectivo de
acuerdo a sus conocimientos, intereses y necesidad. Una respuesta a este
problema son los sistemas
hipermedia adaptativos con fines educativos (Brusilovsky, 1998), que utilizan
métodos y técnicas de varias
como la minería de datos, la minería web y el modelado de usuarios, para
construir un modelo que utilizan
para adaptar el contenido y enlaces del curso hipermedia al usuario actual.
Algunos ejemplos de Sistemas
Hipermedia Adaptativos basados en Web son: Interbook, ELM-ART, AHA,
INDESACH.
Entre los principales sistemas que aplican las técnicas de minería de datos en
educación online están: los
sistemas de personalización (Srivastava et al., 2000) del aprendizaje, los
recomendadores (Li and Zaiane,
2004) que clasifican los alumnos y los contenidos para recomendar recursos e
itinerarios óptimos y los de
detección de irregularidades (Barnett and Lewis, 1994) que descubren patrones
de navegación irregulares.
Estos sistemas anteriores pueden clasificarse, según el campo de aplicación u
orientación, en: 1) orientado
hacia los alumnos, para sugerir buenas experiencias de aprendizaje a los
estudiantes de acuerdo a sus
preferencias, necesidades y nivel de conocimiento y 2) orientado hacia los
profesores, con el objetivo de
ayudar a los profesores y/o autores de los sistemas de e-learning para que
puedan mejorar el funcionamiento
o rendimiento de estos sistemas a partir de la información de utilización de los
alumnos. Sus principales
aplicaciones son: obtener una mayor realimentación de la enseñanza, conocer
más sobre como los estudiantes
aprenden en la web, evaluar a los estudiantes por sus patrones de navegación,
clasificar a los estudiantes en
grupos o reestructurar los contenidos del sitio web para personalizar los cursos.
Esta aplicación es la menos
investigada y la que más retos propone actualmente, constituyendo la base de
nuestra propuesta.
Conferência IADIS Ibero-Americana WWW/Internet 2006
191
En este artículo abordamos el uso de las técnicas de minería de datos
aplicadas al e-learning pero desde
un punto de vista muy poco utilizado que es el del profesor o creador del curso.
El objetivo principal del
sistema propuesto es detectar posibles problemas en el diseño de la estructura
y los contenidos de un curso
basándose en los datos de utilización del mismo por los alumnos.
2. METODOLOGÍA PROPUESTA PARA LA MEJORA DE CURSOS DE
E-LEARNING
La metodología CIECoM (Continuos Improvement of E-learning Courses
Methodology, Metodología para la
Mejora Continua de Cursos de E-learning) fue diseñada para detectar posibles
problemas en el diseño y los
contenidos de un curso e-learning. Esta metodología cíclica incluye una etapa
de retroalimentación o
mantenimiento del curso basado en los datos de utilización del mismo por los
alumnos y consta de las
siguientes etapas:
• Construcción del curso. Es la primera etapa y es donde se construye el
curso. El profesor suele ser
el encargado de construir el curso adaptativo proporcionando toda la
información tanto de contenido
como de estructura necesaria para el curso. Normalmente se suele utilizar una
herramienta autor
(Brusilovsky, 2003) genérica o específica para facilitar esta tarea. Al finalizar
esta etapa el curso
debe de ser publicado en un servidor web para que los alumnos puedan
utilizarlo de forma remota.
• Ejecución del curso. Los estudiantes utilizando un navegador web se deben
de conectar al servidor
web donde se encuentra localizado el curso para poder realizarlo. Mientras los
alumnos ejecutan el
curso de forma transparente se va recogiendo información de utilización y ésta
se va almacenando
en el servidor en los distintos ficheros logs.
• Mejora del curso. Utilizando como entrada los datos de utilización del curso
por los alumnos el
sistema CIECoM aplica un algoritmo de minería sobre los datos para detectar
posibles problemas.
Los resultados de este proceso se muestran al profesor en forma de
recomendaciones para que
modifique la estructura o el contenido del curso
Nuestro objetivo es, por tanto, descubrir información relevante desde el punto
de vista didáctico y de la
efectividad de la enseñanza en forma de reglas a partir de estos datos de
seguimiento almacenados para todos
los alumnos que ejecutan el curso. En las siguientes subsecciones se
describen cada uno de los módulos que
componen el sistema CIECoM (ver Figura 1).
Figura. 1. Sistema CIECoM
ISBN: 972-8924-20-8 © 2006 IADIS
192
2.1 Módulo de descubrimiento de conocimiento
Se encarga de descubrir reglas de asociación sobre el conjunto de datos
especificado previo preprocesado y
transformación de los mismos, a un formato de datos que garantice una
manipulación más rápida de esta
información. La salida de este módulo se entrega para su análisis al módulo de
análisis del interés de las
reglas descubiertas.
Sea I = {i1, i2 , ..., im} un conjunto de pares atributos-valor, llamados ítems. Sea
D un conjunto de
transacciones, donde cada transacción T es un conjunto de ítems tal que T⊆ I.
Una regla de asociación es una
implicación de la forma X⇒Y, donde X y Y son declaraciones acerca del valor
de atributos, y a su vez, se
tiene que X⊂I, Y⊂I, y X∩Y=∅ . Se define soporte S de una regla como la
probabilidad de que un registro
satisfaga tanto a X como a Y. La confianza se define como la probabilidad de
que un registro satisfaga a Y
dado que satisface a X. El problema consiste pues en encontrar todas las
reglas de asociación que satisfagan
ciertas restricciones de soporte mínimo, llamado minsup y confianza mínima,
llamada minconf, los cuales
son parámetros especificados por el usuario. En (Zheng et al, 2001) se puede
encontrar un estudio
comparativo entre los principales algoritmos que existen actualmente para el
descubrimiento de reglas de
asociación: APriori (Agrawal et al, 1996), FP-Growth (Han et al, 1999),
MagnumOpus (Webb, 1995), Closet
(Pei et al, 2000). A partir del código fuente de cada algoritmo, donado por los
autores, se comparan sus
tiempos de ejecución sobre distintos tipos de bases de datos reales. Las
conclusiones del estudio anterior
revelan que el algoritmo más eficiente, para valores altos del soporte mínimo,
que aseguran que la confianza
vista se repita en un futuro, es Apriori.
El algoritmo Apriori emplea la confianza y el soporte para encontrar todas las
reglas que superen estos
umbrales especificados por el usuario. Sin embargo, con este método se
pueden obtener muchas reglas, por lo
que un sistema de descubrimiento de conocimiento debe evaluar el interés de
éstas y mostrar al usuario un
número razonable de reglas interesantes que le sean útiles. Además se
requiere que el usuario sea en cierto
grado experto para que encuentre el balance adecuado entre el soporte y la
confianza que le devuelva reglas
interesantes. La mayoría de los algoritmos de minería de datos requieren
establecer muchos parámetros de
entrada, los cuales si no se establecen correctamente puede dar lugar a falsos
patrones o que sobreestimemos
la importancia de los patrones encontrados. Una mejora al algoritmo Apriori
denominada Apriori Predictivo
(Tobias, 2001) establece el problema a resolver de manera parecida. Se trata
de encontrar las N mejores
reglas de asociación, donde N es un número fijo. Se trata entonces de
encontrar un balance adecuado entre el
soporte y la confianza de forma que maximice la probabilidad de hacer una
predicción correcta sobre el
conjunto de datos. Para lograr esto se define y calcula, utilizando el método
bayesiano, un parámetro llamado
exactitud predictiva que nos dice el grado de exactitud de la regla encontrada.
En el sistema CIECoM
utilizamos este algoritmo, para encontrar reglas con tres ítems como máximo
en el antecedente y un ítem en
el consecuente, esto reduce considerablemente el espacio de búsqueda y hace
más comprensibles las reglas
encontradas.
2.2 Módulo de análisis del interés de las reglas
Hemos visto que el algoritmo Apriori Predictivo encuentra las mejores N reglas.
Sin embargo, este método
no asegura que las reglas obtenidas sean de interés para nuestro propósito de
encontrar aquellas que le sean
útiles al profesor para detectar problemas en el curso e-learning. Por tanto,
necesitamos evaluarlas para
encontrar las más interesantes. Para esto se utilizan medidas de interés de tipo
objetivas tales como el
soporte y la confianza citados, además de medidas puramente estadísticas
como Chi-Cuadrado, el coeficiente
de correlación, la ganancia o entropía entre otras, para medir la inferencia de
dependencias entre variables de
datos. No obstante, cada vez cobra mayor importancia las medidas subjetivas,
o sea aquellas que están
basadas en factores subjetivos que están dirigidos por el usuario.
La mayoría de las aproximaciones para encontrar reglas interesantes de
manera subjetiva, requieren de la
participación del usuario para que este exprese, de acuerdo a sus
conocimientos previos, qué reglas son
interesantes para él. En (Liu, 2001) se presenta un sistema que compara las
reglas descubiertas con el
conocimiento que tiene el usuario del dominio de interés. A través de un
lenguaje de especificación propio el
usuario indica las bases de conocimiento existente en la materia en cuestión, a
través de las relaciones entre
los campos o items de la base de datos. La sintaxis del lenguaje tiene el mismo
formato que las reglas de
193
asociación. Una vez se especifica el conocimiento del usuario, el sistema hace
un análisis sintáctico de las
reglas descubiertas comparándolas con las almacenadas en la base de
conocimiento.
Una implementación de este algoritmo adecuándolo a nuestro formato de datos
y tipos de reglas se utiliza
en nuestro módulo de análisis para clasificarlas las reglas en esperadas, si
coinciden con la base de
conocimiento que tenemos sobre el dominio o inesperadas en caso contrario.
La base de conocimiento es un
repositorio abierto de contenidos que está formado por reglas descubiertas por
otros usuarios de la plataforma
en anteriores experiencias o cursos y por reglas que proponen los expertos en
la materia. Las reglas esperadas
servirán de base a las nuevas recomendaciones de cambios para mejorar el
curso y las inesperadas deberá
analizarlas el profesor y determinar cuáles son interesantes en cuyo caso
podrían ser candidatas a insertarse
en el repositorio.
2.3 Módulo de recomendaciones
La salida del módulo anterior sirve como entrada al módulo de
recomendaciones que está formado por dos
bloques fundamentales:
• Bloque de análisis de recomendaciones y modificación del curso. En
este bloque se le muestran
al profesor las reglas descubiertas en dos formatos dependiendo del tipo de
reglas encontrada. Si la
regla es esperada, se le muestra el problema detectado junto a la acción
recomendada para
solucionarlo. Si la regla es inesperada también se le muestra al profesor para
que la analice y
determine si es interesante, en cuyo caso puede insertarla en el repositorio de
reglas para tenerla en
cuenta en futuros análisis, en caso contrario se desecha la regla.
• Bloque de repositorio de reglas. Constituye la base del conocimiento sobre
el que se producen las
recomendaciones. Del contenido y estructura de este módulo depende el éxito
de las modificaciones
que se hagan al curso. El repositorio inicialmente puede estar vacío, si aún el
profesor no ha
descubierto ninguna regla, o puede contener un conjunto iniciales de reglas de
partida, que el
usuario considere como conocimiento razonablemente preciso (Liu, 2001)
sobre el dominio.
3. DATOS DE UTILIZACIÓN
Para probar nuestra arquitectura necesitábamos datos sobre los que aplicar el
proceso de minería. Durante el
año académico 2004-2005 se llevó a cabo en Córdoba la primera experiencia
piloto en España para la
alfabetización tecnológica de mujeres en el entorno rural, denominado
“Cordobesas Enredadas”. Este
experimento se llevó a cabo con 90 alumnos provenientes de 3 pueblos de la
provincia de Córdoba. Para este
proyecto se desarrollaron 7 cursos basados en los temarios ECDL (Licencia
Europea para Manejo del
Ordenador) y que se basaban en el Sistema Operativo Linux (distribución
Guadalinex) y el paquete de
ofimática de libre distribución Open Office. Este proyecto fue financiado por la
Diputación Provincial bajo la
referencia ECDL/DIPUCO/MEM/04-0001bis.
Los cursos se desarrollaron con la herramienta autor INDESAHC (De Castro et
al, 2004), que permite la
creación de cursos hipermedia adaptativos compatibles con Moodle. La
definición del syllabus del curso está
basada en un modelo del dominio jerárquico formado por unidades didácticas
divididas en lecciones y donde
cada lección contiene una serie de conceptos para la explicación o evaluación
de los contenidos de la materia
a través de escenarios ó páginas web. También se incluye un modelo de
adaptación para adaptar los
contenidos al nivel de conocimiento del alumno. Para esto utiliza un esquema
de ocultación de enlaces (De
Bra and Calvi, 1998) previa clasificación de los contenidos del curso de
acuerdo a distintos niveles de
dificultad. La tabla 1, muestra los atributos de alto nivel relacionados con el
curso hipermedia adaptativo que
se agregan como tablas a Moodle. En cursiva se muestran los atributos de bajo
nivel relacionados con otros
recursos didácticos como foro, chat, cuestionario, tarea, que también se
introducen desde la interfaz de
INDESAHC. Una vez generado el curso y publicado en Moodle, éstos recursos
se insertarán
automáticamente y de acuerdo con la plantilla utilizada en las distintas
secciones junto al curso hipermedia
adaptativo.
ISBN: 972-8924-20-8 © 2006 IADIS
194
Tabla 1. Atributos de alto nivel utilizados en el proceso de minería de datos, en
cursiva los de bajo nivel.
Nivel Atributo Descripción
duration Duración estimada del curso según el profesor
c_time Tiempo empleado para completar el curso
c_score Nota media final del curso
c_attempt Número de intentos antes de aprobar el curso
c_quiz_attempt Número de intentos totales en el cuestionario
c_quiz_time Tiempo total empleado en el cuestionario
c_quiz_score Nota obtenida en el cuestionario
c_assignment_score Nota de la tarea
c_chat_messages Número de mensajes enviados al chat
c_forum_read Número de mensajes leídos en el foro
c_forum_post Número de mensajes enviados al foro
Curso
c_doc_view Si se ha visto el documento o enlace web
u-lessons Número de lecciones del tema
u_time Tiempo empleado para completar la unidad didáctica
u_initial_score Nota del alumno en el pretest de la unidad
u_final_score Nota final del alumno al completar la unidad
u_attempt Número de intentos antes de aprobar la unidad
u_forum_read Número de mensajes leídos en el foro
u_forum_post Número de mensajes enviados al foro
u_assignment_score Nota de la tarea
Unidad
c_doc_view Si se ha visto el documento o enlace web
l_concepts Número de conceptos de la lección
Lección l_time Tiempo empleado para completar la lección
l_diffic_level Nivel de dificultad de la lección
e_time Tiempo empleado para completar el ejercicio Ejercicio e_score Nota
obtenida en el ejercicio
4. IMPLEMENTACIÓN
Para implementar la arquitectura propuesta y facilitar al profesor o autor del
curso la realización del proceso
de minería de datos hemos desarrollado en lenguaje Java una herramienta
denominada CIECoM (ver Figura
2). Su principal característica es su especialización en educación, utilizando
atributos concretos, filtros y
restricciones específicas para datos de utilización de los cursos, por lo que se
adapta mejor a entornos
educativos que las herramientas de propósito general. La aplicación está
formada por:
• Preprocesado. En este panel el usuario primero selecciona el origen de
datos sobre el que se va a
realizar la minería. Aunque el formato de entrada principal es una base de
datos MySQL de Moodle,
CIECoM también permite trabajar con ficheros de datos tipo de Weka (Witten,
2005), siempre que
contengan los atributos descritos anteriormente. Una vez seleccionados los
datos, el programa
muestra todos los atributos presentes que son de tipo numéricos. Con el
objetivo de mejorar la
comprensibilidad de las reglas descubiertas y reducir significativamente el
tiempo de ejecución del
algoritmo de búsqueda, es necesario discretizar estos atributos. La
transformación a variable discreta
se puede ver como una categorización de los atributos que toma un conjunto
pequeño de valores. La
idea básica (Hussain, 1999) consiste en particionar los valores de los atributos
continuos dentro de
una lista pequeña de intervalos. Cada intervalo resultante es una estimación de
un valor discreto del
atributo. Nuestro proceso de discretización va a utilizar tres posibles valores
nominales: BAJO,
MEDIO y ALTO y se han implementado tres métodos de transformación
discreta: método de igual
anchura, método de igual frecuencia, un método manual, donde el usuario
establece los
manualmente los límites de las categorías. En el caso de la discretización de
tiempos, se le ha
añadido la posibilidad de eliminar valores ruidosos que superen un umbral
mínimo establecido para
evitar datos erróneos como por ejemplo, que el alumno tenga en pantalla
durante mucho tiempo un
concepto o ejercicio, producto de que ha abandonado el ordenador sin salir
antes de esa sección.
195
Figura 2. Interfaz de la aplicación CIECoM
• Parámetros de configuración. En este módulo se muestran los parámetros
que va a utilizar el
algoritmo de minería Apriori Predictivo, entre los cuales podemos encontrar el
número de reglas que
se quieren descubrir, así como una serie de restricciones que puede indicar el
usuario, respecto a la
cantidad de ítems máxima que pueden estar presentes en el antecedente o
consecuente de las reglas
a descubrir. Si el usuario no desea cambiar estos parámetros de configuración
puede utilizar los que
vienen establecidos por defecto.
• Repositorio de reglas. Se muestra en la Figura 2 y constituye la base de
conocimiento sobre la que
se hace el análisis subjetivo de las reglas descubiertas. Este panel permite al
usuario insertar una
regla en el repositorio utilizando un formato predeterminado. Además, de la
regla en sí, se incluyen
dos campos fundamentales como son: el problema que detecta la regla
propuesta y una posible
recomendación para su solución. Para identificar cada acción de inserción se
incluyen también datos
adicionales como el autor, la fecha, y el tipo de curso en el que se descubrió
esa regla. Partiendo de
consideraciones pedagógicas, lógicas y de la experiencia acumulada en cursos
e-learning, hemos
propuesto, como punto de partida para incluir en el repositorio, un conjunto de
reglas y sus
respectivas recomendaciones, algunas de las cuales se muestran como
ejemplo en la Tabla 2.
Tabla 1. Ejemplos de reglas del repositorio utilizadas como base de
conocimiento.
Regla Problema detectado Acción recomendada
Si c_assignment_score =ALTO entonces c_score = ALTA Mal diseño de la
tarea Revisar el enunciado de la
tarea
Si e_time =ALTO entonces e_score = BAJO Problemas en el ejercicio Revisar
el enunciado del
ejercicio
Si l_concepts = BAJO Y l_diffic_level = BAJO entonces
l_time = ALTO
Grado de dificultad de la
lección mal definido
Revisar el grado de
dificultad asignado a priori
Si u_final_score(i) = BAJO entonces c_score = ALTA Problema detectado en el
tema i
Consultar recomendaciones
a nivel de tema
• Resultados. Una vez configurado los parámetros de la aplicación o utilizando
sus valores por
defecto, el usuario ejecuta el algoritmo. En este panel se muestran los
resultados obtenidos en una
tabla, con los siguientes campos:
Regla ---- Problema detectado ---- Recomendación ---- Botón APLICAR
La recomendación puede ser de dos tipos:
ISBN: 972-8924-20-8 © 2006 IADIS
196
1) Activa, si ésta implica una modificación directa del contenido o estructura
del curso. Las
recomendaciones activas pueden estar relacionadas con: modificaciones en el
enunciado de las
preguntas o de las prácticas/tareas asignadas a los alumnos, cambios en los
parámetros asignados
previamente como la duración del curso o el nivel de dificultad de una lección,
la eliminación de un
recurso tipo foro, chat, etc. Un ejemplo de este tipo de recomendación son las
tres primeras filas de
la tabla 2.
2) Pasiva, si éstas detectan un problema más general y le indican al profesor
que consulte otras
recomendaciones más particulares. Un ejemplo de este tipo de recomendación
se muestra es la
cuarta fila de la tabla 2.
En los casos que la recomendación sea activa, al pulsar el botón APLICAR se
mostrará al usuario la zona
del curso a la que hace alusión la recomendación o modificación.
5. RESULTADOS OBTENIDOS Y DISCUSIÓN
Los resultados que a continuación se exponen corresponden a pruebas
realizadas sobre el curso tres,
denominado “Procesador de Textos”. A continuación se van a describir un par
de reglas descubiertas de tipo
esperadas o sea que coinciden con el conocimiento base y una regla
inesperada, que además fue clasificada
como interesante. Indicar que también se descubrieron muchas reglas que no
brindaban información alguna
de utilidad para nuestros propósitos, como por ejemplo, aquellas que incluían
en el antecedente y
consecuente atributos de tiempo y que relacionaban ítems de conceptos que
no estaban relacionados.
1) Si (e_time [25] = ALTO) entonces (e_score[25] = BAJO), exact = 0.85
Esta regla significa que, si el tiempo empleado en el ejercicio es alto, entonces
la nota del ejercicio es
baja. Se descubrió que existía un problema en ese ejercicio del curso
hipermedia adaptativo, que pertenecía al
tema “Uso de la aplicación”, la lección “Primeros pasos con el procesador de
texto” y concepto “Renombrar
y guardar un documento”, que era un escenario de INDESAHC de tipo video
interactivo donde el alumno
debe simular utilizando el ratón los pasos necesarios para completar una
actividad. En este caso particular, se
comprobó que el enunciado de la pregunta era ambiguo y podía interpretarse
de varias maneras, con lo cual
se corrigió. Otras reglas de formato similar se encontraron pero relacionadas
con preguntas de tipo test o de
relación de columnas.
2) Si (u_forum_read (Brusilovsky, 1998) = BAJO) Y (u_forum_post (Brusilovsky,
1998) = BAJO) entonces
(u_final_score (Itmazi, 2005) = ALTO), exact = 0.75
Esta regla significa que, si los mensajes enviados y leídos del foro 2 que
pertenece al tema 1 son bajos,
entonces la nota del tema es alta. La regla descubre que ese foro del tema 1 no
es necesario o que hay
problemas con el tutor. Este tipo de regla descubierta cuestiona la necesidad
de un foro a determinados
niveles de la jerarquía del dominio, de hecho en nuestro caso se optó por
eliminar el foro.
3) Si (l_concepts [21] = BAJO Y l_diffic_level [21] = BAJO entonces (l_time
[21] = ALTO), exact = 0.63
Esta regla fue inesperada y significa que, si el número de conceptos de la
lección es BAJO y el nivel de
dificultad asignado a esa lección fue BAJO, entonces el tiempo empleado en la
lección es ALTO. Analizando
esta regla puede interpretarse que, como a nivel de lección no hemos utilizado
ningún atributo relacionado
con la nota, entonces el hecho de que los alumnos hayan pasado mucho
tiempo haciendo la lección siendo
ésta de poca dificultad y con pocos conceptos, puede indicar que el grado de
dificultad de la lección ha sido
mal asignado. De hecho, en este el diseñador del curso consideró que debía
cambiarse a MEDIO.
http://www.iadis.net/dl/final_uploads/200607L024.pdf
Agrawal, R., et al, 1996. A.I. Fast discovery of association rules. In Advances in
Knowledge Discovery and Data Mining,
Menlo Park, CA: AAAI Press, 307-328.
Barnett, V. and Lewis, T., 1994. Outliers in Statistical Data. John Wiley & Sons.
Brusilovsky, P. 1998. Adaptative Educational Systems on the World-Wide-Web:
A Review. Int. Conf. on Intelligent
Tutoring Systems. San Antonio.
Brusilovsky, P., 2003. Developing adaptive educational systems: From Design
Models to Authoring tools. Authoring
Tools for Advanced Technology learning environments. pp. 377-409.
Netherlands: Kluwer Academic Publishers.
De Castro, C. et al. 2004. Herramienta autor indesahc para la creación de
cursos hipermedia adaptativos. Revista
latinoamericana de tecnología educativa (relatec). Vol. 3, 1.
De Bra, P., and Calvi, L., 1998. AHA! An Open Adaptive Hypermedia
Architecture. The New Review of Hypermedia
and Multimedia, 4. Taylor Graham Publishers, pp. 115-139.

Ejemplos de Minerias de Datos

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Ejemplos de Minerias de Datos

Загружено:

Авторское право:

Доступные форматы

EJEMPLO 1.

Aplicación de la minería de datos

A continuación vamos a realizar un ejemplo de minería dirigida con una

La siguiente figura presenta un extracto del conjunto de datos nominales,

Figura 6. Preferencias en compra de automóviles.

El dato que se pretende pronosticar es la marca. Es decir, si se presenta un

Realicemos la minería paso a paso, con un pequeño subconjunto de los datos

En el mercado existen varias herramientas comerciales que realizan el minado

La siguiente figura presenta una fracción del árbol de decisión, obtenido de

La minería de datos en este ejemplo nos permitió obtener conclusiones que, a

Minería de datos con Weka (ficheros ARFF)

En el artículo anterior vimos un ejemplo de utilización de la herramienta

Este fichero con formato ARFF es el que utilizamos en el artículo anterior

Minería de datos en la empresa

Para obtener el valor máximo de las técnicas de minería en las soluciones de

Un ejemplo práctico que se convirtió en leyenda urbana

Sorprendentemente, descubrieron una correlación estadísticamente

Después de un análisis detallado, este resultado se explica de forma bastante

Este es un buen ejemplo de los beneficios que puede aportar la Minería de

El problema es que esta historia existe en diferentes versiones, a veces se

Beer and Nappies - A Data Mining Urban Legend

Ejemplo ilustrado del análisis de la cesta de la compra

Supongamos el siguiente ejemplo:

El soporte es el porcentaje del total de transacciones que incluyen un

La confianza mide hasta qué punto un producto depende del otro:

16.000 de los 40.000 clientes que compraron pañales también compraron

Por tanto, la regla de asociación pañales>cerveza tendría un soporte del 5% y

el 5% de los clientes compraron pañales; de ellos, el 40% además compraron

Las compras de pañales son el antecedente de la regla (la parte izquierda) y

El objetivo del análisis de la cesta de la compra es encontrar asociaciones con

Вам также может понравиться