Вы находитесь на странице: 1из 9

ESCUELA POLITÉCNICA NACIONAL

FACULTAD DE INGENIERÍA DE SISTEMAS


INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

Tema:
Práctica 3 de Datamining: Arboles de decisión con Weka

Objetivos:

 Entender el concepto y el funcionamiento de la herramienta Weka.

 Crear el modelo de árbol de decisión mediante el uso de la herramienta WEKA.

 Realizar un análisis sobre la información obtenida al realizar el modelo de árbol de


decisión.

 Predecir, en base al modelo generado, la compra o no de una bicicleta según los datos
ingresados de distintos clientes.

Marco teórico:

Arboles de decisión [1]

Es un método analítico que a través de una representación esquemática de las alternativas


disponible facilita la toma de mejores decisiones, especialmente cuando existen riesgos, costos,
beneficios y múltiples opciones. El nombre se deriva de la apariencia del modelo parecido a un
árbol y su uso es amplio en el ámbito de la toma de decisiones bajo incertidumbre (Teoría de
Decisiones) junto a otras herramientas como el Análisis del Punto de Equilibrio.

Son útiles cuando:

1. Las alternativas o cursos de acción están bien definidas (por ejemplo: aceptar o rechazar
una propuesta, aumentar o no la capacidad de producción, construir o no una nueva
bodega, etc.)
2. Las incertidumbres pueden ser cuantificadas (por ejemplo: probabilidad de éxito de una
campaña publicitaria, probable efecto en ventas, probabilidad de pasar de etapas, etc.)}
3. Los objetivos están claros (por ejemplo: aumentar las ventas, maximizar utilidades,
minimizar costos, etc.)

WEKA [2]

Weka es una colección de algoritmos de aprendizaje automático para resolver problemas de


minería de datos en el mundo real. Está escrito en Java y se ejecuta en casi cualquier
plataforma. Los algoritmos se pueden aplicar directamente a un conjunto de datos o llamar
desde su propio código Java.

 Características
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

- aprendizaje automático - agrupamiento


- minería de datos - reglas de asociación
- preprocesamiento - selección de atributos
- clasificación - experimentos
- regresión - flujo de trabajo
- visualización

 Clasificador J48

J48 es una implementación open source en lenguaje de programación Java del algoritmo C4.5
en la herramienta weka de minería de datos. Este algoritmo es usado para generar un árbol de
decisión.

Desarrollo de la práctica

1. Crear un archivo arff

Esto se lo realizó en Notepad++. Se uso las variables maritalstatus, totalchildren,


numbercarsowned, región y bikebuyer pertenecientes a la vista “vtargetmail” de la base de
datos “AdventureWorksDW2012”. Ademas, solo se escogieron las primeras 100 filas o registros
de esta vista para esta práctica.

2. Cargar el archivo bikebuyer.arff en WEKA

Se da clic en la opción “Explorer” y se selecciona “Open file”


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

Se localiza la carpeta donde encuentra el archivo arff y se da clic en “Abrir”

A continuación, se presenta una vista donde se observa la información de cada atributo


perteneciente al archivo arff. Entre esta información se tiene el número de casos para cada valor
que puede tener el atributo que se haya seleccionado. Si se selecciona la opción “Visialize all”
se presenta las graficas de todos los atributos en una sola vista.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

3. Crear el árbol de decisión

Se dirige a la pestaña “Classify” y se selecciona el algoritmo que se utilizará para crear el árbol
de decisión, que en este caso es el clasificador J48. A continuación se escoge en “Test options”
la opción “Use training set” con el fin de que se escoja todo el conjunto de datos, ingresados en
el archivo arff, para el entrenamiento.

Finalmente se selecciona la variable dependiente que en este caso es “BikeBuyer” y se da clic en


“Start”.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

Como se observa en la imagen de arriba, se presenta información referente al árbol de decisión


generado. Donde el número de hojas del árbol es 5 y el tamaño de este es 8.

Además, se presenta, en la sección “Summary”, la confiabilidad del árbol generado mediante la


clasificación correcta e incorrecta de las instancias. Siendo estas 78% y 22% respectivamente.

Otro punto importante que mencionar es que al final de esta información se presenta la “Matriz
de confusión”.

Al interpretar esta matriz se puede deducir los siguiente:

- 6 casos fueron clasificados como que los clientes no compraron la bicicleta cuando en
realidad no lo hicieron.
- 21 casos fueron clasificados como que los clientes compraron la bicicleta cuando en
realidad no lo hicieron.
- 1 caso fue clasificado como que el cliente no compro la bicicleta cuando en realidad si
lo hizo.
- 72 casos fueron clasificados como que los clientes compraron la bicicleta cuando en
realidad si lo hicieron.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

Como se puede notar las únicas instancias bien clasificadas se encuentra en la diagonal
principal de la matriz.

4. Visualizar mediante un gráfico el árbol de decisión.

Dar clic derecho en la opción “trees.J48”, presente en la sección “Result list”, y dar clic en
“Visualize tree”

Al observar el gráfico del árbol de decisión obtenido se puede obtener algunas reglas de
clasificación como por ejemplo las siguientes:

1. Si la región donde vive un cliente es igual a “North_America” y si el numero de hijos que


tiene es menor o igual a 1 entonces es probable que compre una bicicleta
2. Si la región donde vive un cliente es igual a “North_America”, si el número total de hijos
es mayor a 1 y si su estado civil es igual a “M” entonces es probable que no compre una
bicicleta.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

5. Preparar un nuevo archivo con datos para la clasificación con el modelo generado

Se crea un nuevo archivo arff con algunos datos para usarlos como prueba para el modelo
generado. Cabe recalcar que en la información correspondientes a bikebuyer se colocará un
signo de cierre de pregunta, tal como se muestra en la siguiente imagen:

6. Realizar la clasificación

Se dirige a la pestaña “Classify” y en la sección “Result list” se da clic derecho y se carga el modelo
generado en los anteriores pasos.

En "Test options", se tiene que seleccionar "Supplied test set", y una vez que el archivo está
cargado se selecciona "BikeBuyer" de la lista de atributos.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

Luego, al hacer clic en "More Options ", se abre una nueva ventana y se elige “PlainText” en
“Output predicitions”.

Finalmente, se da hacer clic derecho en el modelo y ejecutar "Re-evaluate modelo n current


test set ".
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN

Los resultados se muestran en el panel "Classifier output", en "Predicciones on user sets ".

Conclusiones y recomendaciones

- Se logró comprender que Weka es una herramienta muy útil en campos como
aprendizaje automático y minería de datos ya que posee una colección de herramientas
de visualización y algoritmos para análisis de datos y modelado predictivo que se unen
en interfaz gráfica para poder acceder fácilmente a sus funcionalidades.
- Se logró crear un modelo de árbol de decisión en base a la información obtenida de la
vista “targetedMail”. Sin embargo, al utilizar pocos datos de esta, la exactitud del
modelo no fue alta.
- Se logró comprender y analizar el funcionamiento y los resultados que se presentan en
la matriz de confusión, notando que las únicas instancias bien clasificadas se encuentran
en la diagonal principal de esta.
- Se recomienda usar todos los registros de la vista targetedMail con el fin de generar un
modelo más preciso.

Referencias

[1] Tutoriales, G. (2018). Árbol de Decisión . [en línea] Gestión de Operaciones. Disponible en:
https://www.gestiondeoperaciones.net/procesos/arbol-de-decision/ [Consultado el 29 de
junio de 2018].

[2] SourceForge. (2018) Weka . [en línea] Disponible en:


https://sourceforge.net/projects/weka/ [Consultado el 29 de junio de 2018].