Академический Документы
Профессиональный Документы
Культура Документы
Puno, Perú
alvaropacompialerma@hotmail.com
RESUMEN
Este informe trata sobre el uso del árbol de decisión (Decisión Tree Classification),
el cual realiza la clasificación de la base de datos de Wine; se hace el uso de Jupyter
Notebook y de la librería Sklearn. El objetivo principal de este trabajo es la
evaluación de los datos de las instancias de clasificación del árbol de decisión. Los
resultados presentados en este estudio indican que Decision Tree Classification el
realiza una clasificación del 96.29% de exactitud.
ABSTRACT
This report deals with the use of the decision tree (Tree Classification Decision),
which performs the classification of the Wine database; Jupyter Notebook and the
Sklearn library are used. The main objective of this work is the evaluation of the data
of the classification instances of the decision tree. The results presented in this study
indicate that Decision Tree Classification performs a 96.29% accuracy rating.
El vino es una de las bebidas más valiosas del mundo, abarca en todos los
mercados del mundo. En la antigüedad, la calidad del vino solo estaba
determinados por expertos en vino. Hoy en día cada vez se van automatizando
mediante dispositivos; gracias a estos dispositivos se puede determinar el tipo de
vino o algunas cosas en específico.
La base de datos Vino fue el resultado del análisis químico de vinos cultivados en
la región de Italia, pero derivados de tres cultivos diferentes. Nuestra tarea es hacer
uso de árboles de decisión para su clasificación. El árbol de decisión es un modelo
de predicción, dado un conjunto de datos se fabrican diagramas de construcciones
lógicas, que sirven para representar y categorizar una serie de condiciones que
ocurren de forma sucesiva, para la resolución de un problema.
MATERIAL Y MÉTODOS
Jupyter Notebook
Librerías
Pandas:
Pandas es una biblioteca de código abierto con licencia BSD que proporciona
estructuras de datos de alto rendimiento y fáciles de usar, y herramientas de
análisis de datos para el lenguaje de programación Python. [2]
Matplotlib:
Scikit-Learn:
Dataset
La base de datos del vino es el resultado del análisis químico de los vinos cultivados
en una región de Italia, pero derivados de tres cultivares diferentes. El análisis
determino la cantidad de 13 componentes encontrados en cada tipo de vino.
a) Alcohol
b) Ácido málico
c) Ceniza
d) Alcalinidad de la ceniza
e) Magnesio
f) Fenoles totales
g) Flavanoides
h) Fenoles no flavanoides
i) Proantocianinas
j) Intensidad del color
k) Matiz
l) OD280 / OD315 de vinos diluidos
m) Prolina
Todos los atributos son continuos. No hay estadísticas disponibles, pero se
sugiere estandarizar las variables para ciertos usos. [6]
Resumen Estadístico
Heat Map:
Tabla con valores específicos para la red neuronal de clasificación del vino
Entropy
Criterion
Gini
0.25
Test Train (%)
0.30
Min Samples Split 20
Min Samples Leaf 5
Test Size 25%
Pruebas:
Mejor Resultados:
o Criterion Entropy para un árbol de decisión un máximo de 3 de
profundidad; con 0.30% de Datos de Entrenamiento
Accuracy
0.962962962962963
Salida:
Matriz de Confusión:
18 + 21 + 13
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = × 100%
18 + 1 + 20 + 1 + 13
REFERENCIAS
[6] U. M. L. Repository, «Wine Data Set,» 01 Julio 1991. [En línea]. Available:
https://archive.ics.uci.edu/ml/datasets/Wine. [Último acceso: 06 Mayo 2019].