Вы находитесь на странице: 1из 5

Anlisis de rboles de decisin, Redes Bayesianas y

Neuronales para la Prediccin de Mortalidad en


Pacientes con Hepatitis.
Erika Anco Huamn, Jos Ruelas Justo, Gonzalo E. Quispe Huanca
Escuela Profesional de Ingeniera de Sistemas, Facultad de Ingenieras de Produccin y Servicios, Universidad Nacional de San
Agustn, Arequipa, Per.

Resumen El desarrollo de aplicaciones de minera de datos


tales como la clasificacin ha demostrado necesitar de algoritmos
de aprendizaje automtico para aplicarse a gran cantidad de
datos. En este trabajo presentamos la comparacin de diferentes
tcnicas de clasificacin utilizando herramientas de Minera de
datos tales como Waikato Environment for Knowledge Analysis
(Weka). Weka es un software de cdigo libre que consiste en una
coleccin de algoritmos para tareas de minera de datos en el
aprendizaje de mquinas. El objetivo de este trabajo es investigar
el rendimiento en la clasificacin de datos para un conjunto de
datos mdicos. Los algoritmos o mtodos probados son Redes
Bayesianas, Arboles de decisin (J48 en especfico) y Redes
Neuronales. Se presenta una revisin fundamental de las tcnicas
seleccionadas para fines de introduccin. Los datos de pacientes
con Hepatitis con un total de 155 registros y una dimensin de
155 filas y 20 columnas se utilizaran para probar y justificar las
diferencias entre los mtodos o algoritmos de clasificacin.
Posteriormente, se sugiere la tcnica de clasificacin que tiene el
potencial para mejorar significativamente los mtodos comunes
o convencionales para su uso en gran escala de datos u otras
aplicaciones en general.
Palabras Clave Aprendizaje de Maquinas, Minera de
Datos, J48, Redes Bayesianas, Redes Neuronales,
WEKA, Clasificacin, Ciencias Mdicas.

directamente para obtener el resultado final con la ayuda de


varios algoritmos inteligentes artificiales que realizan la funcin
de clasificadores.
El aprendizaje de mquinas cubre una amplia gama de procesos
que es difcil definir precisamente. Una definicin de
diccionario incluye frases tales como aumento de conocimiento
o comprensin de la habilidad mediante el estudio de la
instruccin o la experiencia y la modificacin de una tendencia
conductual por zologos experimentados y estudio psiclogos
aprendizaje en animales y seres humanos [1]. La extraccin de
informacin importante de un almacn de datos y su correlacin
es a menudo la ventaja de usar el aprendizaje de mquina.
Nuevos conocimientos acerca de las tareas son descubiertas
constantemente por los seres humanos y los cambios de
vocabulario [1].
Actualmente existe una gran cantidad de investigaciones sobre
el aprendizaje de mquinas, algoritmos de clasificacin,
regresin y otros.

II. MTODOS
A. Clasificacin por Redes Bayesianas

I. INTRODUCCIN
El objetivo de este trabajo es investigar el funcionamiento de
los diferentes mtodos o algoritmos de clasificacin
utilizando WEKA para la prediccin de mortalidad en
pacientes con Hepatitis. Uno de los principales
inconvenientes en el anlisis en la ciencia mdica est en
poder brindar un diagnstico acertado a partir de la
informacin relevante. Para el diagnstico definitivo,
normalmente, muchas pruebas generalmente implican el
agrupamiento o la clasificacin de datos [2]. Todos estos
procedimientos se dice que son necesarios para alcanzar el
diagnostico final. Por otro lado, tambin muchas pruebas
podran complicar el proceso de diagnstico principal y
conducir a problemas en la obtencin de los resultados
finales, particularmente en el caso donde se realizan muchas
pruebas. Este inconveniente podra resolverse con la ayuda de
aprendizaje de mquinas que podra ser utilizado

Las Redes bayesianas son una poderosa representacin


probabilstica, y su uso para la clasificacin ha recibido
considerable atencin. Este clasificador aprende a partir de los
datos la probabilidad condicional de cada atributo Ai dado la
etiqueta de clase C [3,4]. La Clasificacin se realiza entonces
mediante la aplicacin de la regla de Bayes para calcular la
probabilidad de C dado las instancias particulares de A1...An
y luego la clase con la mayor probabilidad posterior. El
objetivo de la clasificacin es predecir correctamente el valor
de una variable de clase discreta designada dado un vector de
indicadores o atributos [5].
B. rboles de Decisin
Son estructuras que representan conjuntos de decisiones
que generan reglas para la clasificacin de un conjunto de
datos. Entre los algoritmos que aplica es el J48, ID3, entre
otros [6].

Para este trabajo, el algoritmo de rbol de decisin a ser


puesto a prueba es el J48 , puesto que ha sido seleccionado
en varias investigaciones como un eficiente algoritmo de
clasificacin para objetos en comparacin con los algoritmos
de rboles de decisin REPTree, Random Tree, Decision
Stump, Random Forest, J48, NBTree y AdTree [7].
B.1 J48
J48 es una ligera modificacin del C4.5 en WEKA. El
algoritmo C4.5 genera un rbol de decisin para la
clasificacin del conjunto de datos determinado dividiendo
recursivamente de los datos. La decisin se cultiva mediante
estrategia de profundidad. El algoritmo considera todas las
pruebas posibles que pueden dividir el conjunto de datos y
selecciona una prueba que da la mejor ganancia de
informacin. Para cada atributo discreto, se considera una
prueba con los resultados de tantos como el nmero de
valores distintos del atributo. Para cada atributo continuo, se
consideran pruebas binarias cada diferente valor del atributo.
Con el fin de recolectar eficientemente el aumento de la
entropa de todas estas pruebas binarias, se ordena el
conjunto de datos de entrenamiento perteneciente al nodo en
consideracin para los valores del atributo continuo y se
calculan los aumentos de entropa del binario de corte basado
en cada valores distintos en una exploracin de los datos
ordenados. Este proceso se repite para cada atributo
continuo. Para una introduccin ms profunda de este
mtodo, pueden consultar los lectores (Mitchell 1997;
Quinlan,1986).
C. Redes Neuronales
Las redes neuronales artificiales (RNA) son sistemas de
clculo que se asemejan a las redes neuronales biolgicas al
utilizar nodos (neuronas) interconectados. Estos nodos
reciben la informacin, realizan operaciones sobre los datos y
transmiten sus resultados a otros nodos. El procedimiento
consiste en entrenar a las RNA para que aprendan patrones
complejos de relaciones entre las variables predictoras y de
resultado y que sean capaces de enfrentarse a nuevos datos
dando las respuestas esperadas [8]. Se definen como sistemas
no lineales, flexibles y con gran capacidad de generalizacin.
Estas propiedades han hecho que se difundieran en todos los
campos cientficos y que se demostrara su equivalencia o
superioridad sobre algunas tcnicas estadsticas [9].
D. Los Datos
Los datos utilizados en esta investigacin son de pacientes
con Hepatitis obtenida de Repositorio UCI (Murphy & Aha
1994). Con un total de 155 datos y una dimensin de 155
filas y 20 columnas. Las cuales contienen atributos tales
como el pronstico, edad, sexo y resultados de otros
exmenes mdicos.

III. WEKA
WEKA es un sistema de minera de datos desarrollado por
la Universidad de Waikato en Nueva Zelanda que
implementa algoritmos de minera de datos utilizando el
lenguaje JAVA. WEKA es una instalacin para el desarrollo
de tcnicas de aprendizaje (ML) de la mquina y su
aplicacin a los problemas de minera de datos del mundo
real. Es una coleccin de algoritmos de aprendizaje de
mquinas para las tareas de minera de datos. Los algoritmos
se aplican directamente a un conjunto de datos. WEKA
implementa algoritmos para preprocesamiento de datos,
clasificacin, regresin, agrupamiento y Asociacin de
reglas; Tambin incluye herramientas de visualizacin. Los
nuevos esquemas de aprendizaje de mquinas pueden ser
desarrollados con este paquete. WEKA es un software libre
publicado bajo licencia pblica General [10].
El archivo de datos normalmente utilizado por Weka es en
formato de archivo ARFF, que consiste en etiquetas
especiales para indicar diferentes cosas en el archivo de datos
(primero: los nombres de atributos, tipos de atributos, valores
de los atributos y los datos). La interfaz principal en Weka es
el Explorador. Tiene un conjunto de paneles, cada uno de los
cuales se puede utilizar para realizar una determinada tarea.
Una vez que un conjunto de datos se haya cargado, los dems
paneles en el explorador pueden utilizarse para realizar ms
anlisis.
IV. RESULTADOS
Para medir e investigar el funcionamiento de los mtodos
o algoritmos de clasificacin seleccionados, es decir redes
Bayesianas, rbol de Decisin y Redes Neuronales
utilizamos el mismo procedimiento del experimento segn lo
sugerido por WEKA. El 75% de datos se utiliza para el
entrenamiento y el restante es para propsitos de prueba.
En WEKA, todos los datos se consideran como instancias
y caractersticas, en los datos se conocen como atributos. Los
Resultados de la simulacin se dividen en varios sub
elementos para facilitar su anlisis y evaluacin. En la
primera parte, instancias correctamente y errneamente
clasificadas se reparten en valor numrico y en porcentaje,
posteriormente el valor estadstico Kappa, el error medio
absoluto y la raz cuadrada de la media de los errores sern
slo en valor numrico. Tambin mostramos el error absoluto
relativo y la raz cuadrada del error relativo en porcentaje de
referencias y evaluacin. Los resultados de la simulacin se
muestran en las tablas 1 y 2 por debajo. Principalmente, la
tabla 1 resume el resultado basado en la precisin y el tiempo
tomado para cada simulacin. Mientras tanto, la tabla 2
muestra el resultado basado en errores durante la simulacin.
Las figuras 1 y 2 son representaciones grficas de los
resultados de la simulacin.

Tabla 1: Resultados de la simulacin de cada algoritmo


Algoritmo
(Total de
instancias,
155)

Instancias
Correctam
ente
Clasificada
s (%)

Instancias
Incorrectam
ente
Clasificadas
(%)

Tiempo de
procesamie
nto
(Segundos)

Estadsti
ca
Kappa

Redes
Bayesianas

83.225%
(129)
83.871%
(130)

16.774%
(26)
16.129%
(25)

0.03

0.5213

0.07

0.436

81.935%
(127)

18.064%
(28)

1.39

0.4356

rbol de
Decisin
J48
Redes
Neuronales

Tabla 2: Errores de entrenamiento y simulacin


Algoritmo
(Total de
instancias,
155)
Redes
Bayesianas

Error
absoluto

Raz cuadr
tica del E
rror Medio

Error
absoluto re
lativo (%)

Raz
cuadrtica
del error
relativo (%)

0.1758

0.3718

53.2343

91.8184

rbol de
Decisin
J48
Redes
Neuronales

0.2029

0.363

61.4384

89.6358

0.196

0.4051

59.3673

100.037

Fig. 1 Resultados

Fig. 2 Comparacin entre parametros

V. DISCUSION
Basado en las anteriores figuras 1, 2 y tabla 1, podemos
ver claramente que la ms alta precisin es el 83.871% y que
81.935% es la ms baja. El otro algoritmo produce una
exactitud de 83.225%. De hecho, la exactitud ms alta
pertenece al clasificador de rbol de Decisin J48, seguido
de las Redes Bayesianas con un porcentaje de 83.225% y
posteriormente las Redes Neuronales con un porcentaje de
81.935%. Un promedio de 129 casos de 155 instancias totales
se encuentran correctamente clasificadas con una puntuacin
ms alta de 130 casos en comparacin con 127 casos el cual
es el puntaje ms bajo. El tiempo total requerido para
construir el modelo tambin es un parmetro crucial en
comparar los algoritmos de clasificacin. En este
experimento simple, de la figura 2, podemos decir que las
Redes Bayesianas requieren el tiempo ms corto que es
alrededor de 0,03 segundos en comparacin con los otros. Las
Redes Neuronales son el modelo que ms largo tiempo
requiere que es alrededor de 1,39 segundo. El segundo en la
lista es el rbol de Decisin J48 con 0,07 segundos.
Estadstica de Kappa se utiliza para evaluar la exactitud de
cualquier medicin de casos particulares, es habitual
distinguir entre la fiabilidad de los datos recogidos y su
validez [11]. La puntuacin de Kappa media de los
algoritmos seleccionados est alrededor de 0.4-0.6.
Basndose en los criterios de la estadstica Kappa, el grado
de acuerdo de esta clasificacin es moderado [12]. De la
figura 2, podemos observar las diferencias de errores
resultantes de la formacin de los tres algoritmos
seleccionados. Este experimento implica un indicador muy
utilizado que es la media de errores absolutos y la raz
cuadrada de errores. Por otra parte, tambin se utilizan los
errores relativos. Entonces, tenemos dos lecturas sobre los
errores, tomar el valor promedio ser lo ms conveniente. Se
descubri que el error ms alto se encuentra en las Redes
Neuronales con una puntuacin media de alrededor de 0,3
donde el resto de los algoritmos tienen una media alrededor
de 0,27 0,29. Un algoritmo que tiene una tasa de error menor
ser preferido ya que tiene una ms potente capacidad de
clasificacin y capacidad en trminos de ciencias mdicas y
bioinformticas.
El rbol de decisin J48 se encontr como el mejor en
trminos de tiempo y exactitud para la clasificacin de
objetos activos en comparacin con los dems algoritmos de
Arboles de Decisin [7], la cual es confirmada para el campo
de clasificacin en ciencias mdicas para pacientes con
Hepatitis.
En estudios similares aplicados a ciencias mdicas tales
como cncer el mejor algoritmo de clasificacin son las
Redes Bayesianas [2] la cual nos indica que no puede
generalizarse un algoritmo de clasificacin ptimo para el
rea de las ciencias mdicas.
VI. CONCLUSIONES
Como conclusin, hemos cumplido nuestro objetivo que es
el de evaluar e investigar tres algoritmos de clasificacin
seleccionados basados en Weka. El mejor algoritmo basado en
los datos de pacientes con Hepatitis es el clasificador basado
en Arboles de Decisin J48 con una precisin de 83.871% y el
tiempo total necesario para construir el modelo es en 0,07

segundos. Clasificador de la red de Bayes tiene el promedio


ms bajo de errores en 0.2738 comparado con otros. Estos
resultados sugieren que entre el algoritmo de aprendizaje
automtico probado tomando en cuenta exactitud, tiempo y
margen de error es el clasificador de Arboles de Decisin J48
el cual tiene el potencial para mejorar significativamente los
mtodos de clasificacin convencional para uso en medicina
o en general, campo de la bioinformtica.

RECONOCIMIENTO
Nos gustara agradecer a asociado Donor: G.Gong
(Carnegie-Mellon University) via Bojan Cestnik
del
Instituto Jozef Stefan por los datos. Este trabajo est
utilizando software libre de la Universidad de Waikato en
Nueva Zelanda

REFERENCIAS
1.

Nils J. Nilsson (1999) Introduction to Machine Learning. California.


United Stated of Americas.
2.
Mohd Fauzi bin Othman, Thomas Moh Shan Yau, Comparison of
Different Classification Techniques Using WEKA for Breast cancer,
IFMBE Proceedings Vol.15, 2007, pp.520-523
3.
Bouckaert, R.R. (1994). Properties of Bayesian network Learning
Algorithms. In R. Lopex De Mantaras & D. Poole (Eds.), In Press of
Proceedings of the Tenth Conference on Uncertainty in Artificial Intelligence (pp. 102-109). San Francisco, CA.
4.
Buntine, W. (1991). Theory refinement on Bayesian networks. In B.
D. DAmbrosio, P. Smets, & P.P. Bonissone (Eds.), In Press of Proceedings of the Seventh Annual Conference on Uncertainty Artificial
Intelligent (pp. 52-60). San Francisco, CA
5.
Daniel Grossman and Pedro Domingos (2004). Learning Bayesian
Network Classifiers by Maximizing Conditional Likelihood. In Press
of Proceedings of the 21st International Conference on Machine
Learning, Banff, Canada.
6.
Sarango, MY,: Aplicacin de tcnicas de minera de datos para
identificar patrones de comportamientos relacionados con las acciones
del estudiante con el EVA de la UTPL, Universidad Tcnica Particular
de Loja Escuela de Ciencias de la Computacin,
http://dspace.utpl.edu.ec/bitstream/123456789/2387/1/MarciaSarango
Tsis.pdf
7.
Zhao, Y., & Zhang, Y. (in press). Comparison of decision tree methods
for finding active objects. Advances in Space Research.
8.
Armoni A. Use of neural networks in medical diagnosis. MD
Computing 1998.
9.
Sargent DJ. Comparison of artificial neural networks with other
statistical approaches. Results from medical data sets. Cancer 2001.
10. WEKA at http://www.cs.waikato.ac.nz/~ml/weka.
11. Kappa at http://www.dmi.columbia.edu/homepages/chuangj/kappa
12. Lpez de Ullibarri Galparsoro I, Pita Fernndez S. Medidas de
concordancia: el ndice Kappa. Cad Aten Primaria 1999; 6: 169-171

Вам также может понравиться