Академический Документы
Профессиональный Документы
Культура Документы
II. MTODOS
A. Clasificacin por Redes Bayesianas
I. INTRODUCCIN
El objetivo de este trabajo es investigar el funcionamiento de
los diferentes mtodos o algoritmos de clasificacin
utilizando WEKA para la prediccin de mortalidad en
pacientes con Hepatitis. Uno de los principales
inconvenientes en el anlisis en la ciencia mdica est en
poder brindar un diagnstico acertado a partir de la
informacin relevante. Para el diagnstico definitivo,
normalmente, muchas pruebas generalmente implican el
agrupamiento o la clasificacin de datos [2]. Todos estos
procedimientos se dice que son necesarios para alcanzar el
diagnostico final. Por otro lado, tambin muchas pruebas
podran complicar el proceso de diagnstico principal y
conducir a problemas en la obtencin de los resultados
finales, particularmente en el caso donde se realizan muchas
pruebas. Este inconveniente podra resolverse con la ayuda de
aprendizaje de mquinas que podra ser utilizado
III. WEKA
WEKA es un sistema de minera de datos desarrollado por
la Universidad de Waikato en Nueva Zelanda que
implementa algoritmos de minera de datos utilizando el
lenguaje JAVA. WEKA es una instalacin para el desarrollo
de tcnicas de aprendizaje (ML) de la mquina y su
aplicacin a los problemas de minera de datos del mundo
real. Es una coleccin de algoritmos de aprendizaje de
mquinas para las tareas de minera de datos. Los algoritmos
se aplican directamente a un conjunto de datos. WEKA
implementa algoritmos para preprocesamiento de datos,
clasificacin, regresin, agrupamiento y Asociacin de
reglas; Tambin incluye herramientas de visualizacin. Los
nuevos esquemas de aprendizaje de mquinas pueden ser
desarrollados con este paquete. WEKA es un software libre
publicado bajo licencia pblica General [10].
El archivo de datos normalmente utilizado por Weka es en
formato de archivo ARFF, que consiste en etiquetas
especiales para indicar diferentes cosas en el archivo de datos
(primero: los nombres de atributos, tipos de atributos, valores
de los atributos y los datos). La interfaz principal en Weka es
el Explorador. Tiene un conjunto de paneles, cada uno de los
cuales se puede utilizar para realizar una determinada tarea.
Una vez que un conjunto de datos se haya cargado, los dems
paneles en el explorador pueden utilizarse para realizar ms
anlisis.
IV. RESULTADOS
Para medir e investigar el funcionamiento de los mtodos
o algoritmos de clasificacin seleccionados, es decir redes
Bayesianas, rbol de Decisin y Redes Neuronales
utilizamos el mismo procedimiento del experimento segn lo
sugerido por WEKA. El 75% de datos se utiliza para el
entrenamiento y el restante es para propsitos de prueba.
En WEKA, todos los datos se consideran como instancias
y caractersticas, en los datos se conocen como atributos. Los
Resultados de la simulacin se dividen en varios sub
elementos para facilitar su anlisis y evaluacin. En la
primera parte, instancias correctamente y errneamente
clasificadas se reparten en valor numrico y en porcentaje,
posteriormente el valor estadstico Kappa, el error medio
absoluto y la raz cuadrada de la media de los errores sern
slo en valor numrico. Tambin mostramos el error absoluto
relativo y la raz cuadrada del error relativo en porcentaje de
referencias y evaluacin. Los resultados de la simulacin se
muestran en las tablas 1 y 2 por debajo. Principalmente, la
tabla 1 resume el resultado basado en la precisin y el tiempo
tomado para cada simulacin. Mientras tanto, la tabla 2
muestra el resultado basado en errores durante la simulacin.
Las figuras 1 y 2 son representaciones grficas de los
resultados de la simulacin.
Instancias
Correctam
ente
Clasificada
s (%)
Instancias
Incorrectam
ente
Clasificadas
(%)
Tiempo de
procesamie
nto
(Segundos)
Estadsti
ca
Kappa
Redes
Bayesianas
83.225%
(129)
83.871%
(130)
16.774%
(26)
16.129%
(25)
0.03
0.5213
0.07
0.436
81.935%
(127)
18.064%
(28)
1.39
0.4356
rbol de
Decisin
J48
Redes
Neuronales
Error
absoluto
Raz cuadr
tica del E
rror Medio
Error
absoluto re
lativo (%)
Raz
cuadrtica
del error
relativo (%)
0.1758
0.3718
53.2343
91.8184
rbol de
Decisin
J48
Redes
Neuronales
0.2029
0.363
61.4384
89.6358
0.196
0.4051
59.3673
100.037
Fig. 1 Resultados
V. DISCUSION
Basado en las anteriores figuras 1, 2 y tabla 1, podemos
ver claramente que la ms alta precisin es el 83.871% y que
81.935% es la ms baja. El otro algoritmo produce una
exactitud de 83.225%. De hecho, la exactitud ms alta
pertenece al clasificador de rbol de Decisin J48, seguido
de las Redes Bayesianas con un porcentaje de 83.225% y
posteriormente las Redes Neuronales con un porcentaje de
81.935%. Un promedio de 129 casos de 155 instancias totales
se encuentran correctamente clasificadas con una puntuacin
ms alta de 130 casos en comparacin con 127 casos el cual
es el puntaje ms bajo. El tiempo total requerido para
construir el modelo tambin es un parmetro crucial en
comparar los algoritmos de clasificacin. En este
experimento simple, de la figura 2, podemos decir que las
Redes Bayesianas requieren el tiempo ms corto que es
alrededor de 0,03 segundos en comparacin con los otros. Las
Redes Neuronales son el modelo que ms largo tiempo
requiere que es alrededor de 1,39 segundo. El segundo en la
lista es el rbol de Decisin J48 con 0,07 segundos.
Estadstica de Kappa se utiliza para evaluar la exactitud de
cualquier medicin de casos particulares, es habitual
distinguir entre la fiabilidad de los datos recogidos y su
validez [11]. La puntuacin de Kappa media de los
algoritmos seleccionados est alrededor de 0.4-0.6.
Basndose en los criterios de la estadstica Kappa, el grado
de acuerdo de esta clasificacin es moderado [12]. De la
figura 2, podemos observar las diferencias de errores
resultantes de la formacin de los tres algoritmos
seleccionados. Este experimento implica un indicador muy
utilizado que es la media de errores absolutos y la raz
cuadrada de errores. Por otra parte, tambin se utilizan los
errores relativos. Entonces, tenemos dos lecturas sobre los
errores, tomar el valor promedio ser lo ms conveniente. Se
descubri que el error ms alto se encuentra en las Redes
Neuronales con una puntuacin media de alrededor de 0,3
donde el resto de los algoritmos tienen una media alrededor
de 0,27 0,29. Un algoritmo que tiene una tasa de error menor
ser preferido ya que tiene una ms potente capacidad de
clasificacin y capacidad en trminos de ciencias mdicas y
bioinformticas.
El rbol de decisin J48 se encontr como el mejor en
trminos de tiempo y exactitud para la clasificacin de
objetos activos en comparacin con los dems algoritmos de
Arboles de Decisin [7], la cual es confirmada para el campo
de clasificacin en ciencias mdicas para pacientes con
Hepatitis.
En estudios similares aplicados a ciencias mdicas tales
como cncer el mejor algoritmo de clasificacin son las
Redes Bayesianas [2] la cual nos indica que no puede
generalizarse un algoritmo de clasificacin ptimo para el
rea de las ciencias mdicas.
VI. CONCLUSIONES
Como conclusin, hemos cumplido nuestro objetivo que es
el de evaluar e investigar tres algoritmos de clasificacin
seleccionados basados en Weka. El mejor algoritmo basado en
los datos de pacientes con Hepatitis es el clasificador basado
en Arboles de Decisin J48 con una precisin de 83.871% y el
tiempo total necesario para construir el modelo es en 0,07
RECONOCIMIENTO
Nos gustara agradecer a asociado Donor: G.Gong
(Carnegie-Mellon University) via Bojan Cestnik
del
Instituto Jozef Stefan por los datos. Este trabajo est
utilizando software libre de la Universidad de Waikato en
Nueva Zelanda
REFERENCIAS
1.