You are on page 1of 7

Um Estudo Comparativo entre Árvores de Decisão e Redes Neurais

Artificiais para Classificação de Dados de Sensores


Evaristo Wychoski Benfatti, Fernando Nunes Bonifacio, Clodis Boscarioli
Universidade Estadual do Oeste do Paraná – Campus de Cascavel
CEP 85819-110, Cascavel, Paraná, Brasil
{evaristowb, fernando.nunes.info}@gmail.com, boscarioli@unioeste.br

Resumo

A diversidade de tipos de sensores disponíveis permitiu o desenvolvimento de aplicações envolvendo


seu uso nas mais diversas áreas, aumentando assim a geração de dados brutos coletados a partir de
sensores. Embora haja a massiva produção de bases de dados, a extração de conhecimento não é
uma tarefa trivial, seja pela grande quantidade de dados, de natureza distribuída, ou pela alta
dimensionalidade presente nessas bases de dados. Este artigo traz, a partir de um estudo de caso,
uma análise comparativa entre Árvores de Decisão e Rede Neural Artificial na tarefa de classificação
de dados de sensores.

Palavras-chave: Árvores de Decisão, Redes Neurais Artificiais, Classificação de Dados.

1. Introdução (MLP), avaliadas quanto ao desempenho e


acuidade para a classificação de dados de
Aplicações envolvendo sensores estão sensores.
cada vez mais presentes nas mais diversas Este artigo segue assim organizado: A
áreas de conhecimento, como medicina, Seção 2 introduz as técnicas AD e MLP em
indústria e robótica. Esse amplo uso se deve, seus elementos principais; a Seção 3,
principalmente, pela quantidade de tipos de apresenta a avaliação experimental realizada,
sensores disponíveis no mercado, e pela descrevendo a base de dados utilizada, a
quantidade de dados produzidos e carentes de metodologia de testes adotada e uma discussão
análise. dos resultados obtidos; e, por fim, a Seção 4
Extrair conhecimento útil a partir de dados traz as conclusões e trabalhos futuros desse
brutos advindos destes sensores não é uma estudo.
tarefa fácil, pois ferramentas convencionais de
análise de dados podem não ser adequadas ao 2. Fundamentação Teórica
manuseio de grandes bases de dados, de
natureza distribuída e de alta dimensionalidade Classificação é necessária quando um
[21]. objeto precisa ser designado a uma classe
O processo de extrair conhecimento de (rótulo) predeterminada a partir de seus
base de dados é conhecido como Descoberta atributos. Pode ser definida como um processo
de Conhecimento em Banco de Dados (KDD - que permite a extração de informações a partir
Knowledge Discovery in Databases) o qual é de um conjunto de dados brutos, por meio de
defino por Fayyad et al. [8] como um processo sua categorização. Pode ser utilizada com
não trivial, de várias etapas, interativo e sucesso em diferentes situações, como na área
iterativo, para identificação de padrões médica [24], [2] e [3], detecção de falhas [1],
compreensíveis, válidos, novos e [14], reconhecimento de voz [4], bioinformática
potencialmente úteis a partir de bases de [32], entre outros.
dados. Dentre as diversas etapas que compõem Na prática, a classificação é um processo
este processo é na etapa chamada Mineração de duas etapas. Na primeira etapa, chamada de
de Dados (Data Mining - DM) onde ocorre a treinamento, um classificador é construído
efetiva aplicação de algoritmos para extrair descrevendo um conjunto pré-determinado de
padrões presentes nos dados que representam dados. Esse treinamento é feito de forma
conhecimento útil [9]. supervisionada, onde o algoritmo de
Existem diversas tarefas atribuídas à treinamento recebe registros de entradas que
Mineração de Dados como Classificação, possuem um valor de saída, que serve como
Regras de Associação, Agrupamento e um tutor para o algoritmo. A segunda etapa
Predição [9]. Dentre essas tarefas, a refere-se à classificação propriamente dita,
Classificação é o foco deste estudo, a partir das onde um conjunto de dados é apresentado para
técnicas Árvores de Decisão (AD) e a Rede o modelo construído e o mesmo determina a
Neural Artificial (RNA) Multilayer Perceptron classe de cada registro de teste baseando-se
no conhecimento adquirido na etapa anterior menor igual a vinte ou maior que vinte). Os nós
[11]. folhas indicam os valores que cada registro
Para determinar a efetividade de um pode assumir (bonito ou feio). Assim, para
modelo de classificador, métricas de avaliação classificar, os testes são realizados a partir de
são utilizadas. A acuidade é uma das métricas algum nó arbitrado como nó raiz da árvore,
mais utilizadas, que corresponde à seguindo ramos que satisfazem as condições,
porcentagem de registros que foram até que um nó folha seja atingido, determinando
corretamente classificados pelo classificador a a classe predita.
partir de algum conjunto de dados de teste. A indução de uma árvore ótima para um
Nas subseções seguintes as técnicas de conjunto de dados arbitrário é uma tarefa
classificação utilizadas nesse estudo são consideravelmente difícil, que requer buscas
apresentadas. exaustivas limitadas a conjuntos relativamente
pequenos [22]. Como alternativa, métodos
2.1 Árvores de Decisão heurísticos são utilizados para tal construção,
compostos de dois processos conhecidos como
Uma AD é um classificador expresso como crescimento (treinamento) e poda. O
um particionador hierárquico do conjunto de crescimento consiste em cada nível da árvore
aprendizagem [22]. Este nome é devido à particionar o conjunto de treinamento de acordo
utilização da estratégia de resolução dividir- com um atributo selecionado. A escolha deste
para-conquistar e pela representação baseada atributo dentre todos os atributos é feita sobre
um critério que maximiza as partições. O
em árvores.
processo inicia no nó raiz da árvore e pára em
Os algoritmos de AD estão entre os mais
maduros e exaustivamente estudados da um nó folha quando não é mais possível aplicar
literatura, com alta eficácia comprovada em DM o critério de particionamento. Não existe um
critério global para um particionamento ótimo,
[20], [25].
assim, cada algoritmo implementa estratégias
Neste modelo de árvore, um nó que
apresenta filhos é chamado de nó interno, particulares para otimização desse critério.
definido como uma regra de segmentação, a Durante a construção do modelo alguns
qual representa uma quebra (teste) de uma problemas são encontrados, como super
crescimento e super adaptação. O primeiro
entrada em um ou mais ramos de saída, por
meio de algum atributo de teste segmentador. deles diz respeito ao modelo poder crescer
Os demais nós, chamados de nós folhas, muito, tornando lenta a classificação. O outro
problema diz respeito à super adaptação da
representam o “processo de decisão” pela
atribuição da classe predominante nas estrutura ao conjunto de treinamento, onde, as
instâncias por ele já classificadas. [22]. São AD “aprendem” ao ponto de reconhecerem com
capazes de classificar seguindo caminhos de perfeição todos os registros de treinamento,
mas sem a capacidade de generalização para
condições satisfeitas do nó raiz até algum nó
registros nunca vistos. Assim a fim de melhorar
folha, que representa o valor classe para a
entrada [17]. a classificação, ramos considerados muito
específicos podem ser eliminados do modelo
acarretando ganho de predição, processo este
conhecido por poda. A poda pode ocorrer
durante a construção, também chamada de pré-
poda (pre-pruning) ou posterior à construção,
chamada pós-poda (post-pruning). Na pré-poda,
conforme o modelo é construído o mesmo é
reduzido a fim de eliminar ramos que não
agregam na classificação geral, estando mais
suscetíveis aos ruídos embutidos no conjunto
de treinamento. Já na pós-poda todo o modelo
Figura 1: Exemplo de uma Árvore de Decisão é construído, e ao final, o mesmo é podado,
removendo ramos “desnecessários”. Há
Na Figura 1 pode-se visualizar um exemplo estudos que demonstram que a pós-poda
clássico de árvore de decisão para a apresenta melhores resultados quando
classificação de cães, onde nós internos são comparados à pré-poda, mas devido à
representados por retângulos e nós folhas são necessidade de que todo o modelo permaneça
representados por elipses. Cada nó de decisão na memória até que seja podado, é a menos
possui um atributo que será avaliado (atributos utilizada [22].
Tamanho e Peso). Cada ramo de saída do nó Os algoritmos de AD utilizados neste
representa um valor que o atributo que está trabalho foram o C4.5 [18] e o CART [26], que
sendo testado pode assumir, (pequeno, médio e apresentam como critério central de
grande para o atributo Tamanho e para Peso particionamento decisões estatísticas e teorias
da informação para avaliação dos segmentos. Neste trabalho a RNA utilizada é a rede
Para o CART, é usado o Índice Gini [28], que se Multilayer Perceptron (Figura 3), uma rede com
baseia na razão de ganho de informação do múltiplas camadas, do tipo feedforward
segmento, e para o C4.5, o ganho de totalmente conectada. O algoritmo de
informação a partir da entropia do conjunto de treinamento mais utilizado para redes MLP é o
dados é usado. Com relação à estratégia de conhecido por backpropagation [19], cujo
particionamento, ambos utilizam o conceito de treinamento ocorre em duas fases: uma fase
pós-poda, tal que para o CART é utilizada a forward e uma fase backward. Na fase forward
complexidade de custo mínimo, e para o C4.5, a a entrada é apresentada à primeira camada da
poda baseada em erro. rede, a qual calcula seus sinais de saída e
passa os valores para a camada seguinte, que
2.2 Redes Neurais MLP por sua vez, calcula seus sinais de saída e os
passa para a próxima camada, e assim por
diante, até a camada de saída calcular as
Redes neurais artificiais são processadores
paralelamente distribuídos constituídos a partir saídas da rede, que são comparadas às saídas
de unidades de processamento simples desejadas. Já a fase backward percorre o
(neurônios artificiais), que têm propensão caminho inverso, a partir da camada de saída
natural para armazenar conhecimento até a de entrada os pesos dos neurônios vão
experimental e torná-lo disponível para o uso. sendo ajustados de forma a diminuir seus erros
Suas configurações assemelham-se ao cérebro (os erros dos neurônios das camadas
intermediárias são calculados utilizando o erro
humano pelo fato do conhecimento ser
dos neurônios da camada seguinte ponderado
adquirido por um processo de aprendizagem
(treinamento), e pelo fato deste mesmo pelo peso da conexão entre eles). Este
conhecimento estar armazenado na força de processo é repetido até atingir algum critério de
parada.
conexão entre os neurônios, também chamada
de pesos sinápticos [27].
A Figura 2 representa um modelo de
neurônio artificial, onde w representa os pesos
das conexões do neurônio k, x é o valor de cada
um dos m estímulos que chegam ao neurônio k;
b é um valor de bias que será somado ao valor
do combinador linear e f() é a função de
ativação que fornece o valor da saída do
neurônio k.

Figura 3: Estrutura da Rede MLP

Em termos matemáticos, cada neurônio da


rede calcula o seu nível de ativação vj de
acordo com a Equação 1, onde m é o tamanho
do vetor de entrada, b é o bias do neurônio e xi
é a entrada do peso wij.
Figura 2: Modelo de um Neurônio Artificial
(Equação 1)
Uma RNA é classificada de acordo com sua
estrutura podendo ser de camada única ou de
Esse valor é utilizado em dois momentos,
múltiplas camadas, alimentada para frente
primeiro para calcular a saída yj da rede de
(feedforward) ou recorrente, ou ainda, total ou acordo com a Equação 2, onde F é a função de
parcialmente conectada. Em uma rede
ativação do neurônio, e depois, para calcular o
feedforward o sinal de cada neurônio é
sinal de erro de cada peso w dos neurônios,
propagado apenas para os neurônios da
conforme Equação 3 para um neurônio de saída
camada da frente, enquanto que na rede
e de acordo com a Equação 4 para um neurônio
recorrente um neurônio pode propagar seu sinal
de camada oculta, onde di é a saída desejada e
para um neurônio que não seja o da camada da
F’ é a derivada da função de ativação.
frente. Em uma rede totalmente conectada cada
neurônio fornece sua saída a todas as unidades
da camada seguinte, e em uma rede (Equação 2)
parcialmente conectada estas conexões não
ocorrem integralmente [11]. (Equação 3)
(Equação 4) Para a execução dos testes foi utilizado o
software Weka [23] versão 3.6, plataforma Java
Depois de calculado o sinal de erro, cada JRE [15] versão 1.6.0_21 e sistema operacional
neurônio tem seu valor atualizado de acordo Windows 7 Ultimate 32 bits. A avaliação do
com as Equações 5 e 6, onde η é a taxa de desempenho dos classificadores foi realizada
aprendizado e α é o termo momentum. utilizando o método da validação cruzada. Cada
conjunto de dado foi dividido em 10 partes
(folds), e destas, 9 partes foram utilizadas para
(Equação 5) o treinamento e a outra para testes. O processo
foi repetido 10 vezes, de forma que cada parte
(Equação 6) fosse utilizada como conjunto de testes.

A taxa de aprendizagem determina a Tabela 1. Atributos da Base de Dados 1 (24 Sensores)


Coluna Tipo de dado
velocidade com que são feitas as mudanças no Leitura Sensor 1 (Referente ao ângulo 180° - frente
valor dos pesos e o termo momentum é do robô) real
utilizado para aumentar a velocidade de Leitura Sensor 2 (Referente ao ângulo -165°) real
Leitura Sensor 3 (Referente ao ângulo -150°) real
treinamento e reduzir o risco de instabilidade da Leitura Sensor 4 (Referente ao ângulo -135°) real
rede. Leitura Sensor 5 (Referente ao ângulo -120°) real
Leitura Sensor 6 (Referente ao ângulo -105°) real
Leitura Sensor 7 (Referente ao ângulo -90°) real
3. Análise Experimental Leitura Sensor 8 (Referente ao ângulo -75°) real
Leitura Sensor 9 (Referente ao ângulo -60°) real
Leitura Sensor 10 (Referente ao ângulo -45°) real
O experimento de comparação baseou-se Leitura Sensor 11 (Referente ao ângulo -30°) real
na análise da base de dados da UCI Machine Leitura Sensor 12 (Referente ao ângulo -15°) real
Learning Repository [16] intitulada “Wall- Leitura Sensor 13 (Referente ao ângulo 0° - atrás
Following Robôt Navigation Data DataSet”, a do robô) real
Leitura Sensor 14 (Referente ao ângulo 15°) real
qual representa as ações tomadas pelo robô Leitura Sensor 15 (Referente ao ângulo 30°) real
SCITOS G5 na tarefa de navegação, seguindo Leitura Sensor 16 (Referente ao ângulo 45°) real
a abordagem “wall-following” sem colidir em Leitura Sensor 17 (Referente ao ângulo 60°) real
Leitura Sensor 18 (Referente ao ângulo 75°) real
nenhum obstáculo. Leitura Sensor 19 (Referente ao ângulo 90°) real
Os dados foram coletados quando o robô Leitura Sensor 20 (Referente ao ângulo 105°) real
navegava em uma sala seguindo a parede em Leitura Sensor 21 (Referente ao ângulo 120°) real
direção horária, por 4 voltas, usando 24 Leitura Sensor 22 (Referente ao ângulo 135°) real
Leitura Sensor 23 (Referente ao ângulo 150°) real
sensores de ultra-sônicos arranjados Leitura Sensor 24 (Referente ao ângulo 165°) real
circularmente na "cintura" do equipamento. Classe - Ação do robo: texto
Baseado nestas medidas o robô tinha que Move-Foward (Mover para frente),
Slight-Right-Turn (Virar levemente para direita),
decidir qual o seu próximo movimento: Move- Sharp-Right-Turn (Virar fortemente para direita),
Forward (Mover para frente), Slight-Right-Turn Slight-Left-Turn (Virar levemente para esquerda)
(Virar levemente para a direita), Sharp-Right-
Turn (Virar fortemente para a direita), Slight- Tabela 2. Atributos da Base de Dados 2 (4 Sensores)
Left-Turn (Virar levemente para a esquerda). Coluna Tipo de dado
Os dados fornecidos foram obtidos a uma Leitura do Sensor da Esquerda real
freqüência de 9 amostras por segundo e Leitura do Sensor da Frente real
Leitura do Sensor da Direita real
incluem três conjuntos diferentes: Leitura do Sensor de Traz real
- O primeiro conjunto de dados contém os Classe - Ação do robo: texto
valores medidos para todos os 24 sensores do Move-Foward (Mover para frente),
Slight-Right-Turn (Virar levemente para direita),
robô e o correspondente rótulo de classe Sharp-Right-Turn (Virar fortemente para direita),
(Tabela 1). Slight-Left-Turn (Virar levemente para esquerda)
- O segundo conjunto de dados contém a
leitura de 4 sensores nomeados de "distâncias Tabela 3. Atributos da Base de Dados 3 (2 sensores)
simplificadas" e seu correspondente rótulo de Coluna Tipo de dado
classe. Estas distâncias simplificadas Leitura do Sensor da Frente real
correspondem às distâncias das partes frontal, Leitura do Sensor da Esquerda real
Classe - Ação do robo: texto
esquerda, direita e traseira do robô (Tabela 2). Move-Foward (Mover para frente),
- O terceiro conjunto de dados contém Slight-Right-Turn (Virar levemente para direita),
Sharp-Right-Turn (Virar fortemente para direita),
apenas a leitura das distâncias dos sensores da Slight-Left-Turn (Virar levemente para esquerda)
parte da frente e esquerda do robô e o rótulo de
classe (Tabela 3). A seguir, é apresentada uma análise
Os conjuntos de dados foram coletados ao individual das técnicas AD e MLP, seguindo de
mesmo tempo, de forma que possuem o mesmo uma avaliação comparativa.
número registros (5456 entradas).
3.1 Resultados com AD fixou-se o valor da taxa de aprendizado e a
quantidade de camadas ocultas, alterando-se o
Para a análise experimental utilizando AD número de neurônios da camada oculta para
foram realizados testes com os algoritmos J48 e 10, 15, 20 e 30 neurônios, respectivamente,
SimpleCART da ferramenta Weka [23] os quais onde foi possível verificar que o aumento do
são as técnicas C4.5 e CART, respectivamente. número de neurônios não estava influenciando
Para parametrização, foram utilizados os na taxa de acertos. Passou-se então para uma
1 nova etapa do treinamento, onde foram
valores padrões definidos na ferramenta . A
Tabela 1 apresenta os dados referentes aos testadas três novas redes com duas camadas
testes efetuados com os algoritmos. No eixo ocultas, sendo que a primeira rede continha 5
das ordenadas encontram-se as técnicas e no neurônios na primeira e na segunda camada
eixo das abscissas as bases de dados oculta, a segunda rede 10 neurônios na primeira
utilizadas. e na segunda camada oculta, e a terceira rede
com 15 neurônios na primeira camada oculta e
Tabela 1: Resultados (em %) da classificação por AD 20 na segunda. O resultado dos testes destas
Bases de Dados redes para um taxa de aprendizado de 0,25
1 2 3 Técnicas
pode ser verificado na Tabela 2.
100 100 99,6518 J48
100 100 99,4135 SimpleCart
Tabela 2: Taxa de Acertos com Taxa de Treinamento 0,25
Neurônios por camada
Ambos os algoritmos apresentaram bons Taxa de acerto (Nk onde N é número de
neurônios na k-ésima camada)
resultados para as três bases de dados, 89,8113 51
independentemente de sua dimensionalidade. 88,7871 101
Esse comportamento é bastante positivo, pois 88,7871 151
um dos maiores problemas de se analisar 86,7925 201
86,7385 301
dados provenientes de sensores é tratar de 85,283 51,52
forma coerente sua alta dimensionalidade [21]. 82,4798 101,102
89,434 151,202

3.2 Resultados com MLP


A fim de comparar a influência da taxa de
aprendizado no resultado final da rede, as
Escolher uma estrutura ideal para uma rede
mesmas estruturas testadas com taxa de
para resolver um problema é uma tarefa
aprendizado 0,25 foram testadas com taxas de
empírica e não trivial, muito já estudada, como
aprendizado de 0.5 e 0.75.
em [7], [10] e [13], que mostram que uma
O resultado desses testes é apresentado na
camada intermediária é o suficiente para
Tabela 3, juntamente com os resultados da
aproximar qualquer função contínua e duas
Tabela 2 a fim de facilitar comparações, onde é
camadas intermediárias são suficientes para
possível verificar que não existe uma relação
aproximar qualquer função matemática, sendo
direta da eficiência de classificação de uma
que o número de neurônios por camada oculta
rede MLP com as características de sua
deve ser definido empiricamente, [6], [7] e [12].
estrutura ou do treinamento: número de
Embora em alguns casos a utilização de mais
neurônios, número de camadas ocultas ou taxa
de duas camadas intermediárias possa facilitar
de aprendizado.
o treinamento, sua utilização não é
recomendada, pois o erro propagado através da Tabela 3: Taxa de Acerto para Base de Dados com 24
rede se torna menos útil e preciso, como Entradas.
afirmado por [5]. Taxa de Aprendizado
Neurônios por camada
Para este trabalho as três bases de dados 0,25 0,5 0,75 (Nk onde N é número de
foram treinadas em 24 configurações diferentes neurônios na k-ésima camada)
de rede, com alteração em três atributos: taxa 89,8113 85,6604 78,6523 51
88,7871 88,5526 87,7089 101
de aprendizado, número de camadas ocultas e 88,7871 88,3558 87,0081 151
número de neurônios por camada. As redes 86,7925 86,9003 87,7628 201
foram treinadas por 500 épocas, com uma taxa 86,7385 86,9542 85,9299 301
85,283 81,4555 80,7008 51,52
momentum de 0,3. 82,4798 85,4987 85,9299 101,102
Os testes na primeira base de dados foram 89,434 86,6846 86,0916 151,202
iniciados com valores de atributos baixos: taxa
de aprendizado no valor 0,25 e uma camada As duas bases de dados restantes, com
oculta de 5 neurônios, que obteve uma taxa de valores de 4 e de 2 sensores, passaram pelo
acerto da classificação em 89,81%. A posteriori, mesmo processo de testes, ou seja, com os
mesmos valores de taxa de aprendizado e
1
Outras configurações dos algoritmos foram mesmas estruturas de rede, e o resultado da
testadas, mas não houve ganho expressivo na classificação pode ser verificado na Tabela 4 e
classificação e, portanto, não foram consideradas. na Tabela 5, respectivamente.
Tabela 4: Taxa de Acerto para Base de Dados com 4 para ambas as técnicas, ao contrário, foram
Entradas. melhores em todos os casos. Essa constatação
Taxa de Aprendizado
Neurônios por camada é de grande importância quando se está
0,25 0,5 0,75 (N k onde N é número de trabalhando com dados de sensores, em
neurônios na k-ésima camada)
96,0647 96,2264 96,2264 51
robótica mais especificamente, pois caso a
96,0108 95,3639 95,9569 101 decisão de direcionar o robô fosse
96,5499 96,6577 95,7412 151 implementada em hardware com as técnicas
95,9569 96,7116 95,903 201 aqui apresentadas, uma menor quantidade de
95,5499 94,9865 95,0943 301
94,4474 91,4825 93,531 51,52
atributos significaria menor quantidade de
94,5553 95,4717 96,7655 101,102 processamentos a ser feito, o que influência
96,1725 96,5499 97,1429 151,202 diretamente no consumo de energia do
equipamento.
Tabela 5: Taxa de Acerto para Base de Dados com 2
Entradas. 4. Conclusão
Taxa de Aprendizado
Neurônios por camada
0,25 0,5 0,75 (N k onde N é número de Embora as técnicas aqui apresentadas
neurônios na k-ésima camada) tenham conseguido ótimos resultados na
96,9272 96,496 97,035 51
96,9811 96,2803 95,9569 101
classificação dos dados de sensores
96,2803 96,496 96,1725 151 provenientes de um robô, não se pode afirmar
95,2561 96,2264 95,6873 201 que estes mesmos resultados sejam atingidos
95,9569 95,6873 95,4717 301 na aplicação em outras bases de dados,
94,8787 78,4367 78,814 51,52
97,035 88,3019 95,1482 101,102
provenientes ou não de sensores.
96,6577 96,0647 94,0162 151,202 A eficiência das técnicas de classificação
depende de vários fatores, entre os quais está a
Ao fornecer uma entrada de natureza dos dados, de forma que se pode
dimensionalidade menor para a rede MLP e afirmar que não há uma técnica que seja ideal
reduzir o número de medidas de sensores de 24 para todos os tipos de conjuntos de dados.
para 4 e para 2, esperava-se, inicialmente, que Trabalhos como [29], [30] e [31] são exemplos
haveria uma queda no desempenho de de variações da eficiência de classificação de
classificação, já que teoricamente a rede estaria RNA MLP e AD em diferentes contextos.
recebendo uma quantidade menor de valores, Como trabalhos futuros, estão a avaliação
menos informação. Porém, pode-se perceber de desempenho de classificação das técnicas
que os resultados foram melhores para a aqui apresentadas em outras bases de dados
grande maioria dos casos. Uma queda mais de sensores provenientes de diferentes
evidente no desempenho ocorreu quando a domínios, bem como sua comparação com
dimensionalidade foi reduzida de 24 para 2 para outras técnicas de classificação aplicadas nas
uma rede de duas camadas ocultas com 5 mesmas bases de dados.
neurônios em cada uma delas e com taxas de
aprendizado 0,5 e 0,75, no restante, todos os Referencias
resultados foram melhores.
[1] E. B. Barlett, R. E. Uhrig. Nuclear power plant status
3.3 AD versus MLP diagnostics using artificial neural networks, International
conference on frontiers in innovative computing for the
nuclear industry, Jackson, WY, United States, Janeiro, Vol.
Confrontando os resultados das AD com a 97, pp. 272–281, 1991.
Rede Neural MLP pode-se verificar que as
Árvores de Decisão apresentaram melhores [2] W. G. Baxt. Use of an artificial neural network for data
resultados do que a MLP para as bases de analysis in clinical decision-making: The diagnosis of acute
dados aplicadas. Mesmo considerando o pior coronary occlusion, Neural Computation, Vol. 2, pp. 480–
resultado da AD, este foi superior ao melhor 489, 1990.
resultado encontrado pela rede MLP. Isto se
deve, em grande parte, à propensão do modelo [3] W. G. Baxt. Use of an artificial neural network for the
de AD crescer independentemente de quantos diagnosis of myocardial infarction, Annals of Internal
atributos estejam em análise. Medicine, Vol. 115, pp. 843–848, 1991.
Na rede MLP, verificou-se que quanto maior
[4] H. Bourlard, N. Morgan. Continuous speech recognition
a dimensionalidade da base de treinamento by connectionist statistical methods, IEEE Transactions on
menor foi seu poder de classificação, ou seja, a Neural Networks, vol. 4, 893–909, Novembro, 1993.
rede teve dificuldade quanto a analisar um
conjunto de dados de maior dimensionalidade. [5] A. Braga, A. Carvalho, T. Ludermir. Redes Neurais
Um fato a ser observado é que a redução Artificiais: Teoria e Aplicações, LTC, Segunda Edição, Rio
do número de atributos não significou de Janeiro, Brasil, 2000.
degradação nos resultados de classificação
[6] G. Cybenko. Continuous valued neural networks with two [22] N. Voisine, M. Boullé, C. Hue, Bayes Evaluation
hidden layers are sufficient, Technical Report, Department of Criterion for Decision Trees, Advances in Knowledge
Computer Science, Tufts University, 1988. Discovery and Management (AKDM), pp. 21-38, 2009.

[7] G. Cybenko. Approximation by superpositions of a [23] Weka. Available on:


sigmoid function, Mathematics of Control, Signals and http://www.cs.waikato.ac.nz/~ml/weka/. Last access:
Systems, Vol. 2, pp. 303-314, 1989. 30/03/2010.

[8] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data [24] G. P. Zhang, Neural networks for classification: a
mining to knowledge discovery: an overview, Advances in survey, IEEE Transactions on Systems, Man, and
knowledge discovery and data mining, American Association Cybernetics, Vol. 30, No.4, pp. 451-462, 2000.
for Artificial Intelligence, Menlo Park, CA, 1996.
[25] X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, K. Yang, H.
[9] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD Motoda, G. J. McLachlan, A. Ng, B. Liu, P. S. Yu, Z. H.
process for extracting useful knowledge from volumes of Zhou, M. Steinbach, D. J. Hand, D. Steinberg, Top 10
data, Communications of the ACM, Vol. 39, No. 11, pp. 27- algorithms in data mining, Knowledge and Information
34, November, 1996. Systems, Vol. 14, pp. 1–37, 2008.

[10] K. I. Funuhashi. On the approximate realization of [26] L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone,
continuous mappings by neural networks, Neural Networks, "Classification And Regression Trees", First Edition,
Vol. 2, pp. 183-192, 1989. Chapman and Hall, New York, 1984.

[11] J. Han, M. Kamber. Data Mining: Concepts and [27] S. Haykin, "Redes Neurais. Princípios e prática",
Techniques, Morgan Kaufmann, Second Edition, 2005. Bookman, Porto Alegre, RS, Brazil, 2001.

[12] J. Hertz, A. Krogh, R. G. Palmer. Introduction to the [28] C. Gini, Variabilita e Mutabilita, Journal of the Royal
Theory of Neural Computation, Addison-Wesley, First Statistical Society, Vol. 76, No. 3, pp. 326-327, February,
Edition, 1991. 1913.

[13] K. Hornik, M. Stinchcombe, H. White. Multilayer [29] M. Ture, I. Kurt,A. T. Kurum, K. Ozdamar. Comparing
feedforward networks are universal approximators, Neural classification techniques for predicting essential
Networks, Vol. 2, pp. 359-366, 1989. hypertension, Expert Systems with Applications, Vol. 29, pp
583-588, 2005.
[14] J. C. Hoskins, K. M. Kaliyur, D. M. Himmelblau. Incipient
fault detection and diagnosis using artificial neural networks, [30] I. Kurt, M. Ture, A. T. Kurum. Comparing performances
International Joint Conference on Neural Networks, San of logistic regression, classification and regression tree, and
Diego, CA, Vol. 1, pp. 81–86, June, 1990. neural networks for predicting coronary artery disease.
Expert Systems with Applications. No. 34, pp. 366-374, 2008
[15] Oracle and Sun, Java + You. Available on:
http://www.java.com/en/. Last access: 25/09/2010. [31] L. Atlas, J. Connor, D. Park, M. El-Sharkawi, R. Marks,
A. Lippman, R. Cole, Y. Muthusamy. A performance
[16] National Science Foundation. UCI Machine Learning comparison of trained multilayer perceptrons and trained
Repository. Available on: http://archive.ics.uci.edu/ml/. Last classification trees, Systems, Man and Cybernetics, IEEE
access: 25/09/2010. International Conference on Proceedings, Vol. 3, pp.915-
920, November 1989.
[17] C. Pitangui. Aprendizado Genético Utilizando de Regras
de Decisão Utilizando a Codificação Natural e Novos [32] E. P. Costa, Investigação de técnicas de classificação
Operadores de Recombinação. Master Dissertation, hierárquica para problemas de bioinformática. Master
COPPE/UFRJ, Rio de Janeiro, Brasil, 2000. Thesis, Universidade Federal de Campina Grande, Campina
Grande, Paraíba, Brasil, Março 2008.
[18] J. R. Quilan. "C4.5: Programs for Machine Learning",
Morgan Kaufmann, First Edition, 1993.

[19] D. E. Rumelhart, J. L. McClelland, Parallel distributed


processing: explorations in the microstructure of cognition,
Psychological and Biological Models, Vol. 2, 1986.

[20] S. Salzberg, A. Segre. "Book review: 'C4.5: Programs


for machine learning' by J. Ross Quinlan", Morgan
Kaufmann Publishers, First Edition, 1994.

[21] G. Bontempi, Y. L. Borgne. An adaptive modular


approach to the mining of sensor network data, First
International Workshop on Data Mining in Sensor Networks,
Newport Beach, CA, USA, pp. 3-9, April, 2005.