Modelo Monografia

INSTITUTO FEDERAL DE EDUCAO, CINCIA E TECNOLOGIA
DO CEAR
PR-REITORIA DE ENSINO
COORDENADORIA DE TELEMTICA DO CAMPUS MARACANA
BACHARELADO EM CINCIA DA COMPUTAO
LEANDRO BEZERRA MARINHO
MQUINA DE APRENDIZAGEM MNIMA APLICADA AO

RECONHECIMENTO DE ATIVIDADES
MARACANA
2014
LEANDRO BEZERRA MARINHO
MQUINA DE APRENDIZAGEM MNIMA APLICADA

AO RECONHECIMENTO DE ATIVIDADES
Monografia submetida Coordenadoria de
Telemtica e Coordenadoria do Curso de
Bacharelado em Cincia da Computao
do Instituto Federal do Cear - Campus
Maracana, como requisito parcial para
obteno do grau de Bacharel em Cincia
da Computao.
rea de pesquisa:
Aprendizagem de
Mquina
Orientador:
Jnior
Fortaleza
2014
Amauri Holanda de Souza
INSTITUTO FEDERLA DE EDUCAO, CINCIA E TECNOLOGIA DO CEAR

COORDENAO DE PS-GRADUAO EM ENGENHARIA DE
TELECOMUNICAES
Leandro Bezerra Marinho

Esta Monografia foi julgada adequada para a obteno do Grau de Bacharel em
Cincia da Computao, sendo aprovada pela Coordenadoria de Telemtica e pela
Coordenadoria do curso de Bacharelado em Cincia da Computao do Campus
Maracana do Instituto Federal de Educao, Cincia e Tecnologia do Cear e pela
banca examinadora:
Prof. Dr. Amauri Holanda de Souza Jnior

Instituto Federal do Cear - IFCE
Prof. Dr. Joo Paulo Pordeus Gomes

Universidade Federal do Cear - UFC
Prof. Dr. Ajalmar Rego da Rocha Neto

Prof. M.Sc. Adriano Tavares de Freitas

Fortaleza, 06 de Abril de 2014
A Deus, que nos criou e foi criativo nesta tarefa. Seu flego de vida em mim me
foi sustento e me deu coragem para questionar realidades e propor sempre um novo
mundo de possibilidades.
Agradecimentos
Primeiramente, agradeo a Deus pela fora e coragem durante toda esta longa
caminhada.
Agradeo a minha namorada, Renata Lira, por toda a pacincia, compreenso
e ajuda durante o desenvolvimento deste trabalho e todo o amor, carinho,
companheirismo e ateno que me ajudaram durante a faculdade.
Agradeo aos meus amigos Kau Menezes, Fausto Sampaio, Arlesson Lima,
Leonildo Ferreira, Joyce Saraiva e Neyllany Andrade, por todos os momentos
compartilhados.
Agradeo ao professor Amauri Holanda, pela orientao, apoio e pacincia durante
o desenvolvimento deste trabalho.
Finalmente, agradeo a todos os professores do curso de Cincia da Computao
do Instituto Federal do Cear, pela boa formao profissional.
A tarefa no tanto ver aquilo que ningum viu, mas

pensar o que ningum ainda pensou sobre aquilo que
todo mundo v.
Arthur Schopenhauer
Resumo
Os aparelhos modernos, tais como smartphones e tablets, so mais que simples
dispositivos de comunicao com uma conexo Internet. Eles fornecem uma gama
de recursos como microfones, cmeras, acelermetros e medidores de luminosidade.
Muitos desses recursos utilizam informaes captadas por sensores acoplados que
podem ser utilizados pelos mais diferentes tipos de aplicaes. Reconhecimento de
atividade uma tecnologia importante, pois pode ser aplicada a diversos problemas
reais, tais como cuidados a sade de idosos. O xito da investigao tem centrado
no reconhecimento de atividades humanas simples. Identificar atividades complexas
continua sendo uma rea desafiadora e ativa de pesquisa. Neste trabalho analisamos
o uso de um mtodo recentemente proposto, a Mquina de Aprendizagem Mnima
(Minimal Learning Machine, MLM), alm de trs outros conhecidos na literatura,
MLM, RBF e ELM, para deteco de atividades humanas. Os hiperparmetros de
cada mtodo foram selecionados atravs da validao cruzada. Os dados para os
experimentos foram adquiridos do giroscpio e acelermetro, sensores presentes em
smartphones. O MLM teve a melhor taxa de acerto entre os mtodos testados.
Abstract
Modern appliances, such as smartphones and tablets, are more than simple
communication devices with an Internet connection. They provide a range of resources
such as microphones, cameras, accelerometers, and light meters. Many of these
features use information gathered by a combined sensor that can be used by many
different types of applications. Activity recognition is an important technology because
it can be applied to many real problems such as health care for the elderly. The
success of the research has focused on the recognition of simple human activities.
Identify complex activities remains a challenging and active area of research. In
this work will be analyzed using a proposed recently method, the Minimal Machine
Learning (MLM), in addition to three others known in the literature, MLM, RBF and ELM
for detecting human activities. The hyperparameters of each method were selected
through cross-validation.
The data for the experiments were purchased from the
gyroscope and accelerometer sensors found in smartphones. The MLM has had the
best success rate among the tested methods.
Sumrio
Lista de Figuras
Lista de Tabelas
Lista de Smbolos
Lista de Abreviaes
1 Introduo
15
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.2.1 Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.2.2 Especficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.3 Estrutura da monografia . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2 Aprendizagem de Mquina
18
2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2 Aprendizado Indutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . .
19
2.2.2 Aprendizado No-supervisionado . . . . . . . . . . . . . . . . .
20
2.2.3 Aprendizado Por Reforo . . . . . . . . . . . . . . . . . . . . . .
21
2.3 Redes Neurais Artificias . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.3.1 Breve Histrico das Redes Neurais . . . . . . . . . . . . . . . . .
22
2.3.2 Perceptron de Mltiplas Camadas . . . . . . . . . . . . . . . . .
23
2.3.3 Redes com Funes de Base Radial . . . . . . . . . . . . . . . .
29
2.3.4 Mquina de Aprendizado Extremo . . . . . . . . . . . . . . . . .
30
3 Mquina de Aprendizagem Mnima
34
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.2 Formulao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.2.1 Regresso entre Distncias . . . . . . . . . . . . . . . . . . . . .
35
3.2.2 Estimativa da sada . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.3 Algoritmos de Treinamento e Teste . . . . . . . . . . . . . . . . . . . . .
38
3.4 Mquina de Aprendizagem Mnima para Classificao . . . . . . . . . .
38
3.4.1 Mquina de Aprendizagem Mnima com Vizinhos Mais Prximos
39
3.5 Parmetros e Complexidade Computacional da MLM
. . . . . . . . . .
4 Metodologia
40
42
4.1 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4.2 Modelagem dos Dados para Classificao . . . . . . . . . . . . . . . . .
43
4.3 Seleo de Parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.3.1 Distncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.4 Avaliao de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.4.1 Validao Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.4.2 Mtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5 Resultados Experimentais
47
5.1 Hiperparmetros Escolhidos . . . . . . . . . . . . . . . . . . . . . . . .
47
5.2 Resultados Individuais . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
5.3 Comparao entre os experimentos . . . . . . . . . . . . . . . . . . . .
51
6 Consideraes Finais
55
6.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Referncias Bibliogrficas
56
57
Lista de Figuras
1
Aprendizado por reforo. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modelo esquemtico de uma rede MLP com duas camadas
21
intermedirias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
Grfico da funo logstica binria para o domnio [-3, 3]. . . . . . . . .
26
Procedimento para obter estimativa . . . . . . . . . . . . . . . . . . . .
37
Exemplo de Validao Cruzada. . . . . . . . . . . . . . . . . . . . . . .
46
Erro pelo nmero nmero de neurnios da camada oculta na ELM. . . .
48
Erro pelo nmero nmero de neurnios da camada oculta no RBF. . . .
49
Erro pelo nmero nmero de neurnios da camada oculta no MLP. . . .
49
Erro pelo nmero de pontos de referncia com atributos no domnio do

tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
50
Erro pelo nmero de pontos de referncia com atributos no domnio da

frequncia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
11
Erro pelo nmero de pontos de referncia com todos atributos. . . . . .
51
12
Taxa mdia de acerto com atributos no domnio do tempo.
. . . . . . .
53
13
Taxa mdia de acerto com atributos no domnio da frequncia. . . . . .
53
14
Taxa mdia de acerto com todos os atributos. . . . . . . . . . . . . . . .
54
Lista de Tabelas
1
Comparao de uma rede RBF tpica com uma rede MLP convencional
FONTE: (CARVALHO; BRAGA; LUDERMIR, 2007) . . . . . . . . . . . .
30
Variveis estimadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Modelagem das Classes . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
A segunda coluna mostra o nicio, variao e fim para uma sequncia

de neurnios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Taxa mdia de acerto e desvio padro com atributos no domnio do tempo. 51
Taxa mdia de acerto e desvio padro com atributos no domnio da
frequncia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
Taxa mdia de acerto e desvio padro utilizando todos os atributos. . .
52
Lista de Smbolos
R
conjunto dos nmeros reais
(x)
funo de ativao
Lista de Abreviaes
AM
Aprendizagem de Mquina
IA
Inteligncia Artificial
RNA
Redes Neurais Artificiais
MLM
Minimal Learning Machine
MLP
Multi Layer Perceptron
ELM
Extreme Learning Machine
RBF
Radial Basis Function
AMSE
Average Mean Squared Error
MSE
Mean Squared Error
15
C APTULO 1
I NTRODUO
O captulo inicia com a motivao para o desenvolvimento deste trabalho. Os
objetivos gerais e especficos so elencados na seo 1.2. Por ltimo, realizamos
uma apresentao da estrutura da monografia na seo 1.3.
1.1
Motivao
Desde o aparecimento dos primeiros telefones mveis portteis comerciais na

dcada de 70, tem-se observado um crescimento acelerado no mercado de telefonia
mvel, que atingiu, no segundo semestre de 2011, cerca de 80% da populao
mundial (EKHOLM J.; S., 2011). Isso mostra, que num curto espao de tempo, os
dispositivos mveis tornaram-se cada vez mais acessveis. Os aparelhos modernos,
tais como smartphones e tablets, so mais que simples dispositivos de comunicao
com uma conexo Internet. Eles fornecem uma gama de recursos como microfones,
cmeras, acelermetros e medidores de luminosidade.
Muitos desses recursos
utilizam informaes captadas por sensores acoplados que podem ser utilizados pelos
mais diferentes tipos de aplicaes.
O reconhecimento de atividades humanas tem como objetivo identificar as aes
realizadas por uma pessoa dado um conjunto de observaes do indivduo e do
ambiente circundante. Isso pode ser conseguido, por exemplo, atravs da explorao
de informaes obtidas a partir dos sensores como acelermetros (ALLEN et al.,
2006). Na maioria dos smartphones estes sensores so incorporados por padro.
Identificar com sucesso as atividade humanas permite uma ampla diversidade de
aplicaes. Pesquisas recentes sobre o reconhecimento de atividades, especialmente
para aplicaes de cuidados a sade de idosos, tem demonstrado que possvel
identificar uma variedade de atividades tais como, caminhar, correr ou saber se uma
pessoa est usando escadas (BAO; INTILLE, 2004; HUYNH; BLANKE; SCHIELE,
1.2 Objetivos
16
2007; LESTER; CHOUDHURY; BORRIELLO, 2006; OFSTAD et al., 2008; LIN et al.,
2003; RAVI et al., 2005).
Essencialmente, a tarefa de deteco de atividades requer um modelo matemtico
que permita a identificao de interesse. Em geral, modelos podem ser desenvolvidos
utilizando o conhecimento de um especialista sobre o fenmeno que se deseja
modelar ou por tcnicas de aprendizado automtico (estatstico ou neural). Utilizar um
modelo de aprendizado automtico, dentre outras vantagens, permite-nos construir
modelos baseados em pouco ou quase nenhum conhecimento prvio sobre a tarefa
de interesse. Para isso, exemplos do comportamento a ser modelado devem ser
capturados ou devem estar disponveis. Este trabalho prope o uso de um modelo de
aprendizagem supervisionado recentemente proposto, a Mquina de Aprendizagem
Mnima (Minimal Learning Machine, MLM) (SOUZA JUNIOR et al., 2013) para
classificao e deteco de atividades de um conjunto de dados proveniente de um
smartphone.
1.2
Objetivos
Essa seo apresenta, primeiramente, o objetivo geral e, em seguida, os objetivos

especficos desse trabalho.
1.2.1
Geral
O objetivo principal desse trabalho analisar o desempenho dos algoritmos MLM,

MLP, ELM e RBF para a classificao de atividades humanas com dados provenientes
de aparelhos mveis, tais como smartphones e tablets.
1.2.2
Especficos
Verificar e validar a aplicao da MLM no reconhecimento de atividades fsicas.

Mostrar uma nova abordagem da MLM utilizando os vizinhos mais prximos.
Executar uma comparao de desempenho com outras tcnicas de aprendizado
de mquina.
1.3 Estrutura da monografia
17
Selecionar o conjunto de atributos da base de dados que contribuam com

a atividade de aprendizagem dos mtodos no processo de identificao de
atividades.
Analisar a performance da MLM com outra mtrica de distncia.
1.3
Estrutura da monografia
O Captulo 2 faz uma abordagem terica da Aprendizagem de Mquina e dos

mtodos utilizados neste trabalho.
No Captulo 3, o mtodo MLM explanado,
assim como, seus algoritmos de treinamento e teste, parmetros e sua complexidade

computacional. Em seguida, o Captulo 4 mostra a metodologia adotada para se
alcanar o objetivo geral desse monografia. O Captulo 5 traz os resultados obtidos
das simulaes realizadas com as tcnicas propostas. Por fim, o Captulo 6 resume o
trabalho, elencando concluses obtidas, possveis melhorias e trabalhos futuros.
18
C APTULO 2
A PRENDIZAGEM
DE
M QUINA
Este captulo apresenta uma viso geral da rea de Aprendizagem de Mquina,

mais especificamente de Redes Neurais. A Seo 2.3 exibe um breve histrico de
Redes Neurais, bem como os principais conceitos e definies da rea. Em seguida,
so apresentadas as redes neurais adotadas no trabalho.
2.1
Introduo
Aprendizado de Mquina (AM) uma subrea de pesquisa muito importante

em Inteligncia Artificial (IA), pois a capacidade de aprender essencial para
um comportamento inteligente. AM estuda mtodos computacionais para adquirir
novos conhecimentos, habilidades e meios de organizar o conhecimento j existente
(MITCHELL, 1997). O estudo de tcnicas de aprendizado baseado em computador
tambm pode fornecer um melhor entendimento de nosso prprio processo de
raciocnio (MONARD et al., 1997).
Uma das crticas mais comuns IA que as mquinas s podem ser consideradas
inteligentes quando forem capazes de aprender novos conceitos e se adaptarem a
novas situaes, em vez de simplesmente fazer o que lhes for mandado. sabido que
uma importante caracterstica das entidades inteligentes a capacidade de adaptar-se
a novos ambientes e de resolver novos problemas.
Como ser visto nas prximas sees, sob algumas restries, possvel criar um
sistema computacional que seja capaz de aprender e melhorar o seu desempenho
por meio da observao. Existem vrias abordagens de aprendizado que podem ser
utilizados por um sistema computacional como, por exemplo, o aprendizado por hbito,
instruo, deduo, analogia e induo (BATISTA, 2003). O aprendizado indutivo
um dos mais teis pois permite obter novos conhecimentos a partir de exemplos,
ou casos particulares, previamente observados. Entretanto, o aprendizado indutivo
2.2 Aprendizado Indutivo
19
tambm um dos mais desafiadores, pois o conhecimento gerado ultrapassa os limites

das premissas, e no existem garantias de que esse conhecimento seja verdadeiro.
2.2
Aprendizado Indutivo
A principal tarefa da inferncia indutiva ou induo descobrir como retornar

uma soluo para uma hiptese que se aproxime ao mximo do valor de entrada
do problema proposto.
Sobre a aprendizagem indutiva, Russell & Norvig (2004)
questionam como deve ser escolhida uma hiptese entre vrias consistentes.
Pesquisadores estudam os problemas relacionados aprendizagem indutiva h
muitos anos, mas uma recomendao bsica para a soluo destes problemas seria
a lmina de Ockham (BADIUS; TRECHSEL; PENNSYLVANIA), 1495), que nos orienta
a escolher sempre a opo mais simples, pois mesmo no tendo muitas informaes
sobre algum assunto, intuitivamente escolhido algo que parece ser mais fcil do que
a segunda ou terceira opo. Em AM, solues simples correspondem a modelos com
poucos parmetros ajustveis ou graus de liberdade.
O aprendizado indutivo efetuado a partir do raciocnio sobre exemplos fornecidos
por um processo externo ao aprendiz. Em AM, o aprendiz um sistema computacional
frequentemente denotado por sistema de aprendizado, algoritmo de aprendizado, ou
simplesmente indutor. Um sistema de aprendizado um sistema computacional que
toma decises baseado em experincias acumuladas contidas em casos resolvidos
com sucesso (WEISS; KULIKOWSKI, 1991).
No estudo de IA, existe uma grande variedade de tipos de aprendizado.
Os estudos sobre aprendizado de mquina dividem-se em trs grupos bsicos:
aprendizagem supervisionada, no-supervisionada e por reforo, os quais sero
abordadas com mais detalhes a seguir.
2.2.1
Aprendizado Supervisionado
No aprendizado supervisionado fornecido ao sistema de aprendizado um

conjunto de exemplos e = {e1 , e2 , . . . eN }, sendo que cada exemplo ei e possui um
rtulo associado. Esse rtulo define a classe a qual o exemplo pertence. Pode-se
dizer que cada exemplo ei e uma tupla
2.2 Aprendizado Indutivo
20
ei = (xi , yi )
na qual xi um vetor de valores que representam as caractersticas, ou atributos,
do exemplo Ei , e yi o valor da classe desse exemplo. O objetivo do aprendizado
supervisionado induzir um mapeamento geral dos vetores x para valores y. Portanto,
o sistema de aprendizado deve construir um modelo, y = f (x), de uma funo
desconhecida f que permite predizer valores y para exemplos previamente no vistos.
Entretanto, o nmero de exemplos utilizados para a criao do modelo no ,
na maioria dos casos, suficiente para caracterizar completamente essa funo f. Na
realidade, os sistemas de aprendizado so capazes de induzir uma funo h que se
aproxima de f, ou seja, h (x) f (x). Nesse caso, h chamada de hiptese sobre a
funo conceito f. Neste trabalho sero apenas utilizadas tcnicas de aprendizagem
de mquina supervisionada.
2.2.2
Aprendizado No-supervisionado
No aprendizado no supervisionado fornecido ao sistema de aprendizado

um conjunto de exemplos E , no qual cada exemplo consiste somente de vetores
x, no incluindo a informao sobre a classe y. O objetivo no aprendizado no
supervisionado construir um modelo que procura por regularidades nos exemplos,
formando agrupamentos (clusters) de exemplos com caractersticas similares.
No agrupamento, um conjuntos de dados so reunidos a partir de suas
similaridades. Os mtodos de agrupamento mais comuns necessitam que o nmero
de clusters seja determinado a priori e se baseiam na minimizao de uma funo de
distncia entre os pontos do cluster e o seu centro (CRIMMINS, 2001).
A rede SOM, proposta por Teuvo Kohonen,
possui um algoritmo no
supervisionado para o seu treinamento. O objetivo deste mapa auto-organizvel criar

um arranjo para os padres de entrada em um mapa discreto uni ou bidimensional de
uma maneira a se obter uma topologia ordenada. Basicamente, o algoritmo consiste
em apresentar um vetor de entrada a todos os neurnios da rede, encontrar um
neurnio vencedor e modificar os pesos do neurnio vencedor e dos neurnios que
formam sua vizinhana naquele momento (HAYKIN, 2002; KASABOV, 1996).
2.3 Redes Neurais Artificias
21
Figura 1: Aprendizado por reforo.
2.2.3
Aprendizado Por Reforo
No aprendizado por reforo, um indivduo sem conhecimentos prvios aprende

atravs de interaes com o ambiente, recebendo recompensas por suas aes e
assim descobrindo a estratgia tima para a resoluo de um determinado problema.
A suposio principal do aprendizado por reforo a existncia de um agente que
pode aprender a escolher suas aes que resultaro em um melhor resultado futuro
na realizao de uma tarefa (PEGORARO, 2001).
No ambiente, em cada intervalo de tempo o agente executa uma ao. Esta
ao determinada pela estratgia j aprendida, informando o agente para onde ele
deve se locomover e tendo em vista a recompensa que ir ganhar. A recompensa
pode ser dada por valores negativos ou positivos, indicando se o agente est
seguindo corretamente para o objetivo ou no. A Figura 1 apresenta um esboo do
funcionamento do aprendizado por reforo.
2.3
Redes Neurais Artificias
Redes Neurais Artificiais (RNAs) so sistemas paralelos distribudos, compostos

por unidades de processamento, denominadas neurnios, dispostas em camadas e
cujo funcionamento baseia-se no clculo de funes matemticas. As unidades, entre
as camadas, so interconectadas e, na maioria dos modelos, esto associadas a
pesos, os quais armazenam o conhecimento adquirido na forma de valores numricos
(CARVALHO; BRAGA; LUDERMIR, 2007).
Devido a sua capacidade de generalizao
, as redes neurais so amplamente
utilizadas na resoluo de problemas do mundo real envolvendo grandes massas

de dados.
1 Capacidade
treinamento.
A natureza destes problemas em geral de: i) classificao, i.e.

de responder corretamente a dados que no foram utilizados no processo de
22
atribuio a um padro desconhecido entre uma de vrias classes conhecidas; ii)

agrupamento, i.e. o agrupamento em categorias bem definidas, obtidas a partir da
redundncia existente entre os registros apresentados rede; iii) aproximao, em
geral aproximao de funes e iv) predio, i.e. prever situaes futuras a partir dos
dados atuais (CARVALHO; BRAGA; LUDERMIR, 2007).
2.3.1
Breve Histrico das Redes Neurais
A inspirao para o funcionamento das redes neurais baseada no funcionamento

do crebro humano, rea aprofundada pelo estudo pioneiro de Ramn Y Cajl, que
introduziu a ideia dos neurnios tais como so conhecidos hoje. Os neurnios so
entre 5 e 6 vezes mais lentos que as portas lgicas de silcio, porm trabalhando de
forma maciamente paralela, o crebro compensa esse aparente menor velocidade
de funcionamento das clulas nervosas (HAYKIN, 2002).
McCulloch & Pitts (1943) foram os primeiros a formular um modelo matemtico
simples para um neurnio. McCulloch, um psiquiatra, Pitts, matemtico, se associaram
um ano antes da publicao do trabalho conjunto.
O trabalho em essncia
uma unificao de estudos da neurofisiologia com a lgica matemtica, que prope

conexes entre os neurnios ajustadas corretamente e operando de forma sncrona
para a computao de funes. Neste modelo, a sada de um dado neurnio assume
valor 1 caso o campo local induzido, i.e. uma combinao linear entre seus valores de
entrada acrescida de um valor de bias, no-negativo e 0 na situao contrria. Este
modelo utiliza uma funo degrau para a condio de disparo, tal funo chamada
de funo de ativao sendo tambm referida como funo restritiva, pois restringe a
faixa de sada para um intervalo menor ou conjunto reduzido de valores. O trabalho
de McCulloch e Pitts foi um marco para a rea, pois mostrou que era possvel fazer
computao de uma forma inspirada no funcionamento do crebro. No entanto, eles
no propuseram um mtodo de aprendizado.
Como marco posterior, h o trabalho de Hebb em 1949 (HAYKIN, 2002),
intitulado The Organization of Behavior, que prope que a conectividade no crebro
continuamente modificada a partir do aprendizado de novas tarefas funcionais criando
agrupamentos neurais. Seu trabalho, entretanto, foi pouco influente na comunidade de
engenharia, exercendo grande impacto entre psiclogos (HAYKIN, 2002). O trabalho
lana o postulado da aprendizagem que afirma que o reforo em uma conexo entre
dois neurnios deve ser acentuado em razo de uma constante ativao de um dos
23
dois neurnios a partir da conexo entre eles.

O trabalho de Hebb, em grau de relevncia para a rea, sucedido pelo trabalho
de Frank Rosenblat em 1958 (CARVALHO; BRAGA; LUDERMIR, 2007) que cria o
modelo Perceptron, baseado no modelo de McCulloch-Pitts. Seu modelo baseado
na variao da intensidade entre as conexes inter-neurnios, ou seja, sinapses
ajustveis, como uma forma de prover treinamento rede para classificar certos
tipos de padres. Seu modelo, entretanto, era capaz de resolver apenas problemas
linearmente separveis, no sendo possvel lidar com no-linearidades.
O fato de o Perceptron no resolver problemas no linearmente separveis
aliado observao de Minsky e Papert em 1969 (HAYKIN, 2002), afirmando que
o modelo no garantia a convergncia para mais de uma camada, resultou em um
adormecimento nas pesquisas em redes neurais durante os anos 1970 (CARVALHO;
BRAGA; LUDERMIR, 2007), poca onde alguns poucos pesquisadores continuaram
seus estudos na rea.
Os efeitos pessimistas em relao capacidade das
redes neurais causados pelo livro de Minsky e Papert s foram revertidos com o
advento do algoritmo Backpropagation (RUMELHART; HINTON; WILLIAMS, 1988)
que mostrou que o modelo Perceptron Multicamadas era capaz de resolver problemas
no linearmente separveis. O Backpropagation utiliza mltiplas camadas, baseia-se
no mtodo do gradiente descendente sendo bastante utilizado no modelo Perceptron
Multicamadas (Multi-layer Perceptron), descrito a seguir.
2.3.2
Perceptron de Mltiplas Camadas
O Perceptron de Mltiplas Camadas (Multi-Layer Perceptron, MLP) utiliza o

paradigma supervisionado de aprendizagem, caracterizado pela existncia de um
supervisor externo, cujo papel central fornecer as entradas rede e comparar
as sadas geradas com um resultado esperado, para posterior ajuste de parmetros,
a partir dos erros gerados. A minimizao do erro decorre de maneira incremental at
a convergncia, definida por um critrio de parada pr-estabelecido. Assim, o vetor
contendo os dados a serem processados apresentado rede a partir da camada
de entrada, gerando estmulos que so propagados adiante nas demais camadas. As
sadas de cada neurnio das camadas escondidas comporo as entradas da camada
subseqente. Desta forma, por cada conexo entre neurnios, transcorrem estmulos
que so ponderados por seus respectivos pesos w j , determinando, a partir de uma
funo de ativao, os estmulos que chegam aos neurnios conectados a sua sada.
24
Seguindo este procedimento, tem-se ento uma resposta final na camada de sada,
correspondente ao vetor apresentado.
O aprendizado na rede MLP transcorre em duas fases, sendo seu algoritmo de
treinamento mais popular o Backpropagation (HAYKIN, 2002).
Na primeira fase,
denominada adiante ou direta, gerada a sada da rede correspondente ao padro

apresentado. Na segunda fase, denominada inversa, a sada desejada e a sada de
fato fornecida pela rede so comparadas, e um erro calculado. Este erro ento
utilizado como parmetro para a atualizao dos pesos da camada de sada, sendo
em seguida retro-propagado para a camada anterior a partir de sua multiplicao
pelo peso das conexes entre as camadas. Desta maneira, cada camada escondida
recebe sua parcela de contribuio no erro gerado na camada de sada e atualiza
seus prprios pesos.
Arquitetura do Modelo MLP

As redes MLP adotam mltiplas camadas, alimentadas para frente (feedforward),
sendo a primeira a camada de entrada, esta seguida pelas camadas escondidas
e, por fim, uma camada de sada. A Figura 2 ilustra um modelo MLP com duas
camadas escondidas. A arquitetura da rede pode ser mais bem descrita pelo nmero
de camadas, a funo de ativao e o nmero de neurnios por camada.
Figura 2: Modelo esquemtico de uma rede MLP com duas camadas intermedirias.
25
O Nmero de Camadas
A escolha do nmero de camadas dada pelo problema em questo e em cada
camada ocorre uma frao do processamento como um todo, onde o espao dividido
em regies de deciso. Desta forma a rede capaz de trabalhar com problemas
que no sejam linearmente separveis, desde que haja neurnios no-lineares nas
camadas escondidas.
Papel importante cabe s camadas intermedirias, que criam uma codificao
interna para os padres apresentados na entrada. Um nmero suficientemente grande
de camadas possvel formar representaes para qualquer conjunto de entrada
(CARVALHO; BRAGA; LUDERMIR, 2007). Entretanto a grande maioria dos problemas
raramente necessita de mais de uma camada intermediria.
Funes de Ativao
A rede emprega em cada unidade de processamento uma funo de ativao.
A funo de ativao utilizada nas camadas intermedirias deve ser uma funo
no linear, para que seja incorporado o tratamento de no-linearidade rede.
Caso as funes sejam puramente lineares, o Perceptron de Mltiplas camadas
ter funcionamento equivalente a uma nica camada, visto que sucessivas
transformaes lineares equivalem a uma nica transformao linear (CARVALHO;
BRAGA; LUDERMIR, 2007). As funes de ativao mais utilizadas no modelo MLP
so funes sigmoidais, tais como a funo logstica e a funo tangente hiperblica,
que devem estar presentes em pelo menos uma das camadas escondidas. As funes
sigmides so contnuas, diferenciveis em qualquer ponto, monotnicas estritamente
crescentes, possuindo certa similaridade com funes lineares, o que as tornam ideais
para a rede MLP. As funes sigmides se aproximam assintoticamente de seus
valores de saturao. A Figura 3 ilustra um exemplo de funo sigmoidal, a funo
logstica binria, com o domnio definida no intervalo [3,3]. A funo logstica
definida por:
(x) =
1
,
1 + exp(Kx)
(2.1)
sendo K uma constante positiva.

A constante K utilizada como um fator de inclinao da funo. O valor de K
26
1
0.9
0.8
0.7
(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
3
Figura 3: Grfico da funo logstica binria para o domnio [-3, 3].
tambm atua como um controle automtico de ganho (BEALE; JACKSON, 1990), visto
que para valores de entrada pequenos a inclinao bastante ngreme e as sadas
aumentam rapidamente em relao ao domnio e para valores grandes de entrada a
inclinao varia em menor intensidade. O termo K possibilita ento um balanceamento
para as sadas desta funo, dada a amplitude do domnio.
A funo sigmide tambm pode ser tangente hiperblica, caso este em que a
imagem da funo definida no intervalo (1,1) . Define-se como mostrado abaixo:
(x) =
1 exp(Kx)
,
1 + exp(Kx)
sendo K uma constante positiva.

No presente trabalho, as redes utilizadas utilizam a funo logstica binria como
funo de ativao.
Definio do nmero de neurnios por camada

No h uma regra geral bem explicitada na literatura sobre a definio do nmero
de neurnios para a resoluo de um determinado problema. Esta modelagem dever
ser definida em funo da complexidade do problema, de maneira que quanto maior
a complexidade, um maior nmero de neurnios exigido, atentando sempre para
que a rede no perca sua capacidade de generalizao caso um nmero excessivo
de neurnios escondidos seja utilizado. Um ponto relevante neste caso que a
complexidade do problema a ser tratado no conhecido de antemo, e o modelo
a ser utilizado deve ter complexidade proporcional ao problema.
27
Desta forma, nos testes realizados no presente trabalho, a quantidade de

neurnios na camada escondida foi definida empiricamente, a partir da estratgia de
validao cruzada mostrada na Seo 4.4.1 abordada na metodologia. Para a camada
de entrada foram utilizados tantos ns quanto atributos selecionados da base e seis
neurnios na camada de sada, visto tratar-se de problema de classificao com seis
classes.
O algoritmo de aprendizagem
Um dos processos de aprendizado da MLP o algoritmo Backpropagation,
baseado no aprendizado por correo de erros (regra delta). O algoritmo consegue
com sucesso propagar a informao de erro da camada de sada para as
camadas escondidas, podendo ser visto como uma generalizao do filtro adaptativo
Least-Mean-Square (LMS).
Basicamente, o algoritmo Backpropagation consiste em duas etapas de
processamento (VALENA, 2010): para a frente (forward) e para trs (backward).
O primeiro equivalente ao feedforward, em que as entradas so processadas pelas
camadas em sequncia, e a sada obtida na ltima camada. A sada obtida ento
subtrada da sada esperada (target), gerando a informao de erro (error signal).
A informao de erro ento propagada na direo contrria, ajustando os pesos no
processo, vindo da o nome Backpropagation. Essa propagao do erro feita usando
a generalizao da regra delta, que usa derivadas parciais para calcular os ajustes nos
valores dos pesos de camada. Por isso, as funes de ativao dos neurnios devem
ser sempre derivveis, pois o algoritmo seria impossvel de utilizar o algoritmo.
Os passos do algoritmo de retropropagao do erro para uma iterao de
treinamento so:
1. As sadas so calculadas processando as entradas pelas camadas da rede, na
etapa forward;
2. O erro relativo sada calculado pela subtrao desta com a sada esperada;
3. O erro calculado para todos os neurnios de sada, resultando no erro da
rede para a entrada atual, iniciando a etapa backward. Dependendo do tipo
de treinamento, esse erro calculado por elemento apresentado, ajustando os
pesos da rede para cada entrada (treinamento incremental), ou ento fazendo a
28
mdia aritmtica de todos os erros, ajustando os pesos da rede aps processar

todas as entradas (treinamento em lote ou batch);
4. Calcula-se o gradiente da energia do erro em relao aos pesos da camada
de sada, atualizando esses pesos em seguida.
Os pesos so ajustados
proporcionalmente a um valor chamado passo de aprendizado, , que define

o quanto se pode variar o peso a cada iterao. Este processo anlogo ao
mtodo LMS (least-mean-square) usado no treinamento por correo de erros
em redes de uma camada. A Equao 2.2 mostra como feito o ajuste dos
pesos;
5. calculado o erro em relao sada da ltima camada escondida com a
camada de sada, usando um clculo de retropropagao ponderada do erro
de cada neurnio da camada de sada;
6. As demais camadas escondidas so ajustadas seguindo o passo 5, onde a
camada de sada representada pela camada posterior atual.
wi j (t + 1) = w jl (l) + x j l ,
(2.2)
em que w jl representa o peso entre um neurnio l e o j-simo atributo de entrada

ou a sada do j-simo neurnio da camada anterior, l indica o erro associado ao
l-simo neurnio e x j indica a entrada recebida por esse neurnio (o j-simo atributo
de entrada ou a sada do j-simo neurnio da camada anterior).
O algoritmo continua as iteraes at que uma condio de parada seja alcanada.
Essa condio de parada pode ser nmero mximo de iteraes alcanado, erro
mnimo atingido ou a verificao de falha na convergncia da curva de erros do
treinamento. Este trabalho est utilizando a abordagem pelo nmero mximo de
iteraes alcanado.
Uma anlise mais completa da matemtica envolvida neste algoritmo pode ser
obtida em (HAYKIN, 2002) e tambm no trabalho de (CHAUVIN; RUMELHART, 1995).
O exemplo aqui exposto pode ser aplicado em um nmero qualquer de camadas,
desde que sejam compostas por neurnios com funes de ativao diferenciveis.
2.3.3
29
Redes com Funes de Base Radial
As RNAs do tipo Funo de Base Radial (Radial Basis Function, RBF), so redes
supervisionadas consideradas aproximadores universais, assim como a rede MLP. A
estrutura bsica de construo apresenta apenas uma camada intermediaria, mas
possvel a criao de redes neurais com mais camadas. Diferentemente da rede MLP,
que apresentam funes sigmides, as redes RBF utilizam, na camada intermediaria,
funes radiais, como por exemplo, a funo gaussiana. Essas redes so ferramentas
extremamente flexveis em um ambiente dinmico. Possuem alta capacidade de
aprendizado com padres complexos e tendncia para se adaptar rapidamente s
mudanas.
O aprendizado de uma rede RBF equivalente a ajustar uma superfcie no-linear
ao conjunto de dados, em um espaos multidimensional, de acordo com algum
critrio estatstico.
O processo de generalizao equivale a usar esta superfcie
multidimensional para interpolar outros pontos que no pertencem ao conjunto de

treino, mas estejam em sua vizinhana (CASTRO; CASTRO, 2011).
Cada camada de uma rede RBF pode ter qualquer nmero de neurnios. No
entanto, o excesso de neurnios pode levar ao overfitting 2 . J o baixo nmero de
neurnios pode levar a um custo temporal elevado (s vezes nunca chegando a um
resultado timo) e, tambm, pode ser muito influenciado pelos sinais aleatrios dos
pesos (HAYKIN, 2002). A primeira camada, cujos neurnios utilizam funes de base
radial, agrupa os dados de entrada em clusters. Esta responsvel por transformar
um conjunto de padres de entrada no-linearmente separveis em um conjunto de
sadas linearmente separveis. A camada de sada procura classificar os padres
recebidos de acordo com a camada anterior (CARVALHO; BRAGA; LUDERMIR,
2007).
Devido a linearidade das redes RBFs com apenas uma camada oculta, uma vez
fixados o nmero de neurnios, raio e centro, os pesos da camada de sada podem
ser determinados pelo mtodo dos mnimos quadrados (CERQUEIRA et al., 2001).
Funes radiais representam uma classe especial de funes cujo valor diminui
ou aumenta em relao distancia de um ponto central (CARVALHO; BRAGA;
LUDERMIR, 2007). Diferentes funes de base radiais tm sido utilizadas em redes
RBF. As mais comuns so:
2 Quando
o modelo se ajusta em demasiado ao conjunto de dados.
30
2
Funo gaussiana: (v) = exp( 2v 2 )

Funo multi-quadrtica: (v) =
p
(v2 + 2 )
Funo thin-plate-spline: (v) = v2 log(v)

onde v = kx k que dado pela distncia euclidiana entre o vetor de entrada x e
o centro da funo de base radial. O valor de est associado largura dessa
funo.
Uma rede RBF pode requerer mais neurnios do que a rede MLP treinada com
Backpropagation, mas na maioria das vezes elas so mais rpidas. Utilizando uma
arquitetura de duas camadas, uma no linear e outra linear, redes RBF so conhecidas
como excelentes aproximadores universais (FERNANDES, 2005).
A Tabela 1 faz uma comparao entre as redes RBF e MLP.
Tabela 1: Comparao de uma rede RBF tpica com uma rede MLP convencional
FONTE: (CARVALHO; BRAGA; LUDERMIR, 2007)
MLP
Pode ter uma ou mais camadas
intermediarias.
Neurnios das camadas intermediarias e
de sada tm funes semelhantes.
Entrada da funo de ativao o
produto interno dos vetores de
entrada e de pesos.
Melhor em problemas complexos
Constri aproximadores globais para
mapeamento entrada-sada.
2.3.4
RBF
Possui apenas uma camada
intermediaria.
Neurnios das camadas intermediarias
tm funes diferentes dos neurnios da
camada de sada.
Entrada da funo de ativao a
distancia euclidiana entre os vetores
de entrada e de pesos.
Melhor em problemas bem-definidos.
Constri aproximadores locais para
mapeamento entrada-sada.
Mquina de Aprendizado Extremo
Grande parte dos algoritmos para treinamento de redes neurais feedforward

baseada no mtodo do gradiente descendente.
Esses algoritmos, no entanto,
apresentam algumas limitaes, tais como sua facilidade de convergir para mnimos
locais e sua convergncia lenta. Outro inconveniente a necessidade de se definir
muitos parmetros, tais como taxa de aprendizado e momentum.
31
Em oposio ao que geralmente se encontra na maior parte das implementaes,

em que todos os parmetros das redes feedforward so ajustados, no obrigatrio
o ajuste dos pesos de entrada e dos biases da primeira camada escondida (HUANG;
ZHU; SIEW, 2006a). Inclusive alguns experimentos (HUANG; ZHU; SIEW, 2006b)
mostraram que a escolha aleatria desses parmetros torna o treinamento muito
mais rpido, assim como tambm produz boa generalizao. Tambm foi mostrado
em (HUANG, 2003; TAMURA; TATEISHI, 1997) que redes neurais feedforward de
apenas uma camada escondida, com N neurnios escondidos, e com pesos de
entrada e biases da camada escondida selecionados aleatoriamente, podem aprender
exatamente N padres de treinamento distintos.
Mquinas de Aprendizado Extremo (Extreme Learning Machine, ELM) (HUANG;
ZHU; SIEW, 2006a) podem ser uma opo mais eficiente do que os mtodos
tradicionais para treinamento de redes neurais de uma nica camada escondida
(single-hidden layer feedforward neural networks - SLFNs).
Diferentemente dos
mtodos tradicionais de treinamento, como o Backpropagation, na ELM os pesos de

entrada e os biases da camada escondida so escolhidos aleatoriamente e os pesos
de sada (aqueles entre a camada escondida e a camada de sada) so determinados
analiticamente. Assim, o treinamento com ELM bem mais rpido que os algoritmos
tradicionais. Segundo Huang, Zhu & Siew (2006a), o algoritmo ELM tambm capaz
de obter pesos de norma menor, e quanto menores as normas dos pesos, melhor
desempenho de generalizao a rede ter (BARTLETT, 1997). Dessa forma, a ELM
tende a ter uma boa capacidade de generalizao.
Treinamento de redes neurais ELM

Dados N exemplos de treinamento (x j , y j ), onde x j = [x j1 , x j2 , x j3 , . . . x jD ]| RD e
y j = [y j1 , y j2 , y j3 , . . . y jM ]| RM , uma rede neural feedforward com apenas uma camada
escondida e P neurnios escondidos pode ser representada matematicamente como
P
Bmi (w|i x j + bi) = om j , m = 1, 2, . . . , M
(2.3)
i=1
onde j = 1, 2, 3, . . . N, wi = [wi1 , wi2 , . . . , wiN ]| o vetor de pesos que conecta o i-simo

neurnio da camada escondida com os neurnios de entrada, Bm = [Bm1 , Bm2 , . . . , BmP ]|
o vetor de pesos que conecta o m-simo neurnio de sada com os neurnios
escondidos, bi o bias do i-simo neurnio escondido, e w|i x j o produto interno
32
entre wi e x j .
Para que as sadas da rede apresentada sejam iguais s sadas esperadas, ou
seja, que a rede apresente erro de treinamento zero, devem existir Bm , wi e bi tais que
P
Bmi (w|i x j + bi) = ym j .
(2.4)
i=1
Os algoritmos tradicionais de treinamento consistem na otimizao dos pesos de

entrada wi , dos pesos de sada Bi e dos biases bi , tais que a diferena entre a sada
obtida om j e a sada esperada ym j seja minimizada. A grande diferena do ELM
exatamente essa otimizao. Foi matematicamente provado (HUANG; ZHU; SIEW,
2006b) que os pesos wi e os biases bi podem ser aleatoriamente escolhidos no caso
de redes neurais feedforward de apenas uma camada e que utilizem funes de
ativao infinitamente diferenciveis. Dessa forma, no ELM os pesos wi e os biases
bi so escolhidos aleatoriamente e o treinamento se limita otimizao dos pesos de
sada Bmi .
A partir da atribuio aleatria dos pesos de entrada wi e dos biases bi , a proposta
de treinamento do ELM passa a ser a soluo B, pelo mtodo dos mnimos quadrados,
do sistema linear H| B = Y, onde
(w|1 x1 + b1 ) (w|P x1 + bP )
..
..
..
H=
.
.
.
|
|
(w1 xN + b1 ) (wP xN + bP )
(2.5)
NP
b|1

.
B = ..

b|P
(2.6)
PM
y|1

.
Y = ..

y|N
NM
(2.7)
33
A soluo dos mnimos quadrados dada por
B = H Y,
(2.8)
onde H a matriz inversa generalizada de Moore-Penrose (JENSEN; SRINIVASAN,

2004) da matriz H. Dessa forma, o ELM trata o processo de treinamento como
a resoluo de um sistema linear, determinando analiticamente os pesos de sada
atravs do clculo dessa matriz inversa generalizada da matriz de sadas da camada
escondida.
O processo de treinamento do ELM resumido e apresentado no Algoritmo 1.
Vemos que o algoritmo se resume os trs passos: (i) gerao aleatria dos pesos de
entrada e dos biases da camada escondida (linhas 1 a 3); (ii) clculo das sadas da
camada escondida (linha 5); e (iii) clculo da inversa de Moore-Penrose da matriz H
(linha 6).
Algoritmo 1 Algoritmo ELM
Entrada: Conjunto de treinamento N , funo de ativao (x) e nmero de
neurnios escondidos P.
1: para i 1, P fazer
2:
wi valor aleatrio;
3:
bi valor aleatrio;
4: fim para
5: Calcule a matriz de sadas da camada escondida H;
6: Calcule os pesos de sada B, onde B = H Y;
34
C APTULO 3
M QUINA
DE
A PRENDIZAGEM M NIMA
Este captulo mostra uma viso geral da Mquina de Aprendizagem Mnima

(Minimal Learning Machine, MLM). O mtodo formulado na seo 3.2. Os algoritmos
de treinamento e testes so mostrados na seo 3.3. A aplicao da Mquina de
Aprendizagem Mnima a problemas de classificao apresentada na seo 3.4. Por
ltimo, discutido sobre os parmetros da MLM e sua complexidade computacional
em 3.5.
3.1
Introduo
A Mquina de Aprendizagem Mnima (SOUZA JUNIOR et al., 2013) um mtodo

recentemente proposto para aprendizagem supervisionada. A ideia bsica por trs
do MLM a existncia de um mapeamento entre configuraes geomtricas dos
pontos no espao de entrada e sada.
Tal mapeamento pode ser reconstrudo
pela aprendizagem de um modelo de regresso linear multireposta entre distncias.

Sob estas condies, para um ponto de entrada com configurao conhecida no
espao de entrada, sua configurao correspondente no espao de sada pode
ser estimada depois de aprender um modelo linear simples entre matrizes de
distncia da entrada e sada. O resultado estimado ento usado para localizar
o ponto de sada e, assim, fornecer um estimativa para resposta.
Na sua
formulao bsica, o MLM se assemelha a um mtodo no-supervisionado clssico

de reduo de dimensionalidade, Multidimensional Scaling (MDS, (COX; COX, 2000)),
e mais especificamente suas variaes conhecidas como Landmark MDS (SILVA;
TENENBAUM, 2003), a principal diferena que a configurao de sada no MLM
conhecida previamente.
3.2 Formulao
3.2
35
Formulao
D
Dado um conjunto de N pontos de entrada X = {xi }N
i=1 , com xi R , e o conjunto
S
de sadas correspondes Y = {yi }N
i=1 , com yi R . Assumindo a existncia de um
mapeamento f : X Y entre o espao de entrada e sada, queremos estimar f a

partir dos dados com o modelo
(3.1)
Y = f(X) + R.
As colunas da matriz X correspondem s D entradas e as linhas s N observaes.

Igualmente, as colunas da matriz Y correspondem s S sadas, e as linhas s N
observaes. As colunas da matriz R correspondem aos vetores de resduo.
Dado que o espao de entrada X bem amostrado e f suave, espera-se que
para cada par de pontos de entrada (xi , x j ) e para todo y > 0, existe um x > 0 tal
que para d(xi , x j ) < x vale (f(xi )), (f(x j )) < y onde d(,) e d(,) so funes de
distncia em X e Y , respectivamente. Sob esta condio, precisa-se reconstruir
o mapeamento entre as matrizes de distncia de entrada Dx e as correspondentes
matrizes de distncia de sada y .
3.2.1
Regresso entre Distncias
Para uma seleo de pontos de entrada de referncia R = {mk }K

k=1 com R X e
NK de tal forma
correspondentes sadas T = {tk }K
k=1 com T Y , definido Dx R
que sua k-sima coluna contm as distncias d(xi , mk ) entre os xi , i = 1, . . . , N pontos

de entrada e o k-simo ponto de referncia mk . Analogamente, definido y RNK de
forma que sua k-sima coluna contm as distncias (yi , tk ) entre os pontos de sada
yi e a sada tk do k-simo ponto de referncia. O modelo de regresso multiresposta
associado para estimar g portanto
y = g(Dx ) + E,
(3.2)
onde as colunas da matriz Dx correspondem aos K vetores de entrada e as colunas

da matriz y correspondem aos K vetores de reposta.
correspondem aos K resduos.
As colunas da matriz E
3.2 Formulao
36
Assume-se que o mapeamento g entre distncias de entrada e sada linear,

ento o modelo de regresso multireposta entre as matrizes de distncia torna-se
y = Dx B + E.
(3.3)
As colunas da matriz de regresso B de dimenso K K correspondem aos

coeficientes para as K respostas. A matriz B pode ser estimada a partir dos dados
atravs da minimizao da soma dos quadrados dos resduos com a funo de custo:
K
RBS(B) =
( (yi, tk ) hk (d(xi, mk )))2
(3.4a)
k=1 i=1
y x B)| (
y Dx B))
= tr((
(3.4b)
Sob as condies normais onde o nmero de equaes em (3.3) maior do que

o nmero de incgnitas, o problema sobredeterminado e, geralmente, sem soluo.
Isto corresponde ao caso em que o nmero de pontos de referncia selecionada
menor que o nmero de pontos disponvel para resolver o modelo (e.g., K < N ) sendo
necessrio contar com a soluo fornecida pela estimativa dos mnimos quadrados:
b = (D|x Dx )1 D|x y .
B
(3.5)
Por outro lado, se na Equao 3.3 o nmero de equaes igual ao nmero de

incgnitas (i.e., todos os pontos de aprendizagem so tambm selecionados como
ponto de referncia e K = N), o problema unicamente determinado e, normalmente,
b = (Dx )1 y . Claramente, menos interessante o caso onde
com uma nica soluo B
em (3.3) o nmero de equaes menor que o nmero de incgnitas (i.e., para K > N,
corresponde situao onde, depois selecionar os pontos de referncia, apenas um
pequeno nmero de pontos de aprendizagem usado, por isso leva a um problema
subdeterminado com, normalmente, infinitas solues.
Dada a possibilidade de B ser exclusivamente resolvido ou estimado (Equao
3.5), para um ponto de teste x RD cujas distncias de K pontos de referncia {mk }K
k=1
so coletadas no vetor d(x, R) = [d(x, m1 ), . . . , d(x, mK )], as distncias correspondentes
entre a sada desconhecida y e as sadas conhecidas {tk }K
k=1 dos pontos de
3.2 Formulao
37
referncias so estimadas por
b
b (y, T ) = d(x, R)B.
(3.6)
O vetor b (y, T ) fornece uma estimativa da configurao geomtrica entre y e o

conjunto de pontos de referncia T , no espao-Y .
Figura 4: Procedimento para obter estimativa
3.2.2
Estimativa da sada
O problema de estimar a sada y, dada as sadas {tk }kk=1 para todos os pontos de
referncias e uma estimativa b (y, T ) das suas distncias mtuas, pode ser entendido
como um problema de multilaterao para estimar sua localizao em Y . O problema
de localizar y equivalente a resolver um conjunto sobredeterminado de equaes
no-lineares correspondentes a K hiper-esferas centradas em tk e passando por todo
y, isto , com um raio igual a b (y, t ):
k
(y tk )| (y tk ) = b2 (y, tk ), = 1, . . . , K.
(3.7)
O problema na Equao 3.7 pode ser formulado como um problema de otimizao

onde uma estimativa b
y pode ser obtida seguindo a minimizao:
K
0
b
y = arg min ((y tk ) (y tk ) b2 (y, tk ))2 .
(3.8)
k=1
O objetivo tem um mnimo igual a 0 que pode ser alcanado se, e somente se, y
3.3 Algoritmos de Treinamento e Teste
38
a soluo da Equao 3.7. Se existe, essa soluo global e nica.

Devido incerteza introduzida pelas estimativas b(y, tk ), uma soluo tima para
Equao 3.8 pode ainda ser alcanada usando o mtodo gradiente descendente ou o
algoritmo Levenberg-Marquardt. Este mtodos usado nos experimentos.
3.3
Algoritmos de Treinamento e Teste
Os mtodos MLM para treinar e testar so esboados no Algoritmo 2 e 3,

respectivamente.
Algoritmo 2 Algoritmo de Treinamento da MLM
Entrada: Conjunto de treinamento X , Y e K.
b ReT.
Sada: B,
1: Aleatoriamente selecione K pontos de referncia, R, de X e suas sadas
correspondentes, T , de Y ;
2: Calcule Dx : As matriz de distncia entre X e R;
3: Calcule y : As matriz de distncia entre Y e T ;
b = (D|x Dx )1 D|x y ;
4: Calcule B
Algoritmo 3 Algoritmo de Teste da MLM
b R, T e x.
Entrada: B,
Sada: b
y.
1: Calcule d(x,R);
b (y,T ) = d(x,R)B;
b
2: Calcule
b (y,T ) para encontrar uma estimativa para y. Isto pode ser conseguido
3: Use T e
por algum algoritmo de gradiente descendente sobre a funo custo na Equao
3.8;
3.4
Mquina
de
Classificao
Aprendizagem
Mnima
para
Uma importante classe de problemas classificao (ou reconhecimento de

padres), onde o objetivo predizer categorias, normalmente denotadas por sadas
qualitativas (ou rtulos de classe). Novamente, tem-se disponvel um conjunto de N
D
pontos de entrada X = {xi }N
i=1 , com xi R , e o conjunto dos rtulos correspondentes
L = {li }N
i=1 , com li {C1 , . . . ,CS }, onde C j denota a j-sima classe; para S = 2, o
3.4 Mquina de Aprendizagem Mnima para Classificao
39
problema dito ser classificao binria, enquanto para S > 2 tem-se classificao
multiclasse.
A Mquina de Aprendizagem Mnima pode ser estendida para problemas de
classificao de uma maneira direta representando as S classes de forma vetorial
atravs de um esquema binrio de codificao (1-de-S). Nessa abordagem, uma
varivel qualitativa com S smbolos representada por um vetor binrio de dimenso
S, dos quais somente uma componente ativa". Matematicamente, o conjunto de
S
sadas Y = {yi }N
i=1 , com yi R , em correspondncia aos pontos de entrada X ,
definida de tal forma que a j-sima componente de yi igual a se li = C j e caso

contrrio, onde e so inteiros com > . Uma escolha usual = 1 e = 1.
Na etapa de classificao de uma observao de teste x com rtulo de classe
desconhecido l {C1 , . . . ,CS }, a classe estimada l associada com o vetor de sada
estimado y pelo mtodo bsico da MLM dado por l = Cs , onde
s = arg max {y(s) }.
s=1,...,S.
3.4.1
(3.9)
Mquina de Aprendizagem Mnima com Vizinhos Mais

Prximos
A estratgia de encontrar a sada atravs do procedimento de otimizao pode

ser computacionalmente pesada".
Dessa forma, propomos neste trabalho uma
abordagem rpida para a etapa de estimao da sada. Uma forma alternativa para
computar a estimativa para a sada y baseada em V vizinhos mais prximos (nearest
neighbors). Nessa abordagem, uma vez que as distncias (y, T ) tenham sido
estimadas, pode-se utilizar as classes dos V pontos de referncias mais prximos
no espao de sada a y para estimar a classe do padro de teste l. Dentre as
possibilidades, a estratgia de voto majoritrio consiste em atribuir a moda das classes
dos V vizinhos mais prximos ao padro de teste. Neste trabalho, a rede MLM
com a abordagem dos vizinhos mais prximos ser referenciada pela sigla MLM-NN
(MLM-Nearest Neighbors).
3.5
40
Parmetros e Complexidade Computacional da

MLM
Hiperparmetros: Com base na descrio geral acima mencionada, o nmero dos

K pontos de referncia praticamente o nico hiperparmetro que o usurio precisa
selecionar a fim de otimizar a Mquina de Aprendizagem. Como usual, uma seleo
baseada em mtodos de reamostragem para validao cruzada poderia ser adotado
para a tarefa e assim, otimizar a MLM contra overfitting.
Duas figuras de mrito podem ser usados para selecionar K, uma para a fase de
regresso entre as distncias e outra para a estimativa da sada. Nesta trabalho, foi
utilizado a Average Mean Squared Error para distncias da sada ( AMSE( ) ) e para
as repostas ( AMSE(y) ):
AMSE( ) =
1 K 1 Nv
Nv ( (yi, tk ) b (yi, tk ))2)
K k=1
i=1
(3.10a)
1 S 1 Nt (s)
(s)
Nv (yi byi )2
S s=1
i=1
(3.10b)
AMSE(y) =
Para um conjunto de Nv pontos de validao (xi , yi ), o AMSE( ) quantifica quo

bem as distncias (yi , tk ) entre as Nv sadas de reposta yi e as sadas dos K pontos
de referncia selecionados tk so estimados b(yi , tk ), depois da etapa da regresso
de distncia da MLM e antes da estimativa da sada ser executada. O AMSE(y), por
outro lado, executado depois apenas que os passos de regresso de distncia e
de estimao do MLM so completados e, assim, ele quantifica quo bem as sadas
yi so estimadas b
yi . No caso das respostas univariadas (S = 1) o AMSE(y) reduz o
convencional Erro Quadrado Mdio (Mean Square Error ) para as sadas (MSE(y)).
Complexidade Computacional: A computao para a aprendizagem de uma MLM
pode ser decomposta em duas etapas: i) clculos dos pares das matrizes de distncia
no espao de sada e entrada ii) o clculo da soluo dos mnimos quadrados para o
problema de regresso linear multiresposta nas matrizes de distncia (Equao 3.5).
O primeiro procedimento (KN), ver (CORMEN et al., 2009) para uma reviso
de anlise assinttica. O custo computacional da segunda etapa dado pelo clculo
da matriz inversa de Moore-Penrose. Um dos mtodos mais utilizados para esta
tarefa a decomposio em valores singulares ou singular value decomposition
41
(SVD) (GOLUB; LOAN, 1996), que executa em tempo (K 2 N).
Este mtodo
muito preciso, mas sua desvantagem so as constantes de tempo computacional

que faz com que o mtodo demore. Vrios mtodos tm sido propostos a fim de
acelerar a computao da matriz da pseudo-inversa (por exemplo, ver (KATSIKIS;
PAPPAS; PETRALIAS, 2011), (COURRIEU, 2008)).
Em (KATSIKIS; PAPPAS;
PETRALIAS, 2011), a computao melhorada usando um tipo especial de produto

tensor e fatorao QR, enquanto que o mtodo proposto em (COURRIEU, 2008)
baseado em uma decomposio de Cholesky de rank completo. Apesar dessas
abordagens melhorarem significativamente o tempo computacional de computar a
matriz pseudo-inversa, a complexidade de tempo ainda igual ao fornecido pelo
mtodo SVD.
A complexidade de tempo da fase de treinamento da MLM determinada pela
computao da matrix pseudo-inversa e dada por (K 2 N). A fim de estabelecer
uma comparao, o custo computacional do treinamento da MLM semelhante
do ELM, quando o nmero de neurnios escondidos igual ao nmero de pontos de
referncia. importante frisar que a ELM considerado um dos mtodos mais rpidos
para regresso no-linear e tarefas de classificao (MICHE et al., 2010).
Em relao anlise computacional da etapa de generalizao no MLM, foi
considerado o mtodo Levenberg-Marquardt, devido sua convergncia rpida e
estvel, apesar de qualquer mtodo de gradiente pode ser utilizado no passo de
minimizao na Equao 3.8. Para cada iterao, o mtodo LM implica na computao
da matriz Jacobiana e suas inversas. Desta forma, a complexidade computacional do
algoritmo LM aproximadamente (S3 ), onde S a dimensionalidade de y. Na maioria
dos problemas de classificao e regresso, S um nmero pequeno e, portanto, a
avaliao da funo de custo (Eq. 3.8) a operao mais exigente em termos
computacionais e proporcional ao nmero de pontos de referncia.
42
C APTULO 4
M ETODOLOGIA
Este captulo apresenta em sua primeira subseo a descrio da base de dados.
A Seo 4.2 mostra a modelagem realizada nos dados para a tarefa de classificao.
Em seguida, abordado o critrio de seleo de parmetros na Seco 4.3. Por fim,
a validao cruzada e a mtrica utilizada so tratadas na Seo 4.4.
4.1
Base de Dados
Os experimentos dessa monografia foram realizados com a base de dados Human

Activity Recognition Using Smartphones (Reconhecimento de Atividades Humanas
Usando Smartphones) do repositrio UCI (ANGUITA et al., 2012).
Anguita et al. (2012) produziram o experimento com um grupo de 30 voluntrios
dentro de uma faixa etria entre 19 e 48 anos. Cada pessoa realizou seis atividades
(caminhando, subindo escada, descendo escada, sentado, em p e deitado) usando
um smartphone (Samsung Galaxy S II) na cintura.
Atravs do acelermetro e
giroscpio presentes no dispositivo, foram capturados acelerao linear em 3-eixos

e velocidade angular em 3-eixos a uma taxa constante de 50Hz.
O conjunto de dados obtidos foi particionado aleatoriamente em dois conjuntos,
em que 70% dos voluntrios foram selecionados para gerar os dados de treino e 30%
os dados de teste. Cada amostra possui 561 atributos.
Os sinais dos sensores (acelermetros e giroscpio) foram pr-processadas pela
aplicao de filtros de rudo e, em seguida, amostrados em janelas deslizantes de
largura fixa de 2,56seg e 50% de sobreposio (128 leituras/janela).
O sinal do
sensor de acelerao, que tm componentes gravitacionais e movimento do corpo,

foi separado atravs de um filtro passa-baixa Butterworth em acelerao do corpo e
da gravidade. A fora gravitacional assumida ter apenas componentes de baixa
frequncia, por isso foi usado um filtro com freqncia de corte de 0,3Hz. A partir de
4.2 Modelagem dos Dados para Classificao
43
cada janela, um vetor de caractersticas foi obtido por clculo de variveis de domnio
do tempo e frequncia:
1. tBodyAcc-XYZ
10. tBodyGyroJerkMag
2. tGravityAcc-XYZ
11. fBodyAcc-XYZ
3. tBodyAccJerk-XYZ
12. fBodyAccJerk-XYZ
4. tBodyGyro-XYZ
13. fBodyGyro-XYZ
5. tBodyGyroJerk-XYZ
14. fBodyAccMag
6. tBodyAccMag
7. tGravityAccMag
15. fBodyAccJerkMag
8. tBodyAccJerkMag
16. fBodyGyroMag
9. tBodyGyroMag
17. fBodyGyroJerkMag
A Tabela 2 mostra o conjunto de variveis que foram estimadas destes sinais.

Os vetores adicionais obtido pelo calculo da mdia dos sinais em uma amostra de
sinal de janela so listados abaixo. Eles so usados na varivel angle:
1. gravityMean
2. tBodyAccMean
3. tBodyAccJerkMean
4. tBodyGyroMean
5. tBodyGyroJerkMean
4.2
Modelagem dos Dados para Classificao
A classificao dos mtodos implementados feita como o vencedor leva tudo.

Nessa tipo de classificao, o neurnio com maior valor da sua funo de ativao
assume o valor 1 e os demais recebem 0 (MILLER; WERBOS; SUTTON, 1995). Para
atender a essa forma de classificao, as classes foram modeladas como mostrado
na Tabela 3.
4.3 Seleo de Parmetros
Varivel
mean
std
mad
max
min
sma
energy
iqr
entropy
arCoeff
correlation
maxInds
meanFreq
skewness
kurtosis
bandsEnergy
angle
44
Descrio
Valor mdio
Desvio padro
Desvio absoluto mdio
Maior valor no vetor
Menor valor no vetor
rea de magnitude do sinal
Medida de energia, soma dos quadrados
dividido pelo nmero de valores
Intervalo interquartil
Sinal entropia
Coeficientes de auto-regresso com ordem
Burg igual a 4
Coeficiente de correlao entre dois sinais
ndice do componente de frequncia com
maior magnitude
Mdia ponderada das componentes de freqncia
para obter uma frequncia mdia
Assimetria do sinal no domnio da frequncia
Curtose do sinal no domnio da frequncia
Energia de um intervalo de frequncia dentro de
64 bins de cada janela FFT
Angulo entre os vetores
Tabela 2: Variveis estimadas.
4.3
Seleo de Parmetros
Os experimentos foram realizados com todos os atributos do conjunto de dados,

assim como, os de tempo e frequncia, separadamente.
As combinaes de hiperparmetros geradas para cada mtodo foram avaliadas
atravs da validao cruzada. Utilizou-se uma camada oculta nas redes neurais
artificiais MLP, ELM e RBF mudando o nmero de neurnios. A funo sigmide
logstica foi escolhida como funo de ativao para o MLP e ELM. O RBF foi
implementado com a funo de base radial do tipo gaussiana. A MLM foi testada
variando os K pontos de referncia e com duas medidas de distncia, euclidiana e a
Manhattan.
4.4 Avaliao de desempenho
Classe
Caminhando
Subindo Escada
Descendo Escada
Sentado
Em p
Deitado
45
Representao
100000
010000
001000
000100
000010
000001
Tabela 3: Modelagem das Classes
4.3.1
Distncias
A distncia euclidiana entre os pontos p = (p1 , p2 , . . . , pN ) e q = (q1 , q2 , . . . , qN ), num

espao euclidiano N-dimensional, definida pela Equao 4.3.1.
q
d(p, q) = (p1 q1 )2 + (p2 q2 )2 + . . . + (pN qN )2 =
(pi qi)2.
(4.1)
i=1
A distancia Manhattan, tambm conhecida como City Block emprega a soma das
diferenas absolutas das variveis (isto , os dois lados de um tringulo retngulo
em vez da hipotenusa). Este procedimento o mais simples de calcular, mas pode
conduzir a agrupamentos invlidos se as variveis forem altamente correlacionadas.
Essa distncia dada pela equao 4.3.1.
d(p, q) = |p1 q1 | + |p2 q2 | + . . . |pN qN |.
4.4
4.4.1
(4.2)
Avaliao de desempenho
Validao Cruzada
A validao cruzada um mtodo estatstico para avaliao e comparao de

algoritmos de aprendizado de mquina que divide os dados em dois conjuntos
distintos: um para o treinamento e outro para testar o modelo (STONE, 1974).
O mtodo mais comum para validao cruzada o denominado k-fold, onde os
dados so divididos em k segmentos (folds). Em seguida so feitas k iteraes de
4.4 Avaliao de desempenho
46
treino, utilizando k 1 folds para o treinamento e o fold restante para o teste do modelo.
A Figura 5 mostra um exemplo da validao cruzada.
Figura 5: Exemplo de Validao Cruzada.
Para esse trabalho foi decidido utilizar 10 folds, por ser uma quantidade que
fornece uma boa estimativa e comumente utilizada para validao de algoritmos
de aprendizado de mquina (STONE, 1974).
4.4.2
Mtrica
A mtrica escolhida para mensurar o desempenho da rede o erro de

classificao. Essa mtrica calculada somando-se o total de amostras erroneamente
classificadas Ne e dividindo pelo total de amostras Nt .
Ec =
Ne
.
Nt
(4.3)
47
C APTULO 5
R ESULTADOS E XPERIMENTAIS
Os resultados do trabalho so analisados neste captulo. A seo 5.1 mostra os
intervalos de hiperparmetros escolhidos para cada mtodo. Os erros de classificao
ocorridos na validao cruzada so apresentados na seo 5.2. Por fim, feita a
comparao entre os mtodos na seo 5.3.
5.1
Hiperparmetros Escolhidos
Durante os experimentos, foram observados alguns limites de hiperparmetros

que exerciam influncia nos modelos. A Tabela 4 mostra a sequncia de neurnios
da camada oculta escolhida para as RNAs.
A abordagem de usar um nmero
maior de neurnios na ELM comum na literatura. O MLP foi testado com taxa de
aprendizagem igual a 0.1 e 100 iteraes. Para o RBF, foram escolhidos 4 valores
de gama (1, 0.1, 0.01, 0.001). A MLM foi verificada com as distncias euclidiana e
Manhattan variando os K pontos de referncia com porcentagens dos dados de
treinamento (10%, 20%, 30%, . . . , 90%, 100%). A MLM-NN foi testada com a distncia
euclidiana variando os K pontos de referncia.
Mtodos
MLP
ELM
RBF
Nmero de Neurnios
10 : 50 : 960
300 : 50 : 2500
10 : 50 : 960
Tabela 4: A segunda coluna mostra o nicio, variao e fim para uma sequncia de neurnios.
Os testes acima foram executados 10 vezes com atributos no domnio do tempo,

da frequncia e por ambos.
5.2 Resultados Individuais
5.2
48
Resultados Individuais
As Figuras 6, 7 e 8 apresentam a relao entre o nmero de neurnios na camada

oculta das RNAs e o erro durante a validao cruzada.
Como pode ser observado no grfico da Figura 6, o erro de classificao foi maior
utilizando somente os dados de frequncia na ELM.
ELM
0.11
Todos
Frequncia
Tempo
0.1
Erro de classificao
0.09
0.08
0.07
0.06
0.05
0.04
500
1000
1500
Quantidade de neurnios da camada oculta
2000
2500
Figura 6: Erro pelo nmero nmero de neurnios da camada oculta na ELM.
Na rede RBF, os atributos de frequncia tambm tiveram o maior erro. A Figura

7 expe que a taxa de erro utilizando todos os atributos e somente os de tempo foi
prxima. O valor do gama encontrado atravs da validao cruzada foi 0.01.
A Figura 8 mostra que os erros de classificao foram prximos no MLP para as
trs situaes. Porm, com os atributos de frequncia o erro foi maior.
As Figuras 10, 9 e 11 mostram a relao entre os K pontos de referncias e o
erro de classificao durante a validao cruzada para as MLMs. A MLM-E utiliza a
distncia euclidiana e a MLM-M de Manhattan. Nas trs situaes os erros diminuram
com o aumento do K.
Como pode ser observado na Figura 9, a MLM-M teve o maior percentual de erro
entre as MLMs utilizando os atributos de tempo. A MLM-NN apresentou o melhor
resultado.
49
0.14
Todos
Frequncia
Tempo
0.12
Erro de classificao
0.1
0.08
0.06
0.04
0.02
100
200
300
400
500
600
700
800
900
1000
Figura 7: Erro pelo nmero nmero de neurnios da camada oculta no RBF.
MLP
0.7
Todos
Frequncia
Tempo
0.6
Erro de classificao
0.5
0.4
0.3
0.2
0.1
100
200
300
400
500
600
700
800
900
1000
Figura 8: Erro pelo nmero nmero de neurnios da camada oculta no MLP.
A Figura 10 mostra o erro de classificao com atributos de frequncia. Nesta

situao, as MLMs obtiveram a maior taxa de erro que foi igual a 8,7%.
No grfico da Figura 11, exposto o erro de classificao encontrado na validao
cruzada utilizando todos os atributos. Nesta abordagem, a mdia do erros das MLM
50
MLMs com atributos de tempo
0.07
MLMM
MLME
MLMNN
Erro de Classificao
0.06
0.05
0.04
0.03
0.02
0.01
1000
2000
3000
4000
5000
6000
7000
8000
Figura 9: Erro pelo nmero de pontos de referncia com atributos no domnio do tempo.
MLMs com atributos de frequncia

0.09
MLMM
MLME
MLMNN
0.08
Erro de Classificao
0.07
0.06
0.05
0.04
0.03
0.02
1000
2000
3000
4000
5000
6000
7000
8000
Figura 10: Erro pelo nmero de pontos de referncia com atributos no domnio da frequncia.
foi menor.
Atravs dos grficos anteriores, foi possvel observar que a MLM com distncia
Manhattan teve o maior erro de classificao durante a validao cruzada.
contrapartida, a MLM-NN errou menos.
Em
5.3 Comparao entre os experimentos
51
MLMs com todos atributos

0.065
MLMM
MLME
MLMNN
0.06
0.055
Erro de Classificao
0.05
0.045
0.04
0.035
0.03
0.025
0.02
0.015
1000
2000
3000
4000
5000
6000
7000
8000
Figura 11: Erro pelo nmero de pontos de referncia com todos atributos.
5.3
Comparao entre os experimentos
A Tabela 5 mostra os resultados das simulaes utilizando os atributos de tempo.

A MLM, com distncia euclidiana, teve o maior percentual de acerto. A MLM-NN teve
a mesma taxa de acerto e o desvio padro foi igual a 0. Este resultado esperado,
pois a validao cruzada tende a escolher o maior valor de K e o teste na MLM-NN
consiste em pegar a moda dos pontos de referencia. As redes RBF e ELM ficaram
prximas da MLM-E. O MLP teve o pior desempenho.
ELM
RBF
MLP
MLM-E
MLM-M
MLM-NN
Mdia
0.9425
0.9629
0.9080
0.9676
0.9528
0.9654
Desvio Padro
6.800 103
3.400 103
5.600 103
3.800 103
2.700 103
0
Tabela 5: Taxa mdia de acerto e desvio padro com atributos no domnio do tempo.
O resultado com os atributos de frequncia mostrado na Tabela 6. Como pode

ser visualizado, a escolha dessa abordagem fez com que a taxa mdia de acerto
dos mtodos diminusse.
A MLM com distncia euclidiana continuou com maior
percentual. Uma observao importante o desvio padro da MLM-NN que passou a
52
ser diferente de 0, mas continuou pequeno. O desempenho do MLP ficou ainda pior.
A RBF continuou com a taxa de acerto prxima da MLM-E.
ELM
RBF
MLP
MLM-E
MLM-M
MLM-NN
Mdia
0.9209
0.9532
0.8889
0.9541
0.9339
0.9535
Desvio Padro
2.600 103
8.700 103
1.700 102
5.900 103
5.700 103
2.341 1016
Tabela 6: Taxa mdia de acerto e desvio padro com atributos no domnio da frequncia.
Por ltimo, feito a anlise com todos os atributos do conjunto de dados na Tabela
7. Com essa abordagem, a MLM-NN teve a maior taxa de acerto. Com exceo
dessa mudana, as relaes entre os mtodos e os resultados, vistos anteriormente,
permaneceram.
ELM
RBF
MLP
MLM-E
MLM-M
MLM-NN
Mdia
0.9369
0.9658
0.9027
0.9683
0.9617
0.9715
Desvio Padro
7.500 103
3.200 103
1.940 102
7.800 103
3.500 103
1.170 1016
Tabela 7: Taxa mdia de acerto e desvio padro utilizando todos os atributos.
Conforme os resultados anteriores, os mtodos tiveram uma boa taxa de acerto

nos trs grupos de problema. No entanto, o uso de todos os atributos do conjunto de
dados levou ao menor erro de classificao. A MLM com distncia euclidiana obteve
a melhor performance na maioria dos experimentos. importante ressaltar que, a
MLM-NN, mesmo no atingido a maior taxa de acerto com uso dos atributos de tempo
e frequncia, separadamente, tiveram o menor tempo durante os testes em relao as
outras MLMs. O MLP demorou mais durantes os teste, alm de ter acertado menos.
Os resultados dos experimentos foram representados, tambm, atravs dos
grficos boxplot (Figuras 12, 13 e 14). possvel observar que todos os valores da
MLM-NN esto bastante prximos.
A MLM com distncia Manhattan e a ELM tiveram alguns valores discrepantes
(outliers) durante as dez realizaes utilizando os atributos de frequncia (Figura 13).
53
0.97
Taxa de Acerto
0.96
0.95
0.94
0.93
0.92
0.91
MLP
RBF
ELM
MLMNN
MLMM
MLME
0.9
Mtodos
Figura 12: Taxa mdia de acerto com atributos no domnio do tempo.
0.96
Taxa de Acerto
0.94
0.92
0.9
0.88
MLP
RBF
ELM
MLMNN
MLMM
MLME
0.86
Mtodos
Figura 13: Taxa mdia de acerto com atributos no domnio da frequncia.
O uso de todos atributos fez com que o MLP apresentasse valores discrepantes
nos testes (14).
Atravs dessa anlise, foi possvel ver o desempenho de mtodos conhecidos na
literatura para a tarefa de reconhecimento de atividades. A MLM e suas variaes
54
0.98
0.96
Taxa de Acerto
0.94
0.92
0.9
0.88
MLP
RBF
ELM
MLMNN
MLMM
MLME
0.86
Mtodos
Figura 14: Taxa mdia de acerto com todos os atributos.
obtiveram boa performance no geral.
55
C APTULO 6
C ONSIDERAES F INAIS
Esse trabalho se props a analisar o uso da Mquina de Aprendizagem Minima
(MLM) para a classificao de atividades humanas com dados provenientes de
aparelhos mveis, bem como comparar o desempenho da MLM com mtodos
tradicionais em aprendizagem de mquina, mais especificamente redes neurais. Alm
disso, foram propostas e testadas variantes da rede MLM: i) utilizao da mtrica de
distncia Manhatan; ii) Utilizao da ideia de computar a sada da rede MLM com
base nas classes dos vizinhos mais prximos, tornando assim o teste da MLM mais
rpido.
Os resultados foram ilustrados em uma base de dados adquirida a partir do
repositrio UCI Machine Learning, e os experimentos conduzidos na tarefa de
classificao. Foram realizados experimentos variando-se os hiperparmetros de
cada algoritmo, tais como nmero de neurnios na camada oculta e valores da taxa
de aprendizagem (no caso da rede MLP). Alm disso, foi avaliada a relevncia da
utilizao de atributos no domnio do tempo e frequncia na tarefa de reconhecimento
de atividades.
Constatou-se que atributos no domnio do tempo foram mais
importantes como discriminantes que os correspondentes no domnio da frequncia.

Conjuntamente, podem fazer diferena, como mostrado na taxa de acerto com ambos
os atributos no tempo e frequncia.
Com relao ao estudo comparativo entre algoritmos, foi constatado que, no
geral, a MLM atingiu as maiores taxas de acerto. O desempenho alcanado pela
rede RBF com seleo aleatria dos centros a partir dos dados, produz resultados
bem prximos ou equivalentes aos alcanados pela rede MLM. Por fim, resultados
obtidos com o uso da distncia Manhatan foram levemente inferiores aos obtidos com
distncia euclidiana, e o uso da rede MLM-NN apresentou resultados promissores,
principalmente considerando o aumento da velocidade na etapa de teste.
6.1 Trabalhos Futuros
6.1
56
Trabalhos Futuros
Para uma melhoria e continuidade do trabalho de aplicao da Mquina de

Aprendizagem Mnima no reconhecimento de atividades humanas, podemos citar:
1. Utilizao de outras mtricas de distncias, tais como distncia Mahalanobis;
2. Uso de outras bases de dados para validao;
3. Formalizar um problema de otimizao para o uso da norma L1 .
57
ALLEN, Felicity R; AMBIKAIRAJAH, Eliathamby; LOVELL, Nigel H; CELLER,
Branko G. Classification of a known sequence of motions and postures from
accelerometry data using adapted gaussian mixture models. Physiological
Measurement, v. 27, 2006.
ANGUITA, Davide; GHIO, Alessandro; ONETO, Luca; PARRA, Xavier;
REYES-ORTIZ, Jorge L. Human activity recognition on smartphones using a
multiclass hardware-friendly support vector machine. In: Proceedings of the 4th
International Conference on Ambient Assisted Living and Home Care. [S.l.]:
Springer-Verlag, 2012.
BADIUS, J.; TRECHSEL, J.; PENNSYLVANIA), Incunable Collection (University of.
Quaestiones et decisiones in quattuor libros Sententiarum Petri Lombardi:
Centilogium theologicum. [S.l.]: Johannes Trechsel, 1495.
BAO, Ling; INTILLE, StephenS. Activity recognition from user-annotated acceleration
data. In: FERSCHA, Alois; MATTERN, Friedemann (Ed.). Pervasive Computing.
[S.l.]: Springer Berlin Heidelberg, 2004, (Lecture Notes in Computer Science).
BARTLETT, Peter L. The Sample Complexity of Pattern Classification With Neural
Networks: The Size of the Weights is More Important Than the Size of the
Network. 1997.
BATISTA, Gustavo Enrique de Almeida Prado Alves. Pr-processamento de dados
em aprendizado de mquina supervisionado. Tese (Doutorado) Tese de
Doutorado-Instituto de Cincias, 2003.
BEALE, Russell; JACKSON, Tom. Neural computing : an introduction. Bristol,
Philadelphia, New York: A. Hilger, 1990.
CARVALHO, Andr Carlos P.L.F. de; BRAGA, Antnio P.; LUDERMIR,
Teresa Bernarda. Redes Neurais Artificiais: Teoria e aplicaes. [S.l.]: LTC
Editora, 2007.
CASTRO, Fernando Csar; CASTRO, Maria Cristina F. de.
. Multilayer Perceptron. [s.n.], 2011. Disponvel em:
In:
<http://www.feng.pucrs.br/decastro/pdf/RNA C4.pdf>. Acesso em: 8 nov.
2014.
CERQUEIRA, Eduardo O. de; ANDRADE, Joo C. de; POPPI, Ronei J.; MELLO,
Cesar. Redes neurais e suas aplicaes em calibrao multivariada. Qumica Nova,
scielo, v. 24, 2001.
58
CHAUVIN, Yves; RUMELHART, David E. (Ed.). Backpropagation: Theory,

Architectures, and Applications. [S.l.]: L. Erlbaum Associates Inc., 1995.
CORMEN, Thomas H.; STEIN, Clifford; RIVEST, Ronald L.; LEISERSON, Charles E.
Introduction to Algorithms. 3nd. ed. [S.l.]: The MIT Press, 2009.
COURRIEU, Pierre. Fast computation of moore-penrose inverse matrices. CoRR,
2008.
COX, Trevor F.; COX, M.A.A. Multidimensional Scaling, Second Edition. 2. ed.
[S.l.]: Chapman and Hall/CRC, 2000.
CRIMMINS, F. A. Genetic algorithm for clustering point sets. 2001.
EKHOLM J., Fabre; S. Forecast: Mobile data traffic and revenue, worldwide. In:
Gartner Mobile Communications Worldwide. [S.l.: s.n.], 2011.
FERNANDES, Anita Maria Da Rocha. Inteligncia artificial: noes gerais. [S.l.]:
Visual Books, 2005.
GOLUB, Gene H.; LOAN, Charles F. Van. Matrix Computations (3rd Ed.). [S.l.]:
Johns Hopkins University Press, 1996.
HAYKIN, SIMON S. Redes Neurais: Princpios e Prticas. 2. ed. [S.l.]: Bookman
Companhia ED, 2002.
HUANG, Guang-Bin. Learning capability and storage capacity of two-hidden-layer
feedforward networks. Trans. Neur. Netw., IEEE Press, 2003.
HUANG, Guang-Bin; ZHU, Qin-Yu; SIEW, Chee-Kheong. Extreme learning machine:
Theory and applications. Neurocomputing, v. 70, p. 489501, 2006.
HUANG, Guang-Bin; ZHU, Qin-Yu; SIEW, Chee-Kheong. Real-time learning capability
of neural networks. Trans. Neur. Netw., IEEE Press, v. 17, 2006.
HUYNH, Tm; BLANKE, Ulf; SCHIELE, Bernt. Scalable recognition of daily activities
with wearable sensors. In: Proc. LOCA. [S.l.]: Springer Berlin Heidelberg, 2007.
JENSEN, D.R; SRINIVASAN, S.S. Matrix equivalence classes with applications.
Linear Algebra and its Applications, 2004. Tenth Special Issue (Part 1) on Linear
Algebra and Statistics.
KASABOV, Nikola K. Foundations of Neural Networks, Fuzzy Systems, and
Knowledge Engineering. 1st. ed. Cambridge, MA, USA: MIT Press, 1996.
KATSIKIS, Vasilios N.; PAPPAS, Dimitrios; PETRALIAS, Athanassios. An improved
method for the computation of the moore-penrose inverse matrix. Applied
Mathematics and Computation, 2011.
LESTER, Jonathan; CHOUDHURY, Tanzeem; BORRIELLO, Gaetano. A practical
approach to recognizing physical activities. In: Proc. of Pervasive. [S.l.: s.n.], 2006.
LIN, Donald Patterson; LIAO, Lin; FOX, Dieter; KAUTZ, Henry. Inferring high-level
behavior from low-level sensors. In: . [S.l.: s.n.], 2003. p. 7389.
59
MCCULLOCH, WarrenS.; PITTS, Walter. A logical calculus of the ideas immanent

in nervous activity. The bulletin of mathematical biophysics, Kluwer Academic
Publishers, v. 5, p. 115133, 1943.
MICHE, Yoan; SORJAMAA, Antti; BAS, Patrick; SIMULA, Olli; JUTTEN, Christian;
LENDASSE, Amaury. Op-elm: optimally pruned extreme learning machine. IEEE
Transactions on Neural Networks, v. 21, 2010.
MILLER, W.T.; WERBOS, P.J.; SUTTON, R.S. Neural Networks for Control. [S.l.]:
MIT Press, 1995.
MITCHELL, Thomas M. Machine Learning. 1. ed. [S.l.]: McGraw-Hill, Inc., 1997.
MONARD, Maria Carolina; ALVES, Gustavo Enrique de Almeida Prado; KAWAMOTO,
Sandra; PUGLIESI, Jaqueline Brigladori. Uma introduao ao aprendizado
simblico de mquina por exemplos. [S.l.]: ICMSC-USP, 1997.
OFSTAD, Andrew; NICHOLAS, Emmett; SZCODRONSKI, Rick; CHOUDHURY,
Romit Roy. Aampl: Accelerometer augmented mobile phone localization. In: in ACM
MELT. [S.l.: s.n.], 2008.
PEGORARO, Ren. Agilizando Aprendizagem por Reforo em Robtica Mvel
Atravs do Uso de Conhecimento Sobre o Domnio. Tese (Doutorado)
Universidade de So Paulo, 2001.
RAVI, Nishkam; D, Nikhil; MYSORE, Preetham; LITTMAN, Michael L. Activity
recognition from accelerometer data. In: In Proceedings of the Seventeenth
Conference on Innovative Applications of Artificial Intelligence(IAAI. [S.l.]: AAAI
Press, 2005. p. 15411546.
RUMELHART, David E.; HINTON, Geoffrey E.; WILLIAMS, Ronald J. Neurocomputing:
Foundations of research. In: ANDERSON, James A.; ROSENFELD, Edward (Ed.).
Cambridge, MA, USA: MIT Press, 1988. cap. Learning Representations by
Back-propagating Errors.
RUSSELL, Stuart; NORVIG, Peter. Inteligncia Artificial um enfoque Moderno.
2nd. ed. [S.l.]: Pearson Education, 2004.
SILVA, Vin De; TENENBAUM, Joshua B. Global versus local methods in nonlinear
dimensionality reduction. In: Advances in Neural Information Processing Systems
15. [S.l.]: MIT Press, 2003.
SOUZA JUNIOR, A. H.; CORONA, F.; MICH, Y.; LENDASSE, A.; BARRETO, G.;
SIMULA, O. Minimal learning machine: A new distance-based method for supervised
learning. In: Proceedings of the 12th International Work Conference on Artificial
Neural Networks (IWANN2013). [S.l.]: Springer, 2013. (Lecture Notes in Computer
Science, v. 7902), p. 408416.
STONE, M. Cross-validatory choice and assessment of statistical predictions. Roy.
Stat. Soc., v. 36, p. 111147, 1974.
60
TAMURA, Shinichi; TATEISHI, Masahiko. Capabilities of a four-layered feedforward

neural network: four layers versus three. IEEE Transactions on Neural Networks,
1997.
VALENA, M. J. Fundamentos das Redes Neurais: exemplos em Java. Olinda,
Pernambuco: Editora Livro Rpido, 2010.
WEISS, Sholom M.; KULIKOWSKI, Casimir A. Computer Systems That Learn:
Classification and Prediction Methods from Statistics, Neural Nets, Machine
Learning, and Expert Systems. [S.l.]: Morgan Kaufmann Publishers Inc., 1991.

Modelo Monografia

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Modelo Monografia

Загружено:

Авторское право:

Доступные форматы

INSTITUTO FEDERAL DE EDUCAO, CINCIA E TECNOLOGIA

LEANDRO BEZERRA MARINHO

MQUINA DE APRENDIZAGEM MNIMA APLICADA AO

LEANDRO BEZERRA MARINHO

MQUINA DE APRENDIZAGEM MNIMA APLICADA

Amauri Holanda de Souza

INSTITUTO FEDERLA DE EDUCAO, CINCIA E TECNOLOGIA DO CEAR

Leandro Bezerra Marinho

Prof. Dr. Amauri Holanda de Souza Jnior

Prof. Dr. Joo Paulo Pordeus Gomes

Prof. Dr. Ajalmar Rego da Rocha Neto

Prof. M.Sc. Adriano Tavares de Freitas

A tarefa no tanto ver aquilo que ningum viu, mas

The data for the experiments were purchased from the

1.3 Estrutura da monografia . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Aprendizado Indutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . .

2.2.2 Aprendizado No-supervisionado . . . . . . . . . . . . . . . . .

2.2.3 Aprendizado Por Reforo . . . . . . . . . . . . . . . . . . . . . .

2.3 Redes Neurais Artificias . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3.1 Breve Histrico das Redes Neurais . . . . . . . . . . . . . . . . .

2.3.2 Perceptron de Mltiplas Camadas . . . . . . . . . . . . . . . . .

2.3.3 Redes com Funes de Base Radial . . . . . . . . . . . . . . . .

2.3.4 Mquina de Aprendizado Extremo . . . . . . . . . . . . . . . . .

3 Mquina de Aprendizagem Mnima

3.2.1 Regresso entre Distncias . . . . . . . . . . . . . . . . . . . . .

3.2.2 Estimativa da sada . . . . . . . . . . . . . . . . . . . . . . . . .

3.3 Algoritmos de Treinamento e Teste . . . . . . . . . . . . . . . . . . . . .

3.4 Mquina de Aprendizagem Mnima para Classificao . . . . . . . . . .

3.4.1 Mquina de Aprendizagem Mnima com Vizinhos Mais Prximos

3.5 Parmetros e Complexidade Computacional da MLM

4.1 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Modelagem dos Dados para Classificao . . . . . . . . . . . . . . . . .

4.3 Seleo de Parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4 Avaliao de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4.1 Validao Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1 Hiperparmetros Escolhidos . . . . . . . . . . . . . . . . . . . . . . . .

5.2 Resultados Individuais . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.3 Comparao entre os experimentos . . . . . . . . . . . . . . . . . . . .

6.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Aprendizado por reforo. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Modelo esquemtico de uma rede MLP com duas camadas

Grfico da funo logstica binria para o domnio [-3, 3]. . . . . . . . .

Procedimento para obter estimativa . . . . . . . . . . . . . . . . . . . .

Exemplo de Validao Cruzada. . . . . . . . . . . . . . . . . . . . . . .

Erro pelo nmero nmero de neurnios da camada oculta na ELM. . . .

Erro pelo nmero nmero de neurnios da camada oculta no RBF. . . .

Erro pelo nmero nmero de neurnios da camada oculta no MLP. . . .

Erro pelo nmero de pontos de referncia com atributos no domnio do

Erro pelo nmero de pontos de referncia com atributos no domnio da

Erro pelo nmero de pontos de referncia com todos atributos. . . . . .

Taxa mdia de acerto com atributos no domnio do tempo.

Taxa mdia de acerto com atributos no domnio da frequncia. . . . . .

Taxa mdia de acerto com todos os atributos. . . . . . . . . . . . . . . .

Modelagem das Classes . . . . . . . . . . . . . . . . . . . . . . . . . . .

A segunda coluna mostra o nicio, variao e fim para uma sequncia

Taxa mdia de acerto e desvio padro com atributos no domnio do tempo. 51

Taxa mdia de acerto e desvio padro com atributos no domnio da

Taxa mdia de acerto e desvio padro utilizando todos os atributos. . .

conjunto dos nmeros reais

Redes Neurais Artificiais

Minimal Learning Machine

Multi Layer Perceptron

Extreme Learning Machine