Вы находитесь на странице: 1из 7

Modalidade do trabalho: Relatrio tcnico-cientfico

Evento: XIX Jornada de Pesquisa





APLICAO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO
PARMETRO ALPHA
1


Darlinton Prauchner
2
, Rogrio Martins
3
, Edson Padoin
4
.

1
Trabalho de concluso de curso realiazado no curso de Cincia da Computao da Uniju
2
Aluno do curso de Cincia da Computao
3
Professor do curso de Cincia da Computao da Uniju
4
Professor do curso de Cincia da Computao da Uniju




INTRODUO
Nos ltimos anos, de acordo com dados da Organizao Panamericana de Sade (OPAS), o
problema da coleta adequada de resduos slidos tem aumentado em vrios pases, principalmente
onde existe crescimento populacional e concentrao desta populao nas reas urbanas.
Uma das novas abordagens para este problema envolve a utilizao de robs coletores autnomos,
em um servio de coleta porta a porta. Neste sistema, o rob coletor possui um certo nvel de
inteligncia artificial que possibilita: navegao entre pessoas, automveis e obstculos dos mais
variados tipos; coleta do resduo slido na residncia do cidado e; descarregamento do mesmo em
uma estao centralizada. Em 2011 na Itlia, a cidade de Pecolo foi recipiente de um prolongado
teste deste sistema, onde o rob DustCart interagiu com um ambiente urbano real e realizou as
tarefas acima descritas com xito.
Atualmente, dentro da rea da inteligncia artificial, existe uma categoria de algoritmos de
aprendizado no supervisionado, composta por mtodos que aprendem unicamente atravs de
iterao com o ambiente no qual esto inseridos, mudando o comportamento do agente de acordo
com sinais de reforo positivo ou negativo que ele obtm a cada ao executada neste ambiente. O
SARSA um destes algoritmos, sendo muito aplicado em problemas relacionados a robtica, ele
capaz de desenvolver um comportamento inteligente quando existe uma representao adequada do
ambiente e que o mesmo seja suficientemente explorado pelo rob. Conforme especificado por [1],
o SARSA possui uma garantia de converso a uma soluo tima contanto que alguns requisitos
sejam atendidos, porm tais resultados ainda no foram publicados.
Sendo assim, com este trabalho pretendemos descobrir a melhor configurao de alpha no algoritmo
de aprendizado por reforo SARSA (aquela que traz mais recompensa em longo prazo) segundo as
especificaes definidas por [1] enquanto aplicamos o mesmo ao problema da coleta de lixo 2D.


METODOLOGIA

Modalidade do trabalho: Relatrio tcnico-cientfico
Evento: XIX Jornada de Pesquisa


Desenvolvemos um mundo controlado, onde disponibilizamos um rob que deve coletar lixo e leva-
lo at a lixeira. O rob no sabe onde est o lixo ou onde est a lixeira, mas consegue saber sua
localizao atual baseado em sua memria, ainda que esta posio seja apenas uma provvel
posio.
Neste mundo tambm disponibilizamos uma base carregadora, onde o rob deve acoplar-se caso
sua bateria esteja abaixo de determinado nvel. O desgaste na bateria do rob se dar em funo do
tempo, sendo que de tempos em tempos, o mesmo necessitar ir at a base carregadora para
recarregar.
Utilizando as capacidades sensoriais deste rob geramos uma representao estadual, o rob em
questo deve aprender a encontrar a posio do lixo, da lixeira e da base carregadora, alm de
entender as dinmicas do mundo no qual est inserido. Ele deve levar o lixo at a lixeira no menor
tempo e distncia possveis; ele tambm deve encontrar a base carregadora de energia quando
considerar que sua bateria est fraca.
Para cumprir estas tarefas, utilizaremos um mundo controlado, onde podemos executar testes
repetidamente e obter dados para anlise com um maior grau de preciso. Neste mundo, a tarefa que
o rob dever aprender a desempenhar ser a navegao entre estados onde ele encontra o lixo ou a
lixeira, bem como o estado onde est a base carregadora de energia.
Este mundo ser uma verso linearizada do problema da coleta de lixo, onde utilizaremos cores para
representar os elementos envolvidos nesta tarefa. O lixo ser representado pela cor prata e a cor
vermelha representar a lixeira e a base carregadora, sendo assim, o rob em questo no vai obter
o lixo fisicamente, esta ser apenas uma varivel dentro de sua memria. Quando o mesmo
encontrar a cor prata entender que encontrou o lixo e agora est carregando o mesmo. Quando
encontrar a cor vermelha entender que pode descarregar o lixo neste local.
Considerando que a base carregadora tambm representada por uma cor, assim que o rob
encontrar a cor que representa a base carregadora, o seu nvel de energia elevado ao mximo, e ele
retorna a sua atividade de coleta de lixo.


Fig. 1. Diagrama de estados



Modalidade do trabalho: Relatrio tcnico-cientfico
Evento: XIX Jornada de Pesquisa



Sendo assim, o rob estar sempre executando uma dentre trs tarefas possveis: procurando por
lixo; procurando por lixeira ou procurando por energia, conforme pode ser visualizado na figura 1.


Fig. 3. Rob no mundo da coleta de lixo



O mundo conta com uma rea de 3136cm2, dentro do qual disponibilizamos 4 quadrados de
diferentes cores, medindo 18.6cm de base por 18.6cm de altura. Estes quadrados representam
(dependendo de sua cor) o lixo, a lixeira e a base carregadora, mas tambm podem ser utilizados
como informao extra para ajudar o rob a formar a sua representao estadual.
Para a tarefa descrita, utilizaremos o rob iRobot Create srie 4400, exibido na figura 3, tirando
proveito de sua confiabilidade, flexibilidade e robustez. um rob desenvolvido para ser aplicado a
programao, atendendo usurios bsicos e avanados.
Utilizando como base as informaes obtidas pelos sensores do rob, criamos algumas propostas de
funes de estado contendo o sinal do sensor de infravermelho, indicador do nvel de
bateria/presena de lixo e os indicadores de impacto frontal direito e esquerdo.
Desenvolvemos uma funo de recompensa bastante simples, com foco em recompensar o rob ao
realizar aes corretas e tambm recompensar a explorao no mundo. A tabela abaixo mostra a
recompensa recebida pelo rob de acordo com a tarefa sendo realizada e o estado atual.


Modalidade do trabalho: Relatrio tcnico-cientfico
Evento: XIX Jornada de Pesquisa



TABELA I. FUNO RECOMPENSA



Para incentivar o rob a explorar o mundo, e assim acelerar a velocidade com a qual ele descobre
estados e aprende, estamos dando um bnus para quando o rob escolhe a ao andar para frente
e no encontra o limite do mundo.


RESULTADOS E DISCUSSO
Conforme pode ser verificado na figura abaixo, o alpha est afetando a velocidade do aprendizado,
onde conforme maior o alpha, mais rpido ser o aprendizado. Porm, ao chegar ao alpha 0.3,
percebemos que o mesmo aprende mais rpido no comeo da execuo mas tem dificuldade em
atingir uma poltica tima em longo prazo.


Modalidade do trabalho: Relatrio tcnico-cientfico
Evento: XIX Jornada de Pesquisa



Fig. 4. Influncia do alpha na recompensa acumulada mdia por passo



O grfico abaixo tambm demostra a capacidade do alpha em afetar a velocidade do aprendizado.
Para o alpha 0.2, percebemos que o mesmo recebe mais recompensa na primeira metade da
execuo, e tambm, que a configurao de alpha que mais aumenta a quantidade de recompensa
recebida na segunda metade da execuo em relao a primeira.


Modalidade do trabalho: Relatrio tcnico-cientfico
Evento: XIX Jornada de Pesquisa



Figura 5 Influncia do alpha na quantidade de recompensa recebida



CONCLUSES
Conclumos que para a nossa configurao da tarefa da coleta de lixo, o melhor valor do parmetro
alpha no tempo de execuo determinado em nossos testes 0.2. A configurao de alpha 0.1 tende
a atingir um desempenho igual ou maior que o alpha 0.2 (contanto que seja executado por um
tempo maior), tanto na curva de aprendizado quanto na quantidade de recompensa recebida.
Tambm podemos perceber que o aumento do alpha no representa necessariamente uma converso
mais rpida a uma poltica tima, este porm, influencia na velocidade do aprendizado nos
primeiros momentos da execuo, onde quanto mais alto o valor de alpha, mais rpida a
converso a uma boa poltica.
Alm disso, pode-se reparar que quando o objetivo uma poltica tima (melhor comportamento
possvel) recomendvel escolher um alpha menor, sacrificando a velocidade de aprendizado mas
garantindo convergncia a um resultado mais adequado em longo prazo. Por outro lado, quando o

Modalidade do trabalho: Relatrio tcnico-cientfico
Evento: XIX Jornada de Pesquisa


objetivo obter um comportamento razovel (ainda que longe do timo) o mais rpido possvel,
pode ser mais adequado utilizar um valor maior de alpha.


PALAVRAS-CHAVE: Sarsa; Agente robtico; Curva de aprendizagem; Coleta de lixo; Funo de
recompensa.


REFERNCIAS BIBLIOGRAFICAS: [1] G. A. Barto, R. S. Sutton, Reinforcement Learning: An
Introduction, Bradford book, 2012.

Вам также может понравиться