1 Trabalho de concluso de curso realiazado no curso de Cincia da Computao da Uniju 2 Aluno do curso de Cincia da Computao 3 Professor do curso de Cincia da Computao da Uniju 4 Professor do curso de Cincia da Computao da Uniju
INTRODUO Nos ltimos anos, de acordo com dados da Organizao Panamericana de Sade (OPAS), o problema da coleta adequada de resduos slidos tem aumentado em vrios pases, principalmente onde existe crescimento populacional e concentrao desta populao nas reas urbanas. Uma das novas abordagens para este problema envolve a utilizao de robs coletores autnomos, em um servio de coleta porta a porta. Neste sistema, o rob coletor possui um certo nvel de inteligncia artificial que possibilita: navegao entre pessoas, automveis e obstculos dos mais variados tipos; coleta do resduo slido na residncia do cidado e; descarregamento do mesmo em uma estao centralizada. Em 2011 na Itlia, a cidade de Pecolo foi recipiente de um prolongado teste deste sistema, onde o rob DustCart interagiu com um ambiente urbano real e realizou as tarefas acima descritas com xito. Atualmente, dentro da rea da inteligncia artificial, existe uma categoria de algoritmos de aprendizado no supervisionado, composta por mtodos que aprendem unicamente atravs de iterao com o ambiente no qual esto inseridos, mudando o comportamento do agente de acordo com sinais de reforo positivo ou negativo que ele obtm a cada ao executada neste ambiente. O SARSA um destes algoritmos, sendo muito aplicado em problemas relacionados a robtica, ele capaz de desenvolver um comportamento inteligente quando existe uma representao adequada do ambiente e que o mesmo seja suficientemente explorado pelo rob. Conforme especificado por [1], o SARSA possui uma garantia de converso a uma soluo tima contanto que alguns requisitos sejam atendidos, porm tais resultados ainda no foram publicados. Sendo assim, com este trabalho pretendemos descobrir a melhor configurao de alpha no algoritmo de aprendizado por reforo SARSA (aquela que traz mais recompensa em longo prazo) segundo as especificaes definidas por [1] enquanto aplicamos o mesmo ao problema da coleta de lixo 2D.
METODOLOGIA
Modalidade do trabalho: Relatrio tcnico-cientfico Evento: XIX Jornada de Pesquisa
Desenvolvemos um mundo controlado, onde disponibilizamos um rob que deve coletar lixo e leva- lo at a lixeira. O rob no sabe onde est o lixo ou onde est a lixeira, mas consegue saber sua localizao atual baseado em sua memria, ainda que esta posio seja apenas uma provvel posio. Neste mundo tambm disponibilizamos uma base carregadora, onde o rob deve acoplar-se caso sua bateria esteja abaixo de determinado nvel. O desgaste na bateria do rob se dar em funo do tempo, sendo que de tempos em tempos, o mesmo necessitar ir at a base carregadora para recarregar. Utilizando as capacidades sensoriais deste rob geramos uma representao estadual, o rob em questo deve aprender a encontrar a posio do lixo, da lixeira e da base carregadora, alm de entender as dinmicas do mundo no qual est inserido. Ele deve levar o lixo at a lixeira no menor tempo e distncia possveis; ele tambm deve encontrar a base carregadora de energia quando considerar que sua bateria est fraca. Para cumprir estas tarefas, utilizaremos um mundo controlado, onde podemos executar testes repetidamente e obter dados para anlise com um maior grau de preciso. Neste mundo, a tarefa que o rob dever aprender a desempenhar ser a navegao entre estados onde ele encontra o lixo ou a lixeira, bem como o estado onde est a base carregadora de energia. Este mundo ser uma verso linearizada do problema da coleta de lixo, onde utilizaremos cores para representar os elementos envolvidos nesta tarefa. O lixo ser representado pela cor prata e a cor vermelha representar a lixeira e a base carregadora, sendo assim, o rob em questo no vai obter o lixo fisicamente, esta ser apenas uma varivel dentro de sua memria. Quando o mesmo encontrar a cor prata entender que encontrou o lixo e agora est carregando o mesmo. Quando encontrar a cor vermelha entender que pode descarregar o lixo neste local. Considerando que a base carregadora tambm representada por uma cor, assim que o rob encontrar a cor que representa a base carregadora, o seu nvel de energia elevado ao mximo, e ele retorna a sua atividade de coleta de lixo.
Fig. 1. Diagrama de estados
Modalidade do trabalho: Relatrio tcnico-cientfico Evento: XIX Jornada de Pesquisa
Sendo assim, o rob estar sempre executando uma dentre trs tarefas possveis: procurando por lixo; procurando por lixeira ou procurando por energia, conforme pode ser visualizado na figura 1.
Fig. 3. Rob no mundo da coleta de lixo
O mundo conta com uma rea de 3136cm2, dentro do qual disponibilizamos 4 quadrados de diferentes cores, medindo 18.6cm de base por 18.6cm de altura. Estes quadrados representam (dependendo de sua cor) o lixo, a lixeira e a base carregadora, mas tambm podem ser utilizados como informao extra para ajudar o rob a formar a sua representao estadual. Para a tarefa descrita, utilizaremos o rob iRobot Create srie 4400, exibido na figura 3, tirando proveito de sua confiabilidade, flexibilidade e robustez. um rob desenvolvido para ser aplicado a programao, atendendo usurios bsicos e avanados. Utilizando como base as informaes obtidas pelos sensores do rob, criamos algumas propostas de funes de estado contendo o sinal do sensor de infravermelho, indicador do nvel de bateria/presena de lixo e os indicadores de impacto frontal direito e esquerdo. Desenvolvemos uma funo de recompensa bastante simples, com foco em recompensar o rob ao realizar aes corretas e tambm recompensar a explorao no mundo. A tabela abaixo mostra a recompensa recebida pelo rob de acordo com a tarefa sendo realizada e o estado atual.
Modalidade do trabalho: Relatrio tcnico-cientfico Evento: XIX Jornada de Pesquisa
TABELA I. FUNO RECOMPENSA
Para incentivar o rob a explorar o mundo, e assim acelerar a velocidade com a qual ele descobre estados e aprende, estamos dando um bnus para quando o rob escolhe a ao andar para frente e no encontra o limite do mundo.
RESULTADOS E DISCUSSO Conforme pode ser verificado na figura abaixo, o alpha est afetando a velocidade do aprendizado, onde conforme maior o alpha, mais rpido ser o aprendizado. Porm, ao chegar ao alpha 0.3, percebemos que o mesmo aprende mais rpido no comeo da execuo mas tem dificuldade em atingir uma poltica tima em longo prazo.
Modalidade do trabalho: Relatrio tcnico-cientfico Evento: XIX Jornada de Pesquisa
Fig. 4. Influncia do alpha na recompensa acumulada mdia por passo
O grfico abaixo tambm demostra a capacidade do alpha em afetar a velocidade do aprendizado. Para o alpha 0.2, percebemos que o mesmo recebe mais recompensa na primeira metade da execuo, e tambm, que a configurao de alpha que mais aumenta a quantidade de recompensa recebida na segunda metade da execuo em relao a primeira.
Modalidade do trabalho: Relatrio tcnico-cientfico Evento: XIX Jornada de Pesquisa
Figura 5 Influncia do alpha na quantidade de recompensa recebida
CONCLUSES Conclumos que para a nossa configurao da tarefa da coleta de lixo, o melhor valor do parmetro alpha no tempo de execuo determinado em nossos testes 0.2. A configurao de alpha 0.1 tende a atingir um desempenho igual ou maior que o alpha 0.2 (contanto que seja executado por um tempo maior), tanto na curva de aprendizado quanto na quantidade de recompensa recebida. Tambm podemos perceber que o aumento do alpha no representa necessariamente uma converso mais rpida a uma poltica tima, este porm, influencia na velocidade do aprendizado nos primeiros momentos da execuo, onde quanto mais alto o valor de alpha, mais rpida a converso a uma boa poltica. Alm disso, pode-se reparar que quando o objetivo uma poltica tima (melhor comportamento possvel) recomendvel escolher um alpha menor, sacrificando a velocidade de aprendizado mas garantindo convergncia a um resultado mais adequado em longo prazo. Por outro lado, quando o
Modalidade do trabalho: Relatrio tcnico-cientfico Evento: XIX Jornada de Pesquisa
objetivo obter um comportamento razovel (ainda que longe do timo) o mais rpido possvel, pode ser mais adequado utilizar um valor maior de alpha.
PALAVRAS-CHAVE: Sarsa; Agente robtico; Curva de aprendizagem; Coleta de lixo; Funo de recompensa.
REFERNCIAS BIBLIOGRAFICAS: [1] G. A. Barto, R. S. Sutton, Reinforcement Learning: An Introduction, Bradford book, 2012.