Вы находитесь на странице: 1из 10

К.В. ЛАХМАН 1 , М.С. БУРЦЕВ 1,2

1 Национальный Исследовательский Центр «Курчатовский институт», Москва

2 Институт прикладной математики им. М.В. Келдыша РАН, Москва klakhman@gmail.com

ФОРМИРОВАНИЕ ЦЕЛЕНАПРАВЛЕННОГО ПОВЕДЕНИЯ НА ОСНОВЕ КРАТКОВРЕМЕННОЙ ПАМЯТИ В ЭВОЛЮЦИИ НЕЙРОМОРФНЫХ АГЕНТОВ *

В работе рассмотрена задача создания нейроэволюционной модели адап- тивного поведения, позволяющей формировать эффективную стратегию поведения в изменяющейся окружающей среде. В качестве теоретической основы разрабатываемой модели были использованы теория функцио- нальных систем П.К. Анохина [1] и системно-эволюционная теория В.Б. Швыркова [2]. Исследование эволюционной динамики популяции нейро- морфных агентов показало, что агенты приобретают способность хранить кратковременную память и формировать альтернативное поведение.

Ключевые слова: адаптивное поведение, нейроморфные системы, нейро- эволюция, кратковременная память, теория функциональных систем

Введение

Наибольший интерес в рамках изучения мозга и создания нейроморф- ного искусственного интеллекта вызывают механизмы обеспечения целе- направленного поведения. Однако их рассмотрение невозможно в отрыве от эволюции и обучения, так как именно эти два фактора обеспечивают формирование поведения человека и животных. Области машинного обучения и создания интеллектуальных автоном- ных агентов активно развиваются на протяжении последних десятилетий. Наиболее популярные алгоритмы обучения с подкреплением [3] и их мо- дификации могут быть эффективно использованы на этапе предваритель- ного обучения автономного агента. Однако так как поведение робота де- терминировано единой системой оценок пар состояние-действие, то реа- лизация альтернативных моделей поведения невозможна для алгоритмов данного класса. Во многих ситуациях эвристическое формировании си-

* Работа выполнена при поддержке РФФИ, проекты 11-04-12174-офи- м-2011 и 10-01-00786-а.

стемы подкреплений невозможно, например, в мало-формализованных задачах, поэтому разрабатываются алгоритмы генерации значений под- крепления с иcпользованием эволюционных подходов [4]. Существующие алгоритмы также неспособны обеспечить необходимый уровень адаптив- ности в среде с иерархией целей [5]. Различные методы, разработанные для генерации поведенческих последовательностей [6, 7] в большинстве случаев не могут эффективно работать в ситуациях большого количества

целей в среде и их сложной иерархии, а также необходимости автономно- го исследования данной иерархии. Для синтеза контроллеров автономных агентов в мало- формализованных задачах успешно применяются алгоритмы, основанные на нейроэволюционных подходах [8, 9]. Однако дообучение полученных структур в процессе автономного функционирования агента на основе заранее приобретенных знаний является затруднительной задачей.

В свою очередь проблема формирования кратковременной памяти в

рекуррентных нейронных сетях широко освещена в литературе, в том числе с точки зрения реверберации сигнала в сети [10] и воспроизведения последовательностей [11]. Тем не менее, вопрос автоматической генера- ции нейросетевой структуры, способной к хранению кратковременной памяти, эффективно использующейся для формирования текущего пове- дения, на данный момент не достаточно исследован. Возможным подходом к построению интеллектуальных машин нового поколения, которые будут обладать повышенными способностями к адаптации, является использование исследований в области теоретиче- ской нейробиологии [1, 12].

Среда с иерархией целей

В рамках текущего исследования состояние среды, в которой функци-

онирует автономный агент, представляется бинарным вектором:

 

E t

e

1

t ,

,e

n

env



t

,

 0

e t

i

,

1.

1

В любой так дискретного времени агент может изменить на противо-

положный один из битов этого вектора, и, таким образом, структура сре-

ды является гиперкубом размерности

ющие цели различной сложности, определяемые как упорядоченное мно- жество изменений вектора состояния среды:

. В среде задаются конкуриру-

n env

a

i

n , q

1

1

,

, n , q

k i

k i

 ,

2

где n j – номер изменяемого бита вектора состояния среды, q j – требуе-

мое (целевое) значение бита, k i – сложность цели. В среде присутствуют цели разной сложности, которые в совокупности образуют разветвленную иерархическую структуру. Для определения сложности среды на основе вероятностного подхода был введен показатель заполненности среды:

C

f

N

A

i

1

2

 

k k

i

i

2 n

1

env

k

i

,

3

где N A – количество целей в среде, k i– количество уникальных бит век- тора состояния, изменение которых происходит в процессе достижения цели (над одним и тем же битом среды может совершаться несколько дей- ствий). Показатель, обратный коэффициенту заполненности, мы будем называть коэффициентом сложности. С каждой целью среды ассоциируется награда, прямо пропорциональ- ная сложности цели. В течение фиксированного времени агент функцио- нирует в среде, достигая целей и накапливая награду, которая в дальней- шем будет влиять на его репродуктивный успех. При этом после дости- жения агентом цели, уровень начисляемой награды за данную цель обну- ляется и затем линейно восстанавливается до изначального значения за время Tr . В рамках настоящего исследования среда может быть как стационар- ной, так и квазистационарной. В последней изменение вектора состояния может происходить не только при воздействии на него агента, но и слу- чайно с некоторой вероятностью.

Поведение агента и эволюционный алгоритм

Поведение агента в среде управляется формальной нейронной сетью произвольной топологии, которая развивается в процессе эволюции и обучения (с возможностью формирования рекуррентных связей). Актива- ционная характеристика нейронов в данной модели представлена неотри- цательной логистической функцией, а сигнал по синаптическим связям передается только в том случае, если значение выхода пресинаптического нейрона выше некоторого порога активации (порог брался равным 0,5), то есть наблюдается спайк. Текущий вектор состояния среды непосредственно подается на вход- ные нейроны сети, а комбинация пары наиболее активных выходных нейронов кодирует совершаемое действие. Необходимо отдельно отме-

тить, что действия перевода бита вектора состояния в 1 и в 0 кодируются различными комбинациями нейронов. Для моделирования эволюции популяции независимых друг от друга автономных агентов применялся модернизированный алгоритм NEAT [13], в котором наряду с мутациями весовых коэффициентов синаптиче- ских связей используются структурные мутации топологии нейросети, такие как добавление связи и вставка нейрона в существующую связь. При этом «вставка нейрона» была заменена на мутацию «дупликация нейрона», при которой дуплицирующий нейрон наследует от родитель- ского всю структуру связей. Данное изменение было осуществлено с це- лью, сделать алгоритм NEAT биологически более правдоподобным. Ре- продуктивный успех агента в процессе эволюции определяется суммар- ной накопленной наградой.

Первичное развитие и обучение в течение жизни

Критическим вопросом разработки эффективной модели генерации адаптивного поведения является создание алгоритма самообучения в те- чение функционирования агента в среде. В данном контексте алгоритм нейроэволюции необходимо дополнить моделями первичного развития (первичного системогенеза [1]) и обучения (вторичного системогенеза). Первичный системогенез необходим для трансляции выработанного в результате эволюции генотипа агента в начальную структуру интеллекту- ального контроллера, обеспечивающего первичный репертуар поведения агента в среде. Вторичный системогенез позволяет эффективно адаптиро- ваться к изменениям окружающей среды и корректировать поставленную перед агентом задачу за счет формирования новых функциональных си- стем нейронов, специализированных относительно возникающих про- блемных ситуаций. До текущего момента мы рассматривали эволюцию искусственных нейронных сетей. Однако для формулирования моделей первичного и вторичного системогенезов в рамках нашего подхода необходимо перейти от эволюции сетей нейронов к эволюции структур связанных нейрональ- ных пулов. Каждый нейрональный пул транслируется во множество нейронов со сходной структурой связей. В процессе первичного системо- генеза за счет эндогенных активаций малой части нейронов сети отбира- ется группа наиболее активных нейронов, которые будут участвовать в генерации поведения агента с момента рождения. Остальные клетки фор- мируют множество молчащих нейронов [14], за счет которого будет про- исходить обучение в течение жизни.

Каждый нейрон формирует предсказание об ожидаемых афферентаци- ях с помощью специальных связей-предикторов от остальных нейронов сети агента. Данное предсказание позволяет детектировать момент рассо- гласования всего организма со средой на нейрональном уровне и запус- кать процесс обучения. За счет постепенного включения в сеть молчащих нейронов из пула рассогласованного нейрона происходит корректировка стратегий поведения агента. При этом включающиеся нейроны специали- зируется относительно новых для агента ситуаций с помощью организа- ции своей структуры связей и позволяют осуществлять распознавание отличительных признаков данных проблемных ситуаций.

Экспериментальное исследование эволюционного процесса

Для исследования эффективности эволюции на стационарных и квази- стационарных средах осуществлялся контрольный прогон лучших попу- ляций каждого эволюционного запуска на стационарной среде. Результа- ты моделирования показывают, что с увеличением коэффициента запол- ненности среды, то есть с упрощением среды для агента, происходит рост средней накопленной награды (рис. 1).

накопленной награды (рис. 1) . Рис. 1. Зависимость средней

Рис. 1. Зависимость средней накопленной награды от коэффициента заполненно- сти среды (каждый отсчет – это усреднение по 20 средам и 10 запускам эволюции в каждой среде, * - t-критерий Уэлча-Сатервайте с p = 0,01)

Агенты, эволюционировавшие в условиях квазистационарной среды, функционируют успешнее (рис.1) – в среднем набирают большую награду – и в большинстве случаев обладают более обширным репертуаром пове-

дения. Данный феномен можно объяснить тем, что при функционирова- нии в среде, которая может внезапно изменится, агенту требуется разно- образный репертуар стратегий, чтобы подстраиваться под изменения сре- ды. Таким образом, нестационарность среды способствует отбору агентов

с более гибким поведением, позволяющим достигать большее число целей

из различных начальных положений. Однако при повышении вероятности случайного изменения среды наблюдается резкий спад эффективности эволюции, что происходит вследствие дестабилизации всех стратегий из- за чрезмерно частого изменения среды. Исследование внутренней динамики эволюционного процесса показа- ло, что эволюция популяции происходит постепенно (рис. 2), путем рас- пространения успешной стратегии по популяции и увеличения количества состояний, из которых данная стратегия может применяться.

стратегия может применяться. Рис. 2 . Пример гистограмм

Рис. 2. Пример гистограмм распределения накопленной награды в популяции агентов для трех поколений одного эволюционного запуска

Альтернативное поведение и кратковременная память

В результате исследования поведенческих стратегий, появляющихся в результате эволюции, было показано, что агенты приобретают способ-

ность хранить кратковременную память за счет реверберации в нейросети

с использованием обратных связей. Наличие кратковременной памяти у агентов подтверждается возмож- ностью выработки политик поведения на основе альтернативных дей- ствий, когда из одного состояния совершаются различные действия в за- висимости от предыдущей истории поведения. На рис.3 представлен при- мер записи поведения, в процессе которого из одного состояния совер-

шаются три различных действия. Подобный феномен был бы невозможен

в условиях реактивностной работы нейросетевой структуры. Рассматри-

ваемое поведение обеспечивается нейронной сетью с 30 нейронами, из

которых только 15 являются интер-нейронами, и 611 синаптическими свя- зями. Анализ нейрональной активности в моменты, соответствующие со- вершению того или иного действия, позволяет определить, что на приня- тие решения влияет изменение активности небольшого числа нейронов. При этом выходные значения большинства нейронов остаются без изме- нений, а нейроны, определяющие поведение, изменяют свою активность с нулевого уровня до максимального. Таким образом, подобные нейроны можно назвать специализированными относительно совершения действий

в конкретной поведенческой ситуации.

A

8

9 3 6 1 10 0 0 1 2 4 2 11 13 7 5
9
3
6
1
10
0
0
1
2
4
2
11
13
7
5
4
12
5
3
Б Действие № 1 4 13 Активность интер-нейронов
Б
Действие №
1
4
13
Активность
интер-нейронов

Рис. 3. A. Пример альтернативного поведения (кругами обозначены состояния, стрелками – переходы/действия агента); Б. Активность интер-нейронов сети при совершении трех альтернативных действий (черный цвет – максимальная актив- ность соответствующего нейрона, белый – нулевая активность)

На основе анализа различных поведенческих политик, которые выра- батываются в процессе эволюции, было показано, что нижняя оценка глу- бины эффективной кратковременной памяти, влияющей на поведение, составляет не менее 4-х прошлых состояний. Подобный вывод был сделан при рассмотрении ситуаций, в которых альтернативные действия совер- шались при одинаковой истории поведения и, таким образом, нижней оценкой может считаться первое неодинаковое состояние в двух последо- вательностях действий. Использование кратковременной памяти для формирования политик поведения позволяет, во-первых, реализовывать значительно более слож-

ное поведения, а во-вторых, набирать большее количество награды в про- цессе функционирования. На рис. 4 приведен пример политики поведе- ния, которая построена на чередовании двух циклов действий. Так как после достижения цели, она восстанавливает свою награду за некоторое фиксированное количество тактов, то подобная стратегия позволяет це- лям, достигаемым на одном цикле, дольше восстанавливать свою цен- ность для агента, пока идет проход по второму циклу. При этом поведе- ние, приведенное на рис. 4, может осуществляться с использованием кратковременной памяти глубины 2.

5 5 4 1 2 0 0 6 1 2 3 10 9 7 6
5
5
4
1
2
0
0
6
1
2
3
10
9
7
6
10 состояний
5 состояний
8
7
4
3

Рис. 4. Стратегия поведения из двух циклов

Возникновение возможности оперировать кратковременной памятью происходит без предварительного задания любых искусственных предпосылок к данному феномену в строении эволюционного алгоритма.

эволюционного алгоритма. Рис. 5. Запись спайков интер -

Рис. 5. Запись спайков интер-нейронов в процессе поведения

При рассмотрении записей активности нейронной сети (рис. 5) в течение всего промежутка поведения автономных агентов можно выделить как нейроны, которые активны при совершении большинства

действий, так и такие нейроны, которые проявляют активность только в очень ограниченном количестве состояний среды (иногда даже в единственном состоянии).

В табл. 1 приведены параметры эволюционного алгоритма, которые

использовались при проведении экспериментального моделирования.

Табл. 1. Основные параметры моделирования

Параметр

Значение

Параметр

Значение

Размерность среды

8 бит

Объем популяции

250

n

env

N

p

агентов

Кол-во тактов

5000

Кол-во тактов жизни агента Tlife

250 тактов

эволюции Tev

тактов

Время восстановле- ния награды Tr

30 тактов

Вероятность мутации веса синапса Pm

0,6

Дисперсия мутации веса синапса D m

0,08

Вероятность добавле- ния синапса Pa-syn

0,1

Вероятность удале- ния синапса Pd-syn

0,05

Вероятность дупли- кации нейрона Pdup

0,007

Вероятность случай- ного изменения бита состояния Pen- var

0,0085

 

Заключение

В рамках текущей статьи была представлена модель адаптивного по-

ведения, основанная на теории функциональных систем П.К. Анохина. Данная модель состоит из нейроэволюционного алгоритма, а также алго-

ритмов первичного развития и обучения в течение жизни. Предложенная модель обучения основана на методике эндогенной оценки результатив- ности целенаправленного поведения на нейрональном уровне и формиро- вании функциональных систем, специализированных относительно про- блемных поведенческих ситуаций. Результаты экспериментального моделирования показывают, что не- стационарность среды значительно увеличивает эффективность эволю-

ции. В процессе эволюции автономные агенты вырабатывают способ- ность хранить кратковременную память за счет обратных связей в управ- ляющей нейросети. С использованием кратковременной памяти становит- ся возможным формировать эффективные поведенческие стратегии, кото- рые основаны на альтернативных действиях, зависящих от предыдущей истории поведения.

Список литературы

1. Анохин П.К. Очерки по физиологии функциональных систем. М.: Медицина,

1975.

2. Швырков В.Б. Введение в объективную психологию. Нейрональные основы психики. М.: Институт психологии РАН, 1995.

3. Kaelbling L.P., Littman M.L., Moore A.W. «Reinforcement Learning. A Survey» // Journal of Artificial Intelligence Research. Vol. 4, Pp. 237-285, 1996.

4. Singh S., Lewis R., Barto A. G. «Where Do Rewards Come From? » // Proceedings

of the Cognitive Science Society (CogSci). Pp. 2601-2606, 2009.

5. Botvinick M.M., Niv Y., Barto A.G. «Hierarchically organized behavior and its neural foundations. A reinforcement learning perspective» // Cognition. Vol.113, Is. 3, Pp. 262-280, 2009.

6. Sandamirskaya Y., Schoner G. «An embodied account of serial order: How instabili- ties drive sequence generation» // Neural Networks, Vol. 23, No. 10, Pp. 1164-1179,

2010

7. Komarov M. A., Osipov G. V., Burtsev M. S. «Adaptive functional systems: Learn- ing with chaos» // Chaos, Vol. 20, Is.4, 04511, 2010.

8. Floreano D., Mondana F. «Automatic Creation of an Autonomous Agent: Genetic Evolution of a Neural-Network Driven Robot» // Proceedings of the third interna- tional conference on Simulation of adaptive behavior: From Animals to Animats 3, Pp. 421-430, 1994.

9. Floreano D., Durr P., Mattiussi C. «Neuroevolution from architectures to learning» // Evolutionary Intelligence. Vol. 1, No.1, Pp. 47-62, 2008.

10. Hochreiter S., Bengio Y., Frasconi P., Schmidhuber J. «Gradient Flow in Recurrent Nets - the Difficulty of Learning Long-Term Dependencies» // A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, Pp. 237-243, 2001.

11. Botvinick M.M., Plaut D.C. «Short-Term Memory for Serial Order: A Recurrent Neural Network Model» // Psychological Review. Vol. 113, No. 2, Pp. 201-233,

2006.

12. Edelman G. Neural Darwinism: The theory of neuronal group selection. NY: Basic Books, 1987.

13. Kenneth S., Miikkulainen R. «Evolving Neural Network through Augmenting To- pologies» // Evolutionary Computation. Vol. 10(2), Pp. 99-127, 2002.

14. Jog M.S., Kubota K, Connolly C.I., Hillegaart V., Graybiel A.M. «Building neural representations of habits» // Science. Vol. 286, Pp. 1745-1749, 1999.