Вы находитесь на странице: 1из 9

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

Р. С. Саттон, Э. Г. Барто

Обучение
с подкреплением
ЭЛЕКТРОННОЕ ИЗДАНИЕ

Перевод с английского
Е. О. Романова
под редакцией Ю. В. Тюменцева
2794633475-11

Москва
БИНОМ. Лаборатория знаний
2012

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

УДК 517.11+519.92
ББК 22.18
С21

Электронный аналог печатного издания: Обучение с подкреп-


лением / Р. С. Саттон, Э. Г. Барто ; пер. с англ. — М. : БИНОМ.
Лаборатория знаний, 2011. — 399 с. : ил. — (Адаптивные и интеллек-
туальные системы).
С е р и я о с н о в а н а в 2005 г.
Саттон Р. С.
С21 Обучение с подкреплением [Электронный ресурс] /
Р. С. Саттон, Э. Г. Барто ; пер. с англ. — Эл. изд. —
М. : БИНОМ. Лаборатория знаний, 2012. — 399 с. : ил. —
(Адаптивные и интеллектуальные системы).
ISBN 978-5-9963-1349-5
Обучение с подкреплением является одной из наиболее активно
развивающихся областей, связанных с созданием искусственных ин-
теллектуальных систем. Оно основано на том, что агент пытается
максимизировать получаемый выигрыш, действуя в сложной среде
с высоким уровнем неопределенности. Дается исчерпывающее и яс-
ное изложение идей, методов и алгоритмов обучения с подкреплени-
ем, при этом диапазон излагаемого материала — от истоков возник-
новения рассматриваемых концепций до современных результатов
в данной области.
Для специалистов в области искусственного интеллекта, нейросе-
2794633475-11

тевого моделирования и управления, а также студентов и аспирантов


соответствующих специальностей.
УДК 517.11+519.92
ББК 22.18

По вопросам приобретения обращаться:


«БИНОМ. Лаборатория знаний»
Телефон: (499) 157-5272
e-mail: binom@Lbz.ru, http://www.Lbz.ru


c 1998 Richard S. Sutton and Andrew G. Barto
Fourth printing, 2002
All rights reserved. No part of this book may
be reproduced in any form by any electronic
or mechanical means (including
photocopying, recording, or information
storage and retrieval) without permission in
writing from the MIT Press.
The rights to the Russian language edition
obtained through Alexander Korzhenevski
Agency (Moscow)
ISBN 978-5-9963-1349-5
c БИНОМ. Лаборатория знаний, 2011

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

Интерактивное оглавление
Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Часть I. Постановка задачи и подходы к ее решению. . . 11


Глава 1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1. Обучение с подкреплением. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3. Элементы обучения с подкреплением . . . . . . . . . . . . . . . . . . . . . . 18
1.4. Подробный пример: крестики-нолики . . . . . . . . . . . . . . . . . . . . . . 21
1.5. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6. История обучения с подкреплением. . . . . . . . . . . . . . . . . . . . . . . . 29
1.7. Библиографические и исторические справки . . . . . . . . . . . . . . . 40

Глава 2. Оценочная обратная связь . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42


2.1. Задача об 𝑛-руком бандите . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2. Методы вычисления значений ценности действий . . . . . . . . . . . 45
2.3. Выбор действия с помощью операции softmax . . . . . . . . . . . . . .
2794633475-11

49
*
2.4. Оценивание в сравнении с инструктированием. . . . . . . . . . . . . . 50
2.5. Пошаговая реализация обучения . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.6. Нестационарные задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.7. Оптимистичные начальные оценки . . . . . . . . . . . . . . . . . . . . . . . . 60
*
2.8. Сравнение с подкреплением. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
*
2.9. Методы преследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
*
2.10. Ассоциативный поиск . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.11. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.12. Библиографические и исторические справки . . . . . . . . . . . . . . . 71

Глава 3. Задача обучения с подкреплением . . . . . . . . . . . . . . . . . . . . . . 74


3.1. Взаимосвязь агент — окружающая среда . . . . . . . . . . . . . . . . . . . 74
3.2. Цели и вознаграждения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3. Выгода. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.4. Единые обозначения для непрерывных заданий и заданий, со-
стоящих из эпизодов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
*
3.5. Марковское свойство . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.6. Марковские процессы принятия решений . . . . . . . . . . . . . . . . . . 92
3.7. Функции ценности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.8. Оптимальные функции ценности . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.9. Оптимальность и аппроксимация. . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.10. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.11. Библиографические и исторические справки . . . . . . . . . . . . . . . 112

vi

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

Интерактивное оглавление vii

Часть II. Фундаментальные методы решения . . . . . . . . . . . . 116


Глава 4. Динамическое программирование . . . . . . . . . . . . . . . . . . . . . . . 117
4.1. Оценка стратегии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2. Улучшение стратегии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.3. Итерация по стратегиям . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.4. Итерация по ценностям. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.5. Асинхронное динамическое программирование . . . . . . . . . . . . . 133
4.6. Обобщенная итерация по стратегиям . . . . . . . . . . . . . . . . . . . . . . 135
4.7. Эффективность динамического программирования . . . . . . . . . 137
4.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.9. Библиографические и исторические справки . . . . . . . . . . . . . . . 140
Глава 5. Методы Монте-Карло . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.1. Оценка стратегии методами Монте-Карло. . . . . . . . . . . . . . . . . . 143
5.2. Оценка ценности действия методом Монте-Карло. . . . . . . . . . . 149
5.3. Формирование управления методом Монте-Карло . . . . . . . . . . 150
5.4. Управление по методу Монте-Карло с интегрированной оцен-
кой ценности стратегий. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.5. Оценивание одной стратегии при использовании другой . . . . . 158
5.6. Управление по методу Монте-Карло с разделенной оценкой
ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.7. Пошаговая реализация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2794633475-11

163
5.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.9. Библиографические и исторические справки . . . . . . . . . . . . . . . 166
Глава 6. Обучение на основе временных различий . . . . . . . . . . . . . . . 168
6.1. Предсказание на основе временных различий. . . . . . . . . . . . . . . 168
6.2. Преимущества TD-методов предсказания . . . . . . . . . . . . . . . . . . 174
6.3. Оптимальность метода TD(0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.4. SARSA: управление по TD-методу с интегрированной оценкой
ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.5. 𝑄-обучение: управление по TD-методу с разделенной оценкой
ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
*
6.6. Методы исполнитель—критик . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
*
6.7. 𝑅-обучение для неприведенных продолжающихся задач . . . . . 192
6.8. Игры, послесостояния и другие особые случаи. . . . . . . . . . . . . . 195
6.9. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
6.10. Библиографические и исторические справки . . . . . . . . . . . . . . . 198

Часть III. Единый подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201


Глава 7. Следы приемлемости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
7.1. 𝑛-шаговое TD-прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2. Прямой подход к методам TD(𝜆) . . . . . . . . . . . . . . . . . . . . . . . . . . 209
7.3. Обратный подход к методам TD(𝜆). . . . . . . . . . . . . . . . . . . . . . . . 213
7.4. Эквивалентность прямого и обратного представлений . . . . . . . 217

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

viii Интерактивное оглавление

7.5. SARSA(𝜆) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220


7.6. Метод 𝑄(𝜆). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
*
7.7. Следы приемлемости для методов типа исполнитель—критик 227
7.8. Замещающие следы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
7.9. Проблемы реализации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
*
7.10. Переменный параметр 𝜆 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.11. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
7.12. Библиографические и исторические справки . . . . . . . . . . . . . . . 234
Глава 8. Обобщение и аппроксимация функций . . . . . . . . . . . . . . . . . . 237
8.1. Прогнозирование ценности при помощи аппроксимации функ-
ции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
8.2. Методы наискорейшего спуска . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
8.3. Линейные методы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
8.4. Управление с аппроксимацией функции. . . . . . . . . . . . . . . . . . . . 258
8.5. Самонастройка с разделенной оценкой ценности стратегий . . 264
8.6. Нужна ли самонастройка? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.7. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.8. Библиографические и исторические справки . . . . . . . . . . . . . . . 273
Глава 9. Планирование и обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.1. Модели и планирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.2. Объединение планирования, исполнения и обучения . . . . . . . .
2794633475-11

282
9.3. Когда модель неверна . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
9.4. Приоритетная прогонка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
9.5. Сравнение полного и выборочного вариантов дублирования . 296
9.6. Траекторная выборка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
9.7. Эвристический поиск. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
9.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
9.9. Библиографические и исторические справки . . . . . . . . . . . . . . . 311
Глава 10. Важнейшие аспекты обучения с подкреплением . . . . . . . . 313
10.1. Единый подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
10.2. Некоторые другие новые направления . . . . . . . . . . . . . . . . . . . . . 317
Глава 11. Конкретные примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.1. Программа TD-Gammon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.2. Программа игры в шашки Сэмюеля . . . . . . . . . . . . . . . . . . . . . . . 327
11.3. Акробот. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
11.4. Управление лифтом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
11.5. Динамическое распределение каналов . . . . . . . . . . . . . . . . . . . . . 342
11.6. Задача планирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
Список обозначений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

Оглавление

Предисловие редактора серии «Adaptive computation and machine


learning» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Часть I. Постановка задачи и подходы к ее решению. . . 11


Глава 1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1. Обучение с подкреплением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3. Элементы обучения с подкреплением . . . . . . . . . . . . . . . . . . . . . 18
1.4. Подробный пример: крестики-нолики . . . . . . . . . . . . . . . . . . . . 21
1.5. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6. История обучения с подкреплением . . . . . . . . . . . . . . . . . . . . . .
2794633475-11
29
1.7. Библиографические и исторические справки . . . . . . . . . . . . . 40
Глава 2. Оценочная обратная связь. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1. Задача об n-руком бандите . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2. Методы вычисления значений ценности действий . . . . . . . . 45
2.3. Выбор действия с помощью операции softmax . . . . . . . . . . . . 49
∗ 2.4. Оценивание в сравнении с инструктированием . . . . . . . . . . . 50
2.5. Пошаговая реализация обучения . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.6. Нестационарные задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.7. Оптимистичные начальные оценки . . . . . . . . . . . . . . . . . . . . . . . 60
∗ 2.8. Сравнение с подкреплением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
∗ 2.9. Методы преследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
∗ 2.10. Ассоциативный поиск . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.11. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.12. Библиографические и исторические справки . . . . . . . . . . . . . 71
Глава 3. Задача обучения с подкреплением . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1. Взаимосвязь агент — окружающая среда . . . . . . . . . . . . . . . . . 74
3.2. Цели и вознаграждения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3. Выгода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.4. Единые обозначения для непрерывных заданий и зада-
ний, состоящих из эпизодов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

Оглавление 397

∗ 3.5. Марковское свойство . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86


3.6. Марковские процессы принятия решений . . . . . . . . . . . . . . . . . 92
3.7. Функции ценности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.8. Оптимальные функции ценности . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.9. Оптимальность и аппроксимация . . . . . . . . . . . . . . . . . . . . . . . . 109
3.10. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.11. Библиографические и исторические справки . . . . . . . . . . . . . 112

Часть II. Фундаментальные методы решения . . . . . . . . . . . . 116


Глава 4. Динамическое программирование . . . . . . . . . . . . . . . . . . . . . . . . 117
4.1. Оценка стратегии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2. Улучшение стратегии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.3. Итерация по стратегиям . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.4. Итерация по ценностям . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.5. Асинхронное динамическое программирование . . . . . . . . . . . 133
4.6. Обобщенная итерация по стратегиям . . . . . . . . . . . . . . . . . . . . . 135
4.7. Эффективность динамического программирования . . . . . . . 137
4.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.9. Библиографические и исторические справки . . . . . . . . . . . . .
2794633475-11
140
Глава 5. Методы Монте-Карло . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.1. Оценка стратегии методами Монте-Карло . . . . . . . . . . . . . . . . 143
5.2. Оценка ценности действия методом Монте-Карло . . . . . . . . 149
5.3. Формирование управления методом Монте-Карло . . . . . . . . 150
5.4. Управление по методу Монте-Карло с интегрированной
оценкой ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.5. Оценивание одной стратегии при использовании другой . . 158
5.6. Управление по методу Монте-Карло с разделенной оцен-
кой ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.7. Пошаговая реализация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
5.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.9. Библиографические и исторические справки . . . . . . . . . . . . . 166
Глава 6. Обучение на основе временных различий . . . . . . . . . . . . . . . . . 168
6.1. Предсказание на основе временных различий . . . . . . . . . . . . 168
6.2. Преимущества TD-методов предсказания . . . . . . . . . . . . . . . . 174
6.3. Оптимальность метода TD(0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.4. SARSA: управление по TD-методу с интегрированной
оценкой ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.5. Q-обучение: управление по TD-методу с разделенной
оценкой ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

398 Оглавление

∗ 6.6.Методы исполнитель—критик . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189


∗ 6.7.R-обучение для неприведенных продолжающихся задач . . 192
6.8. Игры, послесостояния и другие особые случаи . . . . . . . . . . . 195
6.9. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
6.10. Библиографические и исторические справки . . . . . . . . . . . . . 198

Часть III. Единый подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201


Глава 7. Следы приемлемости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
7.1. n-шаговое TD-прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2. Прямой подход к методам TD(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 209
7.3. Обратный подход к методам TD(λ) . . . . . . . . . . . . . . . . . . . . . . 213
7.4. Эквивалентность прямого и обратного представлений . . . . 217
7.5. SARSA(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
7.6. Метод Q(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
∗ 7.7. Следы приемлемости для методов типа исполнитель—
критик . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
7.8. Замещающие следы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
7.9. Проблемы реализации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
∗ 7.10. Переменный параметр λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
2794633475-11

7.11. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233


7.12. Библиографические и исторические справки . . . . . . . . . . . . . 234
Глава 8. Обобщение и аппроксимация функций . . . . . . . . . . . . . . . . . . . 237
8.1. Прогнозирование ценности при помощи аппроксимации
функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
8.2. Методы наискорейшего спуска . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
8.3. Линейные методы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
8.4. Управление с аппроксимацией функции . . . . . . . . . . . . . . . . . . 258
8.5. Самонастройка с разделенной оценкой ценности страте-
гий. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
8.6. Нужна ли самонастройка? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.7. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.8. Библиографические и исторические справки . . . . . . . . . . . . . 273
Глава 9. Планирование и обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.1. Модели и планирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.2. Объединение планирования, исполнения и обучения . . . . . . 282
9.3. Когда модель неверна . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
9.4. Приоритетная прогонка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
9.5. Сравнение полного и выборочного вариантов дублирова-
ния . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

Перейти на страницу с полной версией»


Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Перейти на страницу с полной версией»

Оглавление 399

9.6. Траекторная выборка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301


9.7. Эвристический поиск . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
9.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
9.9. Библиографические и исторические справки . . . . . . . . . . . . . 311
Глава 10. Важнейшие аспекты обучения с подкреплением . . . . . . . . . 313
10.1. Единый подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
10.2. Некоторые другие новые направления . . . . . . . . . . . . . . . . . . . . 317
Глава 11. Конкретные примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.1. Программа TD-Gammon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.2. Программа игры в шашки Сэмюеля . . . . . . . . . . . . . . . . . . . . . . 327
11.3. Акробот . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
11.4. Управление лифтом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
11.5. Динамическое распределение каналов . . . . . . . . . . . . . . . . . . . . 342
11.6. Задача планирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
Список обозначений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
2794633475-11

Перейти на страницу с полной версией»

Вам также может понравиться