Академический Документы
Профессиональный Документы
Культура Документы
Р. С. Саттон, Э. Г. Барто
Обучение
с подкреплением
ЭЛЕКТРОННОЕ ИЗДАНИЕ
Перевод с английского
Е. О. Романова
под редакцией Ю. В. Тюменцева
2794633475-11
Москва
БИНОМ. Лаборатория знаний
2012
УДК 517.11+519.92
ББК 22.18
С21
c 1998 Richard S. Sutton and Andrew G. Barto
Fourth printing, 2002
All rights reserved. No part of this book may
be reproduced in any form by any electronic
or mechanical means (including
photocopying, recording, or information
storage and retrieval) without permission in
writing from the MIT Press.
The rights to the Russian language edition
obtained through Alexander Korzhenevski
Agency (Moscow)
ISBN 978-5-9963-1349-5
c БИНОМ. Лаборатория знаний, 2011
Интерактивное оглавление
Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
49
*
2.4. Оценивание в сравнении с инструктированием. . . . . . . . . . . . . . 50
2.5. Пошаговая реализация обучения . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.6. Нестационарные задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.7. Оптимистичные начальные оценки . . . . . . . . . . . . . . . . . . . . . . . . 60
*
2.8. Сравнение с подкреплением. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
*
2.9. Методы преследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
*
2.10. Ассоциативный поиск . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.11. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.12. Библиографические и исторические справки . . . . . . . . . . . . . . . 71
vi
163
5.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.9. Библиографические и исторические справки . . . . . . . . . . . . . . . 166
Глава 6. Обучение на основе временных различий . . . . . . . . . . . . . . . 168
6.1. Предсказание на основе временных различий. . . . . . . . . . . . . . . 168
6.2. Преимущества TD-методов предсказания . . . . . . . . . . . . . . . . . . 174
6.3. Оптимальность метода TD(0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.4. SARSA: управление по TD-методу с интегрированной оценкой
ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.5. 𝑄-обучение: управление по TD-методу с разделенной оценкой
ценности стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
*
6.6. Методы исполнитель—критик . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
*
6.7. 𝑅-обучение для неприведенных продолжающихся задач . . . . . 192
6.8. Игры, послесостояния и другие особые случаи. . . . . . . . . . . . . . 195
6.9. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
6.10. Библиографические и исторические справки . . . . . . . . . . . . . . . 198
282
9.3. Когда модель неверна . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
9.4. Приоритетная прогонка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
9.5. Сравнение полного и выборочного вариантов дублирования . 296
9.6. Траекторная выборка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
9.7. Эвристический поиск. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
9.8. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
9.9. Библиографические и исторические справки . . . . . . . . . . . . . . . 311
Глава 10. Важнейшие аспекты обучения с подкреплением . . . . . . . . 313
10.1. Единый подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
10.2. Некоторые другие новые направления . . . . . . . . . . . . . . . . . . . . . 317
Глава 11. Конкретные примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.1. Программа TD-Gammon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.2. Программа игры в шашки Сэмюеля . . . . . . . . . . . . . . . . . . . . . . . 327
11.3. Акробот. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
11.4. Управление лифтом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
11.5. Динамическое распределение каналов . . . . . . . . . . . . . . . . . . . . . 342
11.6. Задача планирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
Список обозначений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
Оглавление
Оглавление 397
398 Оглавление
Оглавление 399