«Антагонистическая
игра»
Доклад по методам оптимизации
Аль Фарах М.Г.
21.12.2008
В теории игр стратегия игрока в игре или деловой ситуации — это полный
план действий при всевозможных ситуациях, способных возникнуть.
Стратегия определяет действие игрока в любой момент игры и для
каждого возможного течения игры, способного привести к каждой
ситуации.
Общие выкладки
Есть матрица A размера . Первый игрок выбирает число от 1 до n, второй —
от 1 до m. Затем они сверяют числа и первый игрок получает aij очков, а второй ( − aij)
очков (i — число, выбранное первым игроком, j — вторым). Нужно найти оптимальную
стратегию первого игрока. Пусть в оптимальной стратегии число i нужно выбирать с
вероятностью pi. Тогда оптимальная стратегия является решением следующей задачи
линейного программирования: , , ,
( ), в которой нужно максимизировать
функцию . C в оптимальном решении будет математическим
ожиданием выигрыша первого игрока в наихудшем случае.
Матрица A называется платежной матрицей.
Конкретные примеры
Орлянка
Простейшим примером антагонистической игры является игра «Орлянка». Первый
игрок прячет монету орлом или решкой вверх, а второй пытается угадать, как она
спрятана. Если он не угадывает - он платит первому одну денежную единицу, если
угадывает - первый платит ему одну денежную единицу.
В данной игре каждый участник имеет две стратегии: «орел» и «решка».
Множество ситуаций в игре состоит из четырех элементов. В строках таблицы указаны
стратегии первого игрока х, в столбцах - стратегии второго игрока y. Для каждой из
ситуаций указаны выигрыши первого и второго игроков.
X Y Орел Решка
Орел -1,1 1, -1
Решка 1, -1 -1,1
Дилемма заключённого
В теории игр дилемма заключённого (реже употребляется название «дилемма
бандита») — некооперативная игра, в которой игроки стремятся получить выгоду,
сотрудничая друг с другом или предавая. Как во всей теории игр, предполагается, что
игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде
других.
В дилемме заключённого предательство строго доминирует над сотрудничеством,
поэтому единственное возможное равновесие — предательство обоих участников. Проще
говоря, неважно, что сделает другой игрок, каждый выиграет больше, если предаст.
Поскольку в любой ситуации предать выгоднее, чем сотрудничать, все рациональные
игроки выберут предательство.
Ведя себя по отдельности рационально, вместе участники приходят к
нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш,
чем если бы сотрудничали. В этом и заключается дилемма.
В повторяющейся дилемме заключённого игра происходит периодически, и каждый
игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество
может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с
ростом числа итераций равновесие Нэша стремится к Парето-оптимуму).
Во всех судебных системах кара за бандитизм (совершение преступлений в составе
организованной группы) намного тяжелее, чем за те же преступления, совершённые в
одиночку (отсюда альтернативное название — «дилемма бандита»).
Классическая формулировка дилеммы заключённого такова:
Двое преступников, А и Б, попались примерно в одно и тоже время на сходных
преступлениях. Есть основания полагать, что они действовали по сговору, и полиция,
изолировав их друг от друга, предлагает им одну и ту же сделку: если один
свидетельствует против другого, а тот хранит молчание, то первый освобождается за
помощь следствию, а второй получает максимальный срок (10 лет). Если оба молчат, дело
проходит по другой статье, и они приговариваются к 6 месяцам. Если оба свидетельствуют
против друг друга, они получают минимальный срок (по 2 года). Каждый заключённый
выбирает, молчать или свидетельствовать против другого. Однако ни один из них не знает
точно, что сделает другой. Что произойдёт?
Игру можно представить в виде следующей таблицы:
Заключённый Б хранит Заключённый Б даёт показания
молчание
Заключённый А хранит Оба получают полгода. А получает 10 лет,
молчание Б освобождается
Заключённый А даёт показания А освобождается, Оба получают 2 года тюрьмы
Б получает 10 лет тюрьмы