Академический Документы
Профессиональный Документы
Культура Документы
Петросян
Н. А. Зенкевич
Е. В. Шевкопляс
2-е издание
Санкт-Петербург
«БХВ-Петербург»
2012
УДК 512.8(075.8)
ББК 22.14+22.19я73
П30
Петросян, Л. А.
П30 Теория игр: учебник / Л. А. Петросян, Н. А. Зенкевич,
Е. В. Шевкопляс. — 2-е изд., перераб. и доп. — СПб.: БХВ-Петербург,
2012 — 432 с.: ил. — (Учебная литература для вузов)
ISBN 978-5-9775-0484-3
Учебник предназначен как для первоначального, так и для углубленного изуче-
ния теории игр. Проведено систематическое исследование математических моделей
принятия решений несколькими сторонами в условиях конфликта. Представлено
последовательное изложение единой теории статических и динамических игр. Рас-
смотрены все основные классы игр: конечные и бесконечные антагонистические
игры, бескоалиционные и кооперативные игры, многошаговые и дифференциальные
игры. Для закрепления материала в каждой главе содержатся задачи и упражнения
разной степени сложности.
Во втором издании расширены разделы, касающиеся статической теории коопе-
ративных решений и динамических кооперативных игр, а также игр с неполной ин-
формацией. Уточнены и изменены доказательства отдельных утверждений. Приме-
нен новый единый подход к исследованию оптимального поведения игроков в пози-
ционных и дифференциальных играх.
Для студентов и аспирантов математических, экономических,
управленческих и технических направлений и специальностей
УДК 512.8(075.8)
ББК 22.14+22.19я73
Группа подготовки издания:
Главный редактор Екатерина Кондукова
Зам. главного редактора Евгений Рыбаков
Зав. редакцией Григорий Добин
Компьютерная верстка Екатерины Шевкопляс
Корректор Наталия Першакова
Дизайн серии Инны Тачиной
Оформление обложки Елены Беляевой
Фото Кирилла Сергеева
Зав. производством Николай Тверских
Рецензенты:
Н. Н. Петров, д-р физ.-мат. наук, проф., завкафедрой исследования операций СПбГУ;
А. Ю. Гарнаев, д-р физ.-мат. наук, проф. кафедры компьютерного моделирования
и микропроцессорных систем СпбГУ.
Предисловие 6
Введение 8
1 Матричные игры 12
§ 1.1. Определение антагонистической игры в нормальной форме . . . . . . . . 12
§ 1.2. Максиминные и минимаксные стратегии . . . . . . . . . . . . . . . . . . . . 16
§ 1.3. Ситуации равновесия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
§ 1.4. Смешанное расширение игры . . . . . . . . . . . . . . . . . . . . . . . . . . 22
§ 1.5. Некоторые сведения из теории выпуклых множеств . . . . . . . . . . . . . 25
§ 1.6. Существование решения в классе смешанных стратегий . . . . . . . . . . . 28
§ 1.7. Свойства оптимальных стратегий и значения игры . . . . . . . . . . . . . 30
§ 1.8. Доминирование стратегий . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
§ 1.9. Вполне смешанные и симметричные игры . . . . . . . . . . . . . . . . . . . 43
§ 1.10. Итеративные методы решения матричных игр . . . . . . . . . . . . . . . 48
§ 1.11. Упражнения и задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3
4 Оглавление
Литература 410
Авторы
Введение
ша, который он получит после того, как игроки выберут свои стратегии. В результате
игра становится формальным объектом, который поддается математическому анализу.
В.4. Игры можно классифицировать по различным признакам. Во-первых, бескоа-
лиционные игры, в которых каждая коалиция (множество игроков, действующих сов-
местно) состоит лишь из одного игрока. Так называемая кооперативная теория бес-
коалиционных игр допускает временные объединения игроков в коалиции в процессе
игры с последующим разделением полученного выигрыша или принятия совместных
решений. Во-вторых, коалиционные игры, в которых принимающие решения игроки
согласно правилам игры объединены в фиксированные коалиции. Члены одной коали-
ции могут свободно обмениваться информацией и принимать полностью согласованные
решения.
По выигрышу игры можно разделить на антагонистические и игры с ненулевой
суммой.
По характеру получения информации — на игры в нормальной форме (игроки по-
лучают всю предназначенную им информацию до начала игры) и динамические игры
(информация поступает игрокам в процессе развития игры).
По количеству стратегий — на конечные и бесконечные игры.
В.5. Учебник состоит из восьми глав. Первая глава содержит основные сведения
из теории конечных антагонистических (матричных) игр. Здесь доказывается теорема
существования ситуации равновесия в классе смешанных стратегий, выводятся свой-
ства оптимальных смешанных стратегий, приведены методы решения матричных игр.
Хотя антагонистический конфликт является очень специальным случаем конфликта,
возникающего в конкретных сферах приложений, тем не менее, в первой главе приво-
дятся многочисленные примеры задач поиска и преследования, которые моделируются
матричными играми.
Во второй главе рассматриваются бесконечные антагонистические игры или игры
с бесконечным числом стратегий у каждого из игроков. Здесь теоремы существова-
ния ситуаций равновесия справедливы далеко не во всех случаях. К важным условиям
существования относятся свойства функции выигрыша. В главе приводится доказа-
тельство существования ситуации равновесия в смешанных стратегиях, когда функция
выигрыша является непрерывной. Однако существует достаточно большое число клас-
сов игр, для которых это обстоятельство не имеет места, но равновесие, тем не менее,
существует. К играм такого типа относятся дуэли и покер. Рассмотрение игр типа по-
кера интересно еще и тем, что позволяет обосновать стратегию «блефа», часто встре-
чающуюся на практике. В главе рассмотрены также приложения к задачам поиска и
преследования.
Третья глава посвящена статическим неантагонистическим играм. В качестве прин-
ципа оптимальности в таких моделях обычно используется равновесие по Нэшу. При-
водится доказательство существования равновесия по Нэшу в смешанных стратегиях
в играх с конечным числом стратегий, исследуются свойства равновесий и приводятся
некоторые модификации равновесия по Нэшу. Исследуются и другие принципы опти-
мальности, такие, как решения оптимальные по Парето и арбитражные схемы. В связи
с серьезными приложениями в биологии и экономике, даются определение и свойства
эволюционно-устойчивых стратегий. В последнее время возродился интерес к исполь-
зованию коррелированных действий в неантагонистических играх. В этой связи в главу
включен материал о равновесиях в совместных смешанных стратегиях. Вторая полови-
на главы посвящена кооперативной теории игр. Здесь мы ограничиваемся изложением
случая, когда выигрыши игроков трансферабельны и игра задается характеристиче-
10 Введение
ской функцией. Предполагается, что при кооперации игроки максимизируют свой сум-
марный выигрыш. Поэтому задача заключается в дележе полученного максимального
выигрыша, который устраивал бы всех игроков. Исходя из такого понимания коопера-
ции, в главе приводится классическое понятие характеристической функции и основные
принципы оптимальности (C-ядро, N M -решение и вектор Шепли). Доказаны теоремы
существования непустого ядра. Отдельно исследованы выпуклые и простые игры, до-
казано существование C-ядра. Теоретические результаты иллюстрируются примерами
из социально–экономической сферы.
В четвертой главе исследуются позиционные многошаговые игры (игры в развер-
нутой форме). Эта глава имеет особое значение, поскольку она служит базой для по-
нимания следующих глав, в которых описываются дифференциальные игры. Наиболее
изученным классом игр являются игры с полной информацией. Для них доказыва-
ется существование абсолютного равновесия по Нэшу, т. е. такого равновесия, суже-
ние которого в каждой подыгре, является равновесием в этой подыгре. Однако, кроме
абсолютных равновесий, существует достаточно представительный класс равновесий
в стратегиях наказания. Приводится характеристика этого класса равновесий и при-
водятся теоремы, характеризующие этот класс равновесий. Особенностью равновесий
по Нэшу является их неединственность и неэквивалентность в том смысле, что выиг-
рыши игроков в разных ситуациях равновесия могут серьезно различаться. Поэтому
нетривиальным вопросом является выбор конкретного равновесия по Нэшу. В главе
предлагается в качестве представителя равновесий по Нэшу выбрать индифферент-
ное равновесие, существование и единственность которого доказывается. Особое место
занимают иерархические игры. В главе приводится решение иерархических игр с дре-
вовидной и ромбовидной структурой. Отдельно исследованы кооперативные позици-
онные игры. Здесь возникает новая проблема — построение динамически устойчивых
(состоятельных во времени) принципов оптимальности. Эта проблема решается с по-
мощью введения процедур распределения дележа и основанной на них регуляризации
игры. Отдельный параграф посвящен построению принципов оптимальности в играх с
переменным коалиционным разбиением.
В пятой главе рассматриваются антагонистические дифференциальные игры. Из-
ложение материала ведется на примере дифференциальных игр преследования. Одна-
ко полученные результаты могут быть легко использованы и в более общем случае.
Доказывается основополагающая теорема о существовании ситуации ε-равновесия в
классе кусочно–программных стратегий, выводится уравнение Айзекса–Беллмана для
функции значения игры, приводятся итеративные методы решения этого уравнения.
Результаты теории иллюстрируются на модельных примерах простого преследования
и преследования при наличии сил трения. В указанных случаях находится решение
уравнение Айзексаа–Беллмана в явной форме. Исследуется задача преследования на
быстродействие, и приводятся теоремы, указывающие на связь между задачами пре-
следования на быстродействие и с предписанной продолжительностью. Отдельный па-
раграф посвящен задаче преследования с задержкой информации у преследователя
специального вида. Обоснован вид оптимальной стратегии убегающего, которая в этом
случае включает в себя случайный выбор управляющего воздействия.
Здесь следует заметить, что уровень строгости решений дифференциальных игр
и, в частности, игр преследования, базирующихся на решении уравнения Айзекса–
Беллмана, ограничивается областью фазовых переменных, для которых указанное урав-
нение имеет смысл. Строгое обоснование решений может быть получено с исполь-
зованием фундаментальных результатов Н. Н. Красовского и его учеников. Именно
Введение 11
Матричные игры
1.1.3. Пример 1 (Оборона города). Этот пример известен в литературе под назва-
нием «игра полковника Блотто» [Дрешер, 1964]. Полковник Блотто имеет m полков, а
его противник –— n полков. Противник защищает две позиции. Позиция будет занята
полковником Блотто, если на ней наступающие полки окажутся в численном превос-
ходстве. Противоборствующим сторонам требуется распределить полки между двумя
позициями.
y0 y1 y2 y3
x0 4 2 1 0
x1 1 3 0 −1
A = x2 −2 2 2 −2
.
x3 −1 0 3 1
x4 0 1 2 4
1 2 3 4
1 0 1 2 3
2
1 0 1 2
.
A=
3 2 1 0 1
4 3 2 1 0
Пример 3 (Дискретная игра типа дуэли) [Гейл, 1960]. Игроки продвигаются на-
встречу друг другу на n шагов. После каждого сделанного шага игрок может выстре-
лить или нет, но во время игры он может выстрелить только один раз. Считается, что
вероятность того, что игрок попадает в своего противника, если выстрелит, продвинув-
шись на k шагов, равна k/n (k ≤ n).
Стратегия игрока 1(2) заключается в принятии решения стрелять на i-м (j-м) шаге.
Пусть i < j и игрок 1 принимает решение стрелять на i-м шаге, а игрок 2 — на j-м
шаге. Тогда выигрыш aij игрока 1 определяется формулой
i ( i )j n(i − j) + ij
aij = − 1− = .
n n n n2
Пример 6 (Поиск «шумного» объекта.) Предположим, что игрок 1 ведет поиск по-
движного объекта (игрок 2) с целью его обнаружения. Игрок 2 преследует противопо-
ложную цель (т. е. стремится уклониться от обнаружения). Игрок 1 может двигаться
со скоростями α1 = 1, α2 = 2, α3 = 3, а игрок 2 — соответственно со скоростями
β1 = 1, β2 = 2, β3 = 3. Дальность действия средства обнаружения игрока 1 в зависи-
мости от скоростей движения участников игры приведена в матрице
β1 β2 β3
α1 4 5 6
D = α2 3 4 5 .
α3 1 2 3
16 1. Матричные игры
β1 β2 β3
α1 4 5 6
A = α2 6 8 10 .
α3 3 6 9
v ≤ v (1.2.5)
или
sup inf K(x, y) ≤ inf sup K(x, y). (1.2.6)
x∈X y∈Y y∈Y x∈X
Отсюда получаем
inf K(x, y) ≤ inf sup K(x, y).
y∈Y y∈Y x∈X
Теперь заметим, что в правой части последнего неравенства стоит константа, а значение
x ∈ X выбиралось произвольно. Поэтому выполняется неравенство
Z(Γ) ⊂ X × Y.
K(x∗2 , y1∗ ) ≤ K(x∗1 , y1∗ ) ≤ K(x∗1 , y2∗ ) ≤ K(x∗2 , y2∗ ) ≤ K(x∗2 , y1∗ ).
K(x, y1∗ ) ≤ K(x∗1 , y1∗ ) = K(x∗2 , y1∗ ) = K(x∗2 , y2∗ ) ≤ K(x∗2 , y) (1.3.6)
v = K(x∗ , y ∗ ) (1.3.7)
Z(Γ) = X ∗ × Y ∗ . (1.3.8)
Тогда
Z(Γ′ ) = Z(Γ), vΓ′ = βvΓ + α. (1.3.10)
Доказательство. Пусть (x∗ , y ∗ ) — ситуация равновесия в игре Γ. Тогда имеем
и выполнялось равенство:
отсюда
sup K(x, y ∗ ) ≤ K(x∗ , y ∗ ). (1.3.14)
x
Таким образом,
inf sup K(x, y) ≤ sup K(x, y).
y x x
Согласно равенству (1.3.12), min sup равен max inf, а из (1.3.21), (1.3.22) следует, что
он равен также и величине K(x∗ , y ∗ ), т. е. неравенства в (3.21), (3.22) выполняются как
равенства. Теперь имеем
Для такой матрицы min max αij = 5, max min αij = 3, т. е. ситуации равновесия не
j i i j
существует.
Обозначим через i∗ максиминную стратегию игрока 1 (i∗ = 1), а минимаксную
стратегию игрока 2 через j ∗ (j ∗ = 2). Пусть игрок 2 придерживается стратегии j ∗ = 2,
а игрок 1 выберет стратегию i = 2. Тогда последний получит выигрыш 5, т. е. на
2 единицы больше, чем максимин. Однако если игрок 2 догадается о выборе игрока 1,
то он изменит стратегию на j = 1, и тогда первый получит выигрыш лишь 2 единицы,
т. е. на единицу меньше, чем в случае максимина. Аналогичные рассуждения можно
провести и для второго игрока. По существу вопрос стоит о том, как разделить между
игроками величину (1.4.1)?
Оказывается, что в этом случае игрокам разумно действовать случайно, что обес-
печивает наибольшую скрытность выбора стратегии. Результат выбора не может стать
известным противнику, поскольку до реализации случайного механизма не известен
самому игроку.
§ 1.4. Смешанное расширение игры 23
∑
m
x = (ξ1 , . . . , ξm ), ξi = 1, ξi ≥ 0, i = 1, . . . , m. (1.4.2)
i=1
∑
n
y = (η1 , . . . , ηn ), ηj = 1, ηj ≥ 0, j = 1, . . . , n. (1.4.3)
j=1
где N = {1, 2, . . . , n}. Таким образом, спектр смешанной стратегии состоит из таких
чистых стратегий, которые выбираются с положительными вероятностями.
Для любой смешанной стратегии x спектр Mx ̸= ⊘, поскольку вектор x имеет неот-
рицательные компоненты, сумма которых равна 1 [см. (1.4.2)].
Рассмотрим смешанную стратегию ui = (ξ1 , . . . , ξ1 , . . . , ξm ) ∈ X, где ξi = 1, ξj =
0, j ̸= i, i = 1, 2, . . . , m. Такая стратегия предписывает выбор i-ой строки матрицы A с
вероятностью 1. Естественно отождествлять смешанную стратегию ui ∈ X с выбором
i-й строки, т. е. с чистой стратегией i ∈ M игрока 1. Аналогично отождествим сме-
шанную стратегию wj = (η1 , . . . , ηj , . . . , ηn ) ∈ Y , где ηj = 1, ηi = 0, i ̸= j, j = 1, . . . , n с
чистой стратегией j ∈ N игрока 2. Тем самым мы получили, что множество смешанных
стратегий игрока есть расширение его пространства чистых стратегий.
Определение. Пара (x, y) смешанных стратегий игроков в матричной игре ΓA
называется ситуацией в смешанных стратегиях.
24 1. Матричные игры
∑
m ∑
n
K(x, y) = aij ξi ηj = (xA)y = x(Ay). (1.4.6)
i=1 j=1
∑
n
K(i, y) = K(ui , y) = aij ηj = ai y, i = 1, . . . , m,
i=1
∑
m
K(x, j) = K(x, wj ) = aij ξi = xaj , j = 1, . . . , n,
i=1
A′ = αA + B, α > 0, α = const,
По лемме значение игр связано равенством vA′′ = 21 vA′ = 12 (vA + 1). Таким образом,
требуется проверить, что значение игры ΓA′′ равно 1/2. Действительно, K ′′ (x∗ , y ∗ ) =
xT A′′ y ∗ = 1/2. С другой стороны, для каждой стратегии y ∈ Y, y = (η1 , η2 , η3 ) имеем
K ′′ (x∗ , y) = 21 η1 + 12 η2 + 12 η3 = 12 ·1 = 12 , а для всех x = (ξ1 , ξ2 , ξ3 ), x ∈ X, K ′′ (x, y ∗ ) = 21 ξ1 +
1 1 1 ∗ ∗
2 ξ2 + 2 ξ3 = 2 . Следовательно, указанные стратегии x , y являются оптимальными, а
vA = 0.
В дальнейшем, говоря о матричной игре ΓA , будем предполагать, что речь идет о
ее смешанном расширении ΓA .
∑
k ∑
k
x= λi xi , λi ≥ 0, λi = 1,
i=1 i=1
xA ≤ b
или
xaj ≤ βj , j ∈ N, N = {1, . . . , n}, (1.5.1)
где A = [a , j ∈ N ] — (m × n)-матрица, x ∈ R , b = (β1 , . . . , βn ) ∈ R .
j m n
Последняя теорема дает алгоритм нахождения крайних точек множества X̃. Для этого
необходимо рассмотреть столбцовые базисы матрицы A, решить систему линейных уравнений
(1.5.2) и проверить выполнение неравенств (1.5.3). Однако такой способ поиска крайних то-
чек многогранного множества мало пригоден для практики, поскольку он связан с полным
перебором всевозможных столбцовых базисов матрицы A.
1.5.3. Выпуклой оболочкой множества P будем называть пересечение всех выпуклых мно-
жеств, содержащих P , и обозначать conv(P ). Данное определение эквивалентно следующему.
Выпуклая оболочка множества P состоит из всех выпуклых линейных комбинаций всевоз-
можных точек из P , т. е.
∑
n ∑
n
conv(P ) = {x |x = λi xi , λi = 1, λi ≥ 0, xi ∈ P }.
i=1 i=1
cx = by.
1.5.5. В заключение параграфа приведем одно свойство выпуклых функций. Сначала на-
помним, что функция φ : M → R1 , где M ⊂ Rm — выпуклое множество, называется выпуклой,
если
φ(λx1 + (1 − λ)x2 ) ≤ λφ(x1 ) + (1 − λ)φ(x2 ) (1.5.9)
для всех x1 , x2 ∈ M и λ ∈ [0, 1]. Если же в (1.5.9) выполняется обратное неравенство, то
функция φ называется вогнутой. Пусть φi (x) — выпуклые на M функции, i = 1, . . . , n. Тогда
верхняя огибающая ψ(x) этого семейства функций
является выпуклой на M .
Действительно, по определению выпуклой функции для x1 , x2 ∈ M и α ∈ [0, 1] имеем
Отсюда получаем
x∗ = x/Θ, y ∗ = y/Θ.
vA′ = 1/Θ − β.
для всех i ∈ M и j ∈ N .
Достаточность. Пусть (x∗ , y ∗ ) — пара смешанных стратегий, для которой выполня-
ются неравенства (1.7.1). Пусть также x = (ξ1 , . . . , ξm ) ∈ X и y = (η1 , . . . , ηn ) ∈ Y —
произвольные смешанные стратегии игроков 1 и 2 соответственно. Умножая первое и
второе неравенства (1.7.1) на ξi и ηj соответственно и суммируя, получаем
∑
m ∑
m
ξi K(i, y ∗ ) ≤ K(x∗ , y ∗ ) ξi = K(x∗ , y ∗ ), (1.7.2)
i=1 i=1
∑
n ∑
n
ηj K(x∗ , j) ≥ K(x∗ , y ∗ ) ηj = K(x∗ , y ∗ ). (1.7.3)
j=1 j=1
∑
n
ηj K(x∗ , j) = K(x∗ , y). (1.7.5)
j=1
для всех 1 ≤ j ≤ n.
a) Пусть n = 2k + 1 — нечетно. Тогда игрок 2 имеет такую чистую стратегию
j ∗ = (n + 1)/2 = k + 1, что
для всех i = 1, 2, . . . , n.
b) Предположим, что n = 2k — четно. Тогда игрок 2 имеет такую стратегию
y ∗ = (0, 0, . . . , 1/2, 1/2, 0, . . . , 0), где ηk∗ = 1/2, ηk+1
∗
= 1/2, ηj∗ = 0, j ̸= k + 1, j ̸= k, и
K(i, y ∗ ) ≤ K(x∗ , j)
∑
n
≤ ηj∗ K(x∗ , j) = K(x∗ , y ∗ ).
j=1
∑
m
= ξ˜i K(i, ỹ) ≤ max K(i, ỹ).
1≤i≤m
i=1
Следовательно, мы имеем
K(i, ỹ) ≤ max K(i, ỹ) = K(x̃, ỹ) = min K(x̃, j) ≤ K(x̃, j)
1≤i≤m 1≤j≤n
Пример 11. ((2×n) -игра.) Рассмотрим игру, в которой игрок 1 имеет две стратегии,
а игрок 2 — n стратегий. Матрица имеет вид
[ ]
α11 α12 . . . α1n
A= .
α21 α22 . . . α2n
Пусть игрок 1 выбрал смешанную стратегию x = (ξ, 1 − ξ), а игрок 2 чистую стра-
тегию j ∈ N . Тогда выигрыш игрока 1 в ситуации (x, j) равен
является нижняя огибающая семейства прямых (1.7.8). Эта функция вогнута как ниж-
няя огибающая семейства вогнутых (в данном случае линейных) функций (п. 1.5.5).
34 1. Матричные игры
Точка ξ ∗ , в которой достигается максимум функции H(ξ) по ξ ∈ [0, 1], и дает требуемое
оптимальное решение x∗ = (ξ ∗ , 1 − ξ ∗ ) и значение игры vA = H(ξ ∗ ).
Для определенности рассмотрим игру с матрицей
[ ]
1 3 1 4
A= .
2 1 4 0
Для каждого j = 1, 2, 3, 4 имеем: K(x, 1) = −ξ +2, K(x, 2) = 2ξ +1, K(x, 3) = −3ξ +4,
K(x, 4) = 4ξ. Нижняя огибающая H(ξ) семейства прямых {K(x, j)} и сами прямые
K(x, j), j = 1, 2, 3, 4 изображены на рис. 1.1. Максимум H(ξ ∗ ) функции H(ξ) находится
на пересечении первой и четвертой прямых. Таким образом, ξ ∗ — решение уравнения
4ξ ∗ = −ξ ∗ + 2 = vA .
BK6
B
B
B
4 Bp
B
B
B
B
p B
@
3 B
B
@ B
@ B
@ B
@ B
@
2p B
@
@ BB
@
@ B
@ @ B
@@B
1 p @B
@
B
BB @
BB @
BB
BB @@
p p p BBB @p p-
-1/2 0 ξ ∗ 1 BB 2@ ξ
BB @
B @
K(x,2) K(x,3) K(x,1)
K(x,4)
Для оптимальной стратегии y ∗ = (η1∗ , η2∗ , η3∗ , η4∗ ) должно выполняться равенство
vA = K(x∗ , y ∗ ) = η1∗ K(x∗ , 1) + η2∗ K(x∗ , 2) + η3∗ K(x∗ , 3) + η4∗ K(x∗ , 4).
При этом K(x∗ , 2) > 8/5, K(x∗ , 3) > 8/5; следовательно, η2∗ = η3∗ = 0, а η1∗ , η4∗ можно
найти из условия (1.7.1):
η1∗ + 4η4∗ = 8/5,
2η1∗ = 8/5.
Таким образом, η1∗ = 4/5, η4∗ = 1/5 и оптимальная стратегия игрока 2 равна
y ∗ = (4/5, 0, 0, 1/5).
Пример 12 ((m × 2)-игра). В этом примере две стратегии имеет игрок 2, а игрок 1
имеет m стратегий. Тогда матрица A имеет вид
α11 α12
α21 α22
A= ...
.
...
αm1 αm2
Следовательно, K(x∗ , y ∗ ) < vA , что противоречит тому, что vA — значение игры. Вто-
рая часть теоремы доказывается аналогично.
Этот результат является аналогом теоремы о дополняющей нежесткости [Ху, 1974]
или, как ее еще называют, канонической теоремой равновесия для задачи линейного
программирования [Гейл, 1960].
36 1. Матричные игры
K(x∗ , j) = aj x∗ = vA .
При этом в спектр Mx∗ любой оптимальной стратегии x∗ могут входить лишь суще-
ственные стратегии..
1.7.7. В заключение параграфа приведем аналитическое решение игры «нападение-
защита» (см. пример 4 п. 1.1.3)
Пример 13 [Sakaguchi, 1973]. Рассмотрим игру с (n × n) матрицей A.
β1 τ1 τ1 ... τ1
τ2 β2 τ2 . . . τ2
A= ...
.
... ... ...
τn τn . . . βn τn
{∑
n
} ∑n
φ(k) = (1 − βi )−1 − 1 / (τi (1 − βi ))−1 (1.7.9)
i=k i=k
φ(k)Rφ(k + 1) (1.7.11)
τk Rφ(k), k = 1, 2, . . . , n − 1, τ0 ≡ 0. (1.7.12)
Тогда имеем [ ]
φ(k) (1 − βk )−1
− 1 ∑n −1
+ φ(k) = φ(k + 1). (1.7.13)
τk i=k+1 (τi (1 − βi ))
{
0, j = 1, . . . , l − 1,
ηj∗ = (1.7.16)
(τj − φ(l))/(τj (1 − βj )), j = l, . . . , n,
а значение игры равно
vA = φ(l).
∑n
Действительно, ξi∗ ≥ 0, i = 1, 2, . . . ,∑n и i=1 ξi∗ = 1. Из определения φ(l) и (1.7.14)
получаем, что ηj∗ ≥ 0, j = 1, 2, . . . , n и j=1 ηj∗ = 1.
n
Пусть K(x∗ , j) — выигрыш игрока 1 в ситуации (x∗ , j), аналогично K(i, y ∗ ) — выиг-
рыш в ситуации (i, y ∗ ). Подставляя (1.7.15), (1.7.16) в функцию выигрыша и используя
предположение о неубывании ценностей объектов, а также (1.7.14), получаем
n (∑ )−1
∑ n
∗
− −1
> φ(l), j = 1, l − 1,
τ ξ
i i = φ(l) + (τ j (1 βj ))
∗ i=l j=l
K(x , j) =
∑ n
τi ξi∗ − (1 − βj )τj ξj∗ = φ(l), j = l, n,
i=l
38 1. Матричные игры
{
τi ≤ φ(l), i = 1, l − 1,
K(i, y ∗ ) =
τi − τi (1 − βi )ηi∗ = φ(l), i = l, n.
Таким образом, для всех i, j = 1, . . . , n выполняются неравенства
x′ aj ≥ x′′ aj . (1.8.1)
Аналогично, стратегия y ′ игрока 2 доминирует его стратегию y ′′ , если для всех
чистых стратегий i ∈ {1, . . . , m} игрока 1
ai y ′ ≤ ai y ′′ . (1.8.2)
Если неравенства (1.8.1), (1.8.2) выполняются как строгие, то говорят о строгом доми-
нировании. Частным случаем доминирования стратегий является их эквивалентность.
Определение. Будем называть стратегии x′ и x′′ игрока 1 эквивалентными в
игре ΓA , если для всех j ∈ {1, . . . , n}
x′ aj = x′′ aj ,
и обозначать x′ ∼ x′′ .
Для двух эквивалентных стратегий x′ и x′′ выполняется (для каждого y ∈ Y ) ра-
венство
K(x′ , y) = K(x′′ , y).
Аналогично, стратегии y ′ и y ′′ игрока 2 эквивалентны (y ′ ∼ y ′′ ) в игре ΓA , если для
всех i ∈ {1, . . . , m}
ai y ′ = ai y ′′ .
Отсюда имеем, что для любой смешанной стратегии x ∈ X игрока 1 выполняется ра-
венство
K(x, y ′ ) = K(x, y ′′ ).
Для чистых стратегий введенные определения трансформируются следующим об-
разом. Если чистая стратегия i′ игрока 1 доминирует стратегию i′′ , а чистая стратегия
j ′ игрока 2 — стратегию j ′′ того же игрока, то для всех i = 1, . . . , m; j = 1, . . . , n
выполняются неравенства
ai′ j ≥ ai′′ j , aij ′ ≤ aij ′′ .
§ 1.8. Доминирование стратегий 39
В противном случае говорят, что стратегия x′′ (y ′′ ) игрока 1 (2) недоминируема строго.
1.8.2. Покажем, что игроки могут не использовать доминируемые стратегии. Этот
факт устанавливает следующее утверждение.
Теорема. Если в игре ΓA стратегия x′ одного из игроков доминирует оптималь-
ную стратегию x∗ , то стратегия x′ также оптимальна.
Доказательство. Пусть, для определенности, x′ и x∗ – стратегии игрока 1. Тогда в
силу доминирования
x′ aj ≥ x∗ aj
для всех j = 1, n. Следовательно, в силу оптимальности стратегии x∗ (см. 1.7.3), полу-
чаем
vA = min x∗ aj ≥ min x′ aj ≥ min x∗ aj = vA
j j j
что противоречит тому, что vA — значение игры (1.7.3). Полученное противоречие до-
казывает теорему.
40 1. Матричные игры
Понятно,
[ что
] обратное утверждение, вообще говоря, неверно. Так, в игре с мат-
1 0
рицей 1-я и 2-я чистые стратегии игрока 1 недоминируемы строго, но они
0 2
неоптимальны.
С другой стороны, интуитивно понятно, что если i-я строка матрицы A ( j -й стол-
бец) доминируема, то нет необходимости приписывать ей (ему) положительную ве-
роятность. Таким образом, для нахождения оптимальных стратегий вместо игры ΓA ,
достаточно решить подыгру ΓA′ , где A′ — матрица, получаемая из матрицы A вычер-
киванием доминируемых строк и столбцов.
Прежде чем перейти к точной формулировке и доказательству этого результата, вве-
дем понятие расширения смешанной стратегии x на i-м месте. Если x = (ξ1 , . . . , ξm ) ∈
X и 1 ≤ i ≤ m + 1, то расширением стратегии x на i-м месте будем называть век-
тор xi = (ξ1 , . . . , ξi−1 , 0, ξi , . . . , ξm ) ∈ Rm+1 . Так, расширением вектора (1/3, 2/3, 1/3)
на 2-м месте является вектор (1/3, 0, 2/3, 1/3); расширением на 4-м месте — вектор
(1/3, 2/3, 1/3, 0); расширением на 1-м месте — вектор (0, 1/3, 2/3, 1/3).
1.8.3. Теорема. Пусть ΓA — (m × n)-игра. Предположим, что i-я строка матри-
цы A доминируема (т. е. доминируема чистая стратегия i первого игрока) и пусть
ΓA′ — игра с матрицей A′ , получаемой из A вычеркиванием i-й строки. Тогда спра-
ведливы следующие утверждения.
1) vA = vA′ .
∑
m−1
ξi = 1, ξi ≥ 0, i = 1, . . . , m − 1. (1.8.3)
i=1
1 ∑ 1 ∑
m m
ξi αij ≥ αmj ξi
1 − ξm i=1 1 − ξm i=1
или
1 ∑
m−1
1 ∑
m−1
ξi αij ≥ αmj ξi .
1 − ξm i=1 1 − ξm i=1
∑
m−1 ∑
m−1
ξi′ αij ≥ αmj ξi′ = αmj , j = 1, . . . , n,
i=1 i=1
∑
m−1
ξi′ = 1, ξi′ ≥ 0, i = 1, . . . , m − 1. (1.8.5)
i=1
Таким образом, всегда из доминирования m-й строки следует, что она не превосходит
выпуклую линейную комбинацию остальных m − 1 строк [(1.8.5)].
∗
Пусть (x∗ , y ∗ ) ∈ Z(ΓA′ ) — ситуация равновесия в игре ΓA′ , x∗ = (ξ1∗ , . . . , ξm−1 ),
∗ ∗ ∗
y = (η1 , . . . , ηn ). Для доказательства утверждений 1, 2, 3 теоремы достаточно показать,
что K(x∗m , y ∗ ) = vA′ и
∑
n ∑
m−1
αij ηj∗ ≤ vA′ ≤ αij ξi∗ + 0 · αmj (1.8.6)
j=1 i=1
для всех i = 1, . . . , m, j = 1, . . . , n.
Первое равенство очевидно, а из оптимальности стратегий (x∗ , y ∗ ) в игре ΓA′ следует
выполнение неравенств
∑
n ∑
m−1
αij ηj∗ ≤ vA′ ≤ αij ξi∗ , i = 1, m − 1, j = 1, n. (1.8.7)
j=1 i=1
∑
n
αmj ηj∗ ≤ vA′ .
j=1
∑
n ∑ ∑
n m−1 ∑
m−1
αmj ηj∗ ≤ αij ξi′ ηj∗ ≤ vA′ ξi′ = vA′ ,
j=1 j=1 i=1 i=1
∑
n ∑ ∑
n m−1
αmj ηj∗ < αij ξi′ ηj∗ ≤ vA′ .
j=1 j=1 i=1
1) vA = vA′ .
0 3 0 6
Так как 3-я строка a3 превосходит первую (a3 ≥ a1 ), то, вычеркивая первую строку,
получаем
2 3 1 3
A1 = 3 1 2 0 .
0 3 0 6
§ 1.9. Вполне смешанные и симметричные игры 43
3 1 3
A2 = 1 2 0 .
3 0 6
1 3
A3 = 2 0 .
0 6
В этой матрице 1-я строка эквивалентна смешанной стратегии x = (0, 1/2, 1/2), по-
скольку 1 = 1/2 · 2 + 0 · 1/2, 3 = 0 · 1/2 + 6 · 1/2. Таким образом, исключая 1-ю строку,
получаем матрицу
[ ]
2 0
A4 = .
0 6
uA−1
x∗ = , (1.9.1)
uA−1 u
A−1 u
y∗ = , (1.9.2)
uA−1 u
1
vA = . (1.9.3)
uA−1 u
Доказательство. Пусть x∗ = (ξ1∗ , . . . , ξm
∗
) ∈ X ∗ и y ∗ = (η1∗ , . . . , ηn∗ ) ∈ Y ∗ — произ-
вольные оптимальные стратегии игроков, a vA — значение игры ΓA . Поскольку ΓA —
вполне смешанная игра, x∗ и y ∗ — вполне смешанные стратегии, которые (и только
они) являются решениями систем линейных неравенств п. 1.7.6:
xaj = vA , j = 1, n
x∗ = vA uA−1 .
y ∗ = A−1 vA u.
§ 1.9. Вполне смешанные и симметричные игры 45
Тогда
1
vA = .
uA−1 u
Теорема доказана.
Справедливо и обратное утверждение, доказательство которого предоставляем чи-
тателю.
Теорема. Пусть в (m × m) -игре ΓA матрица A является невырожденной. То-
гда, если игрок 2 имеет в ΓA вполне смешанную оптимальную стратегию, то игрок 1
имеет единственную оптимальную стратегию x∗ (1.9.1). Если в игре ΓA вполне сме-
шанную оптимальную стратегию имеет игрок 1, то игрок 2 имеет единственную
оптимальную стратегию y ∗ (1.9.2), при этом значение игры vA определено в (1.9.3).
Пример 15 ((2 × 2) – игры). Пусть задана (2 × 2)-игра с матрицей
[ ]
α11 α12
A= .
α21 α22
α11 η ∗ + (1 − η ∗ )α12 = vA ,
α21 η ∗ + (1 − η ∗ )α22 = vA ,
α11 ξ ∗ + (1 − ξ ∗ )α21 = vA ,
α12 ξ ∗ + (1 − ξ ∗ )α22 = vA .
Если добиваться того, чтобы vA ̸= 0 (например, если все элементы матрицы A поло-
жительны, то это неравенство выполняется), то решение игры
1
vA = , x∗ = vA uA−1 , y ∗ = vA A−1 u,
uA−1 u
где u[= (1, 1). ]Так, легко проверить, что у матрицы
1 0
A= не существует седловой точки. Обратная матрица A−1 равна
−1 1
[ ]
−1 1 0
A = .
1 1
vA = 0
X ∗ = Y ∗.
vA = x∗ Ay ∗ ≤ x∗ Ay,
vA = x∗ Ay ∗ ≥ xAy ∗
для всех x ∈ X, y ∈ Y . Следовательно,
vA ≤ x∗ Ax∗ = 0, vA ≥ y ∗ Ay ∗ = 0.
Откуда получаем vA = 0.
Пусть стратегия x∗ оптимальна в игре ΓA . Тогда (см. теорему п. 1.7.1)
x∗ A ≥ 0.
Ax∗ ≤ 0.
Пусть x∗ = (ξ1∗ , ξ2∗ , ξ3∗ ) — оптимальная стратегия в игре ΓA . Тогда должны выполняться
неравенства
ξ2∗ − ξ3∗ ≥ 0, −ξ1∗ + ξ3∗ ≥ 0, ξ1∗ − ξ2∗ ≥ 0,
(1.9.8)
ξ1∗ + ξ2∗ + ξ3∗ = 1, ξ1∗ ≥ 0, ξ2∗ ≥ 0, ξ3∗ ≥ 0.
§ 1.9. Вполне смешанные и симметричные игры 47
Покажем, что эта игра вполне смешанная. Действительно, пусть ξ1∗ = 0. Тогда из си-
стемы неравенств (1.9.8) получаем систему
Заметим, что 1-я стратегия каждого игрока (1-я строка и 1-й столбец матрицы)
строго доминируема, поэтому она не может быть существенной и ее можно вычеркнуть.
В полученной усеченной матрице
0 1 −2 −5
−1 0 7 5
A′ =
2 −7
0 15
5 −5 −15 0
не все стратегии являются существенными.
Действительно, из симметричности игры ΓA′ следует, что vA′ = 0. Если бы все стра-
тегии были существенными, то оптимальная стратегия x∗ была бы решением системы
уравнений
x∗ a′j = 0, j = 2, 3, 4, 5,
∑
5
ξi∗ = 1,
i=2
которая решения не имеет.
Перебирая варианты, остановимся на существенной подматрице A′′ , составленной
из строк и столбцов матрицы A с номерами 2, 3 и 5:
0 1 −5
A′′ = −1 0 5 .
5 −5 0
48 1. Матричные игры
a b c
α 2 1 3
A= β 3 0 1 .
γ 1 2 1
а точность может быть оценена числом 4/12 = 1/3. Основным недостатком рассмотрен-
ного метода является его малая скорость сходимости, которая уменьшается с ростом
размерности матрицы. Это является также следствием немонотонности последователь-
ностей v k /k и v k /k.
Рассмотрим другой итеративный алгоритм, который избавлен от указанного недо-
статка.
1.10.2. Монотонный итеративный алгоритм решения матричных игр
[Садовский, 1978]. Рассмотрим смешанное расширение ΓA = (X, Y, K) матричной
игры с (m × n)-матрицей A.
Обозначим как xN = (ξ1N , . . . , ξm N
) ∈ X приближение оптимальной стратегии первого
игрока на N -й итерации и c ∈ RN , cN = (γ1N , . . . , γnN ) — вспомогательный вектор.
N
Обозначим через
[ ]
γ1N −1 . . . γnN −1
.
γ̃1N . . . γ̃nN
1 2
1 0.3 0.5
2 0.5 0.3 .
3 0.1 0.6
−1 −1
10. Показать, что строго доминируемая стратегия не может быть существенной.
20 0
11. Показать, что 3-я строка матрицы A доминируема, где A = 0 8 .
4 5
12. Показать, что выбор 1-го [ столбца ]эквивалентен смешанной стратегии y = (0, 1/3, 2/3),
1 3 0
где матрица игры имеет вид .
2 0 3
1 7 2
13. Используя понятие доминирования, найти решение игры с матрицей 6 2 7 .
5 1 6
14. Доказать теорему п. 1.7.3.
15. Решить игру поиска с одной попыткой. Игрок 2 прячет предмет в одну из n ячеек. Иг-
рок 1 ищет его в одной из этих ячеек, при этом вероятность обнаружения предмета в i-й ячейке
равна βi > 0, i = 1, . . . , n (при условии, что он там находится). Показать, что рассматриваемая
игра вполне смешанная. Найти решение игры.
16. Решить игру дискретного поиска (пример 5, п. 1.1.3) в предположении αβi − τi ̸= 0,
i = 1, . . . , n.
Указание. Воспользоваться результатом п. 1.7.7.
17. Игра поиска двух предметов. Игрок 2 прячет два предмета в n ячейках (можно оба
в одной ячейке). Цель игрока 1 — обнаружить хотя бы один предмет, при этом он имеет
возможность проверить одну ячейку (βi > 0 — вероятность обнаружения одного предмета в
i-й ячейке при условии, что он там находится). Если в i-й ячейке находятся одновременно два
предмета, то вероятность их одновременного обнаружения равна βi2 . Таким образом, матрица
A = {αka }, a = (i, j), j = 1, . . . , n, имеет вид
αka = 0, i = j, i ̸= k,
αka = βi , i = k, i ̸= j,
αka = βj , j = k, i ̸= j,
αka = βi (2 − βi ), i = j = k.
Решить игру.
18. Решить игру поиска многих предметов (см. упр. 3).
19. Игра поиска нескольких множеств на плоскости. Заданы набор n фиксированних
компактных выпуклых множеств K1 , K2 , . . . , Kn ⊂ R2 и система m конгруэнтных между собой
54 1. Матричные игры
Решить игру.
21. В игре поиска с двумя попытками у ищущего рассмотреть случай, когда множество чи-
стых стратегий игрока 1 состоит из всевозможных пар (i, j) и содержит n2 элементов. Решить
игру в предположении
∑
n−1
δn /δk < 1.
k=1
22. В игре на уклонение (п. 1.7.1) показать, что игрок 1 всегда имеет единственную опти-
мальную стратегию.
23. Простейшая игра поиска. В простейшей игре поиска участвуют два игрока. Игрок 2
прячет предмет в одном из n ящиков. Противник (игрок 1) старается обнаружить спрятанный
предмет. Если предмет спрятан в i-м ящике, а игрок 1 (ищущий) ищет его в i-м ящике, то
вероятность обнаружения объекта (выигрыш игрока 1) равна σi , причем 0 < σ1 < σ2 < . . . <
σn < 1. Если же предмет спрятан в i-м ящике, а игрок 1 ищет его в j-м ящике, то вероятность
обнаружения объекта равна 0.
(a) Построить матрицу игры.
(b) Найти решение игры в классе вполне смешанных стратегий.
Глава 2
Бесконечные антагонистические
игры
xj
p S(xj , r)
p
r r
Op
R R
пистолеты, так что каждый знает, когда выстрелил его противник. Предполагается
также, что функция меткости p1 (x) (вероятность попадания при стрельбе в момент
времени x) игрока 1 определена на [0, 1], непрерывна, монотонно возрастает по x и
p1 (0) = 0, p1 (1) = 1. Аналогично, точность выстрела игрока 2 описывается функцией
p2 (y) на [0, 1], где p2 (0) = 0, p2 (1) = 1. Если игрок 1 поражает игрока 2, то первый
получает выигрыш +1. Если игрок 2 поражает игрока 1, то игрок 1 получает −1, если
оба игрока стреляют одновременно и с одинаковым результатом (успешным или нет),
то выигрыш игрока 1 равен 0.
Структура информации в этой игре (тот факт, что оружие шумное) принимается
во внимание при составлении функции выигрыша H(x, y). Если x < y, то вероятность
того, что игрок 1 поразит противника, равна p1 (x) и вероятность того, что игрок 1
промахнется, равна 1 − p1 (x). Если игрок 2 еще не стрелял и знает, что игрок 1 больше
не может выстрелить, то игрок 2 будет увеличивать свои шансы на успех, ожидая,
пока y не станет равным 1. Таким образом, если игрок 1 промахнется в момент x, то
он наверняка будет поражен игроком 2, если x < y; следовательно,
Аналогично имеем
и
H(x, y) = p1 (x)[1 − p2 (y)] + p2 (y)[1 − p1 (x)](−1), x = y.
Таким образом, функция выигрыша H(x, y) в игре равна
2p1 (x) − 1, x < y,
H(x, y) = p1 (x) − p2 (y), x = y,
1 − 2p2 (y), x > y,
x ∈ [0, 1], y ∈ [0, 1]. Построение функции выигрыша H(x, y) в этой игре производится
так же, как и в примере 4, за исключением того, что в данном случае ни один из
игроков не может определить момента выстрела противника, если только этот выстрел
не оказался успешным.
Пример 6 (Поиск «шумного» объекта). Рассматривается задача поиска «шумного»
объекта (игрок 2) подвижным средством обнаружения (игрок 1). Дальность действия
58 2. Бесконечные антагонистические игры
l0 (y1 − y) + l1 (y − y0 ) (x1 − x)
l(x, y) = .
(y1 − y0 ) (x1 − x0 )
при всех x ∈ X, y ∈ Y . Этот принцип реализуется в игре Γ в том и только в том случае,
когда
v = v = v = H(x∗ , y ∗ ),
где
v = max inf H(x, y), v = min sup H(x, y), (2.2.2)
x y y x
т. е. внешние экстремумы максимина и минимакса достигаются и нижнее значение
игры v равно верхнему значению v. Такая антагонистическая игра Γ называется вполне
определенной, а число v — значением игры (см. п. 1.3.4 гл. I).
§ 2.2. Ситуация ε–равновесия 59
Точка (xε , yε ), для которой имеет место (2.2.4), называется ε-седловой точкой, а
стратегии xε и yε — ε-оптимальными стратегиями игроков 1 и 2 соответственно.
Полезно сравнить определения ситуации равновесия (2.2.1) и ε-равновесия (2.2.4).
Если отклонение от оптимальной стратегии приводит лишь к уменьшению выигрыша
этого игрока, то отклонение от ε-оптимальной стратегии может привести к его увели-
чению, но не более чем на ε.
Так, ситуация (1 − ε, ε), 0 < ε < 1 является ε-равновесной в примере 7, а стратегии
xε = 1 − ε, yε = ε — ε-оптимальными стратегиями игроков 1 и 2 соответственно.
2.2.4. Заметим, что для двух стратегически эквивалентных игр Γ = (X, Y, H) и
Γ′ (X, Y, H ′ ), где H ′ = βH + α, β > 0, справедливы следующие результаты. Если
(xε , yε ) — ситуация ε–равновесия в игре Γ, то она является ситуацией (βε)-равновесия
в игре Γ′ (сравните с леммой о масштабе §1.3).
2.2.5. Основное свойство ε-оптимальных стратегий дает следующая теорема.
Теорема. Для того, чтобы существовало значение v = inf sup H(x, y) =
y x
sup inf H(x, y) < +∞ антагонистической игры Γ = (X, Y, H), необходимо и достаточ-
x y
но, чтобы для любого ε > 0, существовали ε-оптимальные стратегии xε , yε игроков
1 и 2, при этом
lim H(xε , yε ) = v. (2.2.5)
ε→0
и стратегию xε из условия
ε
inf H(xε , y) + ≥ v. (2.2.7)
y∈Y 2
Из (2.2.2), (2.2.6), (2.2.7) получаем неравенство
ε ε
H(x, yε ) − ≤ v ≤ H(xε , y) + (2.2.8)
2 2
для всех стратегий x, y. Следовательно,
ε
|H(xε , yε ) − v| ≤ . (2.2.9)
2
Из неравенств (2.2.8), (2.2.9) следуют соотношения (2.2.4), (2.2.5).
Достаточность. Если для любого числа ε > 0 выполняются неравенства (2.2.4), то
6
S2
6
R2
S1
R1
M1
pP p p pM
O1 P PP O
PP
PP
PP
p
y0PPP x0
Pp
следовательно,
min max ρ(x, y) = v = R1 .
y∈S2 x∈S1
6
S2
R2
3
v = R1 px0
*
O1 pPP p P
p p pM
2 P
p O M1
x0 P
y0PPP
S1
PP
PPp
x10
6
S2
6
R2
S1
pX R1
yb
bX X
bb XXXX
0
M1 b b p XXX
p |p bb {z v X}p M
O1 O b
b
bb
bbp
x0
∫
K(µ, y) = K(µ, νy ) = H(x, y)dµ(x), (2.3.3)
X
где интегралы в (2.3.1), (2.3.2), (2.3.3) понимаются в смысле Лебега — Стилтьеса. Если
же распределения µ(x), ν(y) имеют плотности f (x) и g(y), т. е. dµ(x) = f (x)dx и dν(y) =
g(y)dy, интегралы в (2.3.1), (2.3.2), (2.3.3) понимаются в смысле Римана — Стилтьеса.
Таким образом, Γ ⊂ Γ — подыгра своего смешанного расширения Γ. Будем считать, что
§ 2.3. Смешанные стратегии 65
2.3.5. Теорема. Для того, чтобы игра Γ = (X, Y, H) имела значение v в смешан-
ных стратегиях, т. е. sup inf K(µ, ν) = inf sup K(µ, ν) = v, необходимо и достаточно
µ ν ν µ
выполнение равенства
Это значит, что при некотором достаточно малом ε > 0 выполняется неравенство
sup inf H(x, y) ≤ sup inf K(µ, y) = v = inf sup K(x, ν) ≤ inf sup H(x, y).
x y µ y ν x y x
K(x, ν ∗ ) ≤ v.
Эта игра не имеет значения в чистых стратегиях. Покажем, что она не имеет значения
и в смешанных стратегиях.
∑∞Пусть µ — произвольная смешанная стратегия игрока dµ(x) = δx , где δx ≥ 0 и
x=1 δx = 1. Возьмем ε > 0 и найдем yε такое, что
∑
δx > 1 − ε.
x≤yε
Тогда
∞
∑ ∑ ∑
K(µ, yε ) = δx H(x, yε ) = δx K(x, yε ) + δx K(x, yε ) =
x=1 x≤yε x>yε
∑ ∑
=− δx + δx < −1 + 2ε.
x≤yε x>yε
В силу произвольности ε > 0 и так как H(x, y) не принимает значений, меньших −1,
имеем
inf K(µ, y) = −1.
y
K(µ∗ , y) = v, y ∈ Yν ∗ , (2.4.1)
K(µ∗ , y) ≥ v (2.4.3)
µ(X) ≤ c (2.4.7)
µ(X \ A) ≤ ε. (2.4.8)
для любого борелевского множества A ⊆ X, такого, что его граница A′ имеет меру
нуль: µ(A′ ) = 0.
Доказательство этого результата представляет определенные технические сложно-
сти. Его можно найти, например, в [Дрешер, 1964].
2.4.7. Обозначим через v и v соответственно нижнее и верхнее значения игры
Γ = (X, Y, H).
v = sup inf K(µ, y), v = inf sup(x, ν). (2.4.9)
µ y ν x
то
|H(x, y) − H(x′ , y ′ )| < ε. (2.4.13)
Выберем n настолько большим, чтобы 1/n < δ, и определим стратегию µn ∈ X по
правилу ∑
µn (F ) = πin (2.4.14)
{i|xn
i ∈F,xi ∈Xn }
n
Если ρ2 (y, yjn ) < δ, то, согласно (2.4.4), (2.4.5) и (2.4.13), получаем
v > θn − ε. (2.4.17)
74 2. Бесконечные антагонистические игры
v = lim θn , (2.4.20)
n→∞
Пусть µ — вероятностная мера на [0, 1]. Если µ([0, 1/2)) ≤ 1/3, то положим yµ = 1.
Если же µ([0, 1/2)) > 1/3, то выберем δ > 0, такое, что µ([0, 1/2 − δ]) > 1/3, и положим
yµ = 1/2 − δ. В каждом из этих случаев получаем неравенства
∑
kn
K(x, ν n ) = ηjn H(x, ynj ) ≥ H(x, y n ), (2.5.2)
j=1
∑kn n j
где y n = j=1 ηj yn . Переходя к пределу при n → ∞ в неравенстве (2.5.2) (если необ-
ходимо, то следует рассмотреть подпоследовательность {y n }), получаем
Функция φ(y) является строго выпуклой, поскольку для λ ∈ (0, 1) имеет место нера-
венство: ∫
φ(λy1 + (1 − λ)y2 ) = H(x, λy1 + (1 − λ)y2 )dµ∗ (x) <
X
∫ ∫
<λ H(x, y1 )dµ∗ (x) + (1 − λ) H(x, y2 )dµ∗ (x) = λφ(y1 ) + (1 − λ)φ(y2 ). (2.5.5)
X X
Из (2.5.5) следует, что функция φ(y) не может достигать минимума в двух различных
точках. С другой стороны, существование точки минимума y функции φ(y) гарантиру-
ется теоремой п. 2.5.1, что завершает доказательство.
2.5.3. Приведем без доказательства результаты, симметричные теоремам по п. 2.5.1
и 2.5.2 для вогнутых и вогнуто-выпуклых игр. Теорема. Пусть Γ = (X, Y, H), X ⊂
Rm , Y ⊂ Rn — вогнутая игра. Тогда значение игры v вычисляется по формуле
|φ(x1 , . . . , xr , y1 ) − φ(x1 , . . . , xr , y2 )| =
где y ∈ Y , xi ∈ X, i = 1, . . . , n + 1.
Доказательство. Введем обозначение:
Так как miny max1≤i≤n+1 H(xi , y) ≤ miny maxx H(x, y) = v для каждой системы точек
(x1 , . . . , xn+1 ) ∈ X n+1 , то
Θ ≤ v. (2.5.9)
H(xi , y) ≤ Θ, y ∈ Y, i = 1, . . . , n + 1. (2.5.10)
Dx = {y | H(x, y) ≤ Θ}.
H(x, y0 ) ≤ Θ (2.5.11)
∑
n+1
= min max H(xi , y)πi , (2.5.12)
y p
i=1
∑
n+1
p = (π1 , . . . , πn+1 ) ∈ Rn+1 , πi ≥ 0, πi = 1. (2.5.13)
i=1
Рассмотрим функцию
∑
n+1
K(p, y) = H(xi , y)πi , y ∈ Y, p ∈ P,
i=1
и y ∈ Y выполняется неравенство:
∑
n+1
H(x, y ∗ ) ≤ v ≤ H(xi , y)πi∗ .
i=1
Теорема доказана.
Сформулируем теорему о структуре оптимальной стратегии игрока 2 в вогнутой
игре Γ = (X, Y, H).
Теорема. В вогнутой игре Γ = (X, Y, H), X ⊂ Rm , игрок 2 имеет оптимальную
смешанную стратегию ν ∗ с конечным спектром, состоящим не более чем из (m + 1)-й
точки множества Y .
Доказательство теоремы аналогично доказательству предыдущей теоремы.
2.5.5. Суммируем результаты теорем для выпуклых игр, доказанные в этом пара-
графе.
Теорема. Пусть Γ = (X, Y, H), X ⊂ Rm , Y ⊂ Rn — выпуклая игра. Тогда значе-
ние v игры Γ определяется по формуле
для игрока 2. Если, кроме того, функция H(x, y) при каждом фиксированном x ∈ X
строго выпукла по y, то оптимальная стратегия игрока 2 единственна.
Проиллюстрируем эти результаты на примере.
Пример 11. Рассмотрим частный случай примера 1 (см. п. 2.1.2). Пусть S1 = S2 = S,
а множество S представляет собой замкнутый круг на плоскости с центром в точке O
и радиусом R.
Функция выигрыша H(x, y) = ρ(x, y), x ∈ S, y ∈ S, где ρ(·) — функция расстояния
в R2 , является строго вьшуклой по y при любом фиксированном x, а S — выпуклое
множество. Поэтому согласно теореме п. 2.5.5 значение игры v равно
v = min max ρ(x, y). (2.5.15)
y∈S x∈S
Вычисляя min max в (2.5.15), получаем, что v = R (см. пример 8 п. 2.2.6). При этом
точка y0 ∈ S, на которой достигается минимум выражения maxx∈S ρ(x, y), единствен-
ная и совпадает с центром круга S (т. е. точкой O). Эта точка и является оптимальной
стратегией игрока 2 (минимизирующего). Теорема утверждает, что у игрока 1 (мак-
симизирующего) существует оптимальная смешанная стратегия, предписывающая по-
ложительную вероятность не более чем трем точкам множества S. Однако вследствие
симметрии множества S в действительности оптимальная смешанная стратегия µ0 иг-
рока 1 предписывает с вероятностью 1/2 выбирать любые две диаметрально противопо-
ложные точки на границе множества S. Для доказательства оптимальности стратегий
µ0 , y0 достаточно установить, что K(x, y0 ) ≤ K(µ0 , y0 ) ≤ K(µ0 , y) для всех x, y ∈ S, где
K — математическое ожидание выигрыша, K(µ0 , y0 ) = R/2 + R/2 = R. Действительно,
K(x, y0 ) = ρ(0, x) ≤ R и K(µ0 , y) = ρ(x1 , y)/2 + ρ(x2 , y)/2 ≥ R, где x1 и x2 — произ-
вольные диаметрально противоположные точки на границе круга S. Оптимальность
стратегий µ0 и y0 доказана.
2.5.6. Рассмотрим частный случай выпуклой игры Γ = (X, Y, H) когда X = Y =
[0, 1], т. е. выпуклую игру на единичном квадрате. Из теоремы п. 2.5.5 следует, что игрок
2 всегда имеет оптимальную чистую стратегию y0 ∈ [0, 1], а игрок 1 — смешанную,
сосредоточенную не более чем на двух точках, при этом значение игры равно
v = min max H(x, y). (2.5.16)
y∈[0,1] x∈[0,1]
при всех x ∈ [0, 1]. Неравенства (2.5.21), (2.5.22) показывают, что (x′ , y0 ) — ситуация
равновесия.
Случай y0 = 0 исследуется аналогично. Перейдем к случаю 3. Если 0 < y0 < 1, то
имеются две уравновешивающие стратегии x′ и x′′ , удовлетворяющие (2.5.18), (2.5.19)
соответственно.
Рассмотрим функцию
Из (2.5.18), (2.5.19) следует, что φ(0) ≥ 0, φ(1) ≤ 0. Функция φ(β) непрерывна, поэтому
найдется α ∈ [0, 1], для которого φ(α) = 0.
Рассмотрим смешанную стратегию µ0 игрока 1, заключающуюся в выборе стратегии
x′ с вероятностью α и стратегии x′′ с вероятностью (1 − α). Функция
Заметим, что ∂ 2 H(x, y)/∂y 2 = 2 > 0, так что игра Γ — строго выпуклая, поэтому иг-
рок 2 имеет единственную оптимальную стратегию, которая является чистой (теорема
п. 2.5.5). Пусть y — фиксированная стратегия игрока 2. Тогда
{
(1 − y)2 , y ≤ 1/2,
max(x − y) = 2
x y 2 , y ≥ 1/2.
∂Φ(0, R) ∂ 2 Φ(ρ, R)
= 0, > 0, 0 ≤ ρ ≤ R.
∂ρ ∂ρ2
Поэтому функция Φ(ρ, R) монотонно возрастает по ρ, следовательно, Φ(r, R) ≤ Φ(ρ, R)
и
K(x, ν ∗ ) ≤ K(µ∗ , ν ∗ ) ≤ K(µ∗ , y)
для всех x, y ∈ S. Таким образом, оптимальность стратегий µ∗ и ν ∗ доказана, а значе-
ние игры v равно K(µ∗ , ν ∗ ), где K(µ∗ , ν ∗ ) определяется (2.6.1). В частности, если S —
окружность радиуса R (случай r = R), то значение игры равно 4R/π.
86 2. Бесконечные антагонистические игры
2.6.2. Пример 14. Рассмотрим одновременную игру, когда игрок 2 выбирает пару
точек y = {y1 , y2 }, где y1 ∈ S, y2 ∈ S, а игрок 1, не зная выбора игрока 2, — точку x ∈ S.
Выигрыш игрока 1 полагаем равным mini=1,2 ρ2 (x, yi ). Приведем решение для случая,
когда множество R представляет собой круг радиуса R с центром в начале координат
(точке O): S = S(O, R).
Рассмотрим функцию Φ(r, ρ) = r2 + ρ2 − 4rρ/π, где r и ρ принимают значения из
промежутка r, ρ ∈ [0, R]. Установим свойства функции Φ(r, ρ).
Лемма 1. Функция Φ(r, R) (как функция переменной r) является строго выпук-
лой и достигает абсолютного минимума в единственной точке r0 = 2R/π.
Доказательство. Имеем ∂ 2 Φ/∂r2 = 2 > 0. Следовательно, функция Φ(r, ρ), r ∈
[0, R] строго выпукла, а производная
∂Φ(r, R) 4R
= 2r − (2.6.2)
∂r π
строго монотонна. Очевидно, что функция (2.6.2) в единственной точке r0 = 2R/π
обращается в нуль. В силу строгой выпуклости, Φ(r, R) точка r0 является единственной
точкой абсолютного минимума. Лемма доказана.
Лемма 2. Функция Φ(r0 , ρ) строго выпукла по ρ и достигает абсолютного мак-
симума в точке ρ0 = R.
Доказательство. В силу симметрии функция Φ(r, ρ) является строго выпуклой по
ρ. Поэтому максимум этой функции достигается в одной из точек 0 или R. Тогда имеем
4 2R R2 (π 2 − 8)
Φ(r0 , R) − Φ(r0 , 0) = r02 + R2 − 4r0 R/π − r02 = R2 − ( )R = > 0.
π π π2
Лемма доказана.
Из лемм 1, 2 вытекает, что пара (r0 , R) является седловой точкой функции Φ:
Op px
Q 6 φ
β β Q!
Q
y1 p Q
p Qp
y2 p
A B
что и относительно новой системы координат точка yi имеет те же координаты (ri cos φi ,
ri sin φi ). Тогда (рис. 2.5) выигрыш первого игрока равен
∫ 2π
∗ 1
K(µ , y) = min [R2 + ri2 − 2Rri cos(ψ − φi )]dψ =
2π 0 i=1,2
∫ β ∫ 2π−β
1 1
= 2
[R + r22 − 2Rr2 cos(ψ − φ2 )]dψ + [R2 + r12 − 2Rr1 cos(ψ − φ1 )]dψ.
2π −β 2π β
Пусть
F1 (φ) = [(R2 + r22 )β − 2Rr2 sin β cos φ]/π, −β ≤ φ ≤ β,
∫ β ∫ 2π−β
1 1
= 2
(R + r22 − 2Rr2 cos ψ)dψ + (R2 + r12 − 2Rr1 cos(ψ − π))dψ, (2.6.4)
2π −β 2π β
p y1
Op
P
α α PPP
p PPp
A B
p y2
∫ 2π
1
= min(ρ2 + r02 − 2ρr0 cos ξ, ρ2 + r02 + 2ρr0 cos ξ)dξ = Φ(r0 , ρ)
2π 0
и по лемме 2 имеем
K(x, ν ∗ ) = Φ(r0 , ρ) ≤ Φ(r0 , R). (2.6.7)
∗ ∗
Из неравенств (2.6.6) и (2.6.7) получаем, что µ и ν — являются оптимальными стра-
тегиями игроков, а Φ(r0 , R) — значение игры. Теорема доказана.
2.6.3. Пример 15. Пусть игрок 2 выбирает набор из m точек y = {y1 , . . . , ym }, где
yi ∈ S, i = 1, . . . , m, а игрок 1 одновременно с ним — точку x ∈ S. Выигрыш игрока 1 по-
лагаем равным mini=1,...,m ρ(x, yi ). Решим игру в случае, когда множество S совпадает
с отрезком [−1, 1].
Теорема. Оптимальная смешанная стратегия ν ∗ игрока 2 заключается в равно-
вероятном выборе двух наборов из m точек
4i
{−1 + , i = 0, 1, . . . , m − 1},
2m − 1
4i
{1 − , i = 0, 1, . . . , m − 1}.
2m − 1
Оптимальная стратегия µ∗ игрока 1 состоит в выборе точек
{ 2m − 2i − 1 }
, i = 0, 1, . . . , 2m − 1
2m − 1
с вероятностями 1/(2m). Значение игры равно 1/(2m − 1).
Доказательство. Пусть µ∗ и ν ∗ — смешанные стратегии игроков 1 и 2 соответствен-
но, оптимальность которых нужно доказать. Введем следующие обозначения:
[ ]
2m − 2i − 1 2m − 2i + 1
li = , , i = 1, 2, . . . , 2m − 1.
2m − 1 2m − 1
Покажем сначала, что K(x, ν ∗ ) ≤ при всех x ∈ [−1, 1]. Действительно, при x ∈ li
1
(2m−1)
имеем
1 2m − 4i − 1
∗
K(x, ν ) = min − x+
2 i 2m − 1
1 −2m + 4i + 1
+ min − x =
2 i 2m − 1
( ) ( )
1 2m − 2j − 1 1 2m − 2j + 1 1
= x− + −x = . (2.6.8)
2 2m − 1 2 2m − 1 2m − 1
Пусть теперь игрок 1 выбирает смешанную стратегию µ∗ , а игрок 2 — произвольную
чистую стратегию y = {y1 , . . . , ym }.
90 2. Бесконечные антагонистические игры
Обозначим
2m − 2j − 1
xj = , j = 0, 1, . . . , 2m − 1.
2m − 1
Тогда
∑
2m−1
1
K(µ∗ , y) = min ρ(xj , yi ) =
j=0
1≤i≤m 2m
1 ∑
m
1 2 1
= [ min ρ(x2j−1 , yi ) + min ρ(x2j−2 , yi )] ≥ m = .
2m j=1 1≤i≤m 1≤i≤m 2m 2m − 1 2m − 1
K(f, y0 ) = v, (2.7.4)
где v — значение игры. Но неравенство (2.7.3) строгое, поэтому существует δ > 0 такое,
что для всех y : |y − y0 | < δ, неравенство (2.7.3) сохраняется. Таким образом, для этих y
сохраняется и равенство (2.7.4), т. е. выполняется равенство K(f, y) = v. Это означает,
что
∂K(f, y)
= 0. (2.7.5)
∂y
Уравнение (2.7.5) перепишем в виде
∫ y ∫ 1
[θ(y, y) − ψ(y, y)]f (y) = ψy (x, y)f (x)dx + θy (x, y)f (x)dx, y ∈ S(y0 , δ). (2.7.6)
0 y
или
yf ′ = −3f (y ̸= 0). (2.7.12)
Интегрируя уравнение (2.7.12), имеем
f (y) = γy −3 , (2.7.13)
Откуда вытекает
3α2 − 4α + 1 = 0. (2.7.16)
Решая уравнение (2.7.16), найдем два корня α = 1 и α = 1/3, первый из которых по-
сторонний. Следовательно, α = 1/3. Коэффициент γ находится из условия нормировки
f (y)
∫ 1 ∫ 1
f (y)dy = γ y −3 dy = 1,
1/3 1/3
откуда γ = 1/4.
Таким образом, получено решение игры примера 5 п. 2.1.2: значение игры равно
v = 0, оптимальные стратегии f и g обоих игроков (как плотности распределения)
равны между собой и имеют вид
{
0, x < 1/3,
f (x) =
1/(4x3 ), x > 1/3.
§ 2.8. Бесконечные игры поиска 93
2.7.3. Пример 17. Найдем решение игры «шумная дуэль» (см. пример 4 п. 2.1.2)
для функций меткости p1 (x) = x и p2 (y) = y. Функция выигрыша H(x, y) в игре имеет
вид (2.7.1), где
ψ(x, y) = 2x − 1, (2.7.17)
φ(x) = 0. (2.7.19)
В этом параграфе будет приведено решение игр поиска с бесконечным числом стра-
тегий, сформулированных в п. 2.1.2. Первая из рассматриваемых игр интересна тем,
что в ней оба игрока имеют оптимальные смешанные стратегии с конечным спектром.
2.8.1. Пример 18 (Поиск на отрезке). [Дюбин, Суздаль, 1981]. Рассмотрим задачу
поиска на отрезке (см. пример 2 п. 2.1.1), которая моделируется игрой на единичном
квадрате с функцией выигрыша H(x, y) вида
{
1, если |x − y| ≤ l, l ∈ (0, 1),
H(x, y) = (2.8.1)
0, в противном случае.
Заметим, что при l ≥ 1/2 у игрока 1 имеется чистая оптимальная стратегия x∗ = 1/2
и значение игры равно единице, поскольку в этом случае H(x∗ , y) = H(1/2, y) = 1, так
как |1/2 − y| ≤ 1/2 ≤ l для всех y ∈ [0, 1]. Предположим, что l < 1/2. Заметим, что
стратегия x = l доминирует все чистые стратегии x < l, а стратегия x = 1 − l — все
стратегии x > 1 − l. Действительно,
{
1, y ∈ [0, 2l],
H(x, y) = H(l, y) =
0, в противном случае,
и если x < l, то
{
1, y ∈ [0, l + x],
H(x, y) =
0, в противном случае.
Таким образом, при x < l : H(x, y) ≤ H(l, y) для всех y ∈ [0, 1].
94 2. Бесконечные антагонистические игры
Аналогично имеем
{
1, y ∈ [1 − 2l, 1],
H(x, y) = H(1 − l, y) =
0, в противном случае,
а если x ∈ [1 − l, 1], то
{
1, y ∈ [x − l, 1],
H(x, y) =
0, в противном случае.
Таким образом, при x ∈ [1 − l, 1], H(x, y) ≤ H(1 − l, y) для всех y ∈ [0, 1].
Рассмотрим следующую смешанную стратегию µ∗ игрока 1. Пусть l = x1 < x2 <
. . . < xm = 1−l — точки, для которых расстояние между любой парой соседних точек не
превосходит 2l. Стратегия µ∗ выбирает каждую из этих точек с равными вероятностями
1/m. Очевидно, что при этом любая точка y ∈ [0, 1] попадает в l-окрестность хотя бы
одной точки xk . Следовательно,
∑ 1 s−1
Cn−1 s
K(µ∗s , y) = H(xi1 , . . . , xis , y)( ) ≥ = .
Cns Cns n
∑
n
1 s
K(x1 , . . . , xs , ν ∗ ) = H(x1 , . . . , xs , yj ) ≤ .
j=1
n n
Таким образом, значение игры равно s/n, а µ∗s , ν ∗ — оптимальные стратегии игроков.
Значение игры линейно зависит от количества выбираемых ищущим игроком точек.
2.8.3. Пример 20 (Поиск на сфере). Рассмотрим игру поиска на сфере (см. пример
3 п. 2.1.2). Функция выигрыша H(x, y) имеет вид
{
1, y ∈ Mx ,
H(x, y) = (2.8.8)
0, в противном случае,
∫ ∫
K(µ, y) = H(x, y)dµ = J(x, y)dµ = Pr(y ∈ Mx ),
Ω Ω
§ 2.9. Покер
2.9.1. Модель покера с одним кругом ставок и одним размером ставки (см.
[Беллман, 1960; Karlin, 1959]).
Модель [Karlin, 1959], рассмотренная в данном разделе, является частным случаем
модели п. 2.9.2, допускающей n возможных размеров ставки.
Модель. В начале партии каждый из двух игроков A и B ставит по единице. После
того, как каждый из игроков получит карту, ходит игрок A: он может или поставить
еще a единиц или спасовать и потерять свою начальную ставку. Если A ставит, то у B
две альтернативы: он может или спасовать (теряя при этом свою начальную ставку),
или уравнять, поставив a единиц. Если B уравнивает, то игроки открывают свои карты
и игрок с лучшей картой выигрывает единицу (банк).
Будем обозначать карту игрока A через ξ, а карту игрока B через η, при этом
предполагаем, что случайные величины ξ и η имеют равномерное распределение на
единичном интервале. Положим L(ξ, η) = sign(ξ − η).
Стратегии и выигрыши. Стратегии строятся так. Пусть
ϕ(ξ) — вероятность того, что если A получит ξ, то он поставит a,
1 − ϕ(ξ) — вероятность того, что если A получит ξ, то он спасует,
ψ(η) — вероятность того, что если B получит η, то он уравняет ставку a,
1 − ψ(η) — вероятность того, что если B получит η, то он спасует.
Если игроки применяют эти стратегии, то ожидаемый чистый выигрыш K(ϕ, ψ)
представляет собой сумму выигрышей, соответствующих трем взаимно исключающим
возможностям: A пасует, A ставит a единиц и B уравнивает; A ставит и B пасует. Таким
образом,
∫1 ∫1∫1
K(ϕ, ψ) = (−1) [1 − ϕ(ξ)]dξ + (a + 1) ϕ(ξ)ψ(η)L(ξ, η)dξdη+
0 0 0
∫1∫
+ ϕ(ξ)[1 − ψ(η)]dξdη.
0
или
∫ 1 ∫ 1 ( ∫ η ∫ 1 )
K(ϕ, ψ) = −1 + 2 ϕ(ξ)dξ + ψ(η) −(a + 2) ϕ(ξ)dξ + a ϕ(ξ)dξ dη. (2.9.2)
0 0 0 η
Для решения игры нам надо найти такую пару стратегий (ϕ∗ , ψ ∗ ), что
и
∫ 1 ( ∫ η ∫ 1 )
min ψ(η) −(a + 2) ϕ∗ (ξ)dξ + a ϕ∗ (ξ)dξ dη. (2.9.5)
ψ 0 0 η
При таком выборе ψ ∗ (η) мы видим, что коэффициент при ϕ(ξ) в выражении (2.9.4)
является константой при ξ ≤ c. Если мы предположим, что эта константа равна нулю,
то получим при ξ = c
2 + 0 − (a + 2)(1 − c) = 0,
или
a
c= . (2.9.7)
a+2
Причина, по которой мы определили постоянную c так, чтобы обратить в нуль коэффи-
циент на интервале [0, c], состоит в следующем. При нахождении максимума в (2.9.4)
мы, очевидно, вынуждены положить ϕ∗ (ξ) = 1, если коэффициент при этой функции
положителен, и ϕ∗ (ξ) = 0, если этот коэффициент отрицателен. Значение ϕ∗ (ξ) может
быть произвольным только в тех случаях, когда соответствующий коэффициент равен
нулю. Но можно ожидать, что A будет пытаться частично блефовать, имея на руках
плохую карту, откуда следует, что для этих раскладов ϕ(ξ), вероятно, удовлетворяет
условию 0 < ϕ∗ (ξ) < 1. Как указывалось, это может быть, если коэффициент при ϕ(ξ)
равен нулю. При определении c, согласно соотношению (2.9.7), коэффициент при ϕ(ξ)
в выражении (2.9.4) равен нулю при ξ ≤ c и положителен при ξ > c. В этих условиях из
(2.9.4) следует, что максимизирущий игрок вынужден положить ϕ∗ (ξ) = 1 при ξ > c, в
то время как значения ϕ∗ (ξ) при ξ ≤ c могут быть произвольны, ибо они не влияют на
выигрыш.
100 2. Бесконечные антагонистические игры
Однако для того, чтобы равенство (2.9.6) при таком выборе ϕ∗ удовлетворялось, мы
должны иметь
∫ c
−(a + 2) ϕ∗ (ξ)dξ + a(1 − c) = 0,
0
или
∫ c
a(1 − c) 2a
ϕ∗ (ξ)dξ = = ,
0 a+2 (a + 2)2
и это условие может быть выполнено при ϕ∗ (ξ) < 1. Теперь легко проверить, что
{
∗ 0, 0 ≤ η ≤ a+2
a
,
ψ (η) =
1, a
a+2 < η ≤ 1
и
произвольна
∫c ∗ между 0 и 1, но удовлетворяет условию
∗ ϕ (ξ)dξ = 2a
при 0 ≤ ξ ≤ a+2
a
ϕ (ξ) = (a+2)2 , ,
0 a
1, при a+2 < ξ < 1,
где ϕi (ξ) есть вероятность того, что A поставит величину ai , если его расклад равен ξ.
Функции ϕi (ξ) должны удовлетворять условиям ϕi (ξ) ≥ 0 и
∑
n
ϕi (ξ) ≤ 1.
i=1
∑
n
1− ϕi (ξ).
i=1
где ψi (η) означает вероятность того, что B уравняет ставку в ai единиц, если он имеет
расклад η. Вероятность того, что B спасует, если A поставил ai , равна 1−ψi (η). Каждая
функция ψi (η) удовлетворяет условию
0 ≤ ψi (η) ≤ 1.
∑
n ∫ 1∫ 1
+ (ai + 1) ϕi (ξ)ψi (η)L(ξ, η)dξdη,
i=1 0 0
и
K(ϕ, ψ ∗ ) ≤ K(ϕ∗ , ψ ∗ ) для всех ϕ. (2.9.9)
n ∫
∑
1 [ ∫ ξ ∫ 1 ]
∗
K(ϕ, ψ ) = −1 + ϕi (ξ) 2 + ai ψi∗ (η)dη − (ai + 2) ψi∗ (η)dη dξ (2.9.10)
i=1 0 0 ξ
и
n ∫
∑
1 n ∫
∑ 1 [ ∫ η ∫ 1 ]
∗
K(ϕ , ψ) = −1 + 2 ϕ∗i (ξ)dξ + ψi (η) −(ai + 2) ϕ∗i (ξ)dξ + ai ϕ∗i (ξ)dξ dη.
i=1 0 i=1 0 0 η
(2.9.11)
Соотношения (2.9.10) и (2.9.11) имеют вид
n ∫
∑ 1
K(ϕ, ψ ∗ ) = C1 + ϕi (ξ)Li (ξ)dξ (2.9.12)
i=1 0
и
n ∫
∑ 1
K(ϕ∗ , ψ) = C2 + ψi (η)Ki (η)dη, (2.9.13)
i=1 0
ξ < bi в нуль. Это возможно, так как функция Li (ξ) на этом интервале постоянна.
Тогда получаем
ai
bi = , (2.9.15)
2 + ai
и b1 < b2 . . . < bn < 1. Коэффициент Li (ξ) при ϕi на интервале (0, bi ) равен нулю, а вне
его представляет собой такую линейную функцию ξ, что
1
Li (1) = 4(1 − ).
ai + 2
Отсюда мы заключаем, что функции Li (ξ) и Lj (ξ) совпадают в точке
2
cij = 1 − . (2.9.16)
(2 + ai )(2 + aj )
Значения ϕ∗i (ξ) на интервале 0 ≤ ξ < c1 все еще не определены в виду соотношения
Li (ξ) ≡ 0, которое имеет место на этом интервале.
Остается показать, что так построенная функция ψ ∗ действительно минимизирует
K(ϕ∗ , ψ). Для того, чтобы ψ ∗ заведомо обладало этим свойством, необходимо наложить
на ϕ∗i еще некоторые условия; для этого мы воспользуемся произволом, допущенным
в определении ϕ∗ , когда ξ меняется в интервале [0, c1 ). Для того, чтобы показать, что
ψ ∗ минимизирует K(ϕ∗ , ψ), достаточно установить, что коэффициент Ki (η) при ψi (η)
неотрицателен для η < bi и неположителен для η > bi . Так как Ki (η) — непрерывная
монотонно убывающая функция, последнее условие эквивалентно соотношению
∫ bi ∫ 1
−(ai + 2) ϕ∗i (ξ)dξ + ai ϕ∗i (ξ)dξ = 0. (2.9.18)
0 bi
104 2. Бесконечные антагонистические игры
и
∫ b1
2 ϕ∗i (ξ)dξ = bi (1 − bi )(bi+1 − bi−1 ), i = 2, . . . , n − 1. (2.9.20)
0
Поскольку
∑
n
ϕ∗i (ξ) ≤ 1,
i=1
1 1 2
(2 + bn − b1 ) ≤ (3 − b1 ) ≤ ≤ 2b1 .
4 4 3
произвольна, но удовлетворяет условию
∫ b1 ∗
∗ ϕi (ξ)dξ = bi (ci+1 − ci ), 0 ≤ ξ < b1
ϕi (ξ) = 0
0, b1 ≤ ξ < ci или ci+1 ≤ ξ ≤ 1,
1, ci ≤ ξ < ci+1 ,
(2.9.23)
где
ai
bi = , c1 = b1 ,
2 + ai
2
ci = 1 − , i = 2, . . . , n, cn+1 = 1
(2 + ai )(2 + ai−1 )
и
∑
n
ϕ∗i (ξ) ≤ 1.
i=1
§ 2.9. Покер 105
где L(ξ, η) = sign(ξ − η). (Этот ожидаемый выигрыш получается путем рассмотрения
взаимно исключающих возможностей: A пасует; A ставит и B пасует; A применяет
стратегию ϕ1 и B уравнивает или повышает; A применяет стратегию ϕ2 и B уравнивает
или повышает.)
Если мы обозначим оптимальные стратегии через
ϕ∗ (ξ) = ⟨ϕ∗1 (ξ), ϕ∗2 (ξ)⟩, ψ ∗ (η) = ⟨ψ1∗ (η), ψ2∗ (η)⟩
и перегруппируем члены в выражении K(ϕ, ψ), как это делалось в предыдущих при-
мерах, то получим
∫ 1 [ ∫ ξ ∫ 1
∗ ∗
K(ϕ, ψ ) = −1 + ϕ1 (ξ) 2 + a ψ1 (η)dη − (a + 2) ψ1∗ (η)dη−
0 0 ξ
∫ 1 ] ∫ 1 [ ∫ ξ ∫ 1
−(a + 2) ψ2∗ (η)dη dξ + ϕ2 (ξ) 2 + a ψ1∗ (η)dη − (a + 2) ψ1∗ (η)dη+
0 0 0 ξ
∫ ξ ∫ 1 ]
+(a + b) ψ2∗ (η)dη − (a + b + 2) ψ2∗ (η)dη dξ, (2.9.24)
0 ξ
106 2. Бесконечные антагонистические игры
∫ 1 1 [ ∫
∫ η
K(ϕ∗ , ψ) = ∗ ∗
[−1 + 2ϕ1 (ξ) + 2ϕ2 (ξ)]dξ + ψ1 (η) −(a + 2) [ϕ∗1 (ξ) + ϕ∗2 (ξ)]dξ+
0 0 0
∫ 1 ] ∫ 1 [ ∫ 1
+a [ϕ∗1 (ξ) + ϕ∗2 (ξ)]dξ dη + ψ2 (η) −(a + 2) ϕ∗1 (ξ)dξ−
η 0 0
∫ η ∫ 1 ]
−(a + b + 2) ϕ∗2 (ξ)dξ + (a + b) ϕ∗2 (ξ)dξ dη. (2.9.25)
0 η
Поиск оптимальных стратегий. Будем, как и раньше, искать функции ϕ∗ (ξ), которые
максимизируют (2.9.24) и функции ψ ∗ (η), которые минимизирут выражение (2.9.25).
Интуитивные соображения подсказывают, что игрока A может в некоторых случаях
блефовать с плохими картами, намереваясь спасовать, если B повышает; он будет так-
же в некотором промежуточном интервале, скажем, при c < ξ < e, выбирать ϕ∗1 (ξ) = 1;
он будет выбирать стратегию ϕ∗2 (ξ) = 1 для e ≤ ξ ≤ 1. Игрок B мог бы иногда блефо-
вать, повышая ставки в интервале 0 ≤ η < c; он мог бы выбирать ψ1∗ = 1 в интервале
c ≤ η < d, и ψ2∗ = 1 в интервале d ≤ η ≤ 1.
Отсюда вовсе не следует, что это единственный возможный вид оптимальных стра-
тегий. Действительно, далее мы увидим, что существуют оптимальные стратегии и
иного вида. Однако, после того, как определена одна пара оптимальных стратегий,
сравнительно легко найти и все остальные решения. Поэтому, прежде всего мы попы-
таемся найти оптимальные стратегии указанного вида. Для этого нам нужны такие
значения c, d и e, которые порождают решения требуемого типа. Из построения ψ1∗
мы сразу видим, что для того случая, когда ξ ≤ c коэффициент при ϕ1 (ξ) в выраже-
нии (2.9.24) есть константа; составляя его выражение и приравнивая его к нулю, мы
получаем ∫ 1
2 − (a + 2) ψ2∗ (η)dη − (a + 2)(d − c) = 0. (2.9.26)
0
Коэффициенты при ψ1∗ и ψ2∗ должны быть равны в точке d, в которой игрок B изменяет
характер своего поведения
∫ 1 ∫ d ∫ 1
(2a + 2) ϕ∗1 (ξ)dξ = −b ϕ∗2 (ξ)dξ + b ϕ∗2 (ξ)dξ. (2.9.27)
d 0 d
В точке η = c, в которой игрок B начинает применять стратегии ψ1∗ и ψ2∗ без блефа,
соответствующие коэффициенты (которые являются убывающими функциями) изме-
няют знак с плюса на минус, т. е. они должны при η = c обращаться в нуль. Следова-
тельно, ∫c ∫1
−(a + 2) 0 [ϕ∗1 (ξ) + ϕ∗2 (ξ)]dξ + a c [ϕ∗1 (ξ) + ϕ∗2 (ξ)]dξ = 0,
∫1 ∗ ∫1 (2.9.29)
−(a + 2) 0 ϕ1 (ξ)dξ + (a + b) c ϕ∗2 (ξ)dξ = 0.
(При выводе (2.9.29) мы положили ϕ∗2 (ξ) = 0 для 0 ≤ ξ ≤ c; это интуитивно ясно.)
Введем теперь обозначения:
∫ c ∫ c
∗
m1 = ϕ1 (ξ)dξ, m2 = ψ2∗ (η)dη.
0 0
§ 2.9. Покер 107
2 b
− (1 − c) = (1 − d). (2.9.36)
a+2 2a + b + 2
Следовательно, ( )
b 2a + b + 2 2
(1 − d) + = . (2.9.37)
2a + b + 2 a+1 a+2
Найдя (1 − d), мы можем разрешить (2.9.36) относительно (1 − c), а тогда значения
остальных неизвестных находятся из исходных уравнений.
Для того, чтобы показать, что это решение согласуется с поставленными условиями,
заметим прежде всего, что из соотношения (2.9.37) следует (1 − d) > 0. Уравнение
(2.9.35) показывает, что (1 − c) > (1 − d), и, следовательно, c < d. Кроме того, из
соотношения (2.9.36) следует, что
( ) ( )
b 2
c= (1 − d) + 1 − > 0. (2.9.38)
2a + b + 2 a+2
Так как 2(a+1)(1 −c) = (2a+b+2)(1− e), мы заключаем, что (1−e) < (1− c), или c < e;
а так как 2d = 1 + e, мы должны иметь e < d. Итак, мы показали, что 0 < c < e < d < 1.
Для проверки двух оставшихся условий заметим, что из уравнения (2.9.30) следует, что
( )
2
m2 = c − 1 − ,
a+2
a 2
m1 = (1 − c) = (1 − c) − (1 − c) =
a+2 a+2
(2.9.39)
0 ≤ η < c, {
0, 0, c ≤ η < d,
∗
ψ1 (η) = 1, c ≤ η < d, ψ2∗ (η) =
1, d ≤ η ≤ 1.
0, d ≤ η ≤ 1,
В оставшемся интервале 0 ≤ η < c функции ϕ∗1 (ξ) и ψ2∗ (η) выбираются произвольно, но
с учетом того, что они заключены между нулем и единицей и удовлетворяют условиям
∫ c ∫ c
ϕ∗1 (ξ)dξ = m1 и ψ2∗ (η)dη = m2 .
0 0
6
M2 (ξ)
M1 (ξ)
M1 (ξ)
-
0 c d 1
M2 (ξ)
N1 (η)
N2 (η) c e d
PP -
0 PP @ 1
PP @
PP
PP
@
@PPN1 (η)
@
N2 (η)@
(значение m1 вычислено выше) и ϕ̃2 (ξ) = 1 на [d, 1]. Для ξ из [c, d] мы потребуем только,
чтобы ϕ̃1 + ϕ̃2 = 1. Выписывая условия, при которых K(ϕ̃, ψ) минимизируется функцией
ψ ∗ , мы получаем
∫ ∫
d d
b(d − η)
1−d= ϕ̃2 (ξ)dξ и ϕ̃1 (ξ)dξ ≤ для η ∈ [c, d], (2.9.40)
c η a+b+1
∑
k
1− ϕi (ξ)
i=1
∑
k
ϕi (ξ)
i=1
вероятность того, что игрок A в первом круге сделает ставку. Пусть далее,
ϕ1 (ξ) = вероятность того, что игрок A спасует на своем втором круге;
ϕ2 (ξ) = вероятность того, что игрок A уравняет на своем втором круге;
∑k
i=3 ϕi (ξ) = вероятность того, что игрок A повысит на своем втором круге, если
есть возможность повышать, т. е. если игрок B повысил на своем первом круге и про-
должает игру. Аналогично, если игра продолжается до r-го круга игрока A, то пусть
ϕ2r−3 (ξ) = вероятность того, что игрок A будет пасовать на своем r-ом круге;
ϕ2r−2 (ξ) = вероятность того, что игрок A будет уравнивать на своем r-ом круге;
∑k
i=2r−1 ϕi (ξ) = вероятность того, что игрок A повысит на своем r-ом круге.
Аналогично стратегия игрока B может быть описана набором k функций:
∑
k
ψ0 (η) = 1 − ψj (η).
j=1
( ∑
k ) ∑k [ ∑
k ]
P [ϕ(ξ), ψ(η)] =(−1) 1 − ϕi (ξ) + ϕi (ξ) 1 − ψj (η) + (a + 1)ψ1 (η)L(ξ, η) +
i=1 i=1 j=1
∑
k
+ ψj (η){−(a + 1)ϕ1 (ξ) + (2a + 1)ϕ2 (ξ)L(ξ, η)}+
j=2
∑
k
+ ψj (η){−[(2r − 3)a + 1]ϕ2r−3 (ξ) + [(2r − 2)a + 1]ϕ2r−2 (ξ)L(ξ, η)}+
j=2r−2
∑
k
+ ϕi (ξ){[(2r − 2)a + 1]ψ2r−2 (η) + [(2r − 1)a + 1]ψ2r−1 (η)L(ξ, η)}+
i=2r−1
∑
k
+ ψj (η){−[(2r − 1)a + 1]ϕ2r−1 (ξ) + (2ra + 1)ϕ2r (ξ)L(ξ, η)}+
j=2r
∑
k
+ ϕi (ξ){(2ra + 1)ψ2r (η) + [(2r + 1)a + 1]ψ2r+1 (η)L(ξ, η)},
i=2r+1
и
∫ b
nj = ψj∗ (η)dη, j = 2, 4, 6, . . . (2.9.43)
0
∑
k
[(4r − 1)a + 2] nj = a(1 − d2r−1 ), 2r = 2, 4, . . . , k,
j=2r
∑
k
a(c2r−2 − d2r−2 ) = a(1 − c2r−2 ) + [(4r − 3)a + 2] nj , 2r = 4, 6, . . . , k,
j=2r
∑
k
[(4r − 3)a + 2] mi = a(1 − c2r−2 ), 2r = 2, 4, . . . , k,
i=2r−1
∑
k
a(d2r−1 − c2r−1 ) = a(1 − d2r−1 ) + [(4r − 1)a + 2] mi , 2r = 2, 4, . . . , k,
i=2r+1
Аналогичная система может быть составлена и для нечетного k. Получаемое при этом
решение согласуется со схемой рис. 2.9.
∑
mi ϕ∗1 = 1 ϕ∗2 = 1 ϕ∗3 = 1 ϕ∗4 = 1
-
0 b c1 c2 c3 c4 ξ
∑
nj ψ1∗ = 1 ψ2∗ = 1 ψ3∗ = 1 ψ4∗ = 1
-
0 b d1 d2 d3 d4 η
∑
3
ϕi (ξ) ≥ 0, ϕi (ξ) = 1,
i=1
∫ 1∫ 1
K(ϕ, ψ) = b [ϕ1 (ξ) + ϕ2 (ξ)][ψ1 (η) + ψ2 (η)]L(ξ, η)dξdη −
0 0
∫ 1∫ 1 ∫ 1∫ 1
− b [ϕ1 (ξ)ψ3 (η)dξdη + b ϕ3 (ξ)ψ1 (η)dξdη +
0 0 0 0
∫ 1∫ 1
+ a ϕ2 (ξ)ψ3 (η)L(ξ, η)dξdη +
0 0
∫ 1∫ 1
+ a ϕ3 (ξ)ψ2 (η)L(ξ, η)dξdη +
0 0
∫ 1∫ 1
+ a ϕ3 (ξ)ψ3 (η)L(ξ, η)dξdη.
0 0
Ввиду симметрии игры мы можем заменить в этом выражении стратегию ψ(η) игрока
B оптимальной стратегии ϕ∗ (η). Сделаем довольно правдоподобное предположение о
том, что в условиях этой стратегии ϕ∗2 (η) = 0, ибо, по-видимому, нет веских оснований
сначала делать низкую ставку, а затем уравнивать. Это предположение далее будет
строго обосновано.
§ 2.9. Покер 115
Так как ϕ∗2 (η) = 0, мы можем записать функцию K(ϕ, ϕ∗ ) следующим образом:
∫ 1∫ 1 ∫ 1∫ 1
∗
K(ϕ, ϕ ) = b [ϕ1 (ξ) + ϕ2 (ξ)]ϕ∗1 (η)L(ξ, η)dξdη −b ϕ1 (ξ)ϕ∗3 (η)dξdη+
0 0 0 0
∫ 1∫ 1
+b ϕ3 (ξ)ϕ∗1 (η)dξdη+
0 0
∫ 1∫ 1 ∫ 1∫ 1
+a [1 − ϕ1 (ξ) − ϕ3 (ξ)]ϕ∗3 (η)L(ξ, η)dξdη + a ϕ3 (ξ)ϕ∗3 (η)L(ξ, η)dξdη =
0 0 0 0
∫ 1 [ ∫ ξ ∫ 1 ∫ 1
= ϕ1 (ξ) b ϕ∗1 (η)dη − b ϕ∗1 (η)dη − b ϕ∗3 (η)dη−
0 0 ξ 0
∫ ξ ∫ 1 ] ∫ 1 [ ∫ ξ ∫ 1 ]
−a ϕ∗3 (η)dη +a ∗
ϕ3 (η)dη dξ + ϕ2 (ξ) b ϕ∗1 (η)dη −b ϕ∗1 (η)dη dξ+
0 ξ 0 0 ξ
∫ 1 [ ∫ 1 ] ∫ 1∫ 1
+ ϕ3 (ξ) b ϕ∗1 (η)dη dξ + ϕ∗3 (η)L(ξ, η)dξdη, (2.9.44)
0 0 0 0
или ∫ 1 ∑
K(ϕ, ϕ∗ ) = ϕi (ξ)Ti (ξ)dξ + Z,
0
Выбирая ϕ∗1 указанным образом и полагая ϕ∗3 (ξ) = 1 для ξ > ξ0 , мы получаем, что
равенство T1 (ξ) = T3 (ξ) возможно, если
a−b
ξ0 = .
a
Таким образом, мы приходим к следующему решению:
{
∗ ϕ∗1 (ξ) = a+b
a
, ϕ∗3 (ξ) = a+b
b
, при ξ < ξ0 ,
ϕ = ∗
(2.9.45)
ϕ3 (ξ) = 1, при ξ > ξ0 .
Для ξ > ξ0 , исследуя (2.9.44), мы находим, что T2 (ξ) = T3 (ξ) > T1 (ξ). Следовательно,
максимизация функции K(ϕ, ϕ∗ ) требует, чтобы ϕ удовлетворяла условию ϕ2 + ϕ3 = 1.
Но, если на этом интервале ϕ∗2 > 0, то несложное вычисление показывает, что T1 (ξ) <
T2 (ξ) для ξ ≥ ξ1 , где ξ1 < ξ0 . В совокупности все эти доводы доказывают, что стратегия
ϕ∗ вида (2.9.45) есть единственная оптимальная стратегия игры.
H(x, y) = sign(x − y)
H(x, y) = 0, x = y,
1/y 2 , x < y
стратегии F ∗ (x) = I1/2 (x), G∗ (y) = 1/2I0 (y) + 1/2I1 (y) оптимальны для игроков 1 и 2 соответ-
ственно.
13. Доказать, что значение симметричной непрерывной игры на единичном квадрате равно
нулю, а оптимальные смешанные стратегии совпадают (игра симметричная), если функция
выигрыша кососимметрична, т. е. H(x, y) = −H(y, x)).
14. Определить оптимальные стратегии и значение игры на единичном квадрате с функ-
цией выигрыша H(x, y) = y 3 − 3xy + x3 .
15. Показать, что в игре с функцией выигрыша
√
H(x, y) = eγy−x 1 − x2 /y 2 , x ∈ [x0 , x1 ], y ∈ [y0 , y1 ], γ > 0
игрок 2 имеет оптимальную чистую стратегию. Выяснить вид этой стратегии в зависимости
от параметра Что можно сказать об оптимальной стратегии игрока 1?
16. Проверить, что функция выигрыша из примера 11 п. 2.5.5, H(x, y) = ρ(x, y), x ∈ S(0, l),
y ∈ S(0, l), где S(0, l) — круг с центром в 0 и радиусом l, ρ(·) — расстояние в R2 , строго выпукла
по y при любом фиксированном x.
17. Показать, что сумма двух выпуклых функций выпукла.
18. Доказать, что если выпуклая функция φ : [α, β] → R1 ограничена, то она непрерывна в
любой точке x ∈ (α, β). . Вместе с тем на концах α и β промежутка (α, β), выпуклая функция
φ полунепрерывна сверху, т. е.
lim φ(x) ≤ φ(α)
x→α
Неантагонистические игры
При этом элементы αij и βij матриц A, B являются соответственно выигрышами игро-
ков 1 и 2 в ситуации (i, j), i ∈ M , j ∈ N , M = {1, . . . , m}, N = {1, . . . , n}.
В соответствии с изложенным выше биматричная игра происходит следующим об-
разом. Первый игрок выбирает номер i строки, а второй (одновременно и независимо)
номер j столбца матрицы. Тогда игрок 1 получает выигрыш αij = H1 (xi , yj ), а игрок
2 — выигрыш βij = H2 (xi , yj ).
Заметим, что биматричную игру с матрицами A и B можно также задать (m ×
n) матрицей (A, B), каждый элемент которой есть пара (αij , βij ), i = 1, 2, . . . , m, j =
1, 2, . . . , n. Игру, определяемую матрицами A и B, будем обозначать Γ(A, B).
Если бескоалиционная игра Γ двух лиц такова, что H1 (x, y) = −H2 (x, y) для всех
x ∈ X1 , y ∈ X2 , то Γ оказывается антагонистической игрой, рассмотренной в преды-
дущих главах. В частном случае, когда в биматричной игре αij = −βij , мы получаем
матричную игру, рассмотренную в гл. 1.
3.1.4. Пример 1 («Семейный спор»). Рассматривается биматричная игра с матрицей
[ β1 β2 ]
α (4, 1) (0, 0)
(A, B) = 1 .
α2 (0, 0) (1, 4)
[ β1 β2 ]
α (1, 1) (1 − ε, 2)
(A, B) = 1 .
α2 (2, 1 − ε) (0, 0)
§ 3.1. Определение бескоалиционной игры в нормальной форме 121
1
∑n
где t = n j=1 xj .
H6
b(1)
a(1)
a(0)
b(0)
-
0 t0 t1 1 t
Пусть a и b имеют вид, изображенный на рис. 3.1. Из вида функций a(t) и b(t)
следует, что если доля игроков, выбирающих 1, больше t1 , то уличное движение на-
столько свободно, что водитель чувствует себя лучше, чем пассажир в общественном
транспорте. Если же доля автомобилистов больше 1 −t0 , то движение настолько интен-
сивное (при естественном приоритете общественного транспорта), что сравнение теперь
в пользу пассажиров общественного транспорта.
Пример 4 (Распределение ограниченного ресурса с учетом интересов потребите-
лей). Предположим, что n потребителей имеют возможность расходовать (накапли-
вать) некоторый ресурс, объем которого ограничен величиной A > 0. Обозначим объем
ресурса, который расходует (накапливает) i-й потребитель, через xi . В зависимости от
значений вектора x = (x1 , x2 , . . . , xn ) потребители получают выигрыш, который оце-
нивается для i-го потребителя функцией hi (x1 , x2 , . . . , xn ), если общий объем израсхо-
дованного (накопленного) ресурса не превосходит заданной положительной величины
Θ < A, т. е.
∑ n
xi ≤ Θ, xi ≥ 0.
i=1
122 3. Неантагонистические игры
∑
n
Xi = [0, ai ], 0 ≤ ai ≤ A, ai = A, N = {1, 2, . . . , n}.
i=1
∑
n
q= ci xi , 0 ≤ xi ≤ ai , i = 1, 2, . . . , n.
i=1
∑n
Пусть Θ < i=1 ci ai — значение предельно допустимой концентрации (ПДК) вредной
примеси.
Считая предприятия игроками, построим игру, моделирующую конфликтную ситуа-
цию загрязнения атмосферы. Предположим, что каждое предприятие i может снижать
свои эксплуатационные расходы, увеличивая выброс xi , однако если в зоне Ω уровень
загрязнения превышает ПДК, на предприятие накладывается штраф si > 0.
Пусть игрок i (предприятие) имеет возможность выбирать значения xi из множества
Xi = [0, ai ]. Функции выигрыша игроков имеют вид
{
hi (x1 , x2 , . . . , xn ), q ≤ Θ,
Hi (x1 , . . . , xn ) =
hi (x1 , x2 , . . . , xn ) − si , q > Θ,
При этом
[ β1 β2 ]
α (5, 5) (0, 10)
(A, B) = 1 .
α2 (10, 0) (1, 1)
Здесь одна ситуация равновесия (α2 , β2 ) (не сильно равновесная), которая дает игрокам
вектор выигрышей (1, 1). Однако если оба игрока сыграют (α1 , β1 ), то они получат
вектор выигрышей (5, 5), что выгодно обоим. Эта ситуация не является равновесной, но
она лучшая для обоих игроков. Таких парадоксов в антагонистических играх не бывает.
Если говорить об этом конкретном случае, то данный результат является следствием
того, что при одновременном отклонении от равновесной стратегии каждый из игроков
может выиграть еще больше.
3.2.4. Пример 8 приводит к мысли о возможности других принципов оптимальности
в бескоалиционной игре, приводящих к ситуациям, более выгодным обоим участникам,
чем в случае равновесных ситуаций. Таким принципом оптимальности является опти-
мальность по Парето. ∏n
Рассмотрим множество векторов {H(x)} = {H1 (x), . . . , Hn (x)}, x ∈ X, X = i=1 Xi ,
т. е. множество значений вектор-выигрышей игроков во всех возможных ситуациях
x ∈ X.
Определение. Ситуация x в бескоалиционной игре Γ называется оптимальной
по Парето, если не существует ситуации x ∈ X, для которой имеют место нера-
венства:
Hi (x) ≥ Hi (x) для всех i ∈ N и
Hi0 (x) > Hi0 (x) хотя бы для одного i0 ∈ N.
Множество всех ситуаций, оптимальных по Парето, будем обозначать через X P .
Содержательно принадлежность ситуации x множеству X P означает, что не суще-
ствует другой ситуации x, которая была бы предпочтительнее ситуации x для всех
игроков.
Отметим содержательное различие понятий ситуации равновесия и ситуации, опти-
мальной по Парето. В первой ситуации ни один игрок, действуя в одиночку, не может
увеличить своего выигрыша, во второй — все игроки, действуя совместно, не могут
(даже не строго) увеличить выигрыш каждого.
Заметим также, что соглашение о выборе фиксированной ситуации равновесия удер-
живает каждого индивидуального игрока от отклонения от нее. В оптимальной по
Парето ситуации отклонившийся игрок может в некоторых случаях получить суще-
ственно больший выигрыш. В то же время сильно равновесная ситуация безусловно
является и оптимальной по Парето. Так, в примере 9 («Дилемма заключенного») ситу-
ация (α2 , β2 ) равновесна, но не оптимальна по Парето. Вместе с тем ситуация (α1 , β1 ) ,
наоборот, оптимальна по Парето, но не является равновесной. В игре «семейный спор»
обе равновесные ситуации (α1 , β1 ), (α2 , β2 ) сильно равновесны и оптимальны по Па-
рето, но, как уже отмечено в примере 8, не являются взаимозаменяемыми. Такая же
картина имеет место и в следующем примере.
Пример 10. Рассмотрим игру «перекресток» (см. пример 2 п. 3.1.4). Ситуации
(α2 , β1 ), (α1 , β2 ) равновесны и оптимальны по Парето (ситуация (α1 , β1 ) оптимальна
по Парето, но не равновесна). Для каждого игрока равновесной является стратегия
α1 , β1 «остановиться », если другой игрок решил проехать перекресток, и, наоборот,
128 3. Неантагонистические игры
где i = 1, 2, i ̸= j.
Понятие i-равновесия можно интерпретировать следующим образом. Игрок 1 (ли-
дер) знает функции выигрыша обоих игроков H1 , H2 , а тем самым и множество наилуч-
ших ответов Z 2 игрока 2 (ведомого) на любую стратегию x1 игрока 1. Тогда он, обладая
этой информацией, максимизирует свой вьшгрыш, выбирая стратегию x1 из условия
(3.2.11). Таким образом, H i —это выигрыш i-гo игрока, действующего оптимально в
качестве «лидера» в игре Γ.
Лемма. Пусть Z(Γ) — множество ситуаций равновесия по Нэшу в игре двух
лиц Γ. Тогда
Z(Γ) = Z 1 ∩ Z 2 , (3.2.12)
где Z 1 , Z 2 — множества наилучших ответов (3.2.9), (3.2.10) игроков 1,2 в игре Γ.
Доказательство. Пусть (x1 , x2 ) ∈ Z(Γ) — ситуация равновесия по Нэшу. Тогда нера-
венства
H1 (x′1 , x2 ) ≤ H1 (x1 , x2 ), H2 (x1 , x′2 ) ≤ H2 (x1 , x2 )
выполняются для всех x′1 ∈ X1 и x′2 ∈ X2 . Отсюда следует:
H i ≤ Hi (x1 , x2 ), i = 1, 2. (3.2.15)
§ 3.3. Смешанное расширение бескоалиционной игры 129
Hi (z1 , z2 ) ≤ H i , i = 1, 2.
i ∈ N, x = (x1 , . . . , xn ) ∈ X. (3.3.3)
Введем обозначение
∑ ∑ ∑ ∑ ∏
Ki (µ∥x′j ) = ... ... Hi (x∥x′j ) µk (xk ). (3.3.4)
x1 ∈X1 xj−1 ∈Xj−1 xj+1 ∈Xj+1 xn ∈Xn k̸=j
X1 = {x | xu = 1, x ≥ 0, x ∈ Rm },
X2 = {y | yw = 1, y ≥ 0, y ∈ Rn },
где u = (1, . . . , 1) ∈ Rm , w = (1, . . . , 1) ∈ Rn . Также определим выигрыши игроков K1 и
K2 в смешанных стратегиях в ситуации (x, y) как математическое ожидание выигрыша
Максиминная стратегия x0 игрока 1 имеет вид x0 = (1/5, 4/5) и дает ему средний
гарантированный выигрыш 4/5. Если игрок 2 выберет стратегию β1 , то выигрыши
игроков будут равны (4/5, 1/5), если же он воспользуется стратегией β2 , то (4/5, 16/5).
Таким образом, если игрок 2 догадается, что его партнер придерживается страте-
гии x0 , то он выберет β2 и получит выигрыш 16/5. (Если игрок 1 может обосновать
выбор β2 за игрока 2, то он может улучшить и свой выбор.) Аналогично, пусть игрок 2
придерживается максиминной стратегии (она имеет вид y 0 = (4/5, 1/5)), и если игрок
1 выбирает стратегию α1 , то выигрыши игроков равны (16/5, 4/5). Если же игрок 1 вы-
берет α2 , то выигрыши игроков равны (1/5, 4/5). Следовательно, против максиминной
стратегии y 0 ему выгодно применять стратегию α1 .
Если оба игрока будут рассуждать таким образом, то они приходят к ситуации
(α1 , β2 ), в которой вектор выигрышей (0, 0). Здесь ситуация (x0 , y 0 ) в максиминных
смешанных стратегиях не является ситуацией равновесия по Нэшу.
3.3.3. Определение. Ситуация µ∗ называется ситуацией равновесия по Нэшу в
смешанных стратегиях в игре Γ, если для любого игрока i и для любой его смешанной
стратегии µi выполняется следующее неравенство:
Более того, так как для любых смешанных стратегий x = (ξ, 1 − ξ) и y = (η, 1 − η)
выполняются равенства
ε
K1 (x, y ∗ ) = ξK1 (α1 , y ∗ ) + (1 − ξ)K1 (α2 , y ∗ ) = 1 − ,
2−ε
ε
K2 (x∗ , y) = ηK2 (x∗ , β1 ) + (1 − η)K2 (x∗ , β2 ) = 1 − ,
2−ε
то получаем
K1 (x, y ∗ ) = K1 (x∗ , y ∗ ), K2 (x∗ , y) = K2 (x∗ , y ∗ )
для всех смешанных стратегий x ∈ X1 и y ∈ X2 . Следовательно, (x∗ , y ∗ ) — ситуация
равновесия по Нэшу. Более того, это вполне смешанная ситуация равновесия. Однако
ситуация (x∗ , y ∗ ) не является оптимальной по Парето, так как вектор K(x∗ , y ∗ ) = (1 −
ε/(2 − ε), 1 − ε/(2 − ε)) строго меньше (покомпонентно) вектора выигрышей (1, 1) в
ситуации (α1 , β1 ).
Пусть K(µ∗ ) = {Ki (µ∗ )} — вектор выигрышей в некоторой ситуации равновесия
по Нэшу. Обозначим vi = Ki (µ∗ ) и v = {vi }. Заметим, что если в антагонистических
играх значение v функции выигрыша в ситуации равновесия было одним и тем же
для всех ситуаций равновесия, а следовательно, осуществлялось единственным образом
для каждой антагонистической игры, в которой существовала ситуация равновесия,
то в неантагонистических играх вектор v определяется неоднозначно. Таким образом,
здесь можно говорить лишь ∏ о равновесном выигрыше vi = Ki (µ∗ ) игрока i в ситуации
∗ ∗ n
равновесия µ , µ ∈ X, X = i=1 X i .
Так, в игре «перекресток» в ситуации равновесия (α1 , β2 ) вектор равновесных выиг-
рышей (v1 , v2 ) имеет вид (1−ε, 2), а в ситуации (x∗ , y ∗ ) он равен (1−ε/(2−ε), 1−ε/(2−ε))
(см. пример 12).
3.3.4. Если в бескоалиционной игре Γ = (X1 , X2 , H1 , H2 ) пространства стратегий
бесконечны, например, X1 ⊂ Rm , X2 ⊂ Rn , то, как и в случае бесконечных антаго-
нистических игр, смешанные стратегии игроков отождествляются с вероятностными
мерами, заданными на борелевских σ-алгебрах множеств X1 и X2 . Если µ и ν — сме-
шанные стратегии игроков 1 и 2 соответственно, то выигрышем игрока i в этой ситуации
является Ki (µ, ν) — математическое ожидание выигрыша, т. е.
∫ ∫
Ki (µ, ν) = Hi (x, y)dµ(x)dν(y), (3.3.5)
X1 X2
ψ : X1 × X2 → X1 × X2 ,
определяемое соотношением
{ K1 (x′ , y0 ) = max K1 (x, y0 ),
′ ′
x∈X1
ψ : (x0 , y0 ) → (x , y ) ′
K 2 (x 0 , y ) = max K2 (x0 , y),
y∈X2
Если согласно ситуации µ игроки выбирают свои чистые стратегии независимо, то ве-
роятность того, что они выберут ситуацию
∏n в чистых стратегиях x = (x1 , . . . , xi , . . . , xn )
равна произведению вероятностей i=1 µi (xi ).
Для любой ситуации в смешанных стратегиях µ обозначим через Ki (µ) математи-
ческое ожидание выигрыша игрока i, который будет получен
∏n при независимом выборе
игроками чистых стратегий согласно µ. Пусть X = i=1 Xi (Xi — множество всех
возможных ситуаций в чистых стратегиях). Тогда
∑ ∏
Ki (µ) = ( µj (xj ))Hi (x), для всех i ∈ N.
x∈X j∈N
Обозначим как (µ∥τi ) для всех τi ∈ X i ситуацию в смешанных стратегиях, где i-й
компонентой является τi , а остальные компоненты такие же, как в µ. Таким образом,
∑ ∏
Ki (µ∥τi ) = ( µj (xj ))τi (xi )Hi (x).
x∈X j∈N \{i}
Кроме того, pi ∈ arg maxτi ∈X i Ki (µ∥τi ) тогда и только тогда, когда pi (xi ) = 0 при
всех xi , таких что xi ̸∈ arg maxxi ∈Xi Ki (µ∥xi ).
Доказательство. Заметим, что для любого τi ∈ X i справедливо следующее равен-
ство: ∑
Ki (µ∥τi ) = τi (xi )Ki (µ∥xi ).
xi ∈Xi
136 3. Неантагонистические игры
Значит, τ ∈ R(µ) тогда и только тогда, когда τj ∈ Rj (µ) для всех j ∈ N . Для любого µ,
R(µ) непусто и выпукло, поскольку R(µ) является декартовым произведением непустых
выпуклых множеств.
Для того, чтобы показать, что R является полунепрерывным ∏ сверху положим, что
{µk } и {τ k }, k = 1, . . . , ∞ — сходящиеся последовательности, µk ∈ i∈N X i , k = 1, 2, . . .;
τk ∈ R(µk ), k = 1, 2, . . .; µ = limk→∞ µk , τ = limk→∞ τ k .
Докажем, что τ ∈ R(µ). Для каждого игрока j ∈ N и каждого ρj ∈ X j справедливо
неравенство
Kj (µk ∥τjk ) ≥ Kj (µk ∥ρj ), k = 1, 2, . . . .
∏n
В силу непрерывности математического ожидания Kj (µ) по i=1 X i , можно последо-
вательно показать, что для всех j ∈ N и ρj ∈ X j ,
Kj (µ∥τ j ) ≥ Kj (µ∥ρj ).
Теорема. Для любой игры в нормальной форме существует по крайней мере одно
совершенное равновесие [Selten, 1975].
3.6.5. Пример 13. Рассмотрим биматричную игру Γ
[ L2 R2 ]
L1 (1, 1) (0, 0)
.
R1 (0, 0) (0, 0)
[ L2 R2 ]
L1 (1, 1) (10, 0)
.
R1 (0, 10) (10, 10)
Очевидно, что в этой игре есть два различных равновесия (L1 , L2 ) и (R1 , R2 ). Рав-
новесие (L1 , L2 ) строго доминируется равновесием (R1 , R2 ). Рассмотрим ассоциирован-
ную игру дрожащей руки (Γ, η). Покажем, что (L1 , L2 ) — совершенное равновесие в
игре (Γ, η). Заметим, что
K1 (L1 , L2 ) = (1 − η1 (R1 ))(1 − η2 (R2 )) + 10(1 − η1 (R1 ))η2 (R2 ) + 10η1 (R1 )η2 (R2 ),
K1 (R1 , L2 ) = 10(1 − η1 (L1 ))η2 (R2 ) + 1 · η1 (L1 )(1 − η2 (R2 )) + 10η1 (L1 )η2 (R2 ).
При малых η1 , η2 получаем неравенство:
L2 R2 A2
L1 (1, 1) (0, 0) (−1, −2)
R1 (0, 0) (0, 0) (0, −2) ,
A1 (−2, −1) (−2, 0) (−2, −2)
которая является развитием примера 13 путем добавления строго доминируемых стро-
ки A1 и столбца A2 .
Доказано, что в этой игре (R1 , R2 ) также является совершенным равновесием в
дополнение к (L1 , L2 ). Это следует из доказательства того, что если игроки договори-
лись использовать равновесие (R1 , R2 ) и каждый игрок ожидает, что ошибка A будет
появляться с большей вероятностью, чем ошибка L, то оптимальным поведением для
каждого игрока будет выбор стратегии R. Поэтому добавление строго доминирующих
стратегий может изменять множество совершенных равновесий.
3.6.6. Существует другое понятия равновесия, введенное Р. Майерсоном в
[Myerson, 1978], которое исключает некоторые «неразумные» совершенные равновесия,
такие как равновесие (R1 , R2 ) в последнем примере.
Это равновесие называется правильным равновесием. Основная идея, лежащая в
определении этого равновесия, состоит в том, что игрок, совершающий ошибку, будет
более упорно пытаться предотвратить более «дорогие» ошибки, чем «менее» дорогие, т.
е. предполагается наличие некоторой рациональности в механизме совершения ошибок.
В результате наиболее «дорогие» ошибки будут случаться с меньшей вероятностью, чем
более «дешевые» ошибки.
3.6.7. Определение 1. Пусть ⟨N, X 1 , . . . , X n , K1 , . . . , Kn ⟩ — игра n лиц ∏nв нор-
мальной форме в смешанных стратегиях. Положим ε > 0 и пусть µε ∈ i=1 X i .
Будем говорить, что ситуация в смешанных стратегиях µε является ε-правильным
равновесием в игре Γ, если µε — вполне смешанная и удовлетворяет следующему усло-
вию
если Ki (µε ∥xk ) < Ki (µε ∥xl ), то µεi (xk ) < εµεi (xl ) для всех i, k, l.
∏n
Определение 2. Будем говорить, что µ ∈ i=1 X i — правильное равновесие в
игре Γ, если µ — предельная точка для последовательности µε при ε → +0), где µε
является ε-правильным равновесием в игре Γ.
§ 3.7. Свойства оптимальных решений 141
Ay = v1 u, xB = v2 w, (3.7.10)
x = v2 uB −1 , (3.7.11)
y = v1 A−1 u, (3.7.12)
где
v1 = 1/(uA−1 u), v2 = 1/(uB −1 u). (3.7.13)
Обратно, если для векторов x, y ∈ R , определяемых равенствами (3.7.11)–(3.7.13)
m
Согласно теореме п. 3.7.1 для того, чтобы ситуация (x, y) являлась ситуацией рав-
новесия в смешанных стратегиях в игре Γ(A, B), достаточно выполнения условий
ai y = K1 (i, y) ≤ xAy, i = 1, m,
K2
6 p (1, 4)
4
3
p (5/2, 5/2)
2
p (5/4, 5/4)
p
(4, 1)
1
p
(4/5, 4/5)
-
0 1 2 3 4 K1
1 2
Z(Γ) = Z ∩ Z ,
1 2
где Z(Γ) — множество ситуаций равновесия по Нэшу, Z и Z — множества наилучших
ответов игроков 1 и 2 в игре Γ и справедлива теорема о борьбе за лидерство (см. п. 3.2.5).
В более сложном отношении находятся ситуации, равновесные по Нэшу и оптималь-
ные по Парето. Из примеров п. 3.3.2 следует, что возможны случаи, когда ситуация
равновесна по Нэшу, но не оптимальна по Парето, и наоборот. Вместе с тем возможно,
что одна и та же ситуация оптимальна и в том и в другом смысле (п. 3.2.4).
В примере 12 п. 3.3.3 было показано, что дополнительная ситуация равновесия,
возникающая в смешанном расширении игры Γ, не является оптимальной по Парето в
смешанном расширении Γ. Оказывается, что это довольно распространенное свойство
биматричных игр.
Теорема. Пусть Γ(A, B) — биматричная (m × n)-игра. Тогда почти для всех
(m × n)-игр (за исключением не более чем счетного множества игр) справедливо сле-
дующее утверждение.
Ситуации равновесия по Нэшу в смешанных стратегиях, которые не являются рав-
новесными в исходной игре, не являются оптимальными по Парето в смешанном
расширении.
Доказательство теоремы основано на том, что ее результат справедлив для множе-
ства Ω так называемых регулярных игр, которое открыто и всюду плотно в множе-
стве биматричных (m × n)-игр. Полное доказательство этой теоремы можно найти в
[Мулен, 1985].
3.7.5. В заключение параграфа рассмотрим пример решения биматричных игр с
малым числом стратегий, который во многом поучителен.
Пример 16 (Биматичные (2 × 2)-игры) [Мулен, 1985]. Рассмотрим игру Γ(A, B), в
которой у каждого из игроков по две чистые стратегии. Пусть
[ τ1 τ2 ]
δ (α11 , β11 ) (α12 , β12 )
(A, B) = 1 .
δ2 (α21 , β21 ) (α22 , β22 )
a) α21 < α11 , α12 < α22 , β12 < β11 , β21 < β22 ,
b) α11 < α21 , α22 < α12 , β11 < β22 , β12 < β21 .
В случае a) равновесными будут ситуации (δ1 , τ1 ), (δ2 , τ2 ), а в случае b) — ситуации
(δ1 , τ2 ), (δ2 , τ1 ) . Однако в смешанном расширении есть еще одна вполне смешанная
ситуация равновесия (x∗ , y ∗ ), определенная формулами (3.7.14), (3.7.15).
Рассмотренные случаи исчерпывают изучение (2 × 2)-игры при условии, что эле-
менты в матрицах различны.
Для любой смешанной стратегии p = {ξ} обозначим через C(p) носитель стратегии p и
через B(p) — множество наилучших ответов в чистых стратегиях против стратегии p
в игре A:
C(p) = {i : ξi > 0}, B(p) = {i : E(i, p) = max E(j, p)}.
j
146 3. Неантагонистические игры
3.8.2. В работе [Maynard and Price (1973)] был рассмотрен пример игры, получив-
шей название «Ястреб–голубь», который приводит к определению эволюционно устой-
чивой стратегии с общепринятым обозначением ESS.
Пример 17. Игра «Ястреб–голубь» является 2×2 симметричной биматричной игрой
со следующими матрицами:
[ H D ] [ H D ]
H 1/2(V − C) V H 1/2(V − C) 0
A= , B= . (3.8.1)
D 0 1/2V D V 1/2V
Если ситуация (p, p) является строгим равновесием (pAp > qAp при всех q), то все-
гда имеет место неравенство (3.8.1). Существует также эволюционная интерпретация
неравенства (3.8.1), основанная на примере игры «Ястреб–голубь».
Если выполняется неравенство (3.8.1), то
Из (3.8.2) получаем, что неравенство qAp > pAp невозможно, поскольку в этом
случае неравенство (3.8.1) не будет выполняться для малых ε > 0. Тогда из (3.8.2)
следует, что
qAp < pAp, (3.8.3)
или
если qAp = pAp, то qAq < pAq. (3.8.4)
Из неравенств (3.8.3), (3.8.4) тривиальным образом следует выполнение (3.8.2) при до-
статочно малых ε > 0 (здесь ε зависит от q).
3.8.4. Определение. Будем называть смешанную стратегию p эволюционно
устойчивой (ESS), если ситуация (p, p) является равновесием по Нэшу и выполне-
ны следующие условия устойчивости:
p → {q ∈ Y, C(q) ⊂ B(p)}.
p∗ ∈ {q ∈ Y, C(q) ⊂ B(p)},
откуда
C(p∗ ) ⊂ B(p∗ ). (3.8.6)
Из включения (3.8.6) следует, что
p∗ Ap∗ ≥ qAp∗
Если 0 < b < a, то эта игра не имеет эволюционно устойчивой стратегии. Действитель-
но, эта игра имеет единственное симметричное равновесие p = (1/5, 1/5, 1/5, 1/5, 1/5),
pAp = b/5, и каждая стратегия является наилучшим ответом на стратегию p, для всех
i, ei Aei = αii = b > b/5 = pAp = pAei (где ei = (0, . . . , 0, 1i , 0, . . . , 0)), поэтому условие
(3.8.5) эволюционной устойчивости не выполняется.
Таким образом, для игр с более, чем двумя чистыми стратегиями, теорема не вы-
полняется.
3.8.9. Интересен тот факт, что число эволюционно устойчивых стратегий в игре
всегда конечно (хотя и может быть равно нулю).
Если (p, p) и (q, q) — равновесия по Нэшу в игре с матрицей A, причем q ̸= p и
C(q) ⊂ B(p), то p не может быть эволюционно устойчивой стратегией, поскольку q —
наилучший ответ на p и q.
Теорема. Если p является эволюционно устойчивой стратегией в игре A и (q, q)—
симметричное равновесие по Нэшу в игре A при C(q) ⊂ B(p), то p = q.
3.8.10. Пусть (pn , pn ) — последовательность симметричных равновесий по Нэшу в
игре A, такая что limn→∞ pn = p. Тогда из определения предела получаем, что суще-
ствует такое N , что для всех n ≥ N справедливо
K2
6 p (1, 4)
4
@
@
@
@
3 @
@ (5/2, 5/2)
@p
@
2 @
@
@
p (5/4, 5/4) @
@
1 @
p (4, 1)
p
(4/5, 4/5)
-
0 1 2 3 4 K1
[]
1/2 0
Заметим, что совместная смешанная стратегия M ∗ = является опти-
0 1/2
мальной по Парето и ей соответствует вектор выигрышей (5/2, 5/2). Таким образом,
M ∗ может быть рекомендована в качестве решения игры «семейный спор».
Определение. Для биматричной (m × n)-игры Γ(A, B), обозначим через M =
{µij } совместное вероятностное распределение на парах (i, j), i = 1, . . . , m, j =
1, . . . , n. Через µi (j) обозначим условную вероятность реализации стратегии j при
условии, что реализовалась стратегия i. Аналогично, через νj (i) обозначим условную
вероятность реализации стратегии i при условии, что реализовалась стратегия j.
{ ∑n ∑n
µij / j=1 µij , если j=1 µij ̸= 0,
µi (j) =
0, еслиµij = 0, j = 1, . . . , n,
{ ∑m ∑m
µij / i=1 µij , если i=1 µij ̸= 0,
νj (i) =
0, еслиµij = 0, i = 1, . . . , m.
Будем говорить, что M ∗ = {µ∗ij } — ситуация равновесия в совместных смешанных
стратегиях в игре Γ(A, B), если выполнены следующие неравенства:
∑
n ∑
n ∑
m ∑
m
αij µ∗i (j) ≥ αi′ j µ∗i (j), βij νj∗ (i) ≥ βij ′ νj∗ (i) (3.9.1)
j=1 j=1 i=1 i=1
∑
n ∑
n ∑
m ∑
n ∑
m ∑
m
αij µ∗ij ≥ α
i′ j µ∗ij , µ∗ij = 1, βij µ∗ij ≥ βij ′ µ∗ij , µ∗ij ≥ 0 (3.9.2)
j=1 j=1 i=1 j=1 i=1 i=1
где i, i′ ∈ {1, 2, . . . , m}, j, j ′ ∈ {1, . . . , n}. Если ξi = 0 (ηj = 0), то неравенства очевидны.
Поэтому система неравенств (3.9.3) эквивалентна следующей:
K2
6 a p (1, 4)
4
@
@
@
e p @
3 @
@ (v , v ) = (5/2, 5/2)
@p 1 2
@
2 @
S @
@
@
@@
1 (4/5, 4/5)
p (4, 1)
d p p b
c
R
-
0 1 2 3 4 K1
гут договориться о любом исходе игры. Так, игроку 1 наиболее предпочтительна точка
(4, 1), а игроку 2 — точка (1, 4) Ни один из игроков не согласится с результатами пе-
реговоров, если его выигрыш будет меньше максиминного значения, поскольку этот
выигрыш он может получить самостоятельно (независимо от партнера). Максиминные
смешанные стратегии игроков в этой игре x0 = (1/5, 4/5) и y 0 = (4/5, 1/5), соответствен-
но, а вектор выигрышей в максиминных стратегиях (v10 , v20 ) равен (4/5, 4/5). Поэтому
множество S, возможное для переговоров, ограничено точками a, b, c, d, e (см. рис. 3.4).
Назовем его переговорным множеством игры. Далее, действуя совместно, игроки все-
гда могут договориться выбирать точки на отрезке ab, поскольку это выгодно обоим
(отрезок ab соответствует ситуациям, оптимальным по Парето).
3.10.2. Назовем задачу выбора точки (v 1 , v 2 ) из S в результате переговоров за-
дачей о переговорах. Таким образом, мы пришли к следующей проблеме. Пусть для
биматричной игры Γ(A, B) задано переговорное множество S и вектор максиминных
выигрышей (v10 , v20 ). Требуется найти правило, решающее задачу о переговорах, т. е.
необходимо найти функцию φ, такую, что
1) (v 1 , v 2 ) ≥ (v10 , v20 ).
2) (v 1 , v 2 ) ∈ S.
Функция φ, которая отображает игру с переговорами (S, v10 , v20 ) в множество век-
торов выигрышей (v 1 , v 2 ) и удовлетворяет условиям 1) – 6), называется арбитражной
схемой Нэша [Оуэн, 1971], условия 1) – 6) — аксиомами Нэша, а вектор (v 1 , v 2 ) —
арбитражным вектором выигрышей. Таким образом, арбитражная схема — это реа-
лизуемый принцип оптимальности в игре с переговорами.
Прежде чем перейти к доказательству теоремы, обсудим ее условия на примере игры
«семейный спор» (см. рис. 3.4). Условия 1 и 2 означают, что вектор выигрышей (v 1 , v 2 )
154 3. Неантагонистические игры
δ(v1 , v2 ) ≤ δ(v 1 , v 2 ).
Последнее слагаемое — бесконечно малая величина порядка o(ε). Поэтому при доста-
точно малом ε > 0 получаем неравенство θ(v1′ , v2′ ) > θ(v 1 , v 2 ), но это противоречит
максимальности θ(v 1 , v 2 ).
§ 3.10. Задача о переговорах 155
3.10.5. Перейдем к доказательству теоремы п. 3.10.2. Для этого покажем, что точка
(v 1 , v 2 ), которая максимизирует θ(v1 , v2 ), является решением задачи о переговорах.
Доказательство. Предположим, что выполнены условия леммы п. 3.10.3. Тогда опре-
делена точка (v 1 , v 2 ), которая максимизирует θ(v1 , v2 ). Можно проверить, что (v 1 , v 2 )
удовлетворяет условиям 1) – 4) теоремы п. 3.10.2. Она также удовлетворяет условию
5) этой теоремы, так как если v1′ = α1 v1 + β1 и v2′ = α2 v2 + β2 , то
v2
6
v2 (S)
p
K(S)
S
-
0 v1 (S) v1
Определение.
∑n Решение называется решением Калаи–Смородинского K, если для
всех S ∈ , K(S) является максимизирующей точкой множества S на отрезке,
соединяющем изначальную точку «статус кво» (в примере (0; 0)) с идеальной точкой
S, которая определяется как vi (S) = max{vi | v ∈ S} для всех i.
3.10.10. Эгалитарное решение. Теперь вернемся к третьему решению, которое наи-
более существенно отличается от первых двух.
Определение.
∑n Эгалитарным решением E будем называть решение, которое для
всех S ∈ , E(S) является максимизирующей точкой множества S среди точек с
одинаковыми координатами (см. Рис. 3.6).
Отличительной чертой этого решения является то, что оно удовлетворяет условию
монотонности, которое является очень сильным условием. В самом деле, эта аксиома
может применяться для простого определения решения.
∑n
80 . Строгая монотонность: Если S ⊂ S ′ , то φ(S) ≤ φ(S ′ ) для всех S, S ′ ∈ .
∑n
Теорема. Решение φ(S), S ∈ 0 0 0
удовлетворяет аксиомам 2 , 3 , 8 тогда и толь-
ко тогда, когда оно является эгалитарным решением.
3.10.11. Утилитарное решение. Закончим наш обзор определением утилитарного
решения.
158 3. Неантагонистические игры
v2
6
p E(S)
45o -
0 v1
v2
6
@
@ v1 + v2 = k
@
@
@
@
S @ U (S)
@p
@
@
@ -
0 v1
Следовательно,
∑
v(S ∪ T ) ≥ inf Ki (µS × µT , νN \(S∪T ) ) =
νN \(S∪T )
i∈S∪T
(∑ ∑ )
= inf Ki (µS × µT , νN \(S∪T ) ) + Ki (µS × µT , νN \(S∪T ) ) .
νN \(S∪T )
i∈S i∈T
∑
= c − inf sup Ki (µS , νN \S ) = c − v(N \ S),
νN \S µS
i∈N \S
αi ≥ v({i}), i ∈ N, (3.11.4)
∑
n
αi = v(N ), (3.11.5)
i=1
αi = v({i}) + γi , i ∈ N,
причем
∑ ∑
γi ≥ 0, i ∈ N, γi = v(N ) − v({i}).
i∈N i∈N
Эквивалентность игр (N, v) и (N, v ′ ) будем обозначать как (N, v) ∼ (N, v ′ ) или
v ∼ v′ .
Очевидно, что v ∼ v. Чтобы убедиться в этом, достаточно положить в формуле
(3.11.8) ci = 0, k = 1, v ′ = v. Такое свойство называется рефлексивностью.
Докажем симметрию отношения, т. е. что из условия v ∼ v ′ следует v ′ ∼ v. Дей-
ствительно, полагая k ′ = 1/k, c′i = −ci /k, получим
∑
v(S) = k ′ v ′ (S) + c′i ,
i∈S
т. е. v ′ ∼ v.
Наконец, если v ∼ v ′ и v ′ ∼ v ′′ , то v ∼ v ′′ . Это свойство называется транзитивностью.
Оно проверяется последовательным применением формулы (3.11.8).
Так как отношение эквивалентности рефлексивно, симметрично и транзитивно, оно
разбивает множество всех игр n лиц на взаимонепересекающиеся классы эквивалент-
ных игр.
Теорема. Если две игры v и v ′ эквивалентны, то отображение α → α′ , где
αi′ = kαi + ci , i ∈ N,
S
Следовательно, для α′ условия (3.11.4), (3.11.5) выполнены. Далее, если α ≻ β, то
∑
αi > βi , i ∈ S, αi ≤ v(S),
i∈S
и поэтому
αi′ = kαi + ci > kβi + ci = βi′ (k > 0),
∑ ∑ ∑ ∑
αi′ = k αi + ci ≤ kv(S) + ci = v ′ (S),
i∈S i∈S i∈S i∈S
S
т. е. α′ ≻ β ′ . Взаимная однозначность соответствия следует из существования обрат-
ного отображения (оно было использовано при доказательстве симметрии отношения
эквивалентности). Теорема доказана.
3.11.6. При разбиении множества кооперативных игр на попарно непересекающиеся
классы эквивалентности возникает задача выбора наиболее простых представителей из
каждого класса.
Определение. Игра (N, v) называется игрой в (0–1) – редуцированной форме,
если для всех i ∈ N
v({i}) = 0, v(N ) = 1.
§ 3.12. C-ядро и N M -решение 165
v({i}) ∑
ci = − ∑ , v ′ (S) = kv(S) + ci .
v(N ) − i∈N v({i})
i∈S
v(S) − α(S)
βi = αi + , i ∈ S,
|S|
1 − v(S)
βi = , i ̸∈ S,
|N | − |S|
S
где |S| — число элементов множества S. Легко видеть, что β(N ) = 1, βi ≥ 0 и β ≻ α.
Отсюда следует, что α не принадлежит C-ядру.
Из теоремы п. 3.12.1 следует, что C-ядро является замкнутым, выпуклым подмно-
жеством множества всех дележей (C-ядро может быть пустым множеством).
3.12.2. Пусть игроки договариваются о выборе кооперативного соглашения. Из су-
пераддитивности v следует, что такое соглашение приводит к образованию коалиции N
всех игроков. Решается вопрос ∑о способе дележа суммарного дохода v(N ), т. е. о выборе
вектора α ∈ Rn , для которого i∈N αi = v(N ).
Минимальным требованием для получения согласия игроков выбрать вектор α яв-
ляется индивидуальная рациональность этого вектора, т. е. условие αi ≥ v({i}), i ∈ N .
Пусть игроки договариваются о выборе конкретного дележа α. Против выбора дележа
может возражать некоторая коалиция S, требующая для себя более выгодного распре-
деления. Коалиция S выдвигает это требование, угрожая в противном случае нарушить
общую кооперацию (это вполне реальная угроза, так как для достижения дохода v(N )
требуется единодушное согласие всех игроков). Предположим, что остальные игроки
N \ S реагируют на эту угрозу объединенными действиями против коалиции S. Тогда
максимальный гарантированный доход коалиции S оценивается числом v(S). Условие
(3.12.1) означает существование стабилизирующей угрозы коалиции S со стороны коа-
лиции N \ S. Таким образом, C-ядром игры (N, v) является множество устойчивых в
смысле коалиционных угроз распределений максимального суммарного дохода v(N ).
Приведем еще один критерий принадлежности дележа C-ядру.
Лемма. Пусть α — дележ игры (N, v). Тогда α принадлежит C-ядру в том и
только в том случае, когда для всех коалиций S ⊂ N выполняется неравенство
∑
αi ≤ v(N ) − v(N \ S). (3.12.2)
i∈S
∑
Доказательство. Поскольку i∈N αi = v(N ), то приведенное выше неравенство
можно записать в виде ∑
v(N \ S) ≤ αi .
i∈N \S
∑
n
αi = f (n) = v(N ), αi ≥ 0, i = 1, . . . , n.
i=1
f
6
f (n)
p
,,
p f (|S|)
p
p
p
-
0 1 2 . . . |S| . . . n n
не пусто в том и только в том случае, когда содержит центр α∗ множества всех деле-
жей (αi∗ = f (n)/n, i = 1, . . . , n). Возвращаясь к системе (3.12.1), получаем, что C-ядро
не пусто тогда и только тогда, когда для всех |S| = 1, . . . , n имеет место неравенство
(1/|S|)f (|S|) ≤ (1/n)f (n). Таким образом, C-ядро непусто тогда и только тогда, когда
f
6
f (n)
!p
p !
f (|S0 |) !
p
p
-
0 1 2 . . . |S0 | . . . n n
α1 + α2 ≥ c3 , α1 + α3 ≥ c2 , α2 + α3 ≥ c1
или
α3 ≤ 1 − c3 , α2 ≤ 1 − c2 , α1 ≤ 1 − c1 . (3.12.3)
Складывая неравенства (3.12.3), получаем
α1 + α2 + α3 ≤ 3 − (c1 + c2 + c3 ),
c1 + c2 + c3 ≤ 2. (3.12.4)
∑
3
(ci + ξi ) = 2, ci + ξi ≤ 1, i = 1, 2, 3.
i=1
α
63
B (0, 0, 1)
@
@@
@
@
@
( a3
a2 ((@ (
@ ((((((( @
( (
@@ @
@
@ @
@ @
@ @C -
((
0 @ (((((( (1, 0, 0) α1
(( (
( ( ( ((( @
@
(
A (
a1
α2 (0, 1, 0)
c1 + c2 ≥ 1, c1 + c3 ≥ 1, c2 + c3 ≥ 1. (3.12.6)
В зависимости от различных случаев (а всего их может быть восемь) C-ядро будет при-
обретать тот или иной вид. Например, если не выполняется ни одно из трех неравенств
(3.12.6), то C-ядро оказывается шестиугольником (рис. 3.11б).
B (0, 0, 1) B (0, 0, 1)
TT TT
T T
a2 T T
T T a2 T
T T T T a3
T T a3 T T
T T T T
T T T T
T T T T
T T T T
A T TC A T TC
(0, 1, 0) a1 T (1, 0, 0) (0, 1, 0) T (1, 0, 0)
a1 T
а) б)
1 − v(S0 ) 1 − n−k+1
1
1 1
β(S) ≥ ≥ = ≥ ≥ v(S).
n−k n−k n−k+1 n − |S| + 1
Таким образом, β не доминируется ни по какой коалиции, содержащей не более k иг-
роков.
Пусть теперь |S| > k. Если S0 ⊂ S, то
(|S| − k)(1 − v(S0 )) |S| − k
β(S) = + v(S0 ) ≥
n−k n−k
|S| − k + k − |S| + 1 1
≥ = ≥ v(S).
n − k + k − |S| + 1 n − |S| + 1
Если же S не содержит S0 , то число игроков множества S, не содержащихся в S0 , не
меньше |S| − k + 1; следовательно,
(|S| − k + 1)(1 − v(S0 )) |S| − k + 1 1
β(S) ≥ ≥ ≥ ≥ v(S).
n−k n−k+1 n − |S| + 1
172 3. Неантагонистические игры
α12 = (1/2, 1/2, 0), α13 = (1/2, 0, 1/2), α23 = (0, 1/2, 1/2). (3.12.7)
L3,c = {(a, 1 − c − a, c) | 0 ≤ a ≤ 1 − c}
По существу игра (N, πv) отличается от игры (N, v) лишь тем, что в последней
игроки поменялись ролями в соответствии с перестановкой P .
С помощью этих определений можно изложить аксиоматику Шепли. Сначала за-
метим, что так как кооперативные игры n лиц, в сущности, отождествляются с веще-
ственными (характеристическими) функциями, то можно говорить о сумме двух или
большего числа игр, а также о произведении игры на число.
3.13.2. Поставим в соответствие каждой кооперативной игре (N, v) вектор
φ(v) = (φ1 [v], . . . , φn [v]), компоненты которого будем интерпретировать как выигры-
ши, полученные игроками в результате соглашения или решения арбитра. При этом
будем считать, что указанное соответствие удовлетворяет следующим аксиомам.
Определение 3. Аксиомы Шепли.
1. Если S — любой носитель игры (N, v), то
∑
φi [v] = v(S).
i∈S
174 3. Неантагонистические игры
φi [u + v] = φi [u] + φi [v].
Но это означает, что φi [wS ] = 0 при i ̸∈ S. Далее, если π —любая подстановка, которая
переводит S в себя, то πwS = wS . Следовательно, в силу аксиомы 2 для любых i, j ∈ S
имеет место равенство φi [wS ] = φj [wS ]. Так как этих величин всего s = |S|, а сумма их
равна 1, то φi [wS ] = 1/s, если i ∈ S.
Игра с характеристической функцией wS , определяемой (3.13.1), называется про-
стой игрой n лиц. Таким образом, лемма утверждает, что для простой игры (N, wS )
вектор Шепли определяется формулой (3.13.2). Вектор Шепли для игры (N, wS ) опре-
деляется единственным образом.
Следствие. Если c ≥ 0, то
{
c/s, i ∈ S,
φi [cwS ] =
0, i ̸∈ S.
поэтому
∑ ∑
φ[v] = φ[ cS wS ] − φ[ (−cS )wS ] =
S|cS ≥0 S|cS <0
∑ ∑ ∑
= cS φ[wS ] − (−cS )φ[wS ] = cS φ[wS ].
S|cS ≥0 S|cS <0 S
∑ ( ∑ ) ∑ [ ∑ ]
= (−1)s−t v(T ) = (−1)s−t v(T ).
S|S⊂U T |T ⊂S T |T ⊂U S|T ⊂S⊂U
но это биномиальное разложение (1 − 1)u−t . Следовательно, для всех t < u оно равно
0, а для t = u равно 1. Поэтому для всех U ⊂ N
∑
cS wS (U ) = v(U ).
S|S⊂N
Положим ∑
γi (T ) = (−1)s−t (1/s). (3.13.6)
S|T ∪i⊂S⊂N
∫ 1∑
n ∫ 1 ∑
n
s−t s−1 s−t s−t
= (−1)s−t Cn−t x dx = xt−1 (−1)s−t Cn−t x dx =
0 s=t 0 s=t
∫ 1
= xt−1 (1 − x)n−t dx.
0
Таким образом, имеем (бета-функция)
γi (T ) = (t − 1)!(n − t)!/(n!)
и, следовательно,
∑ (t − 1)!(n − t)!
φi [v] = [v(T ) − v(T \ {i})]. (3.13.7)
n!
T |i∈T ⊂N
Формула (3.13.7) определяет компоненты вектора Шепли в явном виде. Это выра-
жение удовлетворяет аксиомам 1–3 п. 3.13.2.
Заметим, кроме того, что вектор φ[v] всегда является дележом. Действительно, в
силу супераддитивности функции v,
∑ (t − 1)!(n − t)!
φi [v] ≥ v({i}) =
n!
T |i⊂T ⊂N
∑
n
(t − 1)!(n − t)!
t−1
= v({i}) Cn−1 = v({i}).
t=1
n!
3.13.6. Если отвлечься от аксиоматического определения, то вектору Шепли, вы-
раженному формулой (3.13.7), можно дать следующее содержательное истолкование.
Предположим, что игроки (элементы множества N ) решили встретиться в определен-
ном месте в определенное время. Естественно, что из-за случайных отклонений все
они будут прибывать в различные моменты времени; однако предполагается, что все
порядки прибытия игроков (т. е. их перестановки) имеют одну и ту же вероятность,
а именно 1/(n!). Предположим, что если игрок i, прибывая, застает на месте членов
коалиции T \ {i} (и только их), то он получает выигрыш v(T ) − v(T \ {i}); иначе го-
воря, его выигрышем является предельная величина, которую он вносит в коалицию.
Тогда компонента вектора Шепли φi [v] представляет собой математическое ожидание
выигрыша игрока i в условиях этой рандомизационной схемы.
3.13.7. Для простой игры (п. 3.11.6), формула для вектора Шепли особенно нагляд-
на. Действительно, v(T ) − v(T \ {i}) всегда равно либо 0, либо 1, причем это выражение
равно 1, если T — выигрывающая коалиция, а коалиция T \ {i} не является выигрыва-
ющей. Следовательно, имеем
∑
φi [v] = (t − 1)!(n − t)!/n!,
T
178 3. Неантагонистические игры
Ясно, что для всякой коалиции T ⊃ {n} условия v(T ) = 1 и v(T \ {n}) = 0 выпол-
няются тогда и только тогда, когда 2 ≤ |T | ≤ n − 1. Следовательно,
∑
n−1
(t − 1)!(n − t)! n−2
t−1
φn [v] = Cn−1 = .
t=2
n! n
∑
n−1
φi [v] = 1 − φn [v] = 2/n.
i=1
2
φi [v] = , i = 1, . . . , n − 1.
n(n − 1)
Здесь для всех T ⊃ {n}, |T | > 1, v(T ) − v(T \ {n}) = f (t − 1), где t = |T |, и из (3.13.7)
следует
∑n
1∑
n−1
t−1 (t − 1)!(n − t)!
φn [v] = Cn−1 f (t − 1) = f (t).
t=2
n! n t=1
1∑
n−1
1
φi [v] = (f (n − 1) − f (t)), i = 1, . . . , n − 1.
n−1 n t=1
§ 3.14. Вектор Шепли и потенциал 179
где i ∈ N . Здесь игра (N \ {i}, v) представляет собой сужение (N, v) на (N \ {i}, v).)
Функция P : Γ̂ → R такая, что P (⊘, v) = 0, называется функцией потенциала , если
она удовлетворяет следующему условию:
∑
Di P (N, v) = v(N ) (3.14.1)
i∈N
для всех игр (N, v). Таким образом, для функции потенциала вектор маргинальных
вкладов игроков всегда эффективен, т. е. сумма его компонент равна доходу макси-
мальной коалиции, состоящей из всех игроков.
3.14.4. Теорема. Существует единственная функция потенциала P . Для лю-
бой игры (N, v) вектор маргинальных вкладов (Di P (N, v))i∈N совпадает с вектором
Шепли. Кроме того, потенциал игры (N, v) единственным образом определяется со-
отношением (3.14.1), примененным к самой игре (N, v) и ее подыграм (S, v), S ⊂ N .
Доказательство. Равенство (3.14.1) можно переписать в виде
( ∑ )
1
P (N, v) = v(N ) + P (N \ {i}, v) . (3.14.2)
|N |
i∈N
Теперь предположим, что игроки i и j взаимозаменяемы в игре (N, v). Из этого сле-
дует, что P (N \ {i}, v) = P (N \ {j}, v) (с помощью (3.14.2) и того факта, что i
и j взаимозаменяемы в подыграх (N \ {k}, v) для всех k ̸= i, j). Таким образом,
Di P (N, v) = Dj P (N, v). Кроме того, при помощи (3.14.2) по индукции можно дока-
зать, что P (N, v + w) = P (N, v) + P (N, w), откуда следует аддитивность.
Рассмотрим другой подход к интерпретации понятия «потенциал». В общем случае
в игре (N, v) распределение маргинальных вкладов (т. е., v(N ) − v(N \ {i}) для игрока
i), не является эффективным. Одним из путей решения возникшей проблемы являет-
ся добавление игрока, например, игрока 0, и расширение игры N0 = N ∪ {0} таким
образом, чтобы распределение маргинальных вкладов в расширенной игре являлось
эффективным. Формально, пусть (N0 , v0 ) — расширение игры (N, v) (т. е., v0 (S) = v(S)
для всех S ⊂ N ). Тогда условие эффективности можно записать следующим образом:
∑
v0 (N0 ) = [v0 (N0 ) − v0 (N0 \ {i})] =
i∈N0
∑
= [v0 (N0 ) − v(N )] + [v0 (N0 ) − v0 (N0 \ {i})]. (3.14.3)
i∈N
Упрощая, получаем ∑
v(N ) = [v0 (N0 ) − v0 (N0 \ {i})]. (3.14.4)
i∈N
где n = |N |, а s = |S|.
Доказательство. Нетрудно видеть, что вектор маргинальных вкладов для функции
в правой части совпадает с вектором Шепли.
Для интерпретации последней формулы рассмотрим следующую вероятностную мо-
дель выбора случайной непустой коалиции S ⊂ N . Сначала выберем размер коалиции
s = 1, 2, . . . , n = |N | равновероятно (т. е. с вероятностью 1/n каждый). Затем выберем
подмножество S размерности s, снова равновероятно (т. е. каждое из Cns подмножеств
имеет одинаковую вероятность). Или, что эквивалентно, выберем случайный порядок
следования n элементов из N (с вероятностью 1/n! каждый), а затем выберем гранич-
ную точку s (1 ≤ s ≤ n), а коалицией S будут первые s элементов. Вероятность выбора
множества S при |S| = s равна
s!(n − s)! s (s − 1)!(n − s)!
πS = = .
n · n! n n!
Следовательно, формула из п. 3.14.7 может быть переписана в виде
∑ [ ]
n |N |
P (N, v) = πS v(S) = E v(S) , (3.14.6)
s |S|
S⊂N
найти все ситуации, оптимальные по Парето в чистых стратегиях. Есть ли в этой игре равно-
весные ситуации в чистых стратегиях?
6. Изобразить графически в координатах (K1 , K2 ) множество всевозможных векторов вы-
игрышей в смешанных стратегиях в игре «семейный спор» (см. п. 3.1.4).
§ 3.15. Упражнения и задачи 183
найти вполне смешанную ситуацию равновесия по Нэшу. Имеет ли эта игра еще ситуации
равновесия в смешанных стратегиях?
Указание. Найти сначала вполне смешанную ситуацию равновесия (x, y), x = (ξ1 , ξ2 , ξ3 ),
y = (η1 , η2 , η3 ), затем такую равновесную ситуацию, для которой ξ1 = 0 и т. д.
8. «Игра на оригинальность» [Воробьев, 1984]. Рассматривается бескоалиционная игра n
лиц Γ = (N, {Xi }i∈N , {Hi }i∈N ), где Xi = {0, 1}, Hi (0, . . . , 0∥i 1) = gi > 0, Hi (1, . . . , 1∥i 0) =
hi > 0, Hi (x) = 0 в остальных случаях, где ∥i означает, что замена производится на i-м месте.
(a) Интерпретировать игру в терминах рекламного дела.
(b) Найти вполне смешанную ситуацию равновесия.
9. В п. 1.10.1 было показано, что игры двух лиц с нулевой суммой можно решать методом
«фиктивного разыгрывания». Рассматривая биматричную игру показать, что этот метод не
может быть использован для нахождения ситуаций с матрицами
2 0 1 1 0 2
A = 1 2 0 , B = 2 1 0 ,
0 1 2 0 2 1
(a) Показать, что единственное вполне смешанное равновесие по Нэшу состоит в равнове-
роятном выборе стульев каждым игроком.
(b) Показать, что равновесие в совместных смешанных стратегиях имеет вид
{
1/6, еслиi ̸= j,
L(i, j) =
0, еслиi = j.
(a) Доказать, что всякое равновесие в совместных смешанных стратегиях является слабым
равновесием в совместных смешанных стратегиях.
(b) Пусть µ = (µ1 , . . . , µn ) — векторная
∏ ситуация в смешанных∏стратегиях в игре Γ. По-
казать, что вероятностная мера µ = i∈N µi на множестве X = i∈N Xi является слабым
равновесием в совместных смешанных стратегиях и равновесием в совместных стратегиях
тогда и только тогда, когда ситуация µ = (µ1 , . . . , µn ) равновесна по Нэшу.
12. (a) Доказать, что в игре, сформулированной в упр. 10, множество ситуаций равновесия
по Нэшу, множество ситуаций равновесия в совместных стратегиях и множество ситуаций
слабо равновесных в совместных смешанных стратегиях различны и не совпадают между
собой.
(b) Показать, что множество вектор-выигрышей, оптимальных по Парето среди выиг-
рышей в ситуации равновесия в совместных смешанных стратегиях, покрывает отрезок
[(5/3, 4/3), (4/3, 5/3)], а выигрыши, оптимальные по Парето среди слабо равновесных в сов-
местных смешанных стратегиях, покрывают отрезок [(2, 1), (1, 2)]. [ ]
2 −1
13. Найти арбитражное решение биматричной игры с матрицами A = ,
−1 1
[ ]
1 −1
B= , используя схему Нэша.
−1 2
14. Рассмотрим биматричную (2 × 2)-игру с матрицей
[ β1 β2 ]
α1 (1, 1) (1, 2)
(A, B) = .
α2 (2, 1) (−5, 0)
Это модификация игры «перекресток» (см. пример 2 п. 3.1.4), отличие которой заключается
лишь в следующем. Водитель легкового автомобиля (игрок 1) и грузового (игрок 2) по-разному
оценивают результаты аварии (ситуация (α2 , β2 )). Показать, что анализ игры в стратегиях
угроз предписывает ситуацию (α1 , β2 ), т. е. грузовому автомобилю «ехать», а легковому —
«остановиться».
15. Пусть ядро имеет непустое пересечение со всеми гранями xi = v({i}) множества деле-
жей. Показать, что в этом случае оно является единственным N M -решением.
16. Для кооперативной
∑ игры (N, v) определим полудележ как вектор α = (α1 , . . . , αn ), для
которого αi ≥ v({i}) и n i=1 αi ≤ v(N ). Показать, что если L является N M -решением игры
(N, v), а α — полудележ, не принадлежащий L, то существует такой дележ β ∈ L, что β > α.
17. Для игры (N, v) определим βi равенством
Показать, что если найдется i, для которого αi > βi , то дележ α не может принадлежать ни
ядру, ни одному из N M -решений.
18. Пусть (N, v) — простая игра в (0 –1)-редуцированной форме (см. п. 3.10.6) Игрок i
называется «вето»-игроком, если v(N \ {i}) = 0.
§ 3.15. Упражнения и задачи 185
(a) Доказать, что для того, чтобы C-ядро в простой игре было непустым, необходимо и
достаточно, чтобы в игре существовал хотя бы один «вето»-игрок.
(b) Пусть S — множество
∑ всех «вето»-игроков. Показать, что дележ α = (α1 , . . . , αn ) при-
надлежит C-ядру, если i∈S αi = 1, αi ≥ 0 для i ∈ S и αi = 0 для i ̸∈ S.
∑ 19. В игре (N, v) под квазидележом будем понимать вектор α = (α1 , . . . , αn ), такой, что
i∈N αi = v(N ). Для каждого ε > 0 определим строгое ε-ядро Cε (v), как множество квазиде-
лежей, таких что для каждой коалиции
∑
αi ≥ v(S) − ε.
i∈S
∑ [ ]
(n − s)!(s − 1)!
Shi (v) = 2 v(S) − v(N ).
S:S⊂N, i∈S
n!
(a) Доказать, что выпуклая игра имеет непустое C-ядро и вектор Шепли принадлежит
C-ядру.
(b) Показать, что (N, v) — выпуклая игра, если
∑
v(S) = ( mi )2 , S ⊂ N,
i∈S
Многошаговые игры
∪
n ∪
n ∩
n ∩
n
F( Ai ) = F (Ai ), F ( Ai ) ⊂ F (Ai ).
i=1 i=1 i=1 i=1
Другими словами, Fy−1 — это множество тех точек x, образ которых содержит точку
( )k
y. Аналогично отображению Fxk определяется отображение F −1 y :
( )2 ( )
F −1 y
= F −1 (F −1 )y ,
( −1 )3 ( ) ( )
F y
= F −1 (F −1 )2y , . . . , (F −1 )ky = F −1 (F −1 )k−1
y .
△ { }
Если B ⊂ X, то полагаем F −1 (B) = x|Fx ∩ B ̸= ∅ .
Определение. Пара (X, F ) называется графом, если X — некоторое конечное
множество, а F — отображение X в X.
Граф (X, F ) будем обозначать символом G. В дальнейшем элементы множества X
будем изображать точками на плоскости, а пары точек x и y, для которых y ∈ Fx ,
соединять непрерывной линией со стрелкой, направленной от x к y. Тогда каждый
элемент множества X называется вершиной или узлом графа, а пара элементов (x, y),
в которой y ∈ Fx — дугой графа. Для дуги p = (x, y) вершины x и y называются
граничными вершинами дуги, причем x — начало, а y — конец дуги. Две дуги p и q
называются смежными, если они различны и имеют общую граничную точку.
Множество дуг в графе будем обозначать P . Задание множества дуг в графе
G = (X, F ) определяет отображение F и, наоборот, отображение F определяет мно-
жество P . Поэтому граф G можно записывать как в виде G = (X, F ), так и в виде
G = (X, P ).
Путем в графе G = (X, F ) называется такая последовательность p = (p1 ,
p2 , . . . , pk , . . .) дуг, что конец каждой предыдущей дуги совпадает с началом следую-
щей. Длина пути p = (p1 , . . . , pk ) есть число l(p) = k дуг последовательности. В случае
△
бесконечного пути p полагаем l(p) = ∞ .
Ребром графа G = (X, F ) называется множество из двух элементов x, y ∈ X, для
которых или (x, y) ∈ P , или (y, x) ∈ P . В отличие от дуги в ребре ориентация роли
не играет. Ребра будем обозначать буквами p, q, а множество ребер — P . Под цепью
будем понимать последовательность ребер (p1 , p2 , . . .), в которой у каждого ребра pk
§ 4.1. Определение динамической игры 189
одна из граничных вершин является также граничной для pk−1 , а другая — граничной
для pk+1 .
Цикл — это конечная цепь, начинающаяся в некоторой вершине и оканчивающаяся
в той же вершине. Граф называется связным, если любые две его вершины можно
соединить цепью.
Дерево или древовидный граф, по определению, есть конечный связный граф без
циклов, имеющий не менее двух вершин, в котором существует единственная вершина
x0 , такая, что Fbx0 = X. Вершина x0 называется начальной вершиной графа G.
4.1.3. Пусть z ∈ X. Подграфом Gz древовидного графа G = (X, F ) называется граф
вида (Xz , Fz ), где Xz = Fbz , а Fz x = Fx ∩ Xz .
В древовидном графе для всех x ∈ Xz множество Fx и множество Fz x совпадают,
т. е. отображение Fz является сужением отображения F на множество Xz . Поэтому
для подграфов древовидного графа будем использовать обозначение Gz = (Xz , F ).
4.1.4. Перейдем к определению многошаговой игры с полной информацией на дре-
вовидном конечном графе.
Определение. Пусть G = (X, F ) — древовидный граф. Рассмотрим разбиение
∪
n+1
множества вершин X на n + 1 множество X1 , . . . , Xn , Xn+1 , Xi = X, Xk ∩ Xe = ∅,
i=1
k ̸= l, где Fx = ∅ для x ∈ Xn+1 . Множество Xi , i = 1, . . . , n называется множеством
очередности игрока i, а множество Xn+1 — множеством окончательных позиций.
На множестве окончательных позиций Xn+1 определены n вещественных функций
H1 (x), . . . , Hn (x), x ∈ Xn+1 . Функция Hi (x), i = 1, . . . , n, называется выигрышем игро-
ка i.
Игра происходит следующим образом. Задано множество N игроков, перенумеро-
ванных натуральными числами 1, 2, . . . , i, . . . , n (в дальнейшем N = {1, 2, . . . , n}). Пусть
x0 ∈ Xi1 , тогда в вершине (позиции) x0 «ходит» игрок i1 и выбирает вершину x1 ∈ Fx0 .
Если x1 ∈ Xi2 , то в вершине x1 «ходит» игрок i2 и выбирает следующую вершину
(позицию) x2 ∈ Fx1 , и т. д. Таким образом, если на k-м шаге вершина (позиция) xk−1 ∈
Xik , то в ней «ходит» игрок ik и выбирает следующую вершину (позицию) из множества
Fxk−1 . Игра прекращается как только достигается окончательная вершина (позиция)
xl ∈ Xn+1 , т. е. такая, для которой Fxl = ∅.
4.1.5. В результате последовательного выбора позиций однозначно реализуется
некоторая последовательность x0 , . . . , xk , . . . , xl , определяющая путь в древовидном
графе G, исходящий из начальной позиции x0 и достигающий одной из окончательных
позиций игры. Такой путь в дальнейшем будем называть партией. Из-за древовидно-
сти графа G каждая партия заканчивается в окончательной позиции xl и, наоборот,
окончательная позиция xl однозначно определяет партию. В позиции xl каждый из
игроков i = 1, 2, . . . , n получает выигрыш Hi (xl ). Будем предполагать, что игрок i при
совершении выбора в позиции x ∈ Xi знает эту позицию x, а следовательно, из-за дре-
вовидности графа G может восстановить и все предыдущие позиции. В таком случае
говорят, что игроки имеют полную информацию. Примером игр с полной информацией
служат шахматы и шашки, поскольку в них игроки могут записывать ходы и поэтому
можно считать, что они знают предысторию игры при совершении каждого очередного
хода.
Определение. Однозначное отображение ui , которое каждой вершине (позиции)
x ∈ Xi ставит в соответствие некоторую вершину (позицию) y ∈ Fx , называется
стратегией игрока i.
190 4. Многошаговые игры
для всех ui ∈ Ui , i ∈ N .
Для дальнейшего исследования игры Γ необходимо ввести понятие подыгры, т. е.
игры на подграфе графа G основной игры.
Пусть z ∈ X. Рассмотрим подграф Gz = (Xz , F ), с которым свяжем подыгру Γz сле-
дующим образом. Множество очередности игроков в подыгре Γz определяется по прави-
лу Yiz = Xi ∩ Xz , i = 1, 2, . . . , n, множество окончательных позиций Yn+1
z
= Xn+1 ∩ Xz ,
z
выигрыш Hi (x) игрока i в подыгре полагается равным
В соответствии с этим стратегия uzi i-го игрока в подыгре Γz определена как суже-
ние стратегии ui игрока i в игре Γ на множество Yiz , т. е. uzi = ui (x), x ∈ Yiz =
Xi ∩ Xz , i = 1, . . . , n. Множество всех стратегий i-го игрока в подыгре обозначается
через Uiz . В результате с каждым подграфом Gz мы связываем подыгру в нормальной
форме Γz = (N, {Uiz }, {Kiz }), где функции выигрыша Kiz , i = 1, . . . , n, определены на
∏n
декартовом произведении U z = Uiz .
i=1
§ 4.2. Равновесие по Нэшу 191
В ситуации (u∗1 , u∗2 ) игра развивается по пути (1,1), (2.1), (1.3). В процессе постро-
ения было замечено, что стратегии u∗i , i = 1, 2 «доброжелательны» в том смысле, что
игрок i при совершении своего хода, будучи в равной степени заинтересован в выбо-
ре последующих альтернатив, выбирает ту из них, которая более благоприятна для
другого игрока.
В игре Γ существуют ситуации абсолютного равновесия, в которых выигрыши игро-
ков будут другими. Для построения таких равновесий достаточно снять условие «доб-
рожелательности» игроков и заменить его обратным условием «недоброжелательно-
сти». Обозначим через v 1 (x), v 2 (x) выигрыши игроков в подыгре Γx при использова-
нии игроками «недоброжелательного» равновесия. Тогда имеем v1 (1.6) = v 1 (1.6) = 6,
v2 (1.6) = v 2 (1.6) = 2, v1 (1.7) = v 1 (1.7) = 2, v2 (1.7) = v 2 (1.7) = 4, v 1 (2.7) = −2,
v2 (2.7) = v 2 (2.7) = 8. Как уже отмечалось, в подыгре Γ2,5 два равновесия по Нэшу.
В отличие от предыдущего случая предположим, что игрок 2 «недоброжелателен» и
выбирает ту из вершин, в которой при его максимальном выигрыше выигрыш игрока
1 минимален. Тогда v 1 (2.5) = 1, v 2 (2.5) = 2, v 1 (2.6) = v1 (1.7) = 2, v 2 (2.6) = v2 (1.7) = 4,
v 1 (1.8) = v1 (1.8) = 2, v 2 (1.8) = v2 (1.8) = 3. Далее ищем решение игр Γ1,3 , Γ1,4 , Γ1,5 , Γ2,3 ,
Γ2,4 . В подыгре Γ1,3 два равновесия по Нэшу. Как и в предыдущем случае, выберем
«недоброжелательные» действия игрока 1. Тогда имеем: v 1 (1.3) = v1 (1.3) = 5, v 2 (1.3) =
1, v 1 (1.4) = 2, v 2 (1.4) = 3, v 1 (1.5) = v1 (2.6) = v1 (1.5) = 2, v 2 (1.5) = v2 (2.6) = v2 (2.6) = 4,
v 1 (2.3) = v1 (2.3) = 0, v 2 (2.3) = v2 (2.3) = 6, v 1 (2.4) = v1 (2.4) = 3, v 2 (2, 4) = v2 (2.4) = 5.
Далее решаем игры Γ2,1 , Γ1,2 , Γ2,2 . Имеем v 1 (2.1) = v 1 (1.5) = 2, v 2 (2.1) = v 2 (1.5) = 4,
v 1 (1.2) = v 1 (2.4) = 3, v 2 (1.2) = v 2 (2.4) = 5, v 2 (2.2) = v2 (2.2) = 6, v1 (2.2) = v 1 (2.2) = −5.
Теперь решаем игру Γ = Γ1,1 . Здесь v 1 (1.1) = v 1 (1.2) = 3, v 2 (1.1) = v 2 (1.2) = 5.
194 4. Многошаговые игры
Выигрыши обоих игроков в ситуации (4.2.6) меньше таковых в ситуации (4.2.5). Ситуа-
ция (4.2.6), так же как и ситуация (4.2.5), является ситуацией абсолютного равновесия.
A
p 0
HH
HH
HH
HH
HH
p
p p p p HHp
B1 B2 Bn
∑
n
U = {u = (u1 , . . . , un ) : ui ≥ 0, ui ∈ Rl , i = 1, . . . , n, ui ≤ b}, b ≥ 0
i=1
K0 (u∗ , v1∗ (·), . . . , vn∗ (·)) ≥ K0 (u, v1∗ (·), . . . , vn∗ (·)), u ∈ U.
198 4. Многошаговые игры
∑
v(S) = ∑max (ai + ci )vi∗ (ui )
{u∈U : i:Bi ∈S ui =b}
i:Bi ∈S
∑ ∑
= (ai + ci )vi∗ (uSi ) + (ai + ci )vi∗ (0).
i:Bi ∈S i:Bi ∈S\S
§ 4.5. Иерархические игры (кооперативный вариант) 199
∑
n
2) ξ0 = ai vi∗ (ui ) ≥ 0 = v(A0 ),
i=1
для S : A0 ∈ S.
Можно показать, что при таком определении характеристической функции, C-ядро
множества дележей
∑
n
{α = (α0 , α1 , . . . , αn ) : αi ≥ 0, i = 0, 1, . . . , n, αi = v(N )}
i=0
всегда непусто.
4.5.4. Иерархические системы с подразделениями двойного подчинения называются
ромбовидными (рис. 4.3). Управление подразделения двойного подчинения C зависит
от управления B1 и от управления B2 .
A0
pPP
PP
PP
PP
p
Pp B2
B1 PP
PP
PP
PP
Pp
C
(Считаем, что максимум в (4.5.4) достигается.) Решение v ∗ (·) = v ∗ (ω1 , ω2 ) задачи (4.5.4)
оказывается функцией параметров ω1 , ω2 и v ∗ (·) ∈ C.
Рассмотрим вспомогательную параметрическую (с параметрами u1 , u2 ) неантаго-
нистическую игру Γ′ (u1 , u2 ) = {B1 (u1 ), B2 (u2 ), l2 , l3 }, где l2 = l2 (v ∗ (ω1 , ω2 )), l3 =
l3 (v ∗ (ω1 , ω2 )). Стратегиями игрока B1 в Γ′ (u1 , u2 ) являются элементы ω1 ∈ B1 (u1 ), стра-
тегиями игрока B2 являются элементы ω2 ∈ B2 (u2 ). Предположим, что в игре Γ′ (u1 , u2 )
существует ситуация равновесия по Нэшу, которую обозначим (ω1∗ (u1 ), ω2∗ (u2 )). Отме-
тим, что ωi∗ (·) является функцией параметра ui и ωi∗ (·) ∈ Bi , i = 1, 2.
Пусть, далее, u∗ = (u1 , u2 ) — решение следующей экстремальной задачи:
max l1 (v ∗ (ω1∗ (u1 ), ω2∗ (u2 ))). (4.5.5)
u∈U
§ 4.5. Иерархические игры (кооперативный вариант) 203
Лемма. Совокупность (u∗ , ω1∗ (·), ω2∗ (·), v ∗ (·)) является ситуацией равновесия по
Нэшу в игре Γ.
Доказательство. Согласно определению u∗ из (4.5.5) следует соотношение
K1 (u∗ , ω1∗ (·), ω2∗ (·), v ∗ (·)) = max l1 (v ∗ (ω1∗ (u1 ), ω2∗ (u2 ))) ≥
u∈U
≥ l1 (v ∗ (ω1∗ (u1 ), ω2∗ (u2 ))) = K1 (u, ω1∗ (·), ω2∗ (·), v ∗ (·))
для всех u ∈ U . Поскольку ω1∗ (u∗1 ), ω2∗ (u∗2 ) образуют ситуацию равновесия по Нэшу во
вспомогательной игре Γ(u∗1 , u∗2 ), для любой функции ω1 (·) ∈ B1 , ω1 (u∗ ) = ω̃1 ∈ B1 (u∗1 )
выполняются соотношения
K2 (u∗ , ω1∗ (·), ω2∗ (·), v ∗ (·)) = l2 (v ∗ (ω1∗ (u1 ), ω2∗ (u2 ))) ≥
≥ l2 (v ∗ (ω̃1 (u∗1 ), ω2∗ (u∗2 ))) = K2 (u∗ , ω1 (·), ω2∗ (·), v ∗ (·))
Аналогичное неравенство справедливо и для игрока B2 .
По определению функции v ∗ из (4.5.4) имеем:
K4 (u∗ , ω1∗ (·), ω2∗ (·), v ∗ (·)) = l4 (v ∗ (ω1∗ (u∗1 ), ω2∗ (u∗2 ))) =
для любой функции v(·) ∈ C, v(ω1∗ (u∗1 ), ω2∗ (u∗2 )) = ṽ ∈ C(ω1∗ (u∗1 ), ω2∗ (u∗2 )).
Лемма доказана.
4.5.6. Применяя максиминный подход, для каждой коалиции S ⊂ {A0 , B1 , B2 , C}
определим v ′ (S) как наибольший гарантированный выигрыш S в антагонистической
игре между коалицией S, выступающей в качестве максимизирующего игрока, и коа-
лицией S ′ = {A0 , B1 , B2 , C} \ S. Предположим, что существует такое v0 ∈ C(ω1 , ω2 ) для
всех ω1 , ω2 , что l1 (v0 ) = 0, i = 1, 2, 3, 4.
Будем различать два вида коалиций: 1) S : C ̸∈ S; 2) S : C ∈ S .
В первом случае S ⊂ {A0 , B1 , B2 } и игрок C, являющийся членом коалиции N \ S,
может выбрать стратегию v0 : li (v0 ) = 0, i = 1, 2, 3, 4. Поэтому v ′ (S) = 0.
Во втором случае определим характеристическую функцию v ′ (S) следующими ра-
венствами:
а) S = {C}
v ′ (S) = min min min max l4 (v),
u∈U ω1 ∈B1 (u1 ) ω2 ∈B2 (u2 ) v∈C(ω1 ,ω2 )
в) S = {B1 , C}
г) S = {B2 , C}
д) S = {B1 , B2 , C}
∑
v ′ (S) = min max max max li (v);
u∈U ω1 ∈B1 (u1 ) ω2 ∈B2 (u2 ) v∈C(ω1 ,ω2 )
i=2,3,4
е) S = {A0 , B1 , C}
∑
v ′ (S) = max max min max li (v);
u∈U ω1 ∈B1 (u1 ) ω2 ∈B2 (u2 ) v∈C(ω1 ,ω2 )
i=1,2,4
ж) S = {A0 , B2 , C}
∑
v ′ (S) = max max min max li (v);
u∈U ω2 ∈B2 (u2 ) ω1 ∈B1 (u1 ) v∈C(ω1 ,ω2 )
i=1,3,4
з) S = {A0 , B1 , B2 , C}
∑
4
v ′ (S) = max max max max li (v).
u∈U ω1 ∈B1 (u1 ) ω2 ∈B2 (u2 ) v∈C(ω1 ,ω2 )
i=1
Граф G = (X, F ) игры изображен на рис. 4.4. Кружками на графе изображены позиции,
в которых ходит игрок 1, а квадратиками — позиции, в которых ходит игрок 2.
находится, но, зная очередность хода (3-й ход), он может быть уверен, что не находится
в узле x1 . На графе G мы обведем узлы x2 , x3 , x4 , x5 пунктирной линией (рис. 4.5).
мальная смешанная стратегия игрока 2 равна (4/7, 3/7, 0, 0). По сравнению с примером
2 гарантированный выигрыш игрока 1 уменьшается. Это вызвано ухудшением его ин-
формационного состояния.
Интересно заметить, что матрица игры примера 3 имеет размер 4 × 4 , в то время
как матрица игры примера 2 имеет размер 32 × 4.Таким образом, уменьшение доступ-
ной информации уменьшает размер матрицы выигрышей, следовательно, и облегчает
решение самой игры, что противоречит распространенному мнению о том, что умень-
шение информации приводит к усложнению принятия решений.
Изменяя информационные условия, можно получить другие варианты игры, опи-
санной в примере 2.
4.6.3. Пример 4. Делая первый ход, игрок 1 выбирает число из множества {1, 2}.
Второй ход делает игрок 2, который, не зная выбора игрока 1, выбирает число из
множества {1, 2}. Далее, совершая 3-й ход, игрок 1 выбирает число из множества {1, 2},
зная выбор игрока 2 и помня свой выбор на первом шаге. Выигрыш определяется
так же, как и в примере 2 (рис. 4.6). Поскольку при совершении третьего хода игрок
знает позицию, в которой он находится, позиции третьего уровня обведены кружками,
два узла, в которых ходит игрок 2, мы обвели штриховой линией, включив их в одно
информационное множество.
Пример 5. Делая первый ход, игрок 1 выбирает число из множества {1, 2} Второй
ход делает игрок 2, не зная выбора игрока 1. Далее, совершая третий ход, игрок 1
выбирает число из множества {1, 2} , не зная выбора игрока 2 и не помня свой выбор
на 1-м шаге. Выигрыш определяется так же, как в игре из примера 2 (рис. 4.7).
Здесь стратегия игрока 1 состоит из пары чисел (i, j), где i— выбор на 1-м шаге,
a j — на 3-м шаге игры. Стратегия игрока 2 есть выбор числа j на 2-м шаге игры.
Таким образом, у игрока 1 — четыре стратегии, а у игрока 2 — две стратегии. Игра в
208 4. Многошаговые игры
1 2
(1.1) −3 2
(1.2) −2 −5
.
(2.1) 4 1
(2.2) 1 5
K(1, 1, 1) = 1, K(1, 1, 2) = 3,
§ 4.6. Многошаговые игры с неполной информацией 209
K(1, 2, 1) = 7, K(1, 2, 2) = 9,
K(2, 1, 1) = 5, K(2, 1, 2) = 1,
K(2, 2, 1) = 6, K(2, 2, 2) = 7.
Из правил игры следует, что, когда одному из членов команды A или B предлагается
сделать выбор, он не знает, совершает ли он выбор на 2-м или 3-м шаге игры. Структура
игры изображена на рис. 4.8.
1p 3p 7p 9p 5p 1p 6p 7p
CO CO CO CO
C C C C
C C C C
1C 2 1C 2 1C 2 1C 2
C C C C
Cp Cp Cp Cp
AK AK
A A
A A II
1A 2 1A 2
A A
pY
AH Ap
H *
HH
@ @ 1 H 2
@ H pi
@ I
@
первой альтернативой в x считается та, которая следует за единственной дугой (Fx−1 , x),
входящей в x.
pP p p
PPP Fx
PP
1 PP 2 3
Pp
6 x
F −1
p x
Здесь произведение берется по всем Xij , ν таким, что Xij ∪ ω ̸= ⊘ и выбор в точке Xij ∩ ω
альтернативы с номером ν приводит в позицию, принадлежащую пути ω.
В дальнейшем под понятием «путь» удобно подразумевать не только набор состав-
ляющих его позиций, но и набор соответствующих альтернатив (дуг).
Ожидаемый выигрыш Ei (β) в ситуации β = (β1 , . . . , βn ) в стратегиях поведения
определяется как математическое ожидание
∑
Ei (β) = Ki (x)Pβ (ωx ), i = 1, . . . , n,
x∈Xn+1
Из определения следует, что в игре с полной памятью для i-го игрока любая по-
зиция из существенного для ui (·) информационного множества является возможной
для ui (·). Термин «полная память» подчеркивает то обстоятельство, что очутившись
в любом своем информационном множестве, i-й игрок может точно восстановить, ка-
кие альтернативы (т. е. номера) он выбирал во всех своих предыдущих ходах (в силу
однозначного соответствия). Игра с полной памятью для всех игроков превращается
в игру с полной информацией, если все ее информационные множества содержат по
одной вершине.
4.7.6. Лемма. Пусть Γ — игра с полной памятью для всех игроков; ω — неко-
торая партия в Γ. Пусть x ∈ Xij — последняя позиция в пути ω, в которой ходит
игрок i, и пусть он выбирает в x дугу ν. Положим
Ei (β) = Ei (µ), i = 1, . . . , n,
необходимо и достаточно, чтобы Γ была игрой с полной памятью для всех игроков.
§ 4.7. Стратегия поведения 215
Действительно, поскольку в партии ω игрок i свой 1-й ход делает из множества Xi1 ,
оно является существенным для всех ui (·), поэтому знаменатель в формуле (4.7.4) для
b(Xi1 , ν1 ) равен единице. Далее в силу леммы п. 4.7.7 в формулах (4.7.4) числитель
b(Xij , νj ) равен знаменателю b(Xij+1 , νj+1 ), i = 1, . . . , s. Согласно формуле (4.7.3) окон-
чательно получим
∏n ∑
Pβ (ω) = qui ,
i=1 ui ∈Ti (ω)
p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p
C C C C C C C C C C C C C C C C
Cp Cp II Cp Cp II Cp Cp II Cp Cp II Cp Cp Cp Cp Cp Cp Cp Cp
A A A A A I A I A I A I
Ai
p I Ai
p I Ai
p I Ai
p I Ap II Ap II Ap II Ap II
@@ @@ @@ @@
@pa @p
@pa @p
aa ! !! II a
aa ! !! I
aai p!! ap!!
I II
a) b)
x′ = Tx (α, β).
Оптимальная стратегия поведения {b2 (X2j , β)} игрока 2 в игре Γ предписывает каж-
дой альтернативе β вероятность в соответствии с оптимальной смешанной стра-
тегией игрока 2 в игре с матрицей Ax , т. е.
с граничным условием
v(x)|x∈X3 = H(x). (4.8.2)
Здесь запись V alA обозначает значение игры с матрицей A.
Доказательство проводится по индукции и вполне аналогично доказательству тео-
ремы п. 4. 2.1.
4.8.2. Пример 7 (Игра инспектирования) [Дюбин, Суздаль, 1981]. Игрок E (Нару-
шитель) хочет совершить некоторое запрещенное действие. Имеется N периодов време-
ни, в которые это действие может быть осуществлено. Игрок P (инспектор), желающий
предотвратить это действие, может провести только одну инспекцию в любой из этих
периодов времени. Выигрыш игрока E равен 1, если запрещенное действие произошло
и осталось необнаруженным, и равен (−1), если нарушитель пойман (это будет в том
случае, когда для совершения действия он выбирает тот же самый период времени,
что и инспектор для проверки); выигрыш равен нулю, если нарушитель не действует
вовсе. Обозначим такую N -шаговую игру через ΓN .
218 4. Многошаговые игры
В первом периоде (на 1-м шаге) каждый игрок имеет две альтернативы. Игрок E
может предпринимать действие или не предпринимать его; игрок P может инспекти-
ровать или не инспектировать. Если игрок E действует и игрок P инспектирует, то
игра заканчивается и выигрыш равен −1. Если игрок E действует, а игрок P не ин-
спектирует, то игра заканчивается и выигрыш равен 1. Если игрок E не действует, а
игрок P инспектирует, то игрок E может предпринять действие в следующий период
времени (в предположении, что N > 1) и выигрыш также равен 1. Если игрок E не
действует и игрок P не инспектирует, то переходят к следующему шагу игры, который
отличается от предыдущего только тем, что до конца игры остается меньшее число
периодов времени, т. е. попадают в подыгру ΓN −1 . Следовательно, матрица для 1-го
шага игры выглядит следующим образом:
[ ]
−1 1
. (4.8.3)
1 vN −1
Уравнение (4.8.1) в этом случае принимает вид
[ ]
−1 1
vN = V al . (4.8.4)
1 vN −1
Здесь v(x) одинаково для всех позиций игры одного уровня и поэтому зависит толь-
ко от числа периодов до конца игры. Поэтому вместо v(x) записано vN . Далее будет
показано, что vN −1 < 1, следовательно, матрица в (4.8.4) не имеет седловой точки, т.
е. игра с матрицей (4.8.4) является вполне смешанной. Отсюда получаем (см. п. 1.9.1)
рекуррентное уравнение
vN −1 + 1
vN = , (4.8.5)
−vN −1 + 3
которое вместе с начальным условием
( )
−1 1
v1 = V al =0 (4.8.6)
0 0
а также по две чистые стратегии. Допустим, что если игроки выберут одинаковые по
номеру чистые стратегии, то ресурс игрока 2 уменьшится на единицу. Если же игроки
выберут разные по номеру чистые стратегии, то на единицу уменьшится ресурс игрока
1. Игра заканчивается после того, как ресурс одного из игроков станет равным нулю.
При этом игрок 1 получает выигрыш, равный 1, если ресурс игрока 2 станет равным
нулю, и выигрыш −1, если станет равным нулю его собственные ресурс.
Обозначим через Γk,l многошаговую игру, в которой игрок 1 имеет k (k = 1, 2, . . . , r)
единиц, а игрок 2 — l (l = 1, . . . , R − r) единиц ресурса. Тогда
[ ]
V alΓk,l−1 V alΓk−1,l
V alΓk,l = V al ,
V alΓk−1,l V alΓk,l−1
Игра Γ1,1 и является симметричной, ее значение, которое мы обозначим через v1,1 равно
нулю, а оптимальные стратегии игроков совпадают и равны (1/2, 1/2).
На 2-м от конца шаге, т. е. когда у игроков осталось три единицы ресурсов, разыг-
рывается одна из двух матричных игр: Γ1,2 или Γ2,1 . При этом
[ ]
v1,1 −1 v1,1 − 1 1
v1,2 = V alΓ1,2 = V al = =− ,
−1 v1,1 2 2
[ ]
1 v1,1 v1,1 + 1 1
v2,1 = V alΓ2,1 = V al = = .
v1,1 1 2 2
На 3-м от конца шаге (т. е. когда у игроков имеется в общей сложности четыре
единицы ресурса) разыгрывается одна из следующих трех игр: Γ1,3 , Γ2,2 , Γ3,1 . При
этом [ ]
v1,2 −1 v1,2 − 1 3
v1,3 = V alΓ1,3 = V al = =− ,
−1 v1,2 2 4
[ ]
v2,1 v1,2 v2,1 + v1,2
v2,2 = V alΓ2,2 = V al = = 0,
v1,2 v2,1 2
[ ]
1 v2,1 v2,1 + 1 3
v3,1 = V alΓ3,1 = V al = = .
v2,1 1 2 4
Продолжая аналогичные вычисления далее до N -гo шага от конца, получим следу-
ющее выражение для значения исходной игры:
[ ]
vr,R−r−1 vr−1,R−r
vr,R−r = V alΓr,R−r = V al .
vr−1,R−r vr,R−r−1
1
vr,R−r = (vr,R−r−1 + vr−1,R−r ),
2
220 4. Многошаговые игры
T T
и если b ∈ B2 , b ̸= b и E1 (b, b ) = E1 (b, b ), то
Здесь Bi — множество стратегий поведения игрока i). В работе [van Damme, 1991] отме-
чалось, что во многих играх интуитивно приемлемые решения не будут удовлетворять
указанному выше условию ESS.
Далее мы приведем некоторые модификации этого определения, которые не будут
исключать интуитивно приемлемые решения. Сначала рассмотрим следующий пример.
4.8.4. Пример 10 (Повторяющаяся игра Ястреб–Голубь).
Данная биматричная игра задается следующими матрицами:
[ H D ] [ H D ]
H 1/2(V − C) V H 1/2(V − C) 0
A= , AT = .
D 0 1/2V D V 1/2V
(H, H, D, H, D).
p p p p p p p p p p p p p p p p
C C C C C C C C
Cp Cp II Cp Cp II Cp Cp II Cp Cp II
A A A A
Ai
p I Ai
p I Ai
p I Ai
p I
@@ @@
@pa @p
aa ! !! II
H aai p!!D
I
@
I 6
@
@
1@ k my
@
@
y
Рис. 4.12. Альтернативы в позиции y
224 4. Многошаговые игры
[ ]
hij {x(k; x0 )} , если φ(j) > 0,
arg max
Ai1 [φ(j)] = [k∈Ai1 [φ(j−1)] ]
arg min hij {x(k; x0 )} , если φ(j) < 0.
k∈Ai1 [φ(j−1)]
[ ]
arg max hij {x(k; x0 )} , если φ(j) > 0,
k∈Ai1 [φ(j−1)]
k1 , k2 ∈ A[φ(j)] = [ ] (4.9.5)
hij {x(k; x0 )} , если φ(j) < 0.
arg k∈A min
[φ(j−1)]
i1
В (4.9.5) max (min) функции hij определен на одном множестве Ai1 [φ(j − 1)]. Пусть
φ(j) > 0, тогда по определению
что противоречит (4.9.3)—(4.9.4). Так же можно рассмотреть и случай φ(j) < 0. Лемма
доказана.
Следствие. Из леммы § 4.9. следует, что в случае l = 1 в любых двух ситуациях
в тип-стратегиях Ti′1 , Ti′′2 соответствующие вектор-выигрыши совпадают.
§ 4.9. Построение единственного равновесия по Нэшу 225
[ ]
vij {x(k; x0 )} , если φ(j) > 0,
arg max
Ai1 [φ(j)] = [k∈Ai1 [φ(j−1)] ]
arg min vij {x(k; x0 )} , если φ(j) < 0.
k∈Ai1 [φ(j−1)]
∩
n
Обозначим A∗i1 = Ai1 [φ(j)]. Определим тип-стратегию в игре Γ:
j=1
Доказательство
{ } следующей
{ леммы
} полностью повторяет предыдущее, если мы за-
меним hi x(k; x0 ) на vi x(k; x0 ) .
Лемма. Для всех k1 , k2 ∈ A∗ имеет место:
Теорема. Если игрокам известны свой тип и типы остальных игроков, и все
об этом знают, то в каждой игре Γ существует абсолютное равновесие по Нэшу в
тип-стратегиях, и в любых различных ситуациях T = (T1 , . . . , Tn ), T ′ = (T1′ , . . . , Tn′ )
в тип-стратегиях выигрыши игроков совпадают, т. е.
т. е. { }
Z̃i(x1 ) (x1 ) = y : hi(x1 ) (y) = max hi(x1 ) (x0 ) . (4.10.2)
x0 ∈Z(x1 )
где ∑
pxi (y) = 1. (4.10.4)
y∈|Z̃i(x1 ) (x1 )|
∩
Стратегии b̄i (·) строим в позиции x1 ∈ X1 Pi по правилу:
{
x̄0 , x̄0 ∈ arg max hi(x1 ) (y), |Z̃i(x1 ) (x1 )| = 1,
b¯i (·) = y∈Z(x1 ) (4.10.5)
px1 = {px1 (y), y ∈ Z̃i(x1 ) (x1 )}, |Z̃i(x1 ) (x1 )| > 1.
∑
Здесь px1 (y) = 1, px1 (y) ≥ 0 — некоторое фиксированное вероятностное
y∈Z̃i(x1 ) (x1 )
Понятно, что если максимум (4.10.6) достигается в единственной точке x̄t , то b̄i(xt )
выбирает эту точку с вероятностью 1.
Если xt ∈ Pn+1 , то выигрыши игроков уже определены и равны соответственно
hi (xt ), i = 1, . . . , n.
Функции Hit (xt ) : Xt → R1 i ∈ N зададим следующим образом:
hi (xt ) , если xt ∈ Pn+1 ,
Hi1 (xt ) = ∑ (4.10.7)
pxt (y) hi (y) , если xt ∈
/ Pn+1 .
y∈ Z̃
| i(xt ) (xt )|
§ 4.10. Структура множества абсолютных равновесий по Нэшу 231
∩
Стратегии b̄i (·) строим в позиции xt ∈ Xt Pi , i ∈ N по правилу:
{
x̄t−1 , x̄t−1 ∈ arg max hi(xt ) (y), |Z̃i(xt ) (xt )| = 1,
b¯i (·) = y∈Z(xt ) (4.10.8)
pxt = {pxt (y), y ∈ Z̃i(xt ) (xt )}, |Z̃i(xt ) (xt )| > 1.
∑
Здесь pxt (y) = 1, pxt (y) ≥ 0.
y∈Z̃i(xt ) (xt )
( )
Обозначим через b̄xt (·) = b̄x1 t (·) , . . . , b̄xnt (·) ситуацию в подыгре Γ (xt ), построен-
ную на первых t шагах алгоритма.
Продолжая спускаться по дереву игры Γ (x0 ) к начальной позиции O и последова-
тельно определяя выборы игроков в оставшихся множествах ( Xτ , τ = t + 1,). . . , T , мы
построим поддерево, соответствующее ситуации b̄x0 (·) = b̄x1 0 (·) , . . . , b̄xn0 (·) = b̄ (·), и
соответствующие выигрыши, которые реализуются в (игре Γ (x0 ). )
4.10.5. Теорема. Построенная ситуация b̄ (·) = b̄1 (·) , . . . , b̄n (·) образует ситу-
ацию абсолютного равновесия по Нэшу в Γ (x0 ).
Доказательство теоремы вполне аналогично доказательству теоремы п. 4.2.1 и при
первом чтении может быть опущено.
Доказательство. Обозначим через
( ) ( )
Ki x, b̄x1 (·) , . . . , b̄xn (·) = Ki x; b̄x (·)
для всех xt ∈ Xt , i ∈ N , bxi t (·) ∈ Bixt . Здесь Bixt — множество стратегий поведения
игрока i в подыгре Γ (xt ), представляющее сужение множества Bi на позиции подыгры
Γ (xt ).
Проведем доказательство индукцией по длине игры. Если длина игры равна 1, то
теорема справедлива, поскольку все позиции в игре окончательные и игроки в них ходов
не делают. Пусть теперь игра Γ имеет длину T . Рассмотрим семейство подыгр Γ (xt−1 )
на поддереве G (xt−1 ), xt−1 ∈ Z (xt ). Длина каждой из этих подыгр не превосходит T −1.
Предположим, что теорема справедлива для всех игр, длина которых не превосходит
T − 1, и докажем ее для игры длины T .
x
Пусть i = i (xT ). Поскольку b̄i T −1 (·) по индукционному предположению есть ситу-
ация абсолютного равновесия в Γ (xT −1 ), то имеем:
( ) T −1
Ki(xT ) xT ; b̄xT (·) = Hi(x
T
T)
(xT ) = max Hi(x T)
(xT −1 ) =
xT −1 ∈Z(x
(T) )
T −1 T −1 xT −1
= Hi(x (x̄ T −1 ) ≥ H (xT −1 ) = K i(x ) x T −1 ; b̄ (·) ≥
T ) ( T
i(x ) T
) i(x T )
≥ Ki(xT ) xT(−1 ; b̄xT −1
(·) ||bi(xT ) (·)
) =
= Ki(xT ) xT ; b̄xT (·) ||bi(xT ) (·) .
232 4. Многошаговые игры
Если i ̸= i (xT ), то
( ) ∑
Ki xT −1 ; b̄xT (·) = pxT (y) HiT −1 (y) =
y∈Z̃
( ) ( (xT )
∑ )
i x
T
и теорема доказана.
4.10.6. Докажем теперь в некотором смысле обратное утверждение, а именно, до-
кажем следующую теорему.
Теорема. Любая ситуация абсолютного равновесия по Нэшу в Γ (x0 ) может
быть получена в результате реализации построенного алгоритма при соответству-
ющим образом выбранных вероятностных распределениях
∑
px (y) ≥ 0, x ∈ Pi , px (y) = 1. (4.10.10)
y∈Z̃i(x) (x)
Если Z̃i(x1 ) (x1 ) = |Z (x1 )|, то, очевидно, что в этих позициях b∗ имеет структуру b̄,
т. е. b∗ ∈ B̄. Пусть существует x ∈ Z (x1 ): x ∈
/ Z̃i(x1 ) (x1 ). Если b∗x1 не имеет структуры
§ 4.10. Структура множества абсолютных равновесий по Нэшу 233
b̄, то это означает, что вероятности px (y), порожденные b∗x1 , должны предписывать
положительную меру вершинам x ∈ Z (x1 ), x ∈ / Z̃i(x1 ) (x1 ). Тогда
( )
Ki(x1 ) x1 ; b̄x1 (·) = Hi(x
1
1)
(x1 ) = max hi(x1 ) (x) >
x∈Z(x1 )
∑
> px1 (y) hi(x1 ) (y) = Ki(x1 ) (x1 ; b∗x1 (·)).
y∈Z(x1 )
∑ (4.10.13)
> 1
px2 (y) Hi(x )
(y) = Ki(x2 ) (x2 ; b∗x2 (·)) .
2
y∈Z(x2 )
Это противоречит тому, что b∗ ∈ B ∗ . Из (4.10.12) и (4.10.13) следует, что b∗x2 = b̄x2
для некоторого вероятностного распределения, определенного условием (4.10.10) для
позиции x2 (для некоторого b ∈ B̄).
Предположим, что утверждение теоремы справедливо для всех подыгр длины k, т.
е. существует вероятностное распределение, определенное условием (4.10.10) для всех
позиций xk , такое что b∗xk = b̄xk . Рассмотрим семейство подыгр Γ (xk+1 ) и покажем,
что b∗xk+1 = b̄xk+1 для некоторого b ∈ B̄. Пусть это не так. Тогда имеем:
( )
Ki(xk+1 ) (xk+1 ; b∗xk+1 (·)) ≥ Ki(xk+1 ) xk+1 ; b∗xk+1 (·) ||bi(x
xk+1
k+1 )
(·) =
( )
= Ki(xk+1 ) xk+1 ; b̄xk+1 (·) .
Пусть существует x ∈ Z (xk+1 ), x ∈ / Z̃i(xk+1 ) (xk+1 ), которое выбирается с положи-
тельной вероятностью стратегией b∗xk+1 :
( )
Ki(xk+1 ) xk+1 ; b̄xk+1 (·) = Hi(x
k+1
k+1 )
(xk+1 ) = max Hik x (x) >
x∈Z(xk+1 ) ( k+1 )
∑
> pxk+1 (y) Hik x (y) = Ki(xk+1 ) (xk+1 ; b∗xk+1 (·)) .
( k+1 )
y∈Z(xk+1 )
max h1 (x)
x∈Z(x3 )
max h1 (x) = 1
x∈Z(x6 )
max h2 (x) = 6
x∈Z(x1 )
max h2 (x) = 2
x∈Z(x2 )
Тогда выигрыш игроков во всей игре Γ (x0 ) составит H (x0 ) = (3, 6)∗ .
Заметим, что в позиции x3 множество Z̃1 (x3 ) состоит более чем из одного элемента,
что порождает неоднозначность выбора альтернативы в позиции x3 . Выше мы строили
абсолютное равновесие по Нэшу в предположении «доброжелательности» первого иг-
рока. Рассмотрим случай, когда игрок 1 настроен «недоброжелательно» по отношению
к игроку 2. Это означает, что в позиции x3 игрок 1 выбирает позицию x7 ∈ Z̃1 (x3 ),
которая является менее благоприятной для игрока 2, чем позиция x8 ∈ Z̃1 (x3 ). Тогда
выигрыши игроков в позиции x3 в подыгре Γ (x3 ) составят H (x3 ) = (3, 2)∗ .
В позиции x6 ходит игрок 1. Так как максимум
max h1 (x) = 1
x∈Z(x6 )
max h2 (x) = 3
x∈Z(x1 )
236 4. Многошаговые игры
max h2 (x) = 2
x∈Z(x2 )
Тогда выигрыш игроков во всей игре Γ (x0 ) составит H (x0 ) = (4, 3)∗ .
4.11.2. Как видно из рассмотренного примера, при различном настрое одного из иг-
роков (доброжелательном и недоброжелательном) абсолютные равновесия в игре Γ (x0 )
и соответствующие им выигрыши различны.
Как было упомянуто ранее, при построении абсолютного равновесия по Нэшу ме-
тодом обратной индукции, в подыгре может случиться, что один из игроков обнару-
живает, что его выигрыш (при условии продолжения игры в соответствии с данным
равновесием по Нэшу в подыграх) не зависит от того, какую альтернативу он выберет.
Для устранения проблемы многозначности абсолютных равновесии по Нэшу введем
понятие индифферентного равновесия, отражающее «безразличие» при выборе альтер-
нативы в указанных позициях. В позициях x ∈ G (x0 ), в которых принимающему реше-
ние игроку i (x) безразлично, какую из альтернатив y ∈ Z̃i(x) (x) выбрать, предпишем
игроку i (x) выбрать вершины y ∈ Z̃i(x) (x) с равными вероятностями, т. е. вероятность
выбора каждой из альтернатив yk ∈ Z̃i(x) (x), k = 1, . . . , Z̃i(x) (x) в позиции x ∈ G (x0 )
равна 1 .
i(x) (x)
Z̃
Процедура построения индифферентного равновесия по Нэшу отличается от клас-
сического построения абсолютного равновесия методом обратной индукции только вы-
бором стратегий и определением выигрыша игрока в позициях y ∈ Z̃i(x) (x). А именно,
∑
Hi (x) = px (y) Hi (y) , i ∈ N,
y∈Z̃i(x) (x)
где Hi (y), y ∈ Z̃i(x) (x) — выигрыш игрока i ∈ N в подыгре Γ (y). Очевидно, что
если Z̃i(x) (x) состоит из одного элемента, то выбор альтернативы y ∈ Z̃i(x) (x) осу-
ществляется с вероятностью
1 и процедура построения индифферентного равновесия в
позициях, в которых Z̃i(x) (x) = 1, совпадает с классической процедурой построения
абсолютного равновесия по Нэшу методом обратной индукции.
§ 4.12. Стратегии наказания и «народные теоремы» 237
4.11.3. Вернемся к примеру 12 (рис. 4.14) и найдем для него индифферентное рав-
новесие.
В позиции x3 Z̃1 (x3 ) = {x7 , x8 }. Согласно предложенному выше алгоритму, альтер-
натива из Z̃1 (x3 ) в x3 выбирается с равными вероятностями. И выигрыши игроков в
x3 составят
(1 )∗
H (x) = 1
2 (3 + 3) , 2 (2 + 6) = (3, 4)∗ .
В позиции x6 ходит игрок 1. Поскольку максимум
max h1 (x) = 1
x∈Z(x6 )
достигается в x9 , то Z̃1 (x6 ) = 1, и в позиции x6 игрок 1 выберет альтернативу x9 с
вероятностью 1. Тогда в подыгре Γ (x6 ) выигрыши игроков составят H (x6 ) = (1, 1)∗ .
В позиции x1 ходит игрок 2. Так как максимум
max H2 (x) = 4
x∈Z(x1 )
достигается в x3 , то Z̃1 (x1 ) = 1, и в позиции x1 игрок 2 выберет альтернативу x3 с
вероятностью 1. Тогда в подыгре Γ (x1 ) выигрыши игроков составят H (x1 ) = (3, 4)∗ .
Аналогично в позиции x2 выигрыши игроков составят H (x1 ) = (1, 2)∗ . И выигрыш
игроков во всей игре Γ (x0 ) составит H (x0 ) = (3, 4)∗ .
Как видно из примера 2, выигрыши игроков при индифферентном равновесии от-
личны от выигрышей в рассмотренных нами выше других равновесиях.
Вернемся к описанному нами в параграфе § 4.10 классу всех абсолютных равнове-
сий по Нэшу. Полагая в нашем примере вероятности на Z̃1 (x3 ) равными px3 (x8 ) = 1,
px3 (x7 ) = 0, получим абсолютное равновесие по Нэшу при «благоприятном» настрое
игрока 1. Полагая px3 (x8 ) = 0, px3 (x7 ) = 1 получим абсолютное равновесие по Нэшу
при «неблагоприятном» настрое игрока 1. В случае, когда px3 (x8 ) = px3 (x7 ) = 21 мы
получим индифферентное равновесие в стратегиях поведения.
Понятно, что результаты § 4.10—4.11 сохраняют силу и для случая, когда выигрыши
игроков заданы не только в окончательных позициях, но и во всех вершинах дерева
игры и суммируются вдоль партии игры.
Нетрудно убедиться в том, что ситуация u∗1 = (1, 1, 2, 2, 2), u∗2 = (1, 1) является абсо-
лютно равновесной в игре Γ. При этом выигрыши игроков равны 8 и 2 соответственно.
Рассмотрим теперь ситуацию u1 = (2, 1, 2, 1, 2), u2 = (2, 2). В этой ситуации выигры-
ши игроков равны соответственно 10 и 1, тем самым игрок 1 получает больше, чем
в ситуации (u∗1 , u∗2 ). Ситуация (u1 , u2 ) является равновесной в игре Γ, но не является
абсолютно равновесной. Действительно, в подыгре Γ1,4 сужение стратегии u1 диктует
игроку 1 выбор левой дуги, что не является для него оптимальным в позиции (1.4) Та-
кое действие игрока 1 в позиции (1.4) можно интерпретировать как угрозу «наказания»
игрока 2, если он отклонится от желательного для игрока 1 выбора дуги 2 в позиции
(2.2), лишив тем самым игрока 1 максимального выигрыша, равного 10. Однако по
существу такую угрозу «наказания» едва ли следует считать действенной, поскольку
наказывающий игрок при этом сам может потерять в выигрыше 5 единиц (действуя
неоптимально в игре Γ1,4 ).
4.12.2. Дадим строгое определение стратегий наказания. Для простоты ограничим-
ся случаем неантагонистической игры двух лиц.
Пусть задана неантагонистическая игра двух лиц
Γ = ⟨U1 , U2 , K1 , K2 ⟩.
1p A 2p A p np p p−p 1 A np A p
(2, 2, . . . , 2)
D D D D
p p p p
(1, 1, . . . , 1) ( 12 , 12 , . . . , 21 ) ( n−1
1 1
, . . . , n−1 ) ( n1 , . . . , n1 )
Рис. 4.16. Множественность равновесий по Нэшу в простейшей
игре с двумя альтернативами у каждого игрока
u = (D, A, . . . , D, . . . , A).
выигрыши игроков не меняются, так как выбор игроком 1 на первом шаге альтернати-
вы D гарантирует завершение игры на этом шаге, при котором все игроки получают
выигрыш 1. Если игрок i = 1 выбирает вместо D альтернативу A, то благодаря нали-
чию в ситуации u еще одного игрока, выбирающего D (игрока с номером k), выигрыш
игрока 1 уменьшится и станет равным 1/k.
Выигрыши в ситуации u, конечно, меньше выигрышей в ситуации u∗ = (A, A, . . . , A),
но не зависят от ошибок большого числа игроков.
∑
l
Hi (z0 ) = hi (zk ), hi ≥ 0.
k=0
∑
n ∑
l ∑
n ∑
l
max hi (zk ) = hi (z k ). (4.13.1)
z0 ,...,zi ,...,zl
i=1 k=0 i=1 k=0
и для S1 ⊂ N , S2 ⊂ N , S1 ∩ S2 = ∅
V (S1 ∪ S2 ) ≥ V (S1 ) + V (S2 ), V (∅) = 0.
Если характеристическая функция определена, то мы можем определить множество
дележей
∑
n
C = {ξ = (ξi ) : ξi = V (N ), ξi ≥ V ({i}), i = 1, . . . , n},
i=1
C-ядро ∑
M = {ξ = (ξi ) : ξi ≥ V (S), S ⊂ N } ⊂ C,
i∈S
вектор Шепли и другие принципы оптимальности классической теории кооперативных
игр. В дальнейшем будем обозначать через M ⊂ C любой из этих принципов опти-
мальности.
4.13.3. Предположим, что в начале игры игроки соглашаются использовать прин-
цип оптимальности M ⊂ C как основу для выбора «оптимального» дележа ξ ∈ M . Это
означает, что, играя кооперативно, выбирая стратегии, максимизирующие общий выиг-
рыш, игроки ожидают, что каждый из них получит доход ξ i из оптимального дележа
ξ ∈ M после окончания игры (после того как максимальный общий выигрыш V (N )
действительно будет получен всеми игроками).
Но когда игра Γ действительно развивается вдоль оптимальной траектории z =
(z 0 , z 1 , . . . , z k , . . . , z l ), в каждой вершине z k игроки находятся в новой многошаговой
игре с полной информацией Γzk , k = 0, . . . , l, которая является подыгрой исходной
игры Γ, начинающейся из вершины z k с выигрышами
∑
l
Hi (z k ) = hi (z j ), hi ≥ 0, i = 1, . . . , n.
j=k
Важно заметить, что для выражения (4.13.1) принцип оптимальности Беллмана выпол-
няется и часть z k = (z k , . . . , z j , . . . , z l ) траектории z, начинающейся с z k , максимизирует
сумму выигрышей в подыгре Γzk , т. е.
∑
n ∑
l ∑
n ∑
l
max hi (zj ) = hi (z j ). (4.13.3)
zk ,...,zj ,...,zl
i=1 j=k i=1 j=k
∑
n
C(z k ) = {ξ = (ξi ) : ξi = V (N ; z k ), ξi ≥ V ({i}; z k ), i = 1, . . . , n},
i=1
ядро ∑
M = {ξ = (ξi ) : ξi ≥ V (S; z k ), S ⊂ N } ⊂ C(z k ),
i∈S
∑
l
ξi = βik , βik ≥ 0, (4.13.7)
k=0
zk z k+1 zl
ξi − ξi = βik , ξ i = βil , i = 1, . . . , n, k = 0, . . . , l − 1. (4.13.9)
§ 4.13. Кооперация в многошаговых играх 245
∑
l ∑
l−1
zk z k+1 zl z0
βik = (ξ i − ξ i ) + ξi = ξi = ξi.
k=0 k=0
zk ∑
k−1 m
Доказательство. Пусть ξ ∈ β(k) ⊕ C̃(z k ), тогда ξ = ξ + β для некоторых
m=0
β m
∈ B , m = k, . . . , l.
m
zk ∑ ′m
k−1
Но ξ = β для некоторых β ′m ∈ B m , m = 0, . . . , k − 1.
m=0
Рассмотрим {
β ′m , m = 0, . . . , k − 1,
(β ′′ )m =
β m , m = k, . . . , l,
∑
l
тогда (β ′′ )m ∈ B m , ξ = (β ′′ )m и, следовательно, ξ ∈ C̃(z0 ). Теорема доказана.
m=0
Мы имеем также:
∑
n ∑
n
βik = hi (z k ), k = 0, . . . , l,
i=1 i=1
и, следовательно, при 0 ≤ Θ ≤ n
∑
Θ ∑
n ∑
Θ
βik = hi (z k ), (4.13.12)
k=0 i=1 k=0
(3, 3, 3) A (3,
-3, 3) A (3,
-3, 3) A (3,-3, 3)
x̄0 1 x̄1 2 x̄2 3 x̄3
B B B
? ? ?
(6, 6, 6) (3, 3, 3) (2, 2, 2)
Γx̄0 Γx̄1 Γx̄2 Γx̄3
(0, 0, 0) A (0,
-0, 0) A (0,
-0, 0) A (2,-2, 2)
x̄0 1 x̄1 2 x̄2 3 x̄3
B B B
? ? ?
(1, 1, 1) ( 21 , 12 , 12 ) ( 31 , 31 , 13 )
Γx̄0 Γx̄1 Γx̄2 Γx̄3
1 1
V ({1}) = 1, V ({2}) = , V ({3}) = .
2 2
248 4. Многошаговые игры
∑
n
1. βki = Shi (0) = Shi , (4.13.13)
k=0
2
V ({1, 2, 3}, 2) = 6, V ({1, 2}, 2) = , V ({1, 3}, 2) = 4,
3
250 4. Многошаговые игры
1 1
V ({2, 3}, 2) = 4, V ({1}, 2) =
, V ({2}, 2) = , V ({3}, 2) = 2,
3 3
{ 21 21 66 }
Sh(2) = , , , Sh(3) = {2, 2, 2},
18 18 18
( 44 22 22 ) ( 8 49 41 )
Sh(0) = ,− ,− + Sh(1), Sh(1) = − , , − + Sh(2),
36 36 36 36 36 36
( 15 15 30 )
Sh(2) = − , − , + Sh(3), Sh(3) = (2, 2, 2).
18 18 18
В данном примере вектор Шепли динамически неустойчив, так как среди величин
βki имеются отрицательные. Как мы замечали ранее, это обстоятельство является ти-
пичным для игр с терминальными выигрышами, т. е. когда игроки получают выигрыши
лишь в окончательных позициях игры.
В данном параграфе невозможно охватить все вопросы, связанные с динамической
устойчивостью принципов оптимальности. Заметим только, что понятие динамической
устойчивости решений дифференциальных игр было впервые введено и исследовано
Л.А. Петросяном в работах [Петросян, 1977, 1979, 1992, 1993, 1997]. Ф. Кидланд и
Е. Прескотт [Kidland, Prescott, 1977] обратили внимание на данное свойство в эко-
номическом контексте и предложили назвать его time-consistency (состоятельность во
времени). Невыполнение динамической устойчивости вектора Шепли делает невозмож-
ным реальное применение этого принципа дележа в динамической кооперативной игре,
оказывается невозможным организовать пошаговые выплаты игрокам таким образом,
чтобы они могли рассчитывать на справедливое распределение выигрышей (распреде-
ление в соответствии с вектором Шепли, который они выбрали в качестве принципа
оптимальности) в каждой текущей подыгре. К сожалению, многие из принципов опти-
мальности классической кооперативной теории оказываются динамически неустойчи-
выми.
Важнейшей проблемой современной теории динамических игр является построение
и исследование новых динамически устойчивых принципов оптимальности.
где p(x, y; u ) — вероятность того, что реализуется игровой элемент Γ(y) (y ∈ F (x)),
x
4.14.2. Обозначим через G(x) подыгру игры G(x0 ), берущую начало в вершине
x ∈ X графа G(x0 ) (игрового элемента Γ(x)), которая естественно также является
стохастической игрой со случайной продолжительностью.
Получим основные функциональные уравнения для стохастической игры со случай-
ной продолжительностью. Предположим, что в стохастической игре со случайной про-
должительностью G(x0 ) реализовалась последовательность ситуаций ux0 , ux1 , . . . , uxl ,
252 4. Многошаговые игры
ui (x) = uxi
Здесь Ki (x0 , u(·)) = Ki (x0 ) есть функция выигрыша игрока i в ситуации u(·).
Математическое ожидание выигрыша i-го игрока Ei (x0 ) удовлетворяет функцио-
нальному уравнению
∑
Ei (x0 , u(·)) = q0 Ki (ux0 ) + (1 − q0 ) Ki 0 (ux0 ) +
x0 x
p(x0 , y; ux0 )Ei (y, uy (·)) =
y∈F (x0 )
∑
= Kix0 (ux0 ) + (1 − q0 ) p(x0 , y; ux0 )Ei (y, uy (·)),
y∈F (x0 )
где Ei (y, uy (·)) — математическое ожидание выигрыша i-го игрока в подыгре G(y),
начинающейся в вершине y ∈ X, y ∈ F (x0 ), графа G(x0 ) при условии реализации
ситуации uy (·). Предположим, что Ei (x, u(·)) конечно для любой вершины x ∈ X и
u(·) ∈ U (·), и равномерно ограничено.
Пусть x ∈ F k (x0 ), то есть игровой процесс на k-м шаге попадает в вершину x ∈ X.
Тогда для математического ожидания выигрыша i-го игрока в подыгре G(x) справед-
лива формула
∑
Ei (x, ux (·)) = qk Kix (ux (·)) + (1 − qk ) Kix (ux (·)) + p(x, y; ux (·))Ei (y, uy (·)) =
y∈F (x)
∑
= Kix (ux (·)) + (1 − qk ) p(x, y; ux (·))Ei (y, uy (·)).
y∈F (x)
§ 4.14. Кооперативные стохастические игры 253
с граничным условием
∑
V (N, x) = max Kix (ux ), x ∈ {x : F (x) = ∅} . (4.14.2)
x x
ui ∈Ui
i∈N i∈N
с граничным условием
∑
V (N, x) = max Kix (ux ), x ∈ {x : F (x) = ∅} . (4.14.4)
x x
ui ∈Ui
i∈N i∈N
Ситуация в чистых стратегиях u(·) = (u1 (·), . . . , un (·)) в стохастической игре G(x0 )
порождает вероятностные распределения на множестве X вершин графа G(x0 ).
Определение. Подграф графа G(x0 ), который состоит из вершин x ∈ X графа
G(x0 ), имеющих положительную вероятность реализации, порожденную ситуаци-
ей u(·) (кооперативным решением), назовем кооперативным поддеревом и обозначим
b 0 ).
через G(x
Очевидно, что подграф G(x b 0 ) является древовидным графом. Множество вершин в
b
графе G(x0 ) обозначим через CX ⊂ X.
4.14.4. Определим кооперативную стохастическую игру со случайной продолжи-
тельностью, построенную на основе стохастической игры со случайной продолжитель-
ностью G(x0 ), описанной выше. Для этого, для каждой вершины x ∈ CX определим
вспомогательную игру с нулевой суммой, которую обозначим через GS (x). Это антаго-
нистическая игра между коалицией S ⊂ N , выступающей в качестве максимизирую-
щего игрока, и коалицией N \ S, выступающей в качестве минимизирующего игрока,
где выигрыш коалиции S определяется как сумма выигрышей игроков, входящих в ко-
алицию S. Тогда значение характеристической функции V (S, x) зададим как нижнее
значение антагонистической игры GS (x) в чистых стратегиях (аналогично нижнему
значению матричной игры).
Функция V (S, x), x ∈ CX, удовлетворяет функциональному уравнению
[
∑
V (S, x) = max minx Kix (uxS , uxN \S )+ (4.14.5)
x x x uS ∈US uN \S ∈UN \S
i∈S
∑
+(1 − qk ) p(x, y; uxS , uxN \S )V (S, y)
y∈F (x)
с граничным условием
∑
V (S, x) = max minx Kix (uxS , uxN \S ), x ∈ {x : F (x) = ∅} , (4.14.6)
xuS ∈US ux
x
N \S
∈UN \S
i∈S
∏
где игроки i1 , i2 , . . . , ik ∈ S, uxS = (uxi1 , . . . , uxir )— стратегия коалиции S, а USx = Uixj —
j=1,r
множество стратегий коалиции S, игроки ir+1 , . . . , in образуют коалицию N \S
§ 4.14. Кооперативные стохастические игры 255
V (∅, x) = 0. (4.14.7)
по тем же правилам, что и C(x0 ). Например, если C(x0 ) — вектор Шепли для сто-
хастической игры G(x0 ), то C(x) — вектор Шепли, вычисленный для кооперативной
подыгры G(x). Предполагается, что игроки выбирают для себя какое-то фиксированное
подмножество множества дележей, обладающее «оптимальными» для них свойствами,
т. е. игроки, объединившись в коалицию N , собираются следовать некоторому правилу
распределения выигрышей в течение всего игрового процесса.
4.14.6. Далее будем предполагать, что C(x) является непустым подмножеством
множества I(x) для любого x ∈ CX, то есть для каждой вершины x ∈ CX существует
по крайнем мере один дележ
с граничным условием
где ξ(y) = (ξ1 (y), . . . , ξn (y)) — некоторый дележ, принадлежащий решению C(y) коопе-
ративной подыгры G(y).
§ 4.14. Кооперативные стохастические игры 257
Лемма. Вектор γ(x) = (γ1 (x), . . . , γn (x)), определяемый формулой (4.14.11), яв-
ляется кооперативной процедурой распределения дележа.
Доказательство. Из (4.14.11) выразим величины γi (x) и суммируем их по i ∈ N ,
получаем
∑ ∑ ∑ ∑
γi (x) = ξi (x) − (1 − qk ) p(x, y; ux )ξi (y) . (4.14.12)
i∈N i∈N i∈N y∈F (x)
Так как
ξ(x) = (ξ1 (x), . . . , ξn (x)) ∈ C(x) ⊂ I(x),
ξ(y) = (ξ1 (y), . . . , ξn (y)) ∈ C(y) ⊂ I(y),
то из (4.14.12) получаем
∑ ∑
γi (x) = V (N, x) − (1 − qk ) p(x, y; ux )V (N, y). (4.14.13)
i∈N y∈F (x)
∑ ∑
Из (4.14.13) и (4.14.3) следует, что γi (x) = Kix (ux ) для ситуации ux =
i∈N i∈N
(ux1 , . . . , uxn ), которая реализовалась в игровом элементе Γ(x) при использовании игрока-
ми кооперативного решения u = (u1 (·), . . . , un (·)). Получается, что γi (x) удовлетворяет
условию (4.14.8), то есть лемма доказана.
Игроки перед началом игры приходят к соглашению о кооперации, то есть дого-
вариваются максимизировать математическое ожидание суммарного выигрыша и рас-
считывают получить дележ ξ(x0 ) ∈ C(x0 ). Развитию игры во времени соответствует
движение вдоль вершин кооперативного поддерева G(x b 0 ). Однако, поскольку стоха-
стическая структура игры подразумевает неоднозначность в реализации вершин ко-
оперативного поддерева, то движение вдоль некоторого пути, то есть вдоль вершин
кооперативного поддерева, еще не обеспечивает сохранение кооперации. Действитель-
но, при движении вдоль пути игроки попадают в кооперативные подыгры с текущими
начальными состояниями, в которых один и тот же игрок имеет различные возмож-
ности. Это является вполне естественным обстоятельством, поскольку со временем из-
меняются условия конфликта и возможности участвующих в нем сторон. То есть, в
некоторый момент времени, в вершине x ∈ CX, сумма оставшихся выплат для игрока i
может не равняться i-ой компоненте дележа из решения C(x) кооперативной подыгры
G(x), являющегося решением подыгры G(x). Следовательно, в вершине x ∈ CX перед
игроком i может встать вопрос о целесообразности придерживаться далее намеченного
перед началом игры соглашения действовать «совместно оптимально», то есть игрок
i может пожелать отклониться от договоренного кооперативного решения и получить
бо́льший выигрыш. Если такое отклонение будет выгодно хотя бы для одного из игро-
ков, то это и будет означать позиционную несостоятельность дележа ξ(x0 ) ∈ C(x0 ) и,
соответственно, самого движения вдоль вершин кооперативного поддерева.
4.14.8. Определение. Дележ ξ(x0 ) ∈ C(x0 ) называется позиционно состоя-
тельным в кооперативной стохастической игре G(x0 ), если для каждой вершины
x ∈ CX ∩ F k (x0 ) существует неотрицательная ПРД β(x) = (β1 (x), . . . , βn (x)) та-
кая, что ∑
ξi (x) = βi (x) + (1 − qk ) p(x, y; ux )ξi (y), (4.14.14)
y∈F (x)
258 4. Многошаговые игры
и
ξi (x) = βi (x), x ∈ {x : F (x) = ∅} , (4.14.15)
где x ∈ F k (x0 ), ξ(y) = (ξ1 (y), . . . , ξn (y)) — некоторый дележ, принадлежащий решению
C(y) кооперативной подыгры G(y).
Определение. Будем говорить, что кооперативная стохастическая игра со
случайной продолжительностью G(x0 ) имеет позиционно состоятельное решение
C(x0 ), если являются позиционно состоятельными все дележи ξ(x0 ) ∈ C(x0 ).
Отсюда получаем, что если дележ ξ(x0 ) позиционно состоятелен в игре G(x0 ), то
ПРД может быть определена для всех x ∈ CX и таких, что x ∈ / {x : F (x) = ∅} по
формуле ∑
βi (x) = ξi (x) − (1 − qk ) p(x, y; ux )ξi (y), (4.14.16)
y∈F (x)
где ξ(x) = (ξ1 (x), . . . , ξn (x)) ∈ C(x), а ux = (ux1 , . . . , uxn ) — реализация кооперативного
решения u = (u1 (·), . . . , un (·)) в вершине x ∈ CX, максимизирующего сумму математи-
ческих ожиданий выигрышей игроков в стохастической игре G(x0 ), V (N, x) — значение
характеристической функции для коалиции N , вычисленное для кооперативной подыг-
ры G(x).
Поскольку Ki (ux ) > 0 для всех∑вершин x ∈ CX и всех i ∈ N , то βi (x) > 0 для любой
вершины x ∈ CX. Из того, что ξi (x) = V (N, x), и из (4.14.17) следует также, что
i∈N
текущая выплата βi (x) игроку i в игровом элементе Γ(x) должна быть пропорциональна
i-ой компоненте дележа ξ(x) ∈ C(x) в кооперативной подыгре G(x) стохастической игры
G(x0 ).
Определим компоненты нового дележа в кооперативной подыгре G(x), где x ∈ CX,
и x ∈ F k (x0 ) на основе «старого» дележа ξ(x) как решение функционального уравнения
∑
Ki (ux ) ∑
b
ξi (x) =
i∈N
ξi (x) + (1 − qk ) p(x, y; ux )ξbi (y) (4.14.18)
V (N, x)
y∈F (x)
с граничным условием ∑
Ki (ux )
ξbi (x) =
i∈N
ξi (x) = ξi (x) (4.14.19)
V (N, x)
для x ∈ {x : F (x) = ∅}.
Построим новую характеристическую функцию Vb (S, x) для каждой кооперативной
подыгры G(x) для всех x ∈ CX, используя функциональное уравнение
∑
Ki (ux ) ∑
Vb (S, x) = p(x, y; ux )Vb (S, y)
i∈N
V (S, x) + (1 − qk ) (4.14.20)
V (N, x)
y∈F (x)
с граничным условием
∑ b
1) ξi (x) = Vb (N, x),
i∈N
∑ ( )
∑ Ki (ux )∑ ∑ ∑
ξbi (x)= ξbi (y) =
i∈N
ξi (x) + (1 − qk ) p(x, y; u ) x
V (N, x)
i∈N i∈N y∈F (x) i∈N
∑
Ki (ux ) ∑ ( )
p(x, y; ux )Vb (N, x) =
i∈N
= V (N, x) + (1 − qk )
V (N, x)
y∈F (x)
Второе свойство также очевидно для вершин x ∈ {x : F (x) = ∅}. Для вершин
x ∈ {x : F (x) ∋ y и F (y) = ∅} покажем, что ξbi (x) − Vb ({i}, x) > 0, используя формулы
(4.14.20) и (4.14.18):
∑
Ki (ux ) ∑
ξbi (x) − Vb ({i}, x) = p(x, y; ux )ξbi (y)−
i∈N
ξi (x) + (1 − qk )
V (N, x)
y∈F (x)
∑
Ki (ux ) ∑
p(x, y; ux )Vb ({i}, y)
i∈N
− V ({i}, x) + (1 − qk ) =
V (N, x)
y∈F (x)
∑
Ki (ux ) ∑ ( )
p(x, y; ux ) ξbi (y) − Vb ({i}, y) > 0.
i∈N
= (ξi (x) − V ({i}, x)) + (1 − qk )
V (N, x)
y∈F (x)
где p(j, k; u ) — вероятность того, что состоится одновременная игра Γk , если на преды-
j
∏
n
где uj ∈ U j = Ukj — ситуация, которая реализовалась в игровом элементе Γj , uk ∈
k=1
U k — ситуация, которая реализовалась в игровом элементе Γk .
Стратегия ηi (·) i-го игрока в игре G — это правило, по которому для каждого игрово-
го элемента Γj ∈ {Γ1 , . . . , Γt } (j = 1, t) определяется, какую стратегию в одновременной
игре Γj выбрать.
Определение марковской игры предполагает, что игровой процесс на каждом ша-
ге может попадать в одни и те же игровые элементы, поэтому в данной постановке
стохастической игры целесообразно использовать класс стационарных стратегий.
Определение. Стратегия ηi (·) игрока i в игре G называется { стационарной,
} если
выбор стратегии в каждом игровом элементе из множества Γ1 , . . . , Γt на каждом
шаге зависит только от того, какой игровой элемент реализуется на этом шаге, то
есть
ηi : Γj 7−→ uji ∈ Uij , j = 1, t.
В марковской игре, рассматриваемой в классе стационарных стратегий, выбор иг-
роками стратегии в игровых элементах не зависит от ситуаций, реализовавшихся на
предыдущих шагах, а зависит только от самого игрового элемента, в котором на дан-
ном шаге игра G находится.
Марковская игра G рассматривается в классе стационарных стратегий, и множество
одновременных игр {Γ1 , . . . , Γt } конечно, поэтому достаточно рассмотреть t подыгр
1 t
игры G, обозначенных через G , . . . , G , начинающихся с игровых элементов Γ1 , . . . , Γt
соответственно.
Пусть η(·) = (η1 (·), . . . , ηn (·)) — ситуация в стационарных стратегиях, такая что
ηi (Γj ) = uji ∈ Uij где j = 1, . . . , t, i ∈ N . Так же, как и в предыдущем параграфе,
будем рассматривать класс чистых стационарных стратегий.
4.15.4. Множество чистых стационарных стратегий i-го игрока в марковской игре
G обозначим через Ξi . Очевидно, что стационарная стратегия i-го игрока в игре G
1 t
будет являться стационарной стратегией в любой подыгре G , . . . , G .
Рассмотрим матрицу вероятностей перехода из одних игровых элементов в другие,
которая зависит от ситуации в стационарных стратегиях η(·), реализовавшейся в мар-
ковской игре G:
p(1, 1; u1 ) . . . p(1, t; u1 )
p(2, 1; u2 ) . . . p(2, t; u2 )
Π(η(·)) =
, (4.15.3)
... ... ...
t t
p(t, 1; u ) . . . p(t, t; u )
где η(·) = (η1 (·), . . . , ηn (·)), а ηi (·) : ηi (Γ1 ) = u1i ∈ Ui1 , . . . , ηi (Γt ) = uti ∈ Uit , а ситуация,
реализовавшаяся в игровом элементе Γj , (j = 1, t), — это ситуация uj = (uj1 , . . . , ujn ).
Тогда можно записать формулу для вычисления математического ожидания вы-
игрыша i-го игрока в любой подыгре марковской ∏ игры G при реализации ситуации в
чистых стационарных стратегиях η(·) ∈ Ξi , описанной выше. Имеет место формула
i∈N
V (∅) = 0,
где пара (ηS (·), ηN \S (·)) образует некоторую ситуацию в чистых стационарных страте-
гиях, а ηS (·) = (ηi1 (·), . . . , ηir (·)) — вектор стационарных стратегий игроков i1 , . . . , ir ∈
∪ ∪ ∏r
S, i1 . . . ir = S, ηS (·) ∈ Ξij — множество чистых стратегий коалиции
j=1
S ⊂ N , а ηN \S (·) — вектор стационарных стратегий игроков ir+1 , . . . , in ∈ N \S,
∪ ∪ ∏n
ir+1 . . . in = N \S, Ξij — множество чистых стратегий коалиции N \S. Обозна-
j=r+1
чим через V (S) вектор (V 1 (S), . . . , V t (S)), где все V j (S), j = 1, . . . , t, удовлетворяют
условию (4.15.10).
Тогда значение характеристической функции для коалиции S для марковской игры
G обозначим через V (S) и вычислим по формуле:
V (∅) = 0.
Определение. Кооперативной марковской игрой, основанной на игре G, называ-
ется кооперативная игра G = ⟨N, V ⟩, где N — это множество игроков, а V : S −→ R —
характеристическая функция, определенная по формулам (4.15.9) и (4.15.11).
j
Определение. Кооперативной марковской подыгрой, основанной на подыгре G ,
j
назовем кооперативную игру G = ⟨N, V ⟩, где N — это множество игроков, а
V : S −→ R — характеристическая функция, определенная по формулам (4.15.8) и
(4.15.10).
Характеристическая функция V (S), определяемая формулами (4.15.9) и (4.15.11), и
функция V (S), определенная формулами (4.15.8) и (4.15.10), являются супераддитив-
ными характеристическими функциями.
4.15.6. Определение. Дележом в кооперативной марковской игре G будем на-
зывать вектор ξ = (ξ 1 , . . . , ξ n ), удовлетворяющий свойствам:
∑
1) ξ i = V (N ),
i∈N
2) ξ i > V ({i}), i ∈ N.
Shi = πShi .
( )
4.15.7. Определение. Вектор-функцию β j = β1j , . . . , βnj , j = 1, . . . , t, назовем
кооперативной процедурой распределения дележа (ПРД) в игровом элементе Γj , если
∑ j ∑ j j
βi = Ki (u1 , . . . , ujn ), (4.15.12)
i∈N i∈N
Bi = βi + (1 − q)Π(η(·))Bi ,
где βi = (βi1 , . . . , βit ), а βij — это выплата i-му игроку на том шаге игры, на котором
реализуется игровой элемент Γj . Если det(E − (1 − q)Π(η(·))) ̸= 0, то можно написать:
Bi = (E − (1 − q)Π(η(·)))−1 βi . (4.15.13)
γi = (E − (1 − q)Π(η(·)))Shi .
получить в начале игры (то есть Shi ), и оставшиеся выплаты будут соответствовать то-
му же «принципу оптимальности» (в нашем случае, вектору Шепли). Это означает, что
на каждом шаге игры G оставшиеся выплаты будут рассчитаны по тем же «правилам»,
что и в начале игры (в нашем случае, по аксиомам Шепли).
4.15.10. Пример 19. Рассмотрим кооперативную игру передачи данных в беспро-
водных сетях [Sagduyu, Ephremides, 2006; Michiardi et al., 2003; Srinivasan et al., 2003].
Беспроводная сеть представлена на рис. 4.19.
ко всем выигрышам игроков во всех игровых элементах, чтобы сделать все выигрыши
неотрицательными.
Будем решать описанную выше марковскую игру в классе стационарных стратегий.
Обозначим через Xi множество смешанных стационарных стратегий игрока i, i = 1, 2.
В соответствии со структурой марковской игры передачи данных в беспроводной
сети смешанная стационарная стратегия игрока 1 диктует ему выбрать стратегию W с
3
вероятностью 1 в состояниях (0, 0), (0, 1), стратегию −→ с вероятностью p11 в состоянии
3
(1, 0), и стратегию −→ с вероятностью p12 в состоянии (1, 1). Смешанная стационарная
стратегия игрока 2 диктует ему выбрать стратегию W с вероятностью 1 в состояниях
3
(0, 0), стратегию −→ в состоянии (0, 1), стратегию Ac с вероятностью p21 в состоянии
3
(1, 0), и стратегию −→ с вероятностью p22 в состоянии (1, 1).
Обозначим через ui = (pi1 , pi2 ) смешанную стационарную стратегию игрока i и мно-
жество смешанных стационарных стратегий игрока i через Ui , i = 1, 2. Получаем ситу-
ацию в стационарных стратегиях u = (u1 , u2 ) = (p11 , p12 , p21 , p22 ). Матрица переходных
вероятностей в ситуации в стационарных стратегиях u будет следующей:
α11 α12 α13 α14
α21 α22 α23 α24
Π(u) =
α31
,
α32 α33 α34
α41 α42 α43 α44
где
α11 = (1 − a1 )(1 − a2 ),
α12 = (1 − a1 )a2 ,
α13 = a1 (1 − a2 ),
α14 = a1 a2 ,
α21 = (1 − a1 )(1 − a2 ),
α22 = (1 − a1 )a2 ,
α23 = a1 (1 − a2 ),
α24 = a1 a2 ,
α31 = p11 (1 − a1 )(1 − a2 ),
α32 = p11 (1 − a1 )a2 + (1 − p11 )p21 (1 − a1 ),
α33 = p11 a1 (1 − a2 ) + (1 − p11 )(1 − p21 )(1 − a2 ),
α34 = p11 a1 a2 + (1 − p11 )p21 a1 + (1 − p11 )(1 − p21 )a2 ,
α41 = 0,
α42 = p12 (1 − p22 )(1 − a1 ),
α43 = (1 − p12 )p22 (1 − a2 ),
α44 = p12 p22 + (1 − p12 )(1 − p22 ) + p12 (1 − p22 )a1 + (1 − p12 )p22 a2 .
272 4. Многошаговые игры
∏
2
Для каждой ситуации в чистых стационарных стратегиях η ∈ Ξ = Ξi мы можем
i=1
посчитать математическое ожидание выигрышей игроков для каждой подыгры, начи-
нающейся с определенного состояния:
(0,0) (0,1) (1,0) (1,1)
Ei = (Ei , Ei , Ei , Ei ).
вектор Шепли, рассчитанный для подыгр и через Sh = (Sh1 , Sh2 ) вектор Шепли, рас-
считанный для всей марковской игры.
Игроки перед началом игры договариваются о кооперации и ожидают получить сов-
местный выигрыш V ({1, 2}) и соответствующие компоненты Sh1 и Sh2 вектора Шепли.
Было бы естественно, если выплаты игрокам в игровых элементах, соответствующих
состояниям марковской игры, были бы равны выигрышам игроков в одновременных
играх, что эквивалентно условию:
Это вектор реальных выплат игроку i в состояниях (0, 0), (0, 1), (1, 0), (1, 1), соответ-
ственно, такой, что
∑2 ∑
βik = Kik (η)
i=1 i∈N
для любого k ∈ {(0, 0), (0, 1), (1, 0), (1, 1)}. Посчитаем вектор βi по формуле (4.15.18).
Можно потребовать, чтобы выплаты i-му игроку βik были неотрицательными для
любого состояния k ∈ K и любого игрока i ∈ N , что эквивалентно тому, чтобы система
(0,0) (0,1) (1,0) (1,1)
уравнений относительно βi = (βi , βi , βi , βi )
Shi = (E − (1 − q)Π(η(·)))−1 βi
a1 = 0.5, q = 0.01,
a2 = 0.1, f = 1,
D12 = 0.1, d = 0.1,
D13 = 0.6, c = 0.3,
1 1 1 1
D23 = 0.2, π=( , , , )
4 4 4 4
Таблица 4.1 показывает для каждой ситуации в чистых стационарных стратегиях η
рассчитанные значения математических ожиданий. Здесь
(0,0) (0,1) (1,0) (1,1)
E1 (η) = (E1 (η), E1 (η), E1 (η), E1 (η)) — вектор математических ожиданий
выигрышей игрока 1 в подыграх;
(0,0) (0,1) (1,0) (1,1)
E2 (η) = (E2 (η), E2 (η), E2 (η), E2 (η)) — вектор математических ожиданий
выигрышей
∑ игрока 2 в подыграх;
π E i (η) — математическое ожидание суммарного выигрыша игроков.
i∈{1,2}
2 3 3
η11 = ((W, W, −→, W ), (W, −→, Ac, −→)).
276 4. Многошаговые игры
vi (x) = max
′
vi (x′ ), x ∈ Xi , i = 1, 2, . . . , n, (4.16.1)
x ∈Γx
при граничном условии
vi (x)|x∈Xn+1 = Hi (x). (4.16.2)
б) Привести пример игры, в которой выигрыши игроков в ситуации равновесия в стратеги-
ях наказания не удовлетворяют системе функциональных уравнений (4.16.1) при граничном
условии (4.16.2).
4. Построить пример неантагонистической многошаговой игры двух лиц, в которой в ситу-
ации равновесия в «стратегиях наказания» наказывающий игрок при наказании противника
за отклонение от выбранного пути еще сильнее наказывает самого себя.
5. Построить Парето-оптимальные множества в игре из примера п.4.2.1.
6. Построить пример многошаговой неантагонистической игры, в которой ни одна из си-
туаций равновесия по Нэшу не приводит к Парето-оптимальному решению.
7. Построить отображение T , которое каждой подыгре Γz игры Γ ставит в соответствие
некоторое подмножество ситуаций Uz в этой подыгре. Пусть T (Γ) = Ux0 .
Будем говорить, что отображение T динамически устойчиво, если из u(·) ∈ Ux0 следует,
что uzk (·) ∈ Uzk , где uzk (·) = (uz1k (·), . . . , uznk (·)) — сужение ситуации u(·) на подыгру Γzk ,
ω0 = {x0 , z1 , . . . , zk } — партия, реализовавшаяся в ситуации u(·) ∈ Ux0 .
Показать, что если отображения T каждой подыгре Γzk ставит в соответствие множество
Парето-оптимальных ситуаций UxP , то оно динамически устойчиво.
8. Отображение T , определенное в упр. 7, называется сильно динамически устойчивым,
если для любой ситуации u(·) ∈ Ux0 , любого zk ∈ {zi } = ω, где {zi } = ω — партия в ситуа-
ции u(·), ситуации ûzk (·) ∈ Uzk существует ситуация û(·) ∈ Ux0 , для которой ситуация ûzk (·)
является ее сужением на позициях игры Γzk и позиция zk возможна в ситуации û(·). Пока-
зать, что если отображение T каждой подыгре Γzk ставит в соответствие множество ситуаций
равновесия по Нэшу, то оно сильно динамически устойчиво.
9. Построить пример, когда отображение T , ставящее в соответствие каждой подыгре Γz
множество Парето-оптимальных ситуаций равновесия, сильно динамическим не является.
10. Для каждой подыгры Γz введем в рассмотрение величины v({i}, z), i = 1, . . . , n, пред-
ставляющие собой гарантированный выигрыш i-го игрока в подыгре Γz , т. е. v({i}, z)— зна-
чение антагонистической игры, построенной на графе подыгры Γz между игроком i и игро-
ками N \ i, действующими как один игрок. При этом множество стратегий коалиции игро-
ков N \ i есть ∏ декартово произведение множества стратегий каждого из игроков k ∈ {N, i},
u{N,i} ∈ ui , функция выигрыша игрока i в ситуации (ui , uN \i ) определяется как
k∈{N,i}
Hiz (ui , uN \i ), а функция выигрыша коалиции N \ i полагается равной −Hiz (ui , uN \i ).
11. Показать, что если в некоторой многошаговой неантагонистической игре Γ с неотрица-
∪
n
тельными выигрышами (Hi ≥ 0, i = 1, . . . , n), v({i}, z) = 0 для всех i = 1, . . . , n, и z ∈ Xi ,
i=1
то любая партия может быть реализована в некоторой ситуации равновесия в стратегиях на-
казания.
278 4. Многошаговые игры
Символами x1 (i, j), x2 (i, j), x3 (i, j), x4 (i, j) обозначим вероятности, с которыми стрелок P
использует свои 1, 2, 3 и 4-ю стратегии, а символами y1 (i, j), y2 (i, j), y3 (i, j) — вероятности,
§ 4.16. Упражнения и задачи 279
Таким образом, на каждом шаге игры разыгрывается игра с матрицей {αmn (i, j)} размера
(2k + 2)x(2k + 1), где
1 + v(i + n − k − 1, j − 1), если m = n = 1, . . . , 2k + 1,
{αmn (i, j)} = v(i + n − k − 1, j − 1), если m ̸= n; m, n = 1, . . . , 2k + 1, .
v(i + n − k − 1, j), если m = 2k + 2, n = 1, . . . , 2k + 1
а) Показать, что игра G(i, j) имеет значение, равное v(i, j), в том и только в том случае,
если существуют (x1 , x2 , . . . , x2k+2 ), (y1 , y2 , . . . , y2k+1 ) такие, что:
∑
2k+2
amn (i, j)xm ≥ v(i, j), n = 1, . . . , 2k + 1,
m=1
∑
2k+2
xm = 1, xm ≥ 0, m = 1, . . . , 2k + 2,
m=1
∑
2k+1
amn (i, j)yn ≤ v(i, j), m = 1, . . . , 2k + 1,
m=1
∑
2k+1
yn = 1, yn ≥ 0, n = 1, . . . , 2k + 1.
m=1
Указание. Обозначим символами x1 (i, j), x2 (i, j), . . . , x2k+2 (i, j) оптимальные стратегии пове-
дения (если они существуют), с которыми стрелок P использует свои 1-ю, 2-ю, ..., (2k + 2)-ю
стратегии в информационном состоянии (i, j), а символами y1 (i, j), y2 (i, j), . . . , y2k+1 (i, j) — оп-
тимальные стратегии поведения, с которыми мишень E использует свою 1-ю, 2-ю, ..., (2k+1)-ю
стратегии в информационном состоянии (i, j). В упражнениях ниже приведено решение игры
G(i, j) и его свойства.
б) Символом ϕ(i, j), j = 0, 1, . . . ; i = 1, 2, . . ., обозначим следующую двойную последова-
тельность:
ϕ(i, 0) = 0, i = 1, 2, . . . ;
ϕ(i, j) = 0, i = 1, 2, . . . , k;
∑ j = 1, 2, . . . ;
ϕ(i, j) = minr=1,...,k+1 ((1 + t=1 k + rv(i + t − k − 1, j − 1))/(k + 2)),
i = k + 1, k + 2, . . . , j = 1, 2, . . . , (4.16.3)
Доказать, что
1) v(i, j) = ϕ(i, j);
2) при i = k + 1, . . . ; j = 1, 2, . . ., имеем xm (i, j) = v(i, j) − v(i + m − k − 1, j − 1) при
m = 1, . . . , k + r∗, иначе xm (i, j) = 0, yn (i, j) = 1/(k + r∗) при n = 1, . . . , k + r∗, иначе yn = 0.
Здесь r = r∗ — точка, в которой достигается минимум в (4.16.3).
в) Доказать, что при j = 0, 1, . . .:
1) v(i, j) ≥ 0, j = 1, 2, . . .;
2) v(i, j) = j/(2k + 1), i = kj + 1, kj + 2, . . .;
3) v(i, j) ≤ v(i + 1, j), i = 1, 2, . . .;
4) v(i, j) ≤ v(i, j + 1), i = k + 1, k + 2, . . .;
5) v(i, j + 1) ≤ v(i, j) + 1/(2k + 1), i = 1, 2, . . .;
г) Игра G(i, ∞). Доказать, что lim v(i, j) = w(i) при каждом i = 1, 2, . . ., где w(i) —
j→∞
решение линейного
∑ разностного уравнения
kw(i) − (p = 1)(k)w(i − p) = 1, i = k + 1, k + 2, . . .
с начальными условиями:
w(1) = w(2) = . . . = w(k) = 0.
§ 4.16. Упражнения и задачи 281
21. Задана стохастическая игра G(z0 ) на графе G(z0 ), который имеет вид:
z0
|
||| BBB
| BB
||||||| BB
z || B!
z1 z2 z3 B / z6
BB
BB
BB
B!
z4 z5
Множество вершин графа G(z0 ): Z = {z0 , . . . , z6 }. Множество игроков N = {1, 2}. В каждой
вершине графа G(z0 ) задан игровой элемент – одновременная игра двух лиц Γ(z), z ∈ Z.
Игровые элементы:
( ) ( )
(5, 5) (0, 8) (3, 0) (6, 4)
Γ(z0 ) : , Γ(z2 ) : ,
((8, 0) (1, 1) ) ((5, 6) (2, 2))
(1, 11) (4, 2) (1, 1) (0, 2)
Γ(z3 ) : , Γ(z4 ) : ,
( (1, 3) (1, 1)) ( 0) (1, 2))
(2,
(5, 5) (6, 1) (4, 2) (3, 4)
Γ(z5 ) : , Γ(z6 ) : ,
(1, 6) (6, 6) (5, 6) (1, 5)
( )
(0, 0) (1, 0)
Γ(z1 ) : .
(1, 0) (0, 1)
Вероятности перехода определены следующим образом. Если в игровом элементе Γ(z0 )
1
реализуется ситуация (2,2), игра G(z0 ) переходит в вершину z2 с вероятностью и в верши-
3
2
ну z3 с вероятностью , если реализуется ситуация, отличная от (2,2) (стрелка =⇒ означает
3
детерминированный переход), то игра G(z0 ) переходит в вершину z1 . Если в игре Γ(z3 ) реали-
зуется ситуация (2,2), то стохастическая игра G(z0 ) переходит в вершины z5 и z6 с равными
1
вероятностями , из остальных ситуаций совершается переход с вероятностью 1 в вершину
2
z4 . Вероятности qk того, что игра закончится на k-м шаге:
1
q1 = , q2 = 0, q3 = 1.
8
z0 B
|
||||| BBB
| BB
|||| BB
z ||| !
z1 z2 z3 / z9
|
||| |||| |
||| BBB
|
|| |
|| |
|| BBB
|||| |||| |||| BB
z ||| z ||| z ||| !
z4 z5 z6 z7 z8
Множество вершин графа G(z0 ): Z = {z0 , . . . , z9 }. Множество игроков N = {1, 2}. В каждой
вершине графа G(z0 ) задан игровой элемент – одновременная игра двух лиц Γ(z), z ∈ Z.
282 4. Многошаговые игры
Игровые элементы:
( ) ( )
(6, 6) (0, 8) (3, 0) (7, 3)
Γ(z0 ) : , Γ(z2 ) : ,
( (8, 0) (2, 2) ) ((4, 7) (2, 2))
(1, 12) (4, 2) (1, 1) (1, 2)
Γ(z3 ) : , Γ(z7 ) : ,
( (2, 3) (1, 1)) ( 0)
(3, (1, 2))
(4, 6) (6, 1) (4, 2) (3, 4)
Γ(z8 ) : , Γ(z9 ) : ,
(1, 6) (7, 6) (6, 6) (1, 7)
( )
(0, 0) (1, 0)
Γ(z1 ), Γ(z4 ), Γ(z5 ), Γ(z6 ) : .
(1, 0) (0, 1)
Вероятности перехода определены следующим образом. Если в игровом элементе Γ(z0 ) ре-
1
ализуется ситуация (2,2), то игра G(z0 ) переходит в вершину z2 с вероятностью и в вершину
4
3
z3 с вероятностью , если же реализуется ситуация, отличная от (2,2) (стрелка =⇒ означает
4
детерминированный переход), то игра G(z0 ) переходит в вершину z1 . В вершинах z1 , z2 при
реализации любой ситуации стохастическая игра G(z0 ) переходит в вершины z4 и z5 соответ-
ственно. Если в одновременной игре Γ(z3 ) реализуется ситуация (2,2), то стохастическая игра
1
G(z0 ) переходит в вершины z8 и z9 с равными вероятностями , а если в игре Γ(z3 ) реализуется
2
ситуация (2,1), то игра с вероятностью 1 перейдет в вершину z7 , из остальных ситуаций со-
вершается переход в вершину z6 с вероятностью 1 (стрелка =⇒ означает детерминированный
переход). Вероятности qk того, что игра закончится на k-м шаге
1 1
q1 = , q2 = , q3 = 1.
10 100
Найти N -ядро в стохастической игре G(z0 ) и проверить, является ли оно позиционно со-
стоятельным. В случае отсутствия позиционной состоятельности провести его регуляризацию.
23. Стохастическая игра G(z0 ) задана на графе G(z0 ), который имеет вид:
z0 B
B
||| BBBBBB
||| BBBBB
~|
| B %
z1 z2 z3
Множество вершин графа G(z0 ): Z = {z0 , . . . , z3 }. Множество игроков N = {1, 2}. В каждой
вершине графа G(z0 ) задан игровой элемент – одновременная игра двух лиц Γ(z), z ∈ Z.
Игровые элементы:( ) ( )
(10, 3) (0, 8) (2, 0) (7, 3)
Γ(z0 ), Γ(z1 ) : , Γ(z2 ) : ,
(8, 0) (1, 1) (5, 8) (3, 1)
( )
(1, 12) (3, 3)
Γ(z3 ) : .
(2, 2) (1, 0)
Вероятности перехода определены следующим образом. Если в игровом элементе Γ(z0 ) ре-
1
ализуется ситуация (2,2), то игра G(z0 ) переходит в вершину z1 с вероятностью и в вершину
5
4
z2 с вероятностью , если же реализуется ситуация, отличная от (2,2) (стрелка =⇒ означает
5
детерминированный переход), то игра G(z0 ) переходит в вершину z3 . Вероятности qk того, что
игра закончится на k-м шаге
1
q1 = , q2 = 1.
10
§ 4.16. Упражнения и задачи 283
Найти C-ядро в стохастической игре G(z0 ) и проверить, является ли оно позиционно со-
стоятельным. В случае отсутствия позиционной состоятельности провести его регуляризацию.
24. Марковская игра G задана следующим образом. Множество игроков N = {1, 2}. Мно-
жество игровых элементов {Γ1 }, где
( )
(5, 5) (0, 10)
Γ1 : .
(10, 0) (2, 2)
Первый игрок в одновременной игре Γ1 имеет две стратегии, т. е. X11 = {x1 , x2 }, второй игрок —
также две стратегии, т. е. X21 = {y1 , y2 }.
Вероятность окончания игры G на каждом шаге равна q = 12 .
В этом случае марковская игра представляет собой повторяющуюся игру с постоянным
дисконтированием. Найти C-ядро и проверить его на позиционную состоятельность. В случае
отсутствия позиционной состоятельности провести его регуляризацию.
25. Марковская игра G задана следующим образом. Множество игроков N = {1, 2}. Мно-
жество игровых элементов {Γ1 , Γ2 }, где
( ) ( )
1 (6, 6) (0, 9) 2 (2, 0) (7, 4)
Γ : , Γ : .
(9, 0) (2, 2) (6, 5) (3, 2)
Первый игрок в одновременной игре Γ1 имеет две стратегии, т. е. X11 = {x1 , x2 }, а в игре Γ2 –
X12 = {a1 , a2 }. Второй игрок в одновременной игре Γ1 имеет две стратегии, т. е. X21 = {y1 , y2 },
а в игре Γ2 — X22 = {b1 , b2 }.
Вектор начального распределения вероятностей (1; 0). Вероятность окончания игры G на
каждом шаге равна q = 56 .
Вероятности перехода:
1 1 1 1
p11 (x1 , y1 ) = , p11 (x1 , y2 ) = , p12 (a1 , b1 ) = , p12 (a1 , b2 ) = ,
2 6 3 2
1 5 2 1
p21 (x1 , y1 ) = , p21 (x1 , y2 ) = , p22 (a1 , b1 ) = , p22 (a1 , b2 ) = ,
2 6 3 2
1 5 1 1 1 1 2
p1 (x2 , y1 ) = , p1 (x2 , y2 ) = , p2 (a2 , b1 ) = , p12 (a2 , b2 ) = ,
6 3 2 3
2 1 2 2 2 1 1
p1 (x2 , y1 ) = , p1 (x2 , y2 ) = , p2 (a2 , b1 ) = , p22 (a2 , b2 ) = .
6 3 2 3
Найти вектор Шепли и проверить его на позиционную состоятельность. В случае отсут-
ствия позиционной состоятельности провести его регуляризацию.
26. Найти N -ядро в кооперативной игре из примера 3.10.1 в случае, когда параметры игры
следующие:
a1 = 0.7, q = 0.001,
a2 = 0.2, f = 1,
D12 = 0.1, d = 0.1,
D13 = 0.5, c = 0.3,
D23 = 0.1, π = (1, 0, 0, 0).
Антагонистические
дифференциальные игры
ẏ = g(y, v) (5.1.2)
с начальными условиями x0 , y0 . Игрок P (E) начинает движение из фазового состояния
x0 (y0 ) и перемещается в фазовом пространстве Rn согласно (5.1.1) или (5.1.2), выбирая
в каждый момент времени значение параметра u ∈ U (v ∈ V ) в соответствии со своими
целями и информацией, доступной в каждом текущем состоянии.
Наиболее просто поддается описанию случай полной информации. В дифференци-
альной игре это означает, что игрокам в каждый момент времени t при выборе па-
раметров u ∈ U , v ∈ V известно время t и фазовые состояния — свое и противника.
Иногда требуют знание одним из игроков, например, игроком P , в каждый текущий
момент t значения параметра v ∈ V , выбранного игроком E в этот же момент. В та-
ком случае говорят, что игрок E дискриминирован, а сама игра называется игрой с
дискриминацией игрока E.
Параметры u ∈ U , v ∈ V называются управлениями игроков P и E соответственно.
Функции x(t), y(t), удовлетворяющие уравнениям (5.1.1), (5.1.2) и начальным условиям,
называются траекториями движения игроков P, E.
§ 5.1. Антагонистические дифференциальные игры 285
x(T ), y(T ), игра описывает процесс преследования, в котором целью игрока E является
уклонение от игрока Р к моменту окончания игры на максимальное расстояние. В этой
главе будем предполагать дифференциальную игру антагонистической. В случае вы-
полнения условия (5.1.3) это означает, что цель игрока P — максимальное сближение
с игроком E к моменту окончания игры T .
При таком определении выигрыш зависит лишь от конечных состояний процесса
и каждому игроку не засчитываются результаты, достигнутые им в процессе игры до
момента T . Поэтому логичной является и такая постановка задачи, в которой выигрыш
игрока E определяется как минимальное расстояние между игроками в процессе игры:
или захвата и обозначается (C, Z), второе — областью убегания и обозначается (E, Z).
Очевидно, что эти области не пересекаются, однако важным является вопрос, покрыва-
ет ли объединение замыканий областей встречи и убегания все фазовое пространство?
Ответ на этот вопрос будет дан ниже, а пока заметим, что для адекватного описания
такого процесса достаточно определить выигрыш следующим образом. Если существу-
ет tn < ∞ (см. (5.1.4)), то выигрыш игрока E полагаем равным −1. Если же tn = ∞, то
выигрыш равен +1 (выигрыш игрока P равен выигрышу игрока E с противоположным
знаком, так как игра антагонистическая).
Игры преследования с таким выигрышем называются играми преследования каче-
ства.
5.1.3. Фазовые ограничения. Если дополнительно потребовать, чтобы в процессе
игры фазовая точка (x, y) не покидала некоторого множества F ⊂ R2n , то получим
дифференциальную игру с фазовыми ограничениями. Частным случаем такой игры
является игра с «линией жизни». Она является антагонистической игрой качества, в
которой выигрыш игрока E полагается равным +1, если ему удается достичь границы
множества F («линии жизни») до встречи с игроком P . Таким образом, целью игрока
E является достижение границы множества F до встречи с игроком P (сближение
с игроком P на расстояние l ≥ 0), цель же игрока P — сближение с игроком E на
расстояние l ≥ 0, пока последний еще находится внутри множества F . Предполагается,
что в процессе игры игрок P не может покинуть множества F .
5.1.4. Пример 1 (Простое движение.) Игра происходит на плоскости. Движение
игроков P и E описывается системой дифференциальных уравнений
где K(x0 , y0 ; u(·), v(·)) — функция выигрыша, определенная любым из четырех описан-
ных выше способов.
Если функция выигрыша K в игре Γ терминальная, то соответствующая игра Γ на-
зывается игрой с терминальным выигрышем. Если функция K определяется вторым
способом, то имеем игру на достижение минимального результата. Если функция
K в игре Γ является интегральной, то соответствующая игра Γ называется игрой с
интегральным выигрышем. Когда функция выигрыша в игре Γ качественная, соответ-
ствующая игра Γ называется игрой качества.
5.1.10. Естественно, что в классе кусочно-программных стратегий (в виду неком-
пактности множества) оптимальных стратегий может не существовать. Однако удается
показать, что в достаточно большом числе случаев для любого ε > 0 существуют си-
туации ε-равновесия. Напомним определение ситуации ε–равновесия (см. п. 2.2.3).
§ 5.1. Антагонистические дифференциальные игры 291
sup inf K(x0 , y0 ; u(·), v(·)) = inf sup K(x0 , y0 ; u(·), v(·)).
v(·)∈E u(·)∈P u(·)∈P v(·)∈E
Если в игре Γ(x0 , y0 ) для любого ε > 0 существуют ε-оптимальные стратегии игро-
ков P и E, то будем говорить, что игра Γ(x0 , y0 ) имеет решение.
Определение. Пусть u∗ (·), v ∗ (·) — пара таких стратегий, что
K(x0 , y0 ; u(·), v ∗ (·)) ≥ K(x0 , y0 ; u∗ (·), v ∗ (·)) ≥ K(x0 , y0 ; u∗ (·), v(·)) (5.1.12)
для всех u(·) ∈ P и v(·) ∈ E. Тогда ситуация s∗ = (x0 , y0 ; u∗ (·), v ∗ (·)) называется
ситуацией равновесия в игре Γ(x0 , y0 ). Стратегии u∗ (·) ∈ P и v ∗ (·) ∈ E из (5.1.12)
называются оптимальными стратегиями игроков P и E соответственно.
Существование ситуации равновесия в игре Γ(x0 , y0 ) эквивалентно (см. п. 1.3.4) вы-
полнению равенства
max inf K(x0 , y0 ; u(·), v(·)) = min sup K(x0 , y0 ; u(·), v(·)).
v(·)∈E u(·)∈P u(·)∈E v(·)∈P
Очевидно, что если существует ситуация равновесия, то для любого ε > 0 она явля-
ется и ситуацией ε-равновесия, т. е. функция V (x, y) в данном случае просто совпадает
с K(x, y; u∗ (·), v ∗ (·)) (см. п. 2.2.3).
292 5. Антагонистические дифференциальные игры
K(x0 , y0 ; u(x, y, t), v ∗ (x, y, t)) ≥ K(x0 , y0 ; u∗ (x, y, t), v ∗ (x, y, t)) ≥
≥ K(x0 , y0 ; u∗ (x, y, t), v(x, y, t)) (5.1.13)
для всех ситуаций (u(x, y, t), v ∗ (x, y, t)) и (u∗ (x, y, t), v(x, y, t)), для которых существу-
ет единственное, продолжимое на [0, ∞) решение системы (5.1.7) из начальных со-
стояний x0 , y0 . Стратегии u∗ (x, y, t), v ∗ (x, y, t) называются оптимальными страте-
гиями игроков P и E.
Установим различие понятий ситуации равновесия в кусочно-программных и син-
тезирующих стратегиях. Заметим, что определить ситуацию равновесия в обычном
смысле в классе функций u(x, y, t), v(x, y, t) невозможно из-за непрямоугольности про-
странства ситуаций, т. е. в синтезирующих стратегиях невозможно потребовать выпол-
нения неравенства (5.1.13) для всех стратегий u(x, y, t), v(x, y, t), поскольку некоторые
пары (u∗ (x, y, t), v(x, y, t)), (u(x, y, t), v ∗ (x, y, t)) могут не быть допустимыми (система
уравнений (5.1.7) в соответствующей ситуации может не иметь решения вообще или не
иметь единственного решения).
В дальнейшем, если специально не будет оговорено, во всех случаях будем рас-
сматривать классы кусочно-программных стратегий. Прежде чем перейти к доказа-
тельству существования ситуации ε-равновесия в дифференциальной игре, рассмотрим
один вспомогательный класс многошаговых игр с полной информацией.
F1 (x, y) = max
′
min
′
f (x′ , y ′ ),
y ∈Vy x ∈Ux
F2 (x, y) = min
′
max
′
f (x′ , y ′ )
x ∈Ux y ∈Vy
непрерывны по x, y.
Пусть x = (x0 , . . . , xN ) и y = (y0 , . . . , yN ) — траектории игроков 1 и 2 соответственно,
реализовавшиеся в процессе игры. Выигрышем игрока 2 является величина
и для любых стратегий u(·), v(·) игроков в игре Γ(x0 , y0 , 1) справедливы соотношения:
K(u∗ (·), v(·)) ≤ K(u∗ (·), v ∗ (·)) ≤ K(u(·), v ∗ (·)).
Тем самым утверждение теоремы справедливо при N ≤ 1.
Предположим теперь, что утверждение теоремы справедливо при N ≤ n и докажем
ее для N = n + 1, т. е. для игры Γ(x0 , y0 , n + 1). Рассмотрим семейство игр Γ(x, y, n),
x ∈ Ux0 , y ∈ Vy0 . Обозначим через unxy (·), v nxy (·) ситуацию равновесия в игре Γ(x, y, n).
Тогда K(unxy (·), v nxy (·)) = V (x, y, n), где V (x, y, n) определено соотношениями (5.2.2).
Используя непрерывность функции f (x, y) и лемму п. 5.2.1, нетрудно доказать непре-
рывность функции V (x, y, n) по x, y. Определим стратегии un+1 (·), v n+1 (·) игроков в
игре Γ(x0 , y0 , n + 1) следующим образом:
min V (x, y, n) = V (un+1 (x0 , y, 1), y, n), y ∈ Vy0 .
x∈Ux0
Если maxy∈Vy0 minx∈Ux0 V (x, y, n) = V (un+1 (x0 , ỹ, 1), ỹ, n), то v n+1 (x0 , y0 , 1) = ỹ (для
x ̸= x0 , y ̸= y0 функции v n+1 (x, y, 1) и un+1 (x, y, 1) определим произвольно):
un+1 (·, k) = unx1 y1 (·, k − 1), k = 2, . . . , n + 1,
для любой стратегии v(·) игрока 2 в игре: Γ(x0 , y0 , n+1). Из соотношений (5.2.3)–(5.2.5)
следует справедливость утверждения теоремы для N = n + 1. Тем самым доказатель-
ство теоремы по индукции закончено.
Рассмотрим теперь игру Γ(x0 , y0 , N ), которая отличается от игры Γ(x0 , y0 , N ) тем,
что в ней сообщает свой выбор игрок 1. Таким образом, в игре Γ(x0 , y0 , N ) на каж-
дом шаге k игрок 2 кроме состояний xk−1 , yk−1 и шага k знает состояние xk ∈ Uxk−1 ,
выбранное игроком 1. Игрок 1 на каждом шаге k знает лишь xk−1 , yk−1 . Аналогично
теореме п. 5.2.5 можно показать, что в игре Γ(x0 , y0 , N ) существует ситуация равнове-
сия в чистых стратегиях и значение игры V (x0 , y0 , N ) удовлетворяет рекуррентному
уравнению
V (x0 , y0 , k) = max{f (x0 , y0 ), min max V (x, y, k − 1)},
x∈Ux0 y∈Vy0
′
V (x, y, 0) = ρ(x, y). (5.2.8)
Пример 3. Рассмотрим дискретную игру преследования, в которой множества Ux
представляют собой круги радиуса α с центром в точке x, а множества Vy — круги
радиуса β с центром в точке y (α > β). Это соответствует игре, в которой игрок 2
(убегающий) перемещается на плоскости со скоростью, не превосходящей β, а игрок 1
(преследователь) — со скоростью, не превосходящей α. Скорость преследователя пре-
восходит скорость убегающего, и игрок 1 ходит вторым. Игра такого типа называется
дискретной игрой «простое преследование» с дискриминацией убегающего игрока. Иг-
ра продолжается N шагов, и выигрыш игрока 2 равен расстоянию между игроками на
последнем шаге.
Найдем значение игры и оптимальные стратегии игроков, используя функциональ-
ное уравнение (5.2.7). Имеем
V (x, y, 1) = max
′
min
′
ρ(x′ , y ′ ). (5.2.9)
y ∈Vy x ∈Ux
= max
′
min
′
{max[0, ρ(x′ , y ′ ) − (m − 1)(α − β)]} =
y ∈Vy x ∈Ux
= max[0, max
′
min
′
{ρ(x′ , y ′ )} − (m − 1)(α − β)] =
y ∈Vy x ∈Ux
= max[0, max{0, ρ(x, y) − (α − β)} − (m − 1)(α − β)] = max[0, ρ(x, y) − m(α − β)],
что и требовалось доказать.
Если V (x0 , y0 , m) = ρ(x0 , y0 ) − m(α − β), т. е. ρ(x0 , y0 ) − m(α − β) > 0, то опти-
мальная стратегия игрока 2 диктует ему выбирать на k-м шаге игры точку yk пересе-
чения линии центров xk−1 , yk−1 с границей Vyk−1 , наиболее удаленную от xk−1 . Здесь
xk−1 , yk−1 — позиции игроков после (k − 1)-го шага, k = 1, . . . , N . Оптимальная стра-
тегия игрока 1 диктует ему на k-м шаге игры выбирать точку из множества Uxk−1 ,
наиболее близкую к точке yk . Если оба игрока действуют оптимально, то последова-
тельность выбранных точек x0 , x1 , . . . , xN , y0 , y1 , . . . , yN лежит на прямой, проходящей
через x0 , y0 . Если V (x0 , y0 , m) = 0, то оптимальная стратегия игрока 2 произволь-
на, а игрока 1 — та же. При этом после некоторого шага k выполняется равенство
maxy∈Vyk minx∈Uxk ρ(x, y) = 0. Поэтому, начиная с шага (k + 1), выбор игрока 1 повто-
ряет выбор игрока 2.
Многошаговые игры с неполной информацией детально изучены в работе
[Слобожанин, 2002].
1) CPt (x0 ), CE
t
(y0 ) определены при всяких x0 , y0 ∈ Rn , t0 , t ∈ [0, ∞) (t0 ≤ t) и явля-
ются компактными множествами пространства Rn ;
момент t = kδ (или выбор управлений u(·), v(·) на [(k − 1)δ, kδ] которым эти траектории
соответствуют согласно (5.3.1), (5.3.2)).
Игра Γδ2 (x0 , y0 , T ) отличается от игры Γδ1 (x0 , y0 , T ) тем, что на k-м шаге игрок P
выбирает xk ∈ CPδ (xk−1 ), зная xk−1 , yk−1 , а игрок E, зная, кроме того, xk , выбирает
yk ∈ CE δ
(yk−1 ).
Игра Γδ3 (x0 , y0 , T ) отличается от игры Γδ2 (x0 , y0 , T ) тем, что на 2n -м шаге игрок P
выбирает x2n ∈ CPδ (x2n −1 ), после чего игра заканчивается и игрок E получает выигрыш
ρ(x(T ), y(T − δ)), где x(T ) = x2n , y(T − δ) = y2n −1 .
5.3.3. Лемма. В играх Γδi (x0 , y0 , T ), i = 1, 2, 3, существуют ситуации равновесия
при всех x0 , y0 , T < ∞ и значение игры V alΓδi (x0 , y0 , T ) есть непрерывная функция по
x0 , y0 ∈ Rn . При всяком n ≥ 0 выполняется неравенство
при начальном условии V alΓδ1 (x, y, 0) = V alΓδ2 (x, y, 0) = ρ(x, y). Применяя последова-
тельно лемму п. 1.2.2, убеждаемся в справедливости неравенства (5.3.3).
5.3.4. Лемма. При любом целом n ≥ 0 справедливы неравенства:
δ
V alΓδ1n (x0 , y0 , T ) ≤ V alΓ1n+1 (x0 , y0 , T ),
δ
V alΓδ2n (x0 , y0 , T ) ≥ V alΓ2n+1 (x0 , y0 , T ),
где δk = T /2k
Доказательство. Покажем справедливость первого из неравенств. Второе неравен-
ство доказывается аналогично. Во избежание громоздкости обозначений будем далее
δk
полагать C k (yi ) = CE (yi ), C k (xi ) = CPδk (xi ), i = 0, 1, . . . , 2n − 1. Имеем
δ
V alΓ1n+1 (x0 , y0 , T ) =
δ
= max min max min V alΓ1n+1 (x2 , y2 , T − 2δn+1 ) ≥
y1 ∈C n+1 (y0 ) x1 ∈C n+1 (x0 ) y2 ∈C n+1 (y1 ) x2 ∈C n+1 (x1 )
δ
≥ max max min min V alΓ1n+1 (x2 , y2 , T − 2δn+1 ) =
y1 ∈C n+1 (y0 ) y2 ∈C n+1 (y1 ) x1 ∈C n+1 (x0 ) x2 ∈C n+1 (x1 )
δ
= max min V alΓ1n+1 (x1 , y1 , T − δn ).
y1 ∈C n (y0 ) x1 ∈C n (x0 )
= V alΓδ1n (x0 , y0 , T ).
§ 5.3. Существование ситуаций ε–равновесия 299
где δn = T /2n .
Доказательство. Фиксируем некоторое n ≥ 0. Пусть u(·), v(·) — пара стратегий в
игре Γδ2n (x0 , y0 , T ). Эта пара является таковой и в игре Γδ3n (x0 , y0 , T ). Пусть в ситуа-
ции u(·), v(·) реализуется последовательность x0 , x1 , . . . , x2n , y0 , y1 , . . . , y2n . Обозначим
функции выигрышей в играх Γδ2n (x0 , y0 , T ), Γδ3n (x0 , y0 , T ) как K2 (u(·), v(·)) = ρ(x2n , y2n ),
K3 (u(·), v(·)) = ρ(x2n , y2n −1 ) соответственно. Тогда
T −δn δn
Пусть y1δn ∈ CE
δn
(y0 ). Тогда CE (y1 ) ⊂ CE
T
(y0 ). Запишем неравенство (5.3.4) для игр
δn
с начальным состоянием x0 , y1 . Учитывая предыдущее включение, получим
V alΓδ2n (x0 , y1δn , T ) ≤ V alΓδ3n (x0 , y1δn , T ) + max max ρ(y, y ′ ). (5.3.5)
T (y ) y ′ ∈C δ (y)
y∈CE 0 E
t 0
В силу непрерывности по t функции CE (y) и выполнения условия CE (y) = y второе
слагаемое в (5.3.5) стремится к нулю при n → ∞. Обозначим его через ε1 (n). Из (5.3.5),
(5.3.6) получаем
V alΓ1δn (x0 , y0 , T ) ≥ V alΓδ2n (x0 , y1δn , T ) − ε1 (n). (5.3.7)
В силу непрерывности функции V alΓδ2n (x0 , y0 , T ) из (5.3.7) имеем неравенство
где x0 , y0 ∈ Rn . T < ∞.
Доказательство проведем от противного. Допустим, что утверждение леммы невер-
но, и предположим для определенности, что выполняется неравенство
σ′
lim V alΓσ1 n (x0 , y0 , T ) > lim V alΓ1 n (x0 , y0 , T ).
n→∞ n→∞
σ σ′
V alΓ1 m1 (x0 , y0 , T ) > V alΓ2 n1 (x0 , y0 , T ).
σ′ σ
V alΓσ2 (x0 , y0 , T ) ≤ V alΓ2 n1 (x0 , y0 , T ) < V alΓ1 m1 (x0 , y0 , T ) ≤ V alΓσ1 (x0 , y0 , T ).
Откуда
V alΓσ2 (x0 , y0 , T ) < V alΓσ1 (x0 , y0 , T ).
Это противоречит (5.3.3), следовательно, сделанное предположение неверно и утвер-
ждение леммы справедливо.
5.3.7. Теорема. При всех x0 , y0 , T < ∞ в игре Γ(x0 , y0 , T ) существует ситуация
ε-равновесия для любого ε > 0>0. При этом
K(x0 , y0 , uε (·), v(·)) − ε ≤ K(x0 , y0 , uε (·), vε (·)) ≤ K(x0 , y0 , u(·), vε (·)) + ε. (5.3.11)
§ 5.4. Дифференциальные игры преследования на быстродействие 301
Пусть uε (·) = (σ, auε ), v ε (·) = (σ, bvε ), где auε , bvε — оптимальные стратегии игроков P
и E, соответственно, в играх Γσ2 (x0 , y0 , T ) и Γσ1 (x0 , y0 , T ).
Тогда справедливы соотношения:
K(x0 , y0 , uε (·), v(·)) ≤ V alΓσ2 (x0 , y0 , T )
ε
< lim V alΓσ2 n (x0 , y0 , T ) + , v(·) ∈ E, (5.3.12)
n→∞ 2
K(x0 , y0 , u(·), v ε (·)) ≥ V alΓσ1 (x0 , y0 , T )
ε
> lim V alΓ1σn (x0 , y0 , T ) − , u(·) ∈ P. (5.3.13)
n→∞ 2
Из соотношений (5.3.12), (5.3.13) и теоремы 5.3.5, получаем
ε ε
− < K(x0 , y0 , uε (·), v ε (·)) − lim V alΓσ1 n (x0 , y0 , T ) < . (5.3.14)
2 n→∞ 2
Из (5.3.12)–(5.3.14) следует (5.3.11). В силу произвольности ε из (5.3.14) следует (5.3.10).
Теорема доказана.
5.3.8. Замечание. При доказательстве теоремы существования нигде не был ис-
пользован специфический вид выигрыша ρ(x(T ), y(T )). Существенной является лишь
непрерывная зависимость выигрыша от реализованных траекторий. Поэтому теорема
п. 5.3.7 остается справедливой, если вместо ρ(x(T ), y(T )) рассмотреть любой непре-
рывный функционал траекторий (x(t), y(t)). В частности, таким функционалом может
быть min0≤t<T ρ(x(t), y(t)) т. е. минимальное расстояние между игроками в процессе
игры. Поэтому результат данного параграфа остается в силе и для дифференциальной
игры преследования на достижение минимального результата с предписанной продол-
жительностью.
V (x0 , y0 , T ) = l (5.4.4)
Отсюда для любого T > 0 (сколь угодно большого) у игрока E найдется соответству-
ющая стратегия v T (·) ∈ E, которая гарантирует ему избежание l-встречи на отрезке
[0, T ]. Но тогда игрок P не имеет стратегии, которая бы гарантировала ему l-встречу с
игроком E за конечное время. В то же время нельзя утверждать, что игрок E обладает
стратегией, гарантирующей избежание l-встречи за любое время. Вопрос о нахожде-
нии начальных состояний, в которых такая стратегия существует, сводится к решению
игры качества для игрока E. Таким образом, при l < limT →∞ V (x0 , y0 , T ) можно лишь
утверждать, что значение игры Γ(x0 , y0 ), если оно существует, больше любого наперед
заданного T , т. е. равно +∞.
в) рассмотрим совместно со случаем 3).
Случай 2. Пусть T0 — единственный корень уравнения (5.4.4). Тогда из невозраста-
ния и непрерывности по T функции V (x0 , y0 , T ) следует, что
где K(u(·), v(·)) — функция выигрыша в игре Γ(x0 , y0 , T ). Тогда из (5.4.5), (5.4.6)
следует существование ε > 0 такого, что для любого ε < ε найдется число T̃ (ε),
T0 < T̃ (ε) ≤ T , для которого
lim tl+δ
n
k
(x0 , y0 ; uδε (·), v δε (·)) = V ′ (x0 , y0 , l).
ε→0,δk →0
δk = V (x0 , y0 , Tk ) − l ≥ 0.
Теорема доказана.
Рассмотрим теперь случай c) п. 5.4.3. Имеем: inf T V (x0 , y0 , T ) = l. Пусть Tk → ∞.
Тогда limk→∞ V (x0 , y0 , TK ) = l. Из монотонности и непрерывности V (x0 , y0 , T ) по T
следует, что последовательность {Tk } можно выбрать так, что в точках Tk функция
V (x0 , y0 , T ) строго монотонна. Тогда как и при доказательстве теоремы п. 5.4.4 можно
показать, что существует такая последовательность {δk }, что
для всех стратегий u(·) ∈ P игрока P . Из вида функции выигрыша K следует, что,
используя стратегию vε∗ (·), игрок E может гарантировать выполнение неравенства
min0≤t≤T0 ρ(x(t), y(t)) > l независимо от действий игрока P , т. е. в рассматриваемом
случае игрок E гарантирует избежание l-встречи на отрезке времени [0, T ] независимо
от действий игрока P .
Случай 2. Пусть T0 — минимальный корень уравнения V (x, y, T ) = l при фиксиро-
ванных x, y (если ρ(x, y) < l, то T0 полагаем равным 0). Тогда из определения V (x, y, T0 )
306 5. Антагонистические дифференциальные игры
следует, что в игре Γ(x, y, T0 ) для любого ε > 0 у игрока P существует стратегия u∗ε ,
гарантирующая выполнение неравенства
для всех стратегий v(·) ∈ E игрока E. Из вида функции выигрыша K следует, что,
используя стратегию u∗ε (·), игрок P может гарантировать выполнение неравенства
min0≤t≤T ρ(x(t), y(t)) ≤ l + ε независимо от действий игрока E. Продолжая произволь-
ным образом стратегию u∗ε (·) на отрезок [T0 , T ], получаем, что в случае 2 игрок P при
любом ε > 0 может гарантировать (l + ε)–встречу с игроком E за время T независимо
от действий последнего.
Фактически доказана следующая теорема (об альтернативе).
Теорема. Для любых x, y ∈ Rn , T > 0 справедливо, по крайней мере, одно из
следующих утверждений:
5.4.6. Для каждого фиксированного T > 0 все пространство Rn ×Rn делится на три
непересекающиеся области: область A = {x, y : V (x, y, T ) < l}, которую будем называть
зоной захвата; область B = {x, y : V (x, y, T ) > l}, которую естественно назвать зоной
избежания захвата, и область C = {x, y : V (x, y, T ) = l} — зона нейтрального исхода.
Пусть x, y ∈ A. По определению A, при любом ε > 0 игрок P обладает такой стра-
тегией u∗ε (·), что
K(x, y; u∗ε (·), v(·)) ≤ V (x, y, T ) + ε
при всех стратегиях v(·) игрока E. Выбрав подходящим образом ε > 0, можно обеспе-
чить выполнение неравенства:
Последнее означает, что стратегия u∗ε игрока P гарантирует ему l-встречу с игроком
E из начальных состояний x, y за время T .
В результате получаем следующее уточнение теоремы п. 5.4.5.
Теорема. Для любого фиксированного T > 0 все пространство делится на три
неперескающиеся области A, B, C, обладающие следующими свойствами:
всегда гарантирует получение выигрыша ρ̂T (x0 , y0 ). Точка М называется центром пре-
следования.
5.5.2. Пусть Γδ (x0 , y0 , T ) — дискретная игра преследования с шагом δ (δ = tk+1 −
tk ), предписанной продолжительностью T , дискриминацией игрока E и начальными
состояниями x0 , y0 . Тогда справедлива следующая теорема.
Теорема. Для того, чтобы для любых x0 , y0 ∈ Rn и T = δ · k, k = 1, 2, . . ., выпол-
нялось равенство:
ρ̂T (x0 , y0 ) = V alΓδ (x0 , y0 , T ), (5.5.2)
необходимо и достаточно, чтобы для всех x0 , y0 ∈ Rn , δ > 0 и T = δ · k, k = 1, 2, . . .,
выполнялось соотношение
Для всех x ∈ CPδ (x0 ) справедливо включение CPT −δ (x) ⊂ CPT (x0 ). Следовательно, для
T −δ
любых x ∈ CTδ (x0 ), y ∈ CE (y).
min ρ(x, y) ≥ min ρ(x, y).
T −δ T (x )
x∈CP
x∈CP (x) 0
и
min max min ρ(x, y) ≥ max min ρ(x, y).
δ (x ) T −δ T −δ T −δ T (x )
x∈CP 0 y∈CE (y) x∈CP (x) y∈CE (y) x∈CP 0
Лемма доказана.
Перейдем к доказательству теоремы.
Необходимость. Пусть выполняется условие (5.5.2) и не выполняется условие (5.5.3).
Тогда согласно лемме существуют такие δ > 0, x0 , y0 ∈ Rn , T0 = δk0 , k0 ≥ 1, что
ρ̂T0 (x0 , y0 ) < max min ρ̂T0 −δ (x, y). (5.5.4)
δ (y ) x∈C δ (x )
y∈CE 0 P 0
Обозначим v ∗ (·) = {σ, v ∗ (t)}, где разбиение σ отрезка [0, T ] состоит из двух точек t0 =
0, t1 = T . Очевидно, что v ∗ (·) ∈ E. Согласно теореме п.1.3.4, v ∗ (·) ∈ E — оптимальная
стратегия игрока E в игре Γ(x0 , y0 , T ), если
V alΓ(x0 , y0 , T ) = inf K(u(·), v ∗ (·); x0 , y0 , T ).
u(·)∈P
Лемма доказана.
Теорема. Для того чтобы при любых x0 , y0 ∈ Rn , T > 0 в игре Γ(x0 , y0 , T ) игрок E
имел оптимальную программную стратегию, необходимо и достаточно, чтобы для
любых δ > 0, x0 , y0 ∈ Rn , T ≥ δ, выполнялось равенство
ρ̂T (x0 , y0 ) = max min ρ̂T −δ (x, y). (5.5.7)
δ (y ) x∈C δ (x )
y∈CE 0 P 0
где функции fi (x, u), gi (y, v), i = 1, . . . , n определяют закон движения игроков в игре Γ
(см. (5.3.1), (5.3.2)).
Предположим, что (5.6.1) не выполняется в некоторой точке (x, y, T ) ∈ Ω. Пусть,
для определенности,
∂ p̂ ∑n
∂ ρ̂ ∑n
∂ ρ̂
− max gi (y, v) − min fi (x, u) < 0
∂T v∈V
i=1
∂yi u∈U
i=1
∂xi
∑n
∂ ρ̂ ∑n
∂ ρ̂
gi (y, v) = max gi (y, v).
i=1
∂yi v∈V
i=1
∂yi
∂ ρ̂ ∑ ∂ ρ̂ ∑
n n
∂ ρ̂
− gi (y, v) − fi (x, u) < 0. (5.6.2)
∂T i=1
∂yi i=1
∂xi
Определим функцию
∂ ρ̂ ∑n
∂ ρ̂
G(τ ) = |(x(τ ),y(τ ),T −τ ) − |(x(τ ),y(τ ),T −τ ) gi (y(τ ), v)−
∂T i=1
∂y i
∑n
∂ ρ̂
− |(x(τ ),y(τ ),T −τ ) fi (x(τ ), u(τ )), τ ∈ [0, δ].
i=1
∂x i
Функция G(τ ) непрерывна по τ , поэтому найдется число c < 0, такое, что G(τ ) ≤ c при
τ ∈ [0, δ]. Отсюда имеем
∫ δ
G(τ )dτ ≤ cδ. (5.6.3)
0
Нетрудно убедиться в том, что
dρ̂
G(τ ) = − |(x(τ ),y(τ ),T −τ ) .
dτ
Из (5.6.3) получаем
ρ̂T (x, y) − ρ̂T −δ (x(δ), y(δ)) ≤ cδ.
Отсюда, учитывая c < 0, в силу произвольности u(t) следует
∂V ∑n
∂V ∑n
∂V
= max gi (y, v) + min fi (x, u) (5.6.4)
∂T v∈V
i=1
∂y i u∈U
i=1
∂x i
при начальном условии V (x, y, T )|T =0 = ρ(x, y). Предположим, что каким-то образом
удается определить u, v, доставляющие max и min в (5.6.4) как функции от x, y и ∂V ∂x ,
∂V
∂y , т. е.
( ∂V ) ( ∂V )
u = u x, , v = v y, . (5.6.5)
∂x ∂y
Подставляя выражения (5.6.5) в (5.6.4), получаем
∑ ( ) ∑ ( )
n
∂V ( ∂V )
n
∂V ( ∂V ) ∂V
gi y, v y, + fi x, u x, = (5.6.6)
i=1
∂yi ∂y i=1
∂x i ∂x ∂T
при условии
V (x, y, T )|T =0 = ρ(x, y). (5.6.7)
Таким образом, для определения V (x, y, T ) имеем задачу Коши для уравнения в
частных производных первого порядка (5.6.6) при начальном условии (5.6.7).
312 5. Антагонистические дифференциальные игры
где tln (x, y; u(t), v(t)) — время сближения на l-расстояние игроков P и E, движущихся
из начальных точек x, y при использовании измеримых программных управлений u(t)
и v(t) соответственно. Предположим также, что функция в θ(x, y, l) непрерывна по
совокупности аргументов.
Игру на быстродействие будем обозначать как Γ(x0 , y0 ). Так же, как это было сде-
лано в § § 5.4, 5.5, можно вывести необходимые и достаточные условия существования
оптимальной программной стратегии игрока E в игре преследования на быстродей-
ствие. Справедлива следующая теорема.
Теорема. Для того чтобы игрок E при любых x0 , y0 ∈ Rn в игре Γ(x0 , y0 ) имел
оптимальную программную стратегию, необходимо и достаточно, чтобы при любом
δ > 0 и любых x0 , y0 ∈ Rn
∑n
∂θ ∑n
∂θ
max gi (y, v) + min fi (x, u) = −1 (5.6.8)
v∈V
i=1
∂y i u∈U
i=1
∂x i
∑ ( n )
∂ ∑ ∂V
l
∂v q
− gi = 0, k = 1, . . . , n. (5.6.12)
i=1
∂vq i=1 ∂yi ∂xk
Для каждой фиксированной точки (x, y, T ) ∈ Rn × Rn × [0, ∞) максимизирующее зна-
чение v и минимизирующее значение u в (5.6.4) лежат либо внутри, либо на границе
области ограничений. Если это внутренняя точка, то
(∑ ) ( n )
∂ ∑ ∂V
n
∂ ∂V
fi |u=u = 0, gi |v=v = 0.
∂um i=1 ∂xi ∂vq i=1 ∂yi
Если же u(v) лежит на границе, то здесь могут представиться два случая. Исследуем
их подробно для одной из компонент um (x, ∂V ∂x ) вектора u. Исследование остальных
компонент вектора u и компонент вектора v проводится аналогично. Дня простоты
предположим, что в некоторой точке (x′ , y ′ , T ′ )
( ′ ′ ′
)
′ ∂V (x , y , T )
u m = um x , = am .
∂x
Случай 1. Существует шар в пространстве Rn с центром в точке x′ , для всех точек
x которого выполняется равенство:
( )
∂V (x, y ′ , T ′ )
um = um x, = am .
∂x
314 5. Антагонистические дифференциальные игры
∂B ∂2V ∑ ∂2V n
= − fi (x, u)−
∂xk ∂T ∂xk i=1 ∂xi ∂xk
∑n
∂V ∂fi ∑
n
∂2V
− − gi (y, v) = 0, k = 1, 2, . . . , n.
i=1
∂xi ∂xk i=1 ∂yi ∂xk
∑n
∂V (x(t), y(t), T − t) ∂fi (x(t), ũ(t))
− −
i=1
∂xi ∂xk
∑n
∂ 2 V (x(t), y(t), T − t)
− gi (y(t), ṽ(t)) = 0, k = 1, . . . , n, (5.6.13)
i=1
∂yi ∂xk
где ( )
∂V (x(t), y(t), T − t)
ũ(t) = u x(t), ,
∂x
( )
∂V (x(t), y(t), T − t)
ṽ(t) = v y(t), .
∂y
§ 5.6. Основное уравнение 315
Однако,
( ) ∑ n
d ∂V (x(t), y(t), T − t) ∂ 2 V (x(t), y(t), T − t)
= fi (x(t), ũ(t))+
dt ∂xk i=1
∂xk ∂xi
∑n
∂ 2 V (x(t), y(t), T − t)
+ gi (y(t), ṽ(t))−
i=1
∂xk ∂yi
∂ 2 V (x(t), y(t), T − t)
− , k = 1, . . . , n. (5.6.14)
∂xk ∂T
Заметим, что у дважды непрерывно дифференцируемой функции можно менять поря-
док дифференцирования. Перепишем (5.6.13) с учетом (5.6.14) в виде
( ) ∑n
d ∂V (x(t), y(t), T − t) ∂V (x(t), y(t), T − t) ∂fi (x(t), ũ(t))
=− , k = 1, . . . , n.
dt ∂xk i=1
∂xi ∂xk
◦ ∑
n
∂gi (y, v)
V yk = Vy i , (5.6.16)
i=1
∂yk
◦
V T = 0.
При задании начальных условий для системы (5.6.16) используется соотношение
V (x, y, T )|T =0 = H(x, y). Пусть x|τ =0 = s, yτ =0 = s′ . Тогда
∂H
Vxi |τ =0 = |x=s,y=s′ ,
∂xi
∂H
Vyi |τ =0 = |x=s,y=s′ , (5.6.17)
∂yi
∑
n ∑
n
VT |τ =0 = Vyi |τ =0 gi (s′ , v(s′ , Vy |τ =0 )) + Vxi |τ =0 fi (s, u(s, Vx |τ =0 )).
i=1 i=1
и оптимальные стратегии в игре Γδ (x, y, T ) при достаточно малых δ могут быть эф-
фективно использованы для построения ситуаций ε-равновесия в игре Γ(x, y, T ).
5.7.2. Идея численного метода состоит в построении алгоритма нахождения реше-
ния игры Γδ (x, y, T ). Перейдем непосредственно к изложению метода.
Нулевое приближение. За нулевое приближение функции значения игры Vδ (x, y, T )
принимаем функцию
Vδ0 (x, y, T ) = max min ρ(ξ, η), (5.7.1)
T (y) ξ∈C T (x)
η∈CE P
Выбор функции Vδ0 (x, y, T ) в качестве начального приближения оправдан тем, что в
достаточно широком классе игр (так называемый регулярный случай) она оказывается
значением игры Γ(x, y, T ). Следующие приближения строятся по правилу:
...
Для всех ξ ∈ CPδ (x) справедливо: CPT −δ (ξ) ⊂ CPT (x). Для любых η ∈ CE
T −δ
(η), ξ ∈ CPδ (x)
имеем
min ρ(ξ, η) ≥ min ρ(ξ, η).
T −δ T (x)
ξ∈CP (ξ) ξ∈CP
Следовательно,
Равенство (5.7.4) легко получить из построения последовательности {Vδk (x, y, T )}. Дей-
ствительно,
VδN (x, y, T ) = max min VδN +1 (ξ 1 , η 1 , T − δ) =
η 1 ∈CE
δ (y) ξ 1 ∈C δ (x)
P
Аналогично имеем
VδN +1 (x, y, T ) =
= max min max ... max min Vδ2 (ξ N −1 , η N −1 , T − (N − 1)δ).
η1 ∈CE
δ (y) ξ 1 ∈C δ (x) η 2 ∈C δ (η 1 )
P E η N −1 ∈CE
δ (η N −2 ) ξ N −1 ∈C δ (ξ N −2 )
P
что и является достаточным условием для того, чтобы функция Vδ (x, y, T ) была зна-
чением игры Γδ (x, y, T ).
5.7.6. Приведем модификацию метода последовательных приближений, изложен-
ного выше.
В качестве начального приближения возьмем функцию Ṽδ0 (x, y, T ) = Vδ0 (x, y, T ), где
0
Vδ (x, y, T ) определена равенством (5.7.1). Следующие приближения строим по правилу:
При i = 1, имеем
Vδ (x, y, T ) = max min Vδ (ξ, η, T − δ),
δ (y) ξ∈C δ (x)
η∈CE P
Однако,
max min Vδ (ξ, η, T −δ) = max min max max min Vδ (ξ, η, T −(i+1)δ) ≥
δ (y) ξ∈C δ (x)
η∈CE δ (y) ξ∈C δ (x) i∈[1:N −1] η∈C iδ (η)
η∈CE iδ (ξ)
P P E ξ∈CP
T
где CE (y) = S(y, βT ) — шар в Rn радиуса βT с центром в точке y, аналогично CPT (x) =
S(x, αT ). Тем самым согласно лемме п. 5.5.3 у игрока E в игре Γ(x0 , y0 , T ) существует
оптимальная программная стратегия v ∗ (t), t ∈ [0, T ], которая приводит траекторию
игрока в точку y ∗ ∈ CE T
(y0 ), для которой
Очевидно, {
y0 −x0
∗ ∗ ∥y0 −x0 ∥ , приy0 ̸= x0 ,
v (t) ≡ v =
v, приy0 = x0 ,
где v ∈ Rn — произвольный вектор такой, что ∥v∥ = 1. Из результатов 5.6 следует, что
в области ∆
∆ = {(x, y, T ) : ∥x − y∥ − T (α − β) > 0},
где существуют непрерывные частные производные
∂V ∂V ∂V x−y
= −(α − β), =− = ,
∂T ∂x ∂y ∥x − y∥
∂V ∂V ∂V
− α min ( , u) − β max ( , v) = 0. (5.8.3)
∂T ∥u∥<1 ∂x ∥v∥≤1 ∂y
∂V ∂V
y−x
u(x, ) = − ∂V
∂x
= ; (5.8.4)
∂x ∥ ∂x ∥ ∥y − x∥
∂V
∂V ∂y y−x
v(y, ) = ∂V = . (5.8.5)
∂y ∥ ∂y ∥ ∥y − x∥
β −kE T
RE (T ) = 2 (e + kE T − 1)
kE
с центром в точке
1 − e−kE T
b(r0 , s0 , T ) = r0 + sO .
kE
Для величины ρ̂T (q 0 , p0 , r0 , s0 ), определяемой соотношением (5.5.1), в данной диф-
ференциальной игре выполняется равенство
∑2
∂ ρ̂ ∑2
∂ ρ̂
−β max vi − α min ui = 0. (5.8.11)
∥v∥≤1
i=1
∂si ∥u∥≤1
i=1
∂pi
§ 5.9. Игры преследования с задержкой информации у преследователя 323
Вычисляя частные производные (5.8.10), убеждаемся, что функция ρ̂T (q, p, r, s) в об-
ласти Ω удовлетворяет уравнению (5.8.14). Отметим, что величина ρ̂T (q 0 , p0 , r0 , s0 ) яв-
ляется значением дифференциальной игры (5.8.6)–(5.8.8), а управления, определяемые
соотношениями (5.8.12), (5.8.13), оптимальные в области Ω.
Из формул (5.8.12), (5.8.13), (5.8.9) находим
−kE T −kP T
ri − qi + si 1−ekE − pi 1−ekP
ui = √∑ , v i = ui , i = 1, 2. (5.8.15)
2 1−e−kE T 1−e−kP T 2
(r
i=1 i − q i + si kE − pi kP )
ẋ = f (x, u), u ∈ U ⊂ Rp , x ∈ Rn ,
где x(t), y(t) — решение системы (5.9.1) при начальных условиях x0 , y0 в ситуации
(u(·), v(·)), и ρ — евклидово расстояние.
5.9.3. Можно на простейших примерах показать, что в рассматриваемой игре
Γ(x0 , y0 , T ) ситуации ε–равновесия существуют не для всех чисел ε > 0. Поэтому для
построения ситуаций равновесия воспользуемся подходом, предложенным Ф. Нейма-
ном и О. Моргенштерном для конечных позиционных игр с неполной информацией
[Фон Нейман и Моргенштейн, 1970]. Расширим пространства стратегий игроков P и E
до так называемых смешанных кусочно-программных стратегий поведения (СКПСП),
которые предполагают возможность случайного выбора управления на каждом шаге.
§ 5.9. Игры преследования с задержкой информации 325
для P : ẋ = u, ∥u∥ ≤ α,
Выигрыш игрока E равен ρ(x(T ), y(T )), где x(t), y(t) — решение системы (5.9.3)
при начальных условиях x(t0 ) = x0 , y(t0 ) = y0 . Игрок P в течение игры знает лишь
начальное состояние y0 противника, а игрок E имеет полную информацию о состоянии
игрока P (l = T ).
Пусть v(x, y, t) — некоторая кусочно-программная стратегия игрока E. Для каж-
дой стратегии v существует стратегия u(x, t) игрока P , использующая только ин-
формацию о начальном положении игрока E, своем текущем положении и времени,
прошедшем с момента начала игры, гарантирующая выигрыш ρ(x(T ), y(T )) ≤ ε при
T ≥ ρ(x0 , y0 )/(α − β). Действительно, пусть u∗ (x, y, t) — стратегия игрока P в игре
с полной информацией, имеющая следующую структуру: до момента встречи tn осу-
ществляется погонное преследование игрока Е, а при tn ≤ t ≤ T точка x(t) сохраняется
в некоторой ε-окрестности убегающей точки. Такая стратегия в игре с полной инфор-
мацией может быть легко описана аналитически (см. пример 4 п. 5.8.1). Построим
траектории x(t), y(t) движения игроков в ситуации (u∗ (x, y, t), v(x, y, t)) из начальных
состояний x0 , y0 . Для этого достаточно проинтегрировать систему
где sup inf берется по множествам стратегии игроков в игре с неполной информацией.
Вместе с тем для любой стратегии u(x, t) игрока P можно построить такую стра-
тегию v(x, y, t) для игрока E, что в ситуации (u(x, t), v(x, y, t)) выигрыш ρ игрока E
превзойдет βT . Действительно, пусть u(x, t) — некоторая стратегия игрока P . Так как
его движение не зависит от y(t), то траектория движения игрока P может быть полу-
чена интегрированием системы
где inf sup берется по множествам стратегий игроков в игре с неполной информацией.
Из (5.9.5) и (5.9.7) следует, что значение игры в классе чистых стратегий в рассмат-
риваемой игре не существует.
5.9.4. Определение. Под смешанной кусочно-программной стратегией поведе-
ния (СКПСП) игрока P будем понимать пару µ(·) = {τ, d}, где τ — произвольное
разбиение отрезка времени [0, T ] конечным числом точек 0 = t1 < t2 < . . . < tk = T , а
d — отображение, ставящее в соответствие состоянию x(ti ), y(ti − l), ti при ti > l и
состоянию x(ti ), y0 , ti при ti ≤ l вероятностное распределение µ′i (·), сосредоточенное
на конечном числе измеримых программных управлений u(t) при t ∈ [ti , ti+1 ).
Аналогично под СКПСП игрока E будем понимать пару ν(·) = {σ, c}, где σ — произ-
вольное разбиение отрезка времени [0, T ] конечным числом точек 0 = t′1 < t′2 < . . . <
t′s = T , а c — отображение, ставящее в соответствие состоянию x(t′i ), y(t′i ), t′i ве-
роятностное распределение νi′ (·), сосредоточенное на конечном числе измеримых про-
граммных управлений v(t) при t ∈ [ti , ti+1 ).
СКПСП игроков P и E будем обозначать соответственно через P и E (ср. со «стра-
тегиями поведения» п. 4.8.3).
Каждая пара СКПСП µ(·), ν(·) индуцирует распределение вероятностей на про-
странстве траекторий x(t), x(0) = x0 ; y(t), y(0) = y0 . Поэтому под выигрышем
K(x0 , y0 ; µ(·), ν(·)) в СКПСП будем понимать математическое ожидание выигрыша
K(x0 , y0 ; µ(·), ν(·)), усредненное по распределениям на пространствах траекторий, ко-
торые индуцируются СКПСП µ(·), ν(·). Определив пространства стратегий P , E и вы-
игрыш K, мы определили смешанное расширение Γ(x0 , y0 , T ) игры Γ(x0 , y0 , T ).
5.9.5. Обозначим через CPT (x) и CE T
(y) соответственно множества достижимости
T
игроков P и E из начальных состояний x и y в момент времени T , и через C E (y)
T
выпуклую оболочку множества CE (y). Предположим, что множества достижимости
компактны, и введем в рассмотрение величину
T
Пусть γ(y, T ) = ρ(ỹ, y), где ỹ ∈ C E (y), y ∈ CE
T
(y). Из определения точки ỹ следует,
T
что она является центром минимальной сферы, содержащей множество CE (y). Отсюда
получаем, что эта точка единственна. В то же время существуют по крайней мере
T
две точки касания множества CE (y) с минимальной содержащей его сферой, которые
совпадают с точками y.
Пусть y(t) — некоторая траектория (y(0) = y0 ) игрока E при 0 ≤ t ≤ T . При пере-
мещении игрока E вдоль этой траектории величина γ(y(t), T − t) изменяется, меняется
также и точка ỹ. Пусть ỹ(t) — траектория точки ỹ, соответствующая траектории y(t).
§ 5.9. Игры преследования с задержкой информации 327
T −l
Назовем точку M ∈ CE (y0 ) центром преследования, если
T
Γ(y, T ) = ⟨C E (y), CE
T
(y), ρ(y ′ , y ′′ )⟩.
Левая часть неравенства (5.9.8) следует из определения стратегии uε (·), в силу которого
для любой кусочно-программной стратегии u(·) ∈ P
Обозначим через x∗ (t) траекторию преследователя в ситуации (uε (·), ν∗ (·)). Тогда
∑
n+1
K(x0 , y0 ; uε (·), ν∗ (·)) = pi ρ(x∗ (T ), y i (M )). (5.9.10)
i=1
l
Пусть R — радиус минимальной сферы, содержащей множество CE (M ), т. е. R =
∗
γ(M, l). Тогда R − ε/2 ≤ ρ(x (T ), y i (M )) ≤ R + ε/2 для всех i = 1, . . . , n + 1, поскольку
∑n+1
точка x∗ (T ) принадлежит ε/2-окрестности точки y(M ). Так как i=1 pi = 1, pi ≥ 0,
из (5.9.10) получаем
∑
n+1
pi ρ(x(T ), y i (M )) ≥ γ(y(T − l), l) = V alΓ(y(T − l), l) ≥
i=1
∫
≥ ρ(y[y(T − l)], y)dQ, (5.9.12)
l (y(T −l))
CE
ε
ρ(x(T ), y) ≤ + ρ(y[y(T − l)], y) ≤ R + ε/2. (5.9.13)
2
Из неравенства (5.9.11)–(5.9.13) вытекает, что
∫
K(x0 , y0 ; uε (·), ν∗ (·)) ≥ ρ(x(T ), y)dQ − ε. (5.9.14)
l (y(T −l))
CE
Однако ∫
ρ(x(T ), y)dQ = K(x0 , y0 ; uε (·), ν(·)). (5.9.15)
l (y(T −l))
CE
§ 5.10. Упражнения и задачи 329
Из формул (5.9.14) и (5.9.15) получаем правую часть неравенства (5.9.8). Теорема до-
казана.
При T < l решение игры существенно не отличается от случая T ≥ l и теорема
l
сохраняет силу, если вместо CE l
(y0 ), C E (y0 ), γ(M, l), y(T − l), y0 рассматривать CE
T
(y0 ),
T
C E (y0 ), γ(M, T ).
Диаметр множества CE l
(M ) стремится к нулю при l → 0, что, в свою очередь, вызы-
вает стремление к нулю значения вспомогательной игры Γ(M, l). Однако значение этой
вспомогательной игры равно значению Vl (x0 , y0 , T ) игры преследования с задержкой
информации Γ(x0 , y0 , T ) (здесь индекс l означает время задержки информации). Сме-
шанная оптимальная стратегия игрока E в Γ(M, l), сосредоточивающая свою массу на
l
не более чем в n + 1 точке из CE (M ), в пределе сосредоточивает всю массу в одной
точке M , т. е. превращается в чистую стратегию. Это вполне согласуется с тем, что
при l → 0 игра Γ(x0 , y0 , T ) превращается в игру с полной информацией.
Пример 7. Уравнения движения имеют вид
Теперь выберем управление для игрока P . Проведем через точку P прямую CC ′ (|C ′ P | =
|P C| = R), перпендикулярную вектору скорости преследования. По своему желанию игрок P
выбирает мгновенный центр кривизны своей траектории в любой точке, например, в точке C1 ,
лежащей на этой прямой вне интервала C ′ C.
Управление u будем считать равным по абсолютной величине R/|P C1 |, положитель-
ным для точек C1 , лежащих слева от P , и отрицательным — справа от P ; таким образом,
−1 ≤ u ≤ 1. Доказать, что уравнения движения имеют следующий вид:
x˙1 = ω1 sinϑ, x˙2 = ω1 cosϑ,
y˙1 = ω2 sinψ, y˙2 = ω2 cosψ,
ϑ̇ = ω1 /Ru.
10. (Игра «шофер-убийца». Понижение размерности.) Предположим, что на плоскости вы-
брана подвижная система координат, связанная с автомобилем P . Координаты пешехода y1 , y2
можно рассматривать в этой системе как составляющие единственного переменного вектора
x; ось x2 будем считать всегда направленной вдоль вектора скорости автомобиля.
Пусть игрок P в момент t выбирает центр кривизны своей траектории в точке C = (R/u, 0)
и пусть расстояние CE равно d (рис. 5.2). Тогда вращение игрока P вокруг точки C эквива-
лентно вращению x вокруг C в противоположном направлении, но с той же угловой скоростью.
Таким образом, вектор x движется со скоростью, равной по модулю ω1 (du/R), в направлении,
перпендикулярном CE. Составляющие его скорости получаются умножением модуля соответ-
ственно на −x2 /d и (x1 − R/ψ)/d.
Показать, что уравнения движения имеют вид:
x˙1 = − ωR1 x2 u + ω2 sinψ, x˙2 = ω1
R 1
x u− ω1 + ω2 cosψ,
−1 ≤ u ≤ +1, 0 ≤ ψ ≤ 2Π.
√
11. Пусть a и b — такие числа, что ρ = a2 + b2 > 0. Показать, что max(acosψ + bsinψ)
ψ
достигается на таком ψ̄, что cosψ̄ = a/ρ, sinψ̄ = b/ρ и этот максимум равен ρ.
12. Записать и проиллюстрировать уравнение (5.6.6) для игры на «перетягивание»
x˙1 = u + v, |u| ≤ α, x˙2 = u + v, |v| ≤ β, x(0) = x0 ,
с терминальным выигрышем ρ(x(T ), A), где A — некоторая точка, A ∈ R2 , лежащая вне
множества достижимости системы к моменту времени T из начального состояния x0 .
332 5. Антагонистические дифференциальные игры
13. Записать явные выражения для оптимальных стратегий в игре упр. 12 и для ее мо-
дификации, когда продолжительность игры не фиксируется заранее, а выигрыш игрока E
полагается равным времени попадания в начало координат.
14. Доказать, что множество достижимости управляемой системы
x˙1 = u1 , |u1 | ≤ α1 ,
˙2
x =u , 2
|u2 | ≤ α2 ,
x1 , x2 , y ∈ R2 , β < min{α1 , α2 },
ẏ = v, |v| ≤ β, u1 , u2 , v ∈ R2 ,
x (0) = x10 , x2 (0) = x20 , y(0) = y0 .
1
Выигрыш игрока E равен min ρ(xi (T ), y(T )), т. е. игрок E заинтересован в максимизации
i=1,2
расстояния до ближайшего из преследователей к моменту окончания игры.
Построить множества достижимости игроков и геометрически определить максиминное
расстояние ρ̂T (x10 , x20 , y) между этими множествами.
20. Обобщить теорему п. 5.5.9 на случай, когда в преследовании участвуют несколько
преследователей P1 , . . . , Pm , действующих как один игрок, и один убегающий игрок E.
Глава 6
Неантагонистические
дифференциальные игры
∫ t
∗
x (t) = x0 + f [s, x∗ (s) , ϕ∗ (s, x∗ (s))] ds, t ∈ [t0 , T ]. (6.1.4)
t0
при условии
1/2
ẋ (s) = a − u (s) (x (s)) , x (0) = x0 , u (s) ≥ 0, (6.1.6)
при условии
ẋ (s) = f [x (s) , u (s)] , x (t0 ) = x0 . (6.1.9)
Параметр s не входит явным образом в g [x (s) , u (s)], f [x (s) , u (s)]. Такие задачи
называются автономными задачами управления. Рассмотрим теперь семейство задач
подобного рода из любых начальных состояний, т. е. задачу
∫ ∞
max g [x (s) , u (s)] exp [−r (s − t)] ds, (6.1.10)
u t
при условии
ẋ (s) = f [x (s) , u (s)] , x (t) = x. (6.1.11)
Задача (6.1.10)–(6.1.11) не зависит от выбора начального момента времени t, а за-
висит лишь от состояния, в котором система находится в данный момент, а именно
от x.
Определим теперь функцию значений или функцию Беллмана для задачи (6.1.8)–
(6.1.9) по аналогии с предыдущим случаем по формуле
{∫ ∞ }
V (t, x) = max ∗
g [x (s) , u (s)] exp [−r (s − t0 )] ds x (t) = x = xt ,
u t
V (t, x) =
{∫ ∞
= exp [−r (t − t0 )] max g [x (s) , u (s)] exp [−r (s − t)] ds,
u t
x (t) = x = x∗t } .
Поскольку задача
{∫ }
∞
max g [x (s) , u (s)] exp [−r (s − t)] ds x (t) = x = x∗t
u t
Как и раньше будем обозначать x∗ (t) через x∗t . Оптимальное программное управление в
задаче на бесконечном промежутке времени (6.1.8) представимо в виде функции ϕ∗ (x∗t ),
t ∈ [t0 , ∞).
6.1.4. Пример 2. Рассмотрим задачу оптимального управления на бесконечном про-
межутке времени ∫ ∞ [ ]
2
max exp [−rs] −x (s) − cu (s) ds (6.1.14)
u 0
при условии (6.1.6).
Используя теорему п. 6.1.3, получаем
{[ ] [ ]}
rW (x) = max −x − cu2 + Wx (x) a − ux1/2 . (6.1.15)
u
−A (x∗t )
1/2
ϕ∗ (x∗t ) = .
2c
Также представляется интересным рассмотрение задачи оптимального управления
(6.1.1), (6.1.2) на промежутке [t0 , T ], где T — случайная величина с известной функцией
распределения F (t), t ∈ [t0 ; ∞) [Шевкопляс, 2009].
H (t, x, u∗ ) + Vt (t, x) ≡ 0,
∂u∗
[gu (t, x, u∗ ) + Vx (t, x) fu (t, x, u∗ )] = 0,
∂x
поскольку из оптимальности следует ортогональность векторов
[gu (t, x, u∗ ) +Vx (t, x) fu (t, x, u∗ )] и ∂u∗ /∂x ( в отдельных случаях может быть да-
же ∂u∗ /∂x = 0). Выражение
dVx (t, x)
+ gx (t, x, u∗ ) + Vx (t, x) fx (t, x, u∗ ) = 0.
dt
Вводя сопряженный вектор Λ (t) = Vx∗ (t, x∗ ), где x∗ — траектория, соответствую-
щая управлению u∗ , получаем
dVx (t, x∗ ) ∂
=Λ̇ (s)= − {g [s, x∗ (s) , u∗ (s)]+Λ (s) f [s, x∗ (s) , u∗ (s)]} .
dt ∂x
И, наконец, граничные условия для Λ (t) определяются из граничного условия для
задачи оптимального управления и теоремы п. 6.1.1
∂V (T, x∗ ) ∂q (x∗ )
Λ (T ) = = .
∂x ∂x
Таким образом, теорема доказана.
6.2.2. Пример 3. Рассмотрим задачу, содержащуюся в примере 1 п. 6.1.2. Используя
теорему п. 6.2.1 найдем управление u (s) из условия
{[ ] [ ]}
arg max −x∗ (s) − cu (s) exp [−rs] + Λ (s) a − u (s) x∗ (s)
2 1/2
.
u
−Λ (s) x∗ (s)
1/2
u∗ (s) = exp [rs] . (6.2.1)
2c
340 6. Неантагонистические дифференциальные игры
где
√ √
1 1
θ1 = r − r 2 + , θ2 = r + r 2 + ;
c c
[∫ s ]
ϖ (0, s) = exp H (τ ) dτ ,
0
( [ ])
q − 2cθ1 θ1 − θ2
H (τ ) = θ1 − θ2 exp (T − τ ) :
q − 2cθ2 2
( [ ])
q − 2cθ1 θ1 − θ2
: 1− exp (T − τ ) .
q − 2cθ2 2
Введем функцию λ (t) = Λ (t) exp [r (t − t0 )]. Тогда формула для текущего значения
гамильтониана принимает вид
ζ ∗ (s, xt )≡u∗ (s)=arg max {g [x∗ (s) , u (s)]+λ (s) f [x∗ (s) , u (s)]} ,
u
ẋ∗ (s) = f [x∗ (s) , u∗ (s)] , x∗ (t) = xt ,
∂
λ̇ (s) = rλ (s) − {g [x∗ (s) , u∗ (s)] + λ (s) f [x∗ (s) , u∗ (s)]} .
∂x
Пример 4. Рассмотрим задачу, предложенную в примере 2, на бесконечном проме-
жутке времени. Используя теорему п. 6.1.3, получаем
ζ ∗ (s, xt ) ≡ u∗ (s) =
{[ ] [ ]}
= arg max −x∗ (s) − cu (s) + λ (s) a − u (s) x∗ (s)
2 1/2
,
u
−λ (s) x∗ (s)
1/2
u∗ (s) = .
2c
Подставляя u∗ (s) в (6.2.5), получаем
λ (s) ∗
ẋ∗ (s) = a + u (s) x∗ (s) , x∗ (t) = xt ,
2c[ ]
1 2
λ̇ (s) = rλ (s) + 1 − λ (s) . (6.2.6)
4c
Решая (6.2.6) аналогично тому как мы делали в примере 3 п. 6.2.2, получаем явные
выражения для x∗ (s) и λ (s).
Подставляя эти выражения в u∗ (s), получаем оптимальное решение нашей задачи.
для i ∈ N = {1, 2, . . . , n} ,
6.3.3. Определение. Набор стратегий (ситуация){υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)} обра-
зует равновесие по Нэшу в дифференциальной игре (6.3.1)–(6.3.2) n лиц, если следу-
ющие неравенства выполнены для всех υi (s) ∈ U i , i ∈ N
∫ T
g 1 [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] ds + q 1 (x∗ (T )) ≥
t0
∫ T [ ] ( )
≥ g 1 s, x[1] (s) , υ1 (s) , υ2∗ (s) , . . . , υn∗ (s) ds + q 1 x[1] (T ) ,
t0
∫ T
g 2 [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] ds + q 2 (x∗ (T )) ≥
t0
∫ T [ ] ( )
≥ g 2 s, x[2] (s) , υ1∗ (s) , υ2 (s) , υ3∗ (s) , . . . , υn∗ (s) ds + q 2 x[2] (T ) ,
t0
.. ..
. .
.. ..
. .
∫ T
g n [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] ds + q n (x∗ (T )) ≥
t0
∫ T [ ] ( )
≥ g n s, x[n] (s) , υ1∗ (s) , . . . , υn−1
∗
(s) , υn (s) ds + q n x[n] (T ) ;
t0
344 6. Неантагонистические дифференциальные игры
ẋ∗ (s) = f [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] , x∗ (t0 ) = x0 ,
[ ]
ẋ[1] (s)=f s, x[1] (s) , υ1 (s) , υ2∗ (s) , . . . , υn∗ (s) , x[1] (t0 ) = x0 ,
[ ]
ẋ[2] (s)=f s, x[2] (s) , υ1∗ (s) , υ2 (s) , υ3∗ (s) , . . . , υn∗ (s) , x[2] (t0 ) = x0 ,
.. ..
. .
.. ..
[ . . ]
∗ ∗
ẋ (s) = f s, x (s) , υ1 (s) , . . . , υn−1 (s) , υn (s) , x[n] (t0 ) = x0 .
[n] [n]
ẋ∗ (s) = f [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] , x∗ (t0 ) = x0 ,
∂ { i
Λ̇i (s) = − g [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] +
∂x∗
}
+Λi (s) f [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] ,
∂ i ∗
Λi (T ) = q (x (T )) .
∂x∗
Доказательство. Из условий теоремы фактически следует, что программное управ-
ление u∗i (s) = ζi∗ (s, x0 ) максимизирует выражение
∫ T [ ]
g i s, x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ds + q i (x (T )) ,
t0
Это стандартная задача оптимального управления для игрока i, поскольку u∗j (s)
при j ∈ N и j ̸= i — фиксированные программные управления, не зависящие от u∗i (s).
Поэтому теорема прямо следует из принципа максимума Понтрягина, сформулирован-
ного в теореме п. 6.2.3.
при всех ϕi (s, x), i ∈ N . При этом на промежутке [t0 , T ] имеет место
[
ẋ[i] (s) = f s, x[i] (s) , ϕ∗1 (s, x) , . . . , ϕ∗i−1 (s, x) ,
]
ϕi (s, x) , ϕ∗i+1 (s, x) , . . . , ϕ∗n (s, x) , x[1] (t) = x;
ẋ∗ (s) = f [s, x∗ (s) , ϕ∗1 (s, x) , . . . , ϕ∗n (s, x)] , x (s) = x.
Одно важное свойство введенного нами определения состоятельного равновесия по Нэ-
шу заключается в том, что если набор {ϕ∗i ; i ∈ N } образует состоятельное равновесие
по Нэшу в дифференциальной игре на отрезке [t0 , T ], то его сужение на промежутке
[t, T ] образует состоятельное позиционное равновесие по Нэшу в той же самой диффе-
ренциальной игре, но определенной на более коротком промежутке [t, T ] из начального
состояния x (t). Это имеет место для всех t0 ≤ t ≤ T . Отсюда сразу же следует, что стра-
тегия, образующая состоятельное позиционное равновесие, зависит лишь от времени и
текущего состояния, но не зависит от предыстории (включая начальное состояние x0 ).
Поэтому стратегии игроков могут быть записаны в виде {ui (s) = ϕi (s, x) , для i ∈ N }.
Следующая теорема определяет необходимое условие существования состоятельных по-
зиционных равновесий для игры{(6.3.1)–(6.3.2). }
Теорема. Набор стратегий u∗i (s) = ϕ∗i (t, x) ∈ U i , i ∈ N является состоятель-
ным позиционным равновесием по Нэшу в игре (6.3.1)–(6.3.2), если существуют
непрерывно-дифференцируемые функции V i (t, x) : [t0 , T ] × Rm → R, i ∈ N ,
удовлетворяющие следующей системе дифференциальных уравнений в частных про-
изводных:
−Vti (t, x) =
{ ]
= max g i [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . . . . , ϕ∗i−1 (t, x) , ui (t, x) , ϕ∗i+1 (t, x) , . . . , ϕ∗n (t, x) +
ui
§ 6.5. Конкурентная реклама с двумя участниками 347
]}
+Vxi (t, x) f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . . . . , ϕ∗i−1 (t, x) , ui (t, x) , ϕ∗i+1 (t, x) , . . . , ϕ∗n (t, x) =
{ }
= g i [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . , ϕ∗n (t, x)] + Vxi (t, x) f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . , ϕ∗n (t, x)] ,
V i (T, x) = q i (x) , i ∈ N.
−Vt (t, x) = min max {g [t, x, u1 (t) , u2 (t)] + Vx f [t, x, u1 (t) , u2 (t)]} =
u1 u2
= {g [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x)] + Vx f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x)]} ,
V (T, x) = q (x) .
Λ1 (T ) = exp (−rT ) S1 ,
Λ2 (T ) = − exp (−rT ) S2 . (6.5.3)
Из (6.5.3) мы получаем
Λ1 (s)
u∗1 (s) = [1 − x∗ (s)] exp (rs) ,
1/2
c1
Λ2 (s) ∗
u∗2 (s) =
1/2
[x (s)] exp (rs) .
c2
Подставляя u∗1 (s) и u∗2 (s) в (6.5.3), получаем
{ ([ ]2 )}
Λ1 (s) Λ1 (s) Λ2 (s)
Λ̇ (s) = −q1 exp (−rs) +
1
+ ,
2c1 2c2
{ ([ ]2 )}
2 Λ2 (s) Λ1 (s) Λ2 (s)
Λ̇ (s) = q2 exp (−rs) + + , (6.5.4)
2c2 2c1
с граничными условиями
{[ c2 ]
−Vt2 (t, x) = max q2 (1 − x) − u22 exp (−rt) +
u2 2
( )}
∗ 1/2
+Vx (t, x) ϕ1 (t, x) [1 − x] − u2 x1/2 ,
2
Vx1 (t, x)
ϕ∗1 (t, x) =
1/2
[1 − x] exp (rt) ,
c1
V 2 (t, x) 1/2
ϕ∗2 (t, x) = x [x] exp (rt) .
c2
Подставляя ϕ∗1 (t, x) и ϕ∗2 (t, x) в (6.5.6) и решая уравнение, получаем следующие
функции значения (функции Беллмана)
(6.6.1)
при ограничении
ẋ (s) = f [x (s) , u1 (s) , u2 (s) , . . . , un (s)] , x (t0 ) = x0 , (6.6.2)
где r — постоянный параметр дисконтирования.
Рассмотрим теперь подыгры игры (6.6.1)–(6.6.2), начинающиеся в момент времени t
∫ ∞
max g i [x (s) , u1 (s) , u2 (s) , . . . , un (s)] exp [−r (s − t)] ds, i ∈ N, (6.6.3)
ui t
при условии
ẋ (s) = f [x (s) , u1 (s) , u2 (s) , . . . , un (s)] , s ≥ t, x (t) = x. (6.6.4)
Игра (6.6.3)–(6.6.4), заданная на бесконечном промежутке времени, не зависит от
выбора начального момента t, а зависит лишь от состояния x в момент начала игры.
Как мы ранее показали, управление в задаче на бесконечном промежутке времени
в случае автономной системы является функцией только состояния.
Определение. В дифференциальной игре n лиц (6.6.1)–(6.6.2) набор стратегий
{ ∗ }
ui (s) = ϕ∗i (ηs ) ∈ U i , для i ∈ N
образует состоятельное позиционное равновесие по Нэшу, если существуют функции
V i (t, x), определенные на [t0 , ∞) × Rm и удовлетворяющие следующим соотношениям
∫ ∞
V i (t, x) = g i [x∗ (s) , ϕ∗1 (ηs ) , . . . , ϕ∗n (ηs )] exp [−r (s − t0 )] ds ≥
t
∫ ∞ [ ]
≥ g x (s) , ϕ∗1 (ηs ) , . . . , ϕ∗i−1 (ηs ) ϕi (ηs ) ϕ∗i+1 (ηs ) , . . . , ϕ∗n (ηs ) exp [−r (s − t0 )] ds,
i
t
∀ ϕi (·, ·) ∈ Γi , x ∈ Rn ,
для всех φi (ηs ), i ∈ N , при этом на интервале [t0 , ∞) имеет место
[ ]
ẋ (s) f s (s) , ϕ∗1 (ηs ) , . . . , ϕ∗i−1 (ηs ) ϕi (ηs ) ϕ∗i+1 (ηs ) , . . . , ϕ∗n (ηs ) ,
x[1] (t) = x;
ẋ∗ (s) = f [x∗ (s) , ϕ∗1 (ηs ) , ϕ∗2 (ηs ) , . . . , ϕ∗n (ηs )] , x∗ (t0 ) = x0 .
§ 6.6. Игры с бесконечной продолжительностью 351
где
x (t) = x = x∗t = x∗ (t) .
Поскольку
∫ ∞
g i [x∗ (s) , ϕ∗1 (ηs ) , ϕ∗2 (ηs ) , . . . , ϕ∗n (ηs )] exp [−r (s − t)] ds
t
зависит лишь от текущего состояния x, можно написать
∫ ∞
i
W (x) = g i [x∗ (s) , ϕ∗1 (ηs ) , . . . , ϕ∗n (ηs )] exp [−r (s − t)] ds.
t
Как и ранее обозначаем выражение x∗ (t) через x∗t . Тогда состоятельное позицион-
ное равновесие для игры на бесконечном отрезке времени (6.6.1)–(6.6.2) может быть
получено в виде
[ϕ∗1 (x∗t ) , ϕ∗2 (x∗t ) , . . . , ϕ∗n (x∗t )] , t ≥ t0 .
6.6.3. Следуя теореме п. 6.2.1 и п. 6.3.3, охарактеризуем равновесие в программных
стратегиях для игры с бесконечной временно продолжительностью (6.6.3) и (6.6.4).
Теорема. Для того, чтобы набор стратегий {u∗i (s) = ζi∗ (s, xt ) , i ∈ N } образовы-
вал равновесие по Нэшу в программных стратегиях для игры на бесконечном про-
межутке времени (6.6.3)–(6.6.4), где {x∗ (s) , t ≤ s ≤ T } — соответствующая оп-
тимальная траектория, необходимо существование n таких сопряженных функций
λi (s) : [t, T ] → Rm при i ∈ N , что выполнены следующие условия
ζi∗ (s, x) ≡ u∗i (s) =
{ [ ]
= arg maxi g i x∗ (s), u∗1 (s), . . ., u∗i−1 (s), ui (s), u∗i+1 (s), . . ., u∗n (s) +
ui ∈U
[ ]}
+ λ (s) f x∗ (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ,
i
ẋ∗ (s) = f [x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] , x∗ (t) = xt ,
∂ { i ∗
λ̇i (s) = rλ (s) − g [x (s) , u∗1 (s) , u∗2 (s) , . . .
∂x∗
}
. . . , u∗n (s)] + λi (s) f [x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] .
Доказательство. Рассмотрим i-ое равенство в условиях теоремы, из которого следу-
ет, что u∗i (s) = ζi∗ (s, xt ) максимизирует
∫ ∞
[ ]
g i x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ds,
t0
где P (s) — рыночная цена в момент s, ui (s) — объем выпуска продукции фирмой
i ∈ {1, 2}, и текущий спрос определяется по формуле P (s) = [a − u1 (s) − u2 (s)]. Коэф-
фициент k > 0 характеризует скорость изменения цены.
Выигрыш фирмы i определяется как суммарный доход, дисконтированный на мо-
мент начала процесса
∫ ∞{ }
2
P (s) ui (s) − cui (s) − (1/2) [ui (s)] exp [−r (s − t0 )] ds,
t0
i ∈ {1, 2} , (6.7.2)
2
где c ui (s)+(1/2) [ui (s)] есть затраты на производство продукции в объеме ui (s), а r —
процентная ставка.
Рассмотрим подыгру
∫ ∞{ }
2
max P (s) ui (s) − cui (s) − (1/2) [ui (s)] exp [−r (s − t)] ds,
ui t
i ∈ {1, 2} , (6.7.3)
при условии
Ṗ (s) = k [a − u1 (s) − u2 (s) − P (s)] , P (t) = P. (6.7.4)
Игра на бесконечном промежутке времени (6.7.3)–(6.7.4) является автономной с по-
стоянной процентной ставкой, поэтому можно применить теорему п. 6.6.3 для характе-
ризации состоятельного позиционного равновесия по Нэшу. Поэтому можем написать
следующие уравнения
{[ ]
2
rW i (P ) = max P ui − cui − (1/2) (ui ) +
ui
[ ( )]}
+WPi k a − ui − ϕ∗j (P ) − P , i ∈ {1, 2} . (6.7.5)
Обозначим для простоты P ∗ (t) через Pt∗ . Состоятельное позиционное равновесие для
игры (6.7.1)–(6.7.2) может быть записано в виде
при условии [ ]
ẋ (s) = ax (s)1/2 − bx (s) − u (s) , x (t0 ) = x0 ∈ X.
Найти оптимальное управление, используя принцип динамического программирования
Беллмана.
при условии
Ṗ (s) = k [a − u1 (s) − u2 (s) − P (s)] , P (t0 ) = P0 .
Найти равновесие по Нэшу в программных стратегиях.
§ 6.8. Упражнения и задачи 355
4. Рассмотрим игру
{∫ [ ] }
10
ui (s)2
max 10ui (s) − exp [−0.05s] ds + exp (−0.5) 2x (T ) ,
ui 0 x (s)
где i ∈ {1, 2, . . . , 6}
при условии
1 ∑6
ẋ (s) = 15 − x (s) − uj (s) , x (0) = 25.
2 j=1
Di (s) = ϕi s, ϕi > 0.
Кооперативные
дифференциальные игры в
форме характеристической
функции
∫ T
g i [s, x (s) , u1 (s) , u2 (s) , . . . , un (s)] ds + q i (x (T )) , (7.1.2)
t0
i ∈ N = {1, 2, . . . , n} ,
∫ t
x∗ (t) = x0 + f [s, x∗ (s) u∗ (s)] ds, t ∈ [t0 , T ] . (7.1.4)
t0
Как и ранее мы будем использовать как обозначение x∗ (t), так и обозначение x∗t .
Обозначим величину
{∫ }
∑n T
j ∗ ∗ j ∗
g [s, x (s) , u (s)] ds + q (x (T ))
j=1 t0
§ 7.2. Дележи
7.2.1. Важнейшей частью исследования кооперативных игр является исследова-
ние возможности создания коалиций и предложение «приемлемого» распределения
суммарного кооперативного выигрыша между игроками. В действительности, аппарат
характеристических функций показывает возможности коалиций и является основой
для построения схем распределения суммарного выигрыша, которые приемлемы для
игроков-участников.
358 7. Кооперативные дифференциальные игры
1)
ξi (x0 , T − t0 ) ≥ v ({i} ; x0 , T − t0 ) , i ∈ N,
2) ∑
ξj (x0 , T − t0 ) = v (N ; x0 , T − t0 ) ,
j∈N
w (N ; x0 , T − t0 ) = w ({1} ; x0 , T − t0 ) + · · · + w ({n} ; x0 , T − t0 ) ,
где αi ≥ 0, i ∈ N и
∑ ∑
αi = v (N ; x0 , T − t0 ) − v ({i} ; x0 , T − t0 ) ,
i∈N i∈N
1)
ξi (x0 , T − t0 ) > ηi (x0 , T − t0 ) , i ∈ S,
2) ∑
ξi (x0 , T − t0 ) ≤ v (S; x0 , T − t0 ) .
i∈S
§ 7.3. Дележи в динамике 359
1)
ξ (x0 , T − t0 ) , η (x0 , T − t0 ) ∈ Lv (x0 , T − t0 ) , влечет
ξ (x0 , T − t0 ) ̸≻ η (x0 , T − t0 ) ,
2)
если η (x0 , T − t0 ) ∈
/ Lv (x0 , T − t0 ) , то существует
такой дележ ξ (x0 , T − t0 ) ∈ Lv (x0 , T − t0 ) , что
ξ (x0 , T − t0 ) ≻ η (x0 , T − t0 ) .
Φvi (x0 , T − t0 ) =
∑ (n − s)! (s − 1)!
= [v (S; x0 , T − t0 ) − v (S\i; x0 , T − t0 )] ,
n!
S⊂N (S∋i)
i ∈ N.
{∫ }
∑
n T
g j [s, x∗ (s) , u∗ (s)] ds + q j (x∗ (T )) .
j=1 t0
360 7. Кооперативные дифференциальные игры
ет место
{∫ }
∑n T
g j [s, x∗ (s) , u∗ (s)] ds + q j (x∗ (T )) = v (N ; x0 , T − t0 ) ,
j=1 t0
где
v (N ; x∗t , T − t) =
n {∫
∑ t }
= v (N ; x0 , T − t0 ) − g j [s, x∗ (s) , u∗ (s)] ds + q j (x∗ (T )) .
j=1 t0
∑n {∫ }
t
Величина j=1 t0
g j [s, x∗ (s) , u∗ (s)] ds + q j (x∗ (T )) представляет собой коопера-
тивный выигрыш игроков на промежутке времени [t0 , t] вдоль траектории {x∗ (s)}s=t0 .
T
игр. Петросян и Данилов [Petrosjan, Danilov, 1979; 1982] ввели понятие процедуры рас-
пределения дележей во времени для кооперативных решений, которая позволяет в опре-
деленном смысле преодолеть проблему динамической устойчивости. В. Толвинский и
др. [Tolwinski, 1986] рассмотрели кооперативное равновесие в дифференциальной игре
с использованием стратегий угроз, которое позволяло игрокам оставаться на коопера-
тивной траектории. В книге Л. Петросяна и Н. Зенкевича [Petrosjan, Zenkevich, 1996]
приведен детальный анализ динамической устойчивости в дифференциальных играх.
В частности, предложен метод регуляризации для построения динамически устойчи-
вых (состоятельных во времени) принципов оптимальности. Д. Янг и Л. Петросян [Ye-
ung, Petrosyan, 2001] построили состоятельные во времени (динамически устойчивые)
решения дифференциальной игры и вывели условия, которым должен удовлетворять
состоятельный во времени (динамически устойчивый) оптимальный дележ. Л. Петро-
сян [Petrosyan, 2003] использовал метод регуляризации для построения состоятельных
во времени (динамически устойчивых) арбитражных решений.
Это означает, что игроки договорились на такой дележ суммарного выигрыша, при
котором выигрыш i-го игрока на промежутке времени [t0 , T ] составляет ξi (x0 , T − t0 ).
Если в соответствии с дележом игрок i должен получить выигрыш ϖi [ξ (x0 , T − t0 ) ;
x∗ (t) , t − t0 ] на отрезке времени [t0 , t], то на оставшемся промежутке [t, T ] он должен
получить в соответствии с дележом ξ (x0 , T − t0 ) выигрыш, равный
Тогда разность
n {∫
∑ t }
∗ ∗ ∗
v (N ; x0 , T − t0 ) − v (N ; x (t) , T − t) = j
g [s, x (s) , u (s)] ds
j=1 t0
Из (7.6.1) получаем
dϖi
= Bi (t) . (7.6.2)
dt
Эта величина может интерпретироваться как мгновенный выигрыш игрока i в мо-
мент времени t. Очевидно, что вектор B (t) = [B1 (t) , B2 (t) , . . . , Bn (t)] определяет рас-
пределение суммарного мгновенного выигрыша между игроками коалиции N . Пра-
вильным выбором функций B (t) можно достичь того, чтобы игроки не были заинте-
ресованы в моменты времени t ∈ [t0 , T ] отклониться от первоначального соглашения о
дележе ξ (x0 , T − t0 ).
Определение. Дележ ξ (x0 , T − t0 ) ∈ Wv (x0 , T − t0 ) динамически устойчив (со-
стоятелен во времени) в игре Γv (x0 , T − t0 ), если выполнены следующие условия:
T − t) ̸= ∅, t0 ≤ t ≤ T ,
364 7. Кооперативные дифференциальные игры
где Wv (x∗ (T ) , 0) = q (x∗ (T )) — решение игры Γv (x∗ (T ) , 0). Поэтому можно написать
∫ T
ξ (x0 , T − t0 ) = B (s) ds + q (x∗ (T )) .
t0
Когда игра развивается на отрезке времени [t0 , t], игроки делят суммарный зарабо-
танный на этом отрезке выигрыш
∫ t ∑
g j [s, x∗ (s) , u∗ (s)] ds
t0 j∈N
Таким образом, после выбора вектора B (s) вектор выигрышей, получаемый игро-
ками на оставшемся отрезке времени [t, T ], удовлетворяет условию
где
∑ ∑
Bj (s) = g j [s, x∗ (s) , u∗ (s)] , t ≤ s ≤ T,
j∈N j∈N
Для того, чтобы интерпретировать условие (7.7.4) предположим, что игроки поже-
лали пересмотреть кооперативное соглашение о затратах в игре Γv (x, 0) в какой-то про-
извольный промежуточный момент времени t. В этот момент состояние системы будет
xN (t), что означает, что кооперация игроков происходила до момента t и что каждый
из игроков понес затраты, определяемые первым слагаемым в формуле (7.7.4). Если то,
что он уже потратил до момента t плюс то, что он должен еще потратить, начиная с это-
го момента, ориентируясь на тот же принцип оптимальности (компоненту вектора Ше-
пли в подыгре, начинающейся с этого момента) совпадает с компонентой вектора Шеп-
ли, тогда изменение первоначального соглашения не имеет смысла. Если можно найти
такую ПРД B (t) = [B1 (t) , B2 (t) , . . . , Bn (t)], что (7.7.4) выполнено, тогда эта ПРД ди-
намически устойчива (состоятельна во времени). Мы предложим алгоритм построения
такой ПРД в предположении дифференцируемости вектора Шепли. Можно убедиться
в глубоком содержательном смысле формул для ПРД B (t) = [B1 (t) , B2 (t) , . . . , Bn (t)].
368 7. Кооперативные дифференциальные игры
∑∫ ∞
min exp [−r (τ − t)] {Ci (mi (τ )) + Di (x (τ ))} dτ
m1 ,m2 ,...,mn t
i∈N
∑
при условии ẋ (s) = mi (s) − δx (s) , x (t) = xN (t) .
i∈N
{ [ ]}
i i ∑
rV (x) = min Ci (mi ) + Di (x) + V (x) x mi − δx , i ∈ N.
mi
i∈I
Обозначим через m∗ (x) = [m∗1 (x) , m∗2 (x) , . . . , m∗n (x)] любое состоятельное позици-
онное равновесие кооперативной игры. Этот набор можно рассматривать как обычную
стратегию выбросов при отсутствии кооперации. В дальнейшем для конкретного слу-
чая мы получим выражения этих стратегий в явном виде. Теперь же мы только за-
метим, что используя эти стратегии, мы можем получить равновесные затраты в игре
i
Γv (x0 , 0), которые мы обозначим через V i (0, x0 ) = V (x0 ) и равновесные затраты в
( N ) ( ) i( )
подыгре Γv xt , t которые мы обозначим через V i t, xN t = V xNt .
Шаг 3. Вычисление затрат для подкоалиций.
Для получения затрат для любого подмножества игроков (коалиций) мы поступим
следующим образом. Затратами каждой коалиции будет сумма затрат игроков, вхо-
дящих в коалицию. В функции затрат игроков и в правую часть дифференциального
уравнения мы в качестве управлений игроков, не входящих в коалицию, подставим
стратегии, полученные на шаге 2 (т. е. стратегии, входящие в равновесие по Нэшу).
Обозначим через W (K, x, t) значение этих затрат, вычисленные для коалиции K. Это
§ 7.7. Управление загрязнением окружающей среды 369
W (K, x, t) =
∑ {∫ ∞ }
= min exp [−r (τ − t)] {Ci (mi (τ )) + Di (x (τ ))} dτ ,
mi ,i∈K t
i∈K
∑
ẋ (s) = mi (s) − δx (s) , x (t) = xN (t) .
i∈N
mj = mN
j , для j ∈ I\K.
rW (N, x, t) =
{ 3 [ 3 ]}
∑ (γ 2
) ∑
= min [mi − mi ] + πx + Wx (N, x, t) mi − δx .
m1 ,m2 ,m3
i=1
2 i=1
(7.7.6)
372 7. Кооперативные дифференциальные игры
1
i = mi −
mN Wx (N, x, t) , при i ∈ {1, 2, 3} .
γ
Подставляя mN
i в (7.7.6) и решая, получаем
{[ ] }
3π ∑
3
32 π
W (N, x, t) = W (N, x) = mi − + rx , и (7.7.7)
r (r + δ) i=1
2γ (r + δ)
3π
i = mi −
mN , при i ∈ {1, 2, 3} . (7.7.8)
γ (r + δ)
Оптимальная траектория выбросов имеет вид
{[ 3 ] }
1 ∑
N
x (t) = exp (−δt) x (0) + mN
i [1 − exp (−δt)] . (7.7.9)
δ i=1
1 i
m∗i = mi − V (x) , i ∈ {1, 2, 3} . (7.7.11)
γ x
Разница между выбросами по Нэшу и выбросами при кооперации состоит в том, что
в кооперативном случае игрок учитывает маргинальные затраты всех членов большой
коалиции, а не только свои.
§ 7.7. Управление загрязнением окружающей среды 373
rW (K, x, t) =
{ [ ]}
∑ (γ ) ∑
2 ∗
= min [mi −mi ] +πx +Wx (K, x, t) mi + mj −δx ,
m1 ,i∈K 2
i∈K i∈K
(7.7.14)
где j ∈
/ K.
Пользуясь тем же способом решения, который мы использовали для нахождения
значения для большой коалиции, получаем
W (K, x, t) = W (K, x) =
{ }
2π ∑ 4π π
= mi − − + rx . (7.7.15)
r (r + δ) 2γ (r + δ) γ (r + δ)
i∈K
K ⊆ {1, 2, 3} .
i = 1, 2, 3. (7.7.17)
374 7. Кооперативные дифференциальные игры
i = 1, 2, 3, (7.7.19)
и из (7.7.8)–(7.7.9) получаем
∑3 ( )
1 3π [1 − exp (−δt)] .
xN (t) = exp (−δt) x (0) + mj −
δ j=1 2γ (r + δ)
i = 1, 2, 3.
v ({i}) = wi , i = 1, 2, 3, 4;
v ({i, j}) = wij , i, j ∈ {1, 2, 3, 4} , i < j;
v ({i, j, k}) = wijk , i, j, k ∈ {1, 2, 3, 4} , i < j < k;
v ({1, 2, 3, 4}) = W ;
причем
dx (t) ∑3
= ẋ (t) = mi (t) − δx (t) , x (0) = 100,
dt i=1
где
1
Ci (mi ) = [mi − mi ]2 , 0 ≤ mi ≤ mi , γ > 0,
2
Di (x) = x.
Кооперативные
дифференциальные игры двух
лиц с дисконтированием
i ∈ {1, 2} , j ∈ {1, 2} , j ̸= i.
[∫ τ ]
(τ )i
V (τ, xτ ) = exp r (y) dy V (t0 )i (τ, xτ ) ,
t0
[∫ t ]
V (t)i (t, xt ) = exp r (y) dy V (τ )i (t, xt ) ,
τ
t0 ≤ τ ≤ t ≤ T, i ∈ {1, 2} .
§ 8.1. Постановка задачи 379
V (τ )i (t, xt ) =
∫ T[ ] [ ∫ s ]
(τ )∗ (τ )∗
= g i s, x (s) , ϕ1 (s, x (s)) , ϕ2 (s, x (s)) exp − r (y) dy ds +
t
[ ∫ ] τ
T
+ exp − r (y) dy q i (x (T )) x (t) = xt , i ∈ {1, 2} .
τ
где u1 (s) — уровень добычи игрока 1 и u2 (s) — уровень добычи игрока 2. Мгновенные
выигрыши в момент времени s ∈ [t0 , T ] игроков 1 и 2 соответственно равны
[ ] [ ]
1/2 c1 1/2 c2
u1 (s) − u (s) ,
1/2 1
u2 (s) − u (s) ,
1/2 2
x (s) x (s)
где c1 и c2 константы и c1 ̸= c2 .
В момент времени T каждый добывающий получает дополнительный выигрыш в
размере
1/2
q i (x(T )) = qx (T ) ,
который зависит от величины запаса ресурса в момент окончания игры.
Выигрыши трансферабельны во времени и между игроками. Задан параметр дис-
контирования r и поэтому выигрыши, получаемые в момент t после момента начала
игры t0 , умножаются на множитель exp [−r (t − t0 )].
В момент времени t0 выигрыши игроков 1 и 2 соответственно равны
∫ T[ ]
1/2 c1
u1 (s) − u (s) exp [−r (t − t0 )] ds +
1/2 1
t0 x (s)
1/2
+ exp [−r (T − t0 )] qx (T ) ,
и
∫ [ ]
T
1/2 c2
u2 (s) − 1/2
u2 (s) exp [−r (t − t0 )] ds +
t0 x (s)
1/2
+ exp [−r (T − t0 )] qx (T ) . (8.1.6)
380 8. Игры двух лиц с дисконтированием
[ ]
(t )∗ (t )∗
Пусть ϕ1 0 (t, x) , ϕ2 0 (t, x) , t ∈ [t0 , T ] — равновесие по Нэшу в игре Γ (x0 , T − t0 )
и V (t0 )i (t, x) : [t0 , T ] × Rn → R — функции значения игроков i ∈ {1, 2}. Тогда они
должны удовлетворять уравнениям Айзекса–Беллмана (теорема п. 6.4.2) вида
{[ ci ]
(t )i 1/2
−Vt 0 (t, x) = max ui (t) − 1/2 ui (t) exp [−r (t − t0 )] +
ui x
[ ]}
(t )∗
+Vx(t0 )i
(t, x) ax − bx − ui (t) − ϕj 0 (t, x) ,
1/2
1/2
V (t0 )i (T, x) = exp [−r (T − t0 )] qx (T ) ,
i ∈ {1, 2} , j ∈ {1, 2} , j ̸= i. (8.1.7)
(τ )∗ x (τ )∗ x
ϕ1 (t, x) = 2, ϕ2 (t, x) = 2. (8.1.10)
4 [c1 + A1 (t) /2] 4 [c2 + A2 (t) /2]
(t )∗ (t )∗
Пусть игроки используют кооперативные управления [ψ1 0 t, x), ψ2 0 (t, x)], при
t ∈ [t0 , T ]. При кооперации вопрос неединственности кооперативных управлений лег-
ко решается, поскольку все кооперативные управления обеспечивают один и тот же
максимальный суммарный выигрыш, и с этой точки зрения безразлично, какое именно
кооперативное управление будет на самом деле использовано. Подставляя выбранные
кооперативные управления в уравнения (8.1.1), получаем уравнение для кооперативной
траектории
[ ]
(t )∗ (t )∗
ẋ (s) = f s, x (s) , ψ1 0 (s, x (s)) , ψ2 0 (s, x (s)) , x (t0 ) = x0 . (8.1.12)
при условии
ẋ (s) = f [s, x (s) , u1 (s) , u2 (s)] , x (τ ) = x∗τ .
§ 8.1. Постановка задачи 383
тождество:
при условии
[ (8.1.5). ]
(t )∗ (t )∗
Пусть ψ1 0 (t, x) , ψ2 0 (t, x) — управления, решающие задачу максимизации
Ψ (x0 , T − t0 ), и W (t0 ) (t, x) : [t0 , T ] × Rn → R — функция Беллмана, удовлетворяющая
уравнению (см. теорему п. 8.1.6)
(t0 )
−Wt (t, x) =
{([ c1 ] [ c2 ])
1/2 1/2
= max u1 − 1/2 u1 + u2 − 1/2 u2 exp [−r (t − t0 )] +
u1 ,u2 x x
[ ]}
+Wx (t, x) ax − bx − u1 − u2 ,
(t0 ) 1/2
(t )∗ (t )∗
Подставляя ψ1 0 (t, x) и ψ2 0 (t, x) в (8.1.17), получаем явное выражение для функ-
ции Беллмана: [ ]
W (t0 ) (t, x) = exp [−r (t − t0 )] Â (t) x1/2 + B̂ (t) ,
[ ]
˙ b 1 1
 (t) = r+  (t) − [ ]− [ ]+
2 2 c1 + Â (t) /2 2 c2 + Â (t) /2
c1 c2
+ [ ]2 + [ ]2 +
4 c1 + Â (t) /2 4 c2 + Â (t) /2
 (t)  (t)
+ [ ]2 + [ ]2 ,
8 c1 + Â (t) /2 8 c2 + Â (t) /2
˙ a
B̂ (t) rB̂ (t) − Â (t) , Â (T ) = 2q, B̂ (T ) = 0.
=
2
Оптимальные кооперативные управления могут быть представлены в виде:
(t )∗ x (t0 )∗ x
ψ1 0 (t, x) = [ ]2 , ψ2 (t, x) = [ ]2 .
4 c1 + Â (t) /2 4 c2 + Â (t) /2
x (t0 ) = x0 .
Решая (8.1.18), получаем кооперативную траекторию Γc (x0 , T − t0 ) в виде
[ ∫ s ]2
∗ 2 1/2 −1
x (s) = ϖ (t0 , s) x0 + ϖ (t0 , t) H1 dt , s ∈ [t0 , T ] ,
t0
(8.1.19)
где
[∫ s ]
1
ϖ (t0 , s) = exp H2 (τ ) dτ , H1 = a,
t0 2
1 1 1
H2 (s) = − b + [ ]2 + [ ]2 .
2
8 c1 + Â (s) /2 8 c2 + Â (s) /2
§ 8.1. Постановка задачи 385
τ
(8.1.21)
где
[∫ s ]
1
ϖ (τ, s) = exp H2 (ς) dς , H1 = a,
τ 2
1 1 1
H2 (s) = − b + [ ]2 + [ ]2 .
2
8 c1 + Â (s) /2 8 c2 + Â (s) /2
мени t ∈ [t0 , T ].
8.1.9. Индивидуальная рациональность. Предположим, что в момент t0 в состоянии
[ 1 выбранный принцип
x 0 оптимальности
] предписывает выбор дележа ξ (x0 , T − t0 ) =
ξ (x0 , T − t0 ) , ξ 2 (x0 , T − t0 ) . Это означает, что игроки согласились на такой дележ
суммарного выигрыша, при котором выигрыш игрока i на отрезке времени [t0 , T ] равен
ξ i (x0 , T − t0 ).
Индивидуальная рациональность дележа означает, что должно иметь место
ξ i (x0 , T − t0 ) ≥ V (t0 )i (t0 , x0 ) , i ∈ {1, 2} .
Используя тот же принцип оптимальности в момент τ в состоянии x∗τ на коопера-
тивной траектории, принцип оптимальности предписывает выбор дележа
[ ]
ξ (x∗τ , T − τ ) = ξ 1 (x∗τ , T − τ ) , ξ 2 (x∗τ , T − τ ) .
Это означает, что игроки согласились на такой дележ суммарного выигрыша (в подыгре
с началом в момент τ ), при котором выигрыш игрока i на отрезке времени [τ, T ] равен
ξ i (x∗τ , T − τ ). Индивидуальная рациональность будет иметь место, если
ξ i (x∗τ , T − τ ) ≥ V (τ )i (τ, x∗τ ) , i ∈ {1, 2} .
386 8. Игры двух лиц с дисконтированием
8.1.10. Как было нами ранее указано в § § 7.4– 7.5, важнейшим дополнительным тре-
бованием к решению динамических кооперативных игр является динамическая устой-
чивость или состоятельность во времени. Свойство динамической устойчивости реше-
ния заключается в том, что когда игра развивается вдоль кооперативной траектории,
в каждый момент времени игроки руководствуются одним и тем же принципом опти-
мальности и, следовательно, не имеют оснований для отклонения от принципа опти-
мальности, выбранного в начале игры. В этом разделе мы исследуем свойство динами-
ческой устойчивости или временной состоятельности в неантагонистических коопера-
тивных играх двух лиц с дисконтированным выигрышем.
Рассмотрим кооперативную игру Γc (x0 , T − t0 ), в которой игроки решили максими-
зировать совместными действиями суммарный выигрыш и применить некоторый меха-
низм дележа этого выигрыша между собой. Для достижения максимального
[ суммарно-
]
(t )∗ (t )∗
го выигрыша игроки применяют кооперативные управления ψ1 0 (t, x) , ψ2 0 (t, x) ,
полученные в теореме п. 8.1.6. При этом кооперативная траектория {x∗ (s)}s=t0 опре-
T
[ ]
1) ξ (τ ) (τ, x∗τ ) = ξ (τ )1 (τ, x∗τ ) , ξ (τ )2 (τ, x∗τ ) – парето-оптимальный дележ;
8.1.11. Следуя [Petrosjan, 1997] и [Yeung, Petrosjan, 2004], построим процедуру рас-
пределения дележа (ПРД), чтобы согласованный в начале принцип оптимальности мог
бы реально реализоваться в игре. Пусть B τ (s) = [B1τ (s) , B2τ (s)] — мгновенные выиг-
рыши (плотности выигрышей) при кооперации в момент времени s ∈ [τ, T ] в коопера-
тивной игре Γc (x∗τ , T − τ ). Иными словами, игрок i ∈ {1, 2} получает выигрыш Biτ (s)
в момент времени s. Терминальный выигрыш q i (x∗T ) получается игроком i в момент T .
§ 8.1. Постановка задачи 387
В частности, Biτ (s) и q i (x∗T ) образуют ПРД в игре Γc (xτ , T − τ ), если величина
ξ (τ, x∗τ ) будет равна
(τ )i
{(∫ [ ∫ s ]
T
Biτ (s) exp − r (y) dy ds +
τ τ
[ ∫ ]) }
T
+ q i (x∗T ) exp − r (y) dy x (τ ) = x∗τ , (8.1.22)
τ
i ∈ {1, 2} , τ ∈ [t0 , T ] .
для τ ≤ t ≤ T, i ∈ {1, 2} .
τ ∈ [t0 , T ] , i ∈ {1, 2} ;
где
[ ]
∆x∗τ = f τ, x∗τ , ψ1 (τ, x∗τ ) , ψ2 (τ, x∗τ ) ∆t + o (∆t) .
(τ )∗ (τ )∗
=ξ (τ )i
(τ, x∗τ ) −ξ (τ )i
(τ + ∆t, x∗τ + ∆x∗τ ) ,
− o (∆t) . (8.1.25)
§ 8.1. Постановка задачи 389
при i ∈ {1, 2} ,
при t0 ≤ τ ≤ t. (8.1.26)
390 8. Игры двух лиц с дисконтированием
Таким образом ξ (τ )i (τ, x∗τ ), как это следует из утверждения п. 8.1.13, является состо-
ятельным во времени дележом в кооперативной игре Γc (x0 , T − t0 ). Используя теорему
п. 8.1.6, получаем результат.
−1 [[ (τ )i ]
Bi (τ ) = Vt (t, xt ) +
2[ t=τ ] [ ]]
(τ )∗ (τ )∗
+ Vx(τt )i (t, xt ) f τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ ) −
t=τ
1 [[ (τ ) ]
− Wt (t, xt ) +
2[ t=τ ] [ ]]
(τ )∗ (τ )∗
+ Wx(τt ) (t, xt ) f τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ ) +
t=τ
1 [[ (τ )j ]
+ Vt (t, xt ) +
2[ t=τ ] [ ]]
(τ )∗ (τ )∗
+ Vx(τt )j (t, xt ) f τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ ) ,
t=τ
−1 {([ ] [ ])
Ȧi (τ ) (x∗τ ) + Ḃi (τ ) +r Ai (τ ) (x∗τ ) +Bi (τ ) +
1/2 1/2
Bi (τ ) =
2
[ ] ∗ ∗
1 ∗ −1/2 ∗ 1/2 ∗ xτ xτ
+ Ai (τ ) (xτ ) a (xτ ) − bxτ − [ ]2 − [ ]2 −
2
4 ci + Â (τ ) /2 4 cj + Â (τ ) /2
1 {([ ˙ ˙
] [ ])
 (τ ) (x∗τ ) + B̂ (τ ) + r  (τ ) (x∗τ ) + B̂ (τ ) +
1/2 1/2
−
2
[ ]
1 −1/2 x∗τ x∗τ
+ Â (τ ) (x∗τ ) ∗ 1/2
a (xτ ) − bxτ − [
∗
]2 − [ ]2 +
2
4 ci + Â (τ ) /2 4 cj + Â (τ ) /2
1 {([ ] [ ])
Ȧj (τ ) (x∗τ ) + Ḃj (τ ) + r Aj (τ ) (x∗τ ) + Bj (τ ) +
1/2 1/2
+
2
[ ] ∗ ∗
1 ∗ −1/2 ∗ 1/2 ∗ xτ xτ
+ Aj (τ ) (xτ ) a (xτ ) − bxτ − [ ]2 − [ ]2 ,
2
4 ci + Â (τ ) /2 4 cj + Â (τ ) /2
при i, j ∈ {1, 2} и i ̸= j,
и динамикой
ẋ (s) = f [x (s) , u1 (s) , u2 (s)] , x (t0 ) = x0 . (8.2.2)
Поскольку время s не присутствует явно в g i [x (s) , u1 (s) , u2 (s)], выигрышах и урав-
нениях динамики, игра (8.2.1)–(8.2.2) является автономной. Рассмотрим подыгру Γ (x):
∫ ∞
max g i [x (s) , u1 (s) , u2 (s)] exp [−r (s − t)] ds, i ∈ {1, 2}
ui t
392 8. Игры двух лиц с дисконтированием
при условии
ẋ (s) = f [x (s) , u1 (s) , u2 (s)] , x (t) = x.
Автономная задача Γ (x) с бесконечной продолжительностью не зависит от t, а за-
висит лишь от x.
Используя теорему п. 6.6.2 можно охарактеризовать некооперативное позиционное
равновесие по Нэшу.
Теорема. Пара стратегий {ϕ∗1 (x) , ϕ∗2 (x)} образует позиционное равновесие по Нэ-
шу в игре Γ (x), если существуют непрерывно-дифференцируемые функции V 1 (x) :
Rm → R и V 2 (x) : Rm → R, удовлетворяющие следующей системе уравнений в част-
ных производных:
{ [ ] [ ]}
rV i (x) = max g i x, ui , ϕ∗j (x) + Vxi (x) f x, ui , ϕ∗j (x) ,
ui
i ∈ {1, 2} , j ∈ {1, 2} , j ̸= i.
Здесь ∫ ∞
i
V (x) = g i [x (s) , ϕ∗1 (s) , ϕ∗2 (s)] exp [−r (s − t)] ds
t
есть выигрыш игрока i в ситуации позиционного равновесия в подыгре, начинающейся
в момент t ∈ [t0 , ∞] из состояния x.
8.2.2. Рассмотрим теперь случай, когда игроки решили кооперироваться. Пусть
Γc (x) — кооперативная игра, определенная на структуре игры Γ (x) из начального
состояния x. Предположим, что игроки предварительно договорились о максимизации
суммарного выигрыша, то есть
∫ ∞ ∑
2
max g j [x (s) , u1 (s) , u2 (s)] exp [−r (s − t)] ds , (8.2.3)
u1 ,u2 t
j=1
∑
2
= g j [x, ψ1∗ , ψ2∗ ] + Wx f [x, ψ1∗ , ψ2∗ ].
j=1
Обозначим соответствующие кооперативные управления через [ψ1∗ (x) , ψ2∗ (x)]. Под-
ставляя эти управления в (8.2.2), получаем уравнение для оптимальной кооперативной
траектории
ẋ (s) = f [x (s) , ψ1∗ (x (s)) , ψ2∗ (x (s))] , x (t) = x.
Если игра начинается в момент t0 , x (t0 ) = x0 , то имеем
Пусть x∗ (t) — решение (8.2.4). Как и раньше будем использовать обозначения x∗ (t)
и x∗t в зависимости от обстоятельств.
8.2.3. Предположим, что в момент времени t ≥ t0 в начальном состоянии x∗t
первоначально согласованный принцип оптимальности предписывает дележ ξ(x∗t ) =
[ξ 1 (x∗t ), ξ 2 (x∗t )]. Это означает, что игроки договариваются о таком дележе, когда доля
игрока i в игре равна ξ i (x∗t ).
Условие индивидуальной рациональности требует выполнения неравенства
Следуя [Petrosjan, 1997] и [Yeung, Petrosjan, 2004], будем обозначать через B (s) =
[B1 (s) , B2 (s)] мгновенные выигрыши игроков (плотности
( выигрышей)
) при кооперации
в момент времени s ∈ [t0 , ∞) в кооперативной игре Γc x∗t0 .
Тогда вдоль кооперативной траектории {x∗ (t)}t≥t0 будем иметь
∫ ∞
ξ i (x∗τ ) = Bi (s) exp [−r (s − τ )] ds, i ∈ {1, 2} ,
∫τ∞
ξ i (x∗t ) = Bi (s) exp [−r (s − t)] ds, i ∈ {1, 2} t ≥ τ.
t
i ∈ {1, 2} , τ ∈ [t0 , ∞) .
Заметим, что
∫ ∞
γ i (τ ; t, x∗t ) = exp [−r (t − τ )] Biτ (s) exp [−r (s − t)] ds =
t
где
∆x∗τ = f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] ∆t + o (∆t) .
Поскольку x∗τ + ∆x∗τ = x∗τ +∆t , то из (8.2.6) следует
( ) ( )
γ i τ ; τ + ∆t, x∗τ +∆t = exp [−r (∆t)] ξ i x∗τ +∆t = (8.2.7)
( )
= exp [−r (∆t)] γ i τ + ∆t; τ + ∆t, x∗τ +∆t =
= exp [−r (∆t)] γ i (τ + ∆t; τ + ∆t, x∗τ + ∆x∗τ ) .
Подставляя ϕ∗1 (x) и ϕ∗2 (x) в (8.2.15) и решая (8.2.15), получаем функции значения
игроков i ∈ {1, 2} в виде [ ]
V i (t, x) = Ai x1/2 + Bi ,
396 8. Игры двух лиц с дисконтированием
Bi (τ ) = Bi (x∗τ ) =
1{ [ ] [ ] [ ]}
r Ai (x∗τ ) +Bi +r  (x∗τ ) + B̂ −r Aj (x∗τ ) +Bj −
1/2 1/2 1/2
=
2
при условии
{ (8.1.1). Заметим, } что оптимальные управления для задачи
maxu1 ,u2 J 1 (t0 , {
x0 ) + α1 J 2 (t0 , x0 ) совпадают
} с оптимальными управлениями для
задачи maxu1 ,u2 J 2 (t0 , x0 ) + α2 J 1 (t0 , x0 ) , если α1 = 1/α2 .
Пусть в Γc (x0 , T − t0 ) весовой коэффициент α10 выбран игроками в соответствии с
некоторым согласованным принципом оптимальности. Используя теорему п. 6.1.1, мы
получаем:
Теорема. Пара управлений
{[ 0 ] }
α (t ) α0 (t )
ψ1 1 0 (t, x) , ψ2 1 0 (t, x) , при t ∈ [t0 , T ]
0
если существует такая непрерывно-дифференцируемая функция W α1 (t0 ) (t, x) : [t0 , T ]×
Rm → R, которая удовлетворяет следующему уравнению Беллмана:
α01 (t0 )
−Wt (t, x) =
{ [ ∫ t ]
( 1 )
= max g [t, x, u1 , u2 ] + α1 g [t, x, u1 , u2 ] exp −
0 2
r (y) dy +
u1 ,u2 t0
}
α0 (t )
+Wx 1 0 f [t, x, u1 , u2 ] =
( ) [ ∫ t ]
α0 α0
= g 1 [t, x, ψ1 1 , u2 ] + α10 g 2 [t, x, ψ1 1 ] exp − r(y)dy ,
t0
где
0
W α1 (t0 ) (T, x) =
[ ∫ ] 2 [ ∫ ]
T ∑ [ 1 ] T
= exp − r (y) dy q (x) q (x)+α1 q (x) exp − r (y) dy .
j 2
t0 j=1 t0
α0 (t ) α0 (t )
Подставляя ψ1 1 0 (t, x) и ψ2 1 0 (t, x) в (8.1.1), получаем уравнение для парето-
оптимальной траектории, соответствующей весовому коэффициенту α10 :
[ ]
α0 (t ) α0 (t )
ẋ (s) = f s, x (s) , ψ1 1 0 (s, x (s)) , ψ2 1 0 (s, x (s)) , x (t0 ) = x0 . (8.3.2)
§ 8.3. Игры с нетрансферабельными выигрышами 399
0
Решение (8.3.2) xα1 (t) может быть представлено в виде
∫ t [ ]
α01 0 α0 (t ) 0 α0 (t ) 0
x (t) = x0 + f s, xα1 (s) , ψ1 1 0 (s, xα1 (s)), ψ2 1 0 (s, xα1 (s)) ds,
t0
0 α0
Обозначения xα1 (t) и xt 1 мы будем использовать в дальнейшем в зависимости от сте-
пени удобства.
Для обеспечения групповой рациональности кооперативные управления
[ 0 ]
α (t ) α0 (t )
ψ1 1 0 (t, x) , ψ2 1 0 (t, x)
где
[ ( ) ( )]
0 0 α0 (t ) 0 α0 (t ) 0
ẋα1 (s) = f s, xα1 (s) , ψ1 1 0 s, xα1 (s) , ψ2 1 0 s, xα1 (s) ,
0 α0
xα1 (t) = xt 1 .
( )
0 α0
Заметим, что при ∆t → 0 выражение для Ŵ α1 (t0 )i t, xt 1 принимает вид
( )
0 α0
Ŵ α1 (t0 )i t, xt 1 =
∫ t+∆t [ ( ) ( )]
0 α0 (t ) 0 α0 (t ) 0
= g i s, xα1 (s) , ψ1 1 0 s, xα1 (s) , ψ2 1 0 s, xα1 (s) ×
t
[ ∫ s ] ( )
0 0 0
× exp − r (y) dy ds + Ŵ α1 (t0 )i t + ∆t, xα1 + ∆xα1 , (8.3.4)
t0
[ ( ) ( )]
0 α0 α0 (t ) α0 α0 (t ) α0
где xα1 = f t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 ∆t.
Используя теорему Тейлора, получаем
( )
0 α0
Ŵ α1 (t0 )i t, xt 1 =
[ ( ) ( )] [ ∫ t ]
α0 α0 (t ) α0 α0 (t ) α0
= g i t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 exp − r (y) dy ∆t +
t0
( ) ( )
α01 (t0 )i α01 α01 (t0 )i α01
+ Ŵ t, xt + Ŵt t, xt ∆t +
( ) [ ( ) ( )]
α0 (t0 )i α0 α0 α0 (t ) α0 α0 (t ) α0
+ Ŵx 1 t, xt 1 f t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 ∆t +
i ∈ {1, 2} . (8.3.6)
и
[ ∫ ]
( ) T ( 0)
α01 (t0 )i α0 α
Ŵ T, xT 1 = exp − r (y) dy q i xT 1 , i ∈ {1, 2} ,
t0
( 0
)
0 α
то Ŵ α1 (t0 )i t, xt 1 есть кооперативный выигрыш игрока i на отрезке времени [t, T ]
при весовом коэффициенте α10 . ( 0 )
α
8.3.5. Повторим предыдущие рассуждения для подыгры Γc xτ 1 , T − τ с началом
α0
в момент времени τ из состояния xτ 1 с выбранным весовым коэффициентом α1τ = α10 .
Легко можно видеть, что
( ) [∫ τ ] ( )
0 α0 0 α0
Ŵ α1 (t0 )i τ, xτ 1 exp r (y) dy = Ŵ α1 (τ )i τ, xτ 1 , i ∈ {1, 2} . (8.3.8)
t0
3. ( ) [∫ τ ] ( )
α01 (t0 )i α0 τ α0
Ŵ τ, xτ 1 exp r (y) dy = Ŵ α1 (τ )i τ, xτ 1 ,
t0
( ) ( ) ( ) ( )
0 α0 α0 0 α0 α0
Ŵ α1 (τ )1 τ, xτ 1 ≥ V (τ )1 τ, xτ 1 , Ŵ α1 (τ )2 τ, xτ 1 ≥ V (τ )2 τ, xτ 1 ,
при τ ∈ [t0 , T ] ,
§ 8.3. Игры с нетрансферабельными выигрышами 403
(8.3.9)
при ограничениях
[ 0 (8.1.5). ]
α1 (t0 ) α0 (t )
Пусть ψ1 (t, x) , ψ2 1 0 (t, x) , t ∈ [t0 , T ] — пара управлений, которая доставля-
{ }
ет максимум в задаче управления maxu1 ,u2 J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) , и W (t0 ) (t, x) :
[t0 , T ] × Rn → R — функция значения, удовлетворяющая следующему уравнению (тео-
рема п. 8.3.2):
α01 (t0 )
−Wt (t, x) =
{([ c1 ] [ c2 ])
1/2 1/2
= max u1 − 1/2 u1 + α10 u2 − 1/2 u2 exp [−r (t − t0 )] +
u1 ,u2 x x
0
[ ]}
α (t )
+ Wx 1 0 (t, x) ax1/2 − bx − u1 − u2 ,
0
[ ]
W α1 (t0 ) (T, x) = exp [−r (T − t0 )] q1 x1/2 + α10 q2 x1/2 . (8.3.10)
α0 (t0 ) x
ψ2 1 (t, x) = [ 0 (t )
]2 ,
α
4 c2 + x1/2 Wx 1 0 (t, x) exp [r (t − t0 )] /α1
t ∈ [t0 , T ] . (8.3.11)
404 8. Игры двух лиц с дисконтированием
α01 (t0 ) α01 (t0 )
Подставляя ψ1 (t, x) и ψ2 (t, x) из (8.3.11) в (8.3.10), получаем выражение
для функции значения
0
[ 0 0
]
W α1 (t0 ) (t, x) = exp [−r (t − t0 )] Aα1 (t) x1/2 + B α1 (t) , t ∈ [t0 , T ] , (8.3.12)
0 0
где Aα1 (t) и B α1 (t) удовлетворяют уравнениям:
[ ]
0 b 0 1 α10
Ȧα1 (t) = r + Aα1 (t) − [ α0 ]− [ 0 ],
2 4 c1 + A 1 (t) /2 4 c2 + Aα1 (t) /2α1
0 0 a 0
Ḃ α1 (t) = rB α1 (t) − Aα1 (t) ,
2
0 0
Aα1 (T ) = q1 + α10 q2 , B α1 (T ) = 0.
α0 (t0 )
Подставляя частные производные Wx 1 (t, x) из (8.3.12) в
α0 (t ) α0 (t )
ψ1 1 0 (t,{x) и ψ2 1 0 (t, x), получаем } оптимальное управление в задаче
maxu1 ,u2 J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) . Подставляя эти управления в (8.1.5), получа-
ем парето-оптимальную траекторию, соответствующую весовому коэффициенту α10 в
виде
1/2 x (s) x (s)
ẋ (s) = ax (s) −bx (s)− [ 0 ]2 − [ 0 ]2 ,
α
4 c1 + A (s) /2
1 4 c2 + Aα1 (s) /2α10
x (t0 ) = x0 . (8.3.13)
Решая (8.3.13), получаем явное выражение для парето-оптимальной траектории,
соответствующее весовому коэффициенту α10 в виде
{ [ ∫ s ]}2
α01 1/2 −1 a
x (s) = Φ (t0 , s) x0 + Φ (t0 , t) dt , s ∈ [t0 , T ] , (8.3.14)
t0 2
[∫ ]
s
где Φ (t0 , s) = exp t0 H2 (τ ) dτ и
[ ]
b 1 1
H2 (s) = − + [ ] + [ ]2 .
2 8 c1 + Aα01 (s) /2 2 0
8 c2 + Aα1 (s) /2α0 1
( )
0 α0
Ŵ α1 (t0 )1 t, xt 1 =
[ ]
∫T α1 0
1/2 0
c xα1 (s)1/2
= [ x (s)0 ] − [ 1 ]2 exp [−r (s − t0 )] ds +
t 0
2 c1 +Aα1 (s)/2 4 c1 +Aα1 (s)/2
0 1/2
+ exp [−r (T − τ )] q1 xα1 (T ) ;
( )
0 α0
Ŵ α1 (t0 )2 t, xt 1 =
[ ]
∫T α1 0
1/2 0
c2 xα1 (s)1/2
= [ x (s) 0
] − [ ]2 exp [−r (s − t0 )] ds +
t 0
2 c2 +Aα1 (s)/2α01 4 c2 +Aα1 (s)/2α01
( 0 )1/2
α
+ exp [−r (T − τ )] q2 xT 1 .
( ) ( 0 )1/2
0 α0 α
Ŵ α1 (t0 )2 T, xT 1 exp [−r (T − τ )] q2 xT 1 . (8.3.16)
( )
0 α0
Тогда Ŵ α1 (t0 )i t, xt 1 есть кооперативный выигрыш игрока i на отрезке [t, T ] с весовым
коэффициентом α10 .
0
Утверждение. Функции Ŵ α1 (t0 )1 (t, x) : [τ, T ] × R → R, удовлетворяющие
(8.3.16), имеют вид:
( ) [ 0 ]
0 α0 α α0
Ŵ α1 (t0 )1 t, xt 1 = exp [−r (t − t0 )] Â1 1 (t) x1/2 + B̂1 1 (t) , (8.3.17)
406 8. Игры двух лиц с дисконтированием
где
[ ]
˙ α0 b α0 1 c1
Â1 1 (t) = r+ Â1 1 (t) − [ 0 ]+ [ ]2 +
2 2 c1 + Aα1 (t) /2 0
4 c1 + Aα1 (t) /2
α0 α0
Â1 1 (t) Â1 1 (t)
+ [ 0 ] 2 + [ 0 ]2 ,
8 c1 + Aα1 (t) /2 8 c2 + Aα1 (t) /2α10
˙ α0 α0 a α0 α0 α0
B̂1 1 (t) = rB̂1 1 (t) − Â1 1 (t) , Â1 1 (T ) = q1 , B̂1 1 (T ) = 0.
2
( ) ( )
α0 (t )1 α0 α0 (t )1 α0
Доказательство. Вычисляя производные Ŵt 1 0 t, xt 1 и Ŵxt1 0 t, xt 1 и под-
ставляя их в (8.3.16), получаем утверждение п. 8.3.8.
0
8.3.9. Утверждение. Функции Ŵ α1 (t0 )2 (t, x) : [τ, T ] × R → R, удовлетворяющие
(8.3.16), имеют вид:
( ) [ 0 ]
0 α0 α α0
Ŵ α1 (t0 )2 t, xt 1 = exp [−r (t − t0 )] Â2 1 (t) x1/2 + B̂2 1 (t) , (8.3.18)
где
[ ]
˙ α0 b 1 c2
Â2 1 (t) = r+ Âα2 (t)−
1
+ [ ] +
2 2 [c2 + Aα1 (t) /2α10 ] 4 c2 + Aα01 (t) /2α0 2
1
α0 α0
(t)
Â2 1 (t)
Â2 1
+ [ 0 ]2 + [ 0 ]2 ,
8 c1 + Aα1 (t) /2 8 c2 + Aα1 (t) /2α10
˙ α0 α0 a α0 α0 α0
B̂2 1 (t) = rB̂2 1 (t) − Â2 1 (t) , Â2 1 (T ) = q2 , B̂2 1 (T ) = 0.
2
( ) ( )
α0 (t )2 α0 α0 (t )2 α0
Доказательство. Вычисляя производные Ŵt 1 0 t, xt 1 и Ŵxt1 0 t, xt 1 и под-
ставляя их в (8.3.16), получаем утверждение п. 8.3.9.
Используя (8.3.8) и повторяя предыдущее утверждение для подыгр, получаем
( ) ( )
0 α0 0 α0
Ŵ α1 (t0 )2 t, xt 1 exp [−r (τ − t0 )] = Ŵ α1 (τ )1 t, xt 1 =
[ ( 0 )1/2 ]
α01 α1 α01
= exp [−r (t − τ )] Â1 (t) xt + B̂1 (t) ,
( ) ( )
0 α0 0 α0
Ŵ α1 (t0 )2 t, xt 1 exp [−r (τ − t0 )] = Ŵ α1 (τ )2 t, xt 1 =
[ ( 0 )1/2 ]
α01 α1 α01
= exp [−r (t − τ )] Â2 (t) xt + B̂2 (t) . (8.3.19)
( ) ( ) ( ) ( )
0 α0 α0 0 α0 α0
Ŵ α1 (τ )1 τ, xτ 1 ≥ V (τ )1 τ, xτ 1 , Ŵ α1 (τ )2 τ, xτ 1 ≥ V (τ )2 τ, xτ 1 ,
определяет состоятельное
( во
) времени ) кооперативной игры Γc (x0 , T − t0 ).
( решение
0 α0 α0
Условие Ŵ α1 (τ )i τ, xτ 1 ≥ V (τ )i τ, xτ 1 , i ∈ {1, 2} порождает следующие огра-
ничение на выбор весового коэффициента α10 :
[ ( 0 )1/2 ] [ ( 0 )1/2 ]
α01 α1 α01 α1
Âi (τ ) xτ + B̂i (τ ) ≥ Ai (τ ) xτ + Bi (τ ) , (8.3.20)
α0
Заметим, что из утверждений п. 8.3.8 и п. 8.3.9 можно получить B̂i 1 (τ ) =
α0
(a/2r) Âi 1 (τ ), и из утверждения п. 8.3.8 можно получить Bi (τ ) = (a/2r) Ai (τ ). По-
α0 α0
этому, если Âi 1 (τ ) ≥ Ai (τ ), то B̂i 1 (τ ) ≥ Bi (τ ) , при i ∈ {1, 2} и τ ∈ [t0 , T ] .
Для выполнения (8.3.20) необходимо, чтобы
α0
Âi 1 (τ ) ≥ Ai (τ ) , i ∈ {1, 2} и τ ∈ [t0 , T ] . (8.3.21)
1) функции α1 и α1 непрерывны и, при этом, или обе монотонно возрастают, или обе
монотонно убывают;
[ ]
Рис. 8.1. Множество St = αt1 , αt1 при StT0 ̸= ∅
[ ]
Рис. 8.2. Множество St = αt1 , αt1 при StT0 ̸= ∅
при τ ∈ [t0 , T ] ,
§ 8.4. Упражнения и задачи 409
[ ]
Рис. 8.3. Множество St = αt1 , αt1 при StT0 ̸= ∅
при i ∈ {1, 2} .
i ∈ {1, 2} , τ ∈ [t0 , T ] ,
где a и b — константы, u1 (s), u2 (s) — скорости разработки ресурса для игроков 1 и 2 соот-
ветственно.
В момент t0 функции выигрышей игроков определяются следующим образом:
∫ T[ ]
c1 2
u1 (s) − u1 (s) exp [−r (t − t0 )] ds + exp [−r (T − t0 )] qx (T ) ,
t0 x (s)
∫ T [ ]
c2 2
u2 (s) − u2 (s) exp [−r (t − t0 )] ds + exp [−r (T − t0 )] qx (T ) .
t0 x (s)
где q, c1 и c2 — константы, причем c1 ̸= c2 . Выигрыши трансферабельные, r — ставка дискон-
тирования.
410 8. Игры двух лиц с дисконтированием
а) Вычислить ПРД.
б) Показать, что выполнены Парето-оптимальность и индивидуальная рациональность.
3. Рассмотрим игру на бесконечном промежутке времени, в которой игроки 1 и 2 макси-
мизируют свои выигрыши:
∫ ∞[ ]
c1 2
u1 (s) − u1 (s) exp [−r (t − t0 )] ds,
t0 x (s)
∫ ∞[ ]
c2 2
u2 (s) − u2 (s) exp [−r (t − t0 )] ds.
t0 x (s)
Выигрыши игроков транферабельные и поток реуров x (s) ∈ X ⊂ R определяется динами-
ке:
ẋ (s) = a − bx (s) − u1 (s) − u2 (s) , x (t0 ) = x0 ∈ X.
а) Найти равновесие по Нэшу в позиционных стратегиях.
б) Найти оптимальные стратегии для кооперативной формы игры.
в) Для кооперативной формы игры найти оптимальную траекторию.
г) Рассмотрим кооперативную игру, в которой игроки максимизируют суммарный выиг-
рыш и делят его в соответствии с арбитражной схемой Нэша. Эта схема также совпадает
с вектором Шепли для кооперативной игры двух лиц. Найти ПРД.
4. Рассмотреть игру из упр.3, но предположить, что выигрыши нетрансферабельные.
а) Найти парето-оптимальное решение.
б) Предложить динамически устойчивое решение, удовлетворяющее аксиоме симметрии.
Литература
Основная
а) учебники
Айзекс Р. Дифференциальные игры. — М.: Мир, 1967.
Васин А. А., Краснощеков П. С., Морозов В. В. Исследование операций. — М.: Изд.
центр «Академия», 2008, 464 с.
Васин А. А., Морозов В. В. Теория игр и модели математической экономики. — М.:
Изд-во Моск. ун-та, 2005, 272 с.
Воробьев Н. Н. Теория игр для экономистов-кибернетиков. — М.: Наука, 1985.
Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр. — М.: Наука, 1981,
с. 311.
Зенкевич Н. А., Петросян Л. А., Янг Д. В. К. Динамические игры и их приложения
в менеджменте. — СПб: Изд-во ВШМ, 2009, 416 c.
Карлин С. Математические методы в теории игр, программировании и экономи-
ке. — М.: Мир, 1964, с. 840.
Красовский Н. Н. Управление динамической системой. Задача о минимуме гаран-
тированного результата. — М.: Наука, 1985, с. 469.
Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. — М.:
Наука, 1974, с. 456.
Мазалов В.В. Математическая теория игр и приложения. — СПб.; Москва; Крас-
нодар: Лань, 2010, 446 с.
Мак-Кинси Дж. К. Введение в теорию игр. — Москва, 1960, с. 371.
Мулен Э. Теория игр c примерами из математической экономики. — М.: Мир, 1985.
Оуэн Г. Теория игр. — Москва, 1971, с. 230.
Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их при-
ложения. — Томск, 1985.
Петросян Л. А., Кузютин Д. В. Игры в развернутой форме: оптимальность и
устойчивость. — СПб.: Изд-во СПбГУ, 2000.
411
412 Литература
б) сборники задач
Дополнительная
в) монографии и учебные пособия
Ауман Р., Шепли Л. Значение для неатомических игр. — Принстон: Изд-во Прин-
стонского ун-та, 1974, с. 283.
Ашманов С. А. Линейное программирование. — М.: Наука, 1981, с. 198.
Беллман Р. Динамическое программирование. — М.: И.Л., 1960.
Берж К. Общая теория игр нескольких лиц. — М.: Физматгиз, 1961, с. 114.
Блекуэлл Д., Гиршик М. Теория игр и статистических решений. — М.: И.Л., 1958,
с. 330.
Бондарева О. Н. О теоретико-игровых моделях в экономике. — Л.: Изд-во ЛГУ,
1974, с. 115.
Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. — М.: Наука, 1984.
Григоренко Н. Л. Дифференциальные игры преследования несколькими объекта-
ми. — М.: Изд-во МГУ, 1983, с. 217.
Данилов Н. Н. Игровые модели принятия решений. — Кемерово: КГТУ, 1981.
Данскин Дж. М. Теория максимина. — М.: Сов. радио, 1970, с. 126.
Демьянов В. Ф., Малоземов В. Н. Введение в минимакс. — М.: Наука, 1972.
Гейл Д. Теория линейных экономических моделей. — М.: Мир, 1963, с. 330.
Горелик В. А., Кононенко А. Ф. Теоретико-игровые модели принятия решений в
эколого-экономических системах. — М., 1982.
Литература 413
Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр. — М.: Наука, 1981,
с. 311.
Кукушкин Н. Н., Морозов В.В. Теория неантагонистических игр. — М.: Изд-во МГУ,
1977.
Льюис Р. Д., Райфа Х. Игры и решения. Введение и критический обзор. — М.: И.Л.,
1961, с. 509.
Партхасаратхи Т., Рагхаван Т. Некоторые вопросы теории игр двух лиц. — Москва,
1974, с. 259.
Петросян Л. А., Гарнаев А. Ю. Игры поиска. — Л.: Изд-во ЛГУ, 1992, с. 217.
Печерский С. Л., Беляева А. А. Теория игр для экономистов. Вводный курс. — СПб.:
Изд-во Европейского университета, 2001.
Basar T., Olsder G. J. Dynamic Noncooperative Game Theory, 2nd Edn. — London:
Academic Press, 1995.
Binmore K. Fun and Games. A Text on Game Theory. D. C. Heath and Company. —
Lexington, Massachusetts, USA, 1992.
Dockner E., Jorgensen S., Long N.V., Sorger, G. Differential Games in Economics
and Management Science. — Cambridge University Press, Cambridge, 2000.
Fishburn P. C. Utility theory for decision making. — New York; London; Sydney;
Toronto: Wiley, 1970.
416 Литература
Gibbons R. Game Theory for Applied Economists. — Princ. Univ. Press, Princeton, New
Jersey, 1992.
Kreps D. M. Game theory and economic modeling. — Oxford: Oxford Univ. Press, 1990.
Maynard, S. J. and G. R. Price. The logic of animal conflict. — Nature, London, 1973.
Thomson W., Lensberg T. Bargaining theory: Axiomatic approach. — San Diego: Aca-
demic Press, 1990.
Литература 417
г) статьи
Breton M., Zaccour G., Zahaf M. A differential game of joint implementation of envi-
ronmental projects // Automatica. Vol. 41. — № 10. — 2005, P. 1737–1749.
Domansky V. Dynkin games with randomized optimal stopping rules // Annals of the
International Society of Dynamic Games. Vol.7. — Birkhauser, Boston, MA,USA, 2004,
P. 247–262.
Kidland F. E., Prescott E. C. Rules rather than decisions: the inconsistency of optimal
plans // J. of Political Economy, 1977, Vol. 85, P. 473–490.
420 Литература
Krawczyk J., Zaccour G. Management of pollution from decentralized agents by the local
government // International Journal of Environment and Pollution. V. 12. — №2/3. —
1999. — P. 343–357.
Marı́n-Solano J. and Navas J. Non-constant discounting in finite horizon: the free ter-
minal time case // Journal of Economic Dynamics and Control, 33, 2009, 666–675.
Melikyan A., Olsder G., Akhmetzhanov A. Solution of a Nonzero-Sum Game via Reduc-
tion to a Zero-Sum Game // International Game Theory Review. Vol. 10(4). — 2008. —
P. 437–459.
Nash J. F. Equilibrium points in n-person games// Proc. Nat. Acad. Sci., USA.
Vol. 36. — 1950. — P. 48–49.
Neumann J. von. Zur Theorie der Gesellschaftsspiele // Math. Ann. Vol. 100. — 1928.
— P. 295–320.
Petrosjan L. A. The Shapley value for differential games // New Trends in Dynamic
Games and Applications / eds G.Y. Olsder. — Boston: Birkhauser, 1996.
Литература 421
Petrosyan L. A. Bargaining in dynamic gam es. In: Petrosyan, L., Yeung, D. (ed) ICM
Millennium Lectures on Games, 2003. — Springer-Verlag, Berlin. — P. 139–143.
Petrosjan L.A., Shevkoplyas E. V. Cooperative Solutions for Games with Random Du-
ration // Game Theory and Applications. Vol.IX, — 2003. — Nova Science Publishers. —
P. 125–139.
Rosen J. B. Existence and uniqueness of equilibrium points for concave n-person games //
Econometrica. Vol. 33. — 1965. — P. 520–534.
Shevkoplyas E. V. The Shapley Value in cooperative differential games with random du-
ration // Advances in Dynamic Games. Vol. 11. — Edt. by M.Breton and K. Szajowski. —
Springer’s imprint Birkhauser, Boston, 2011.
Subbotina N.N. The method of characteristics for Hamilton-Jacobi equations and applica-
tions to dynamical optimization // Journal of math. sciences. Vol. 135. — №3, 2955-3091,
DOI: 10.1007/s10958-006-0146-2.
Van Damme E. E. C. A relation between perfect equilibria in extensive form games and
proper equilibria in normal form games // Intern. J. Game Theory. Vol. 13. — 1984. —
P. 1–13.
422 Литература
C-ядро, 165 Д
N M -решение, 170
ε, δ-равновесие, 304 диктаторское решение, 157
i-равновесие по Штакельбергу, 128 дифференциальная игра с предписанной
ESS, 146, 222 продолжительностью, 296
дуэль, 14, 91, 93
З
А
задача о переговорах, 153
Айзекса–Беллмана уравнение, 310 значение игры, 19, 291
альтернативы, 210
арбитражная схема Нэша, 153 И
асимметричное равновесие Нэша, 157
игра двух лиц, 120
Б игра качества, 290
игра на достижение минимального резуль-
бескоалиционная игра, 119 тата, 290
бесконечные игры, 55 игра на уклонение, 14
бесшумная дуэль, 57 игра поиска, 15, 55, 93
биматричная игра, 120 игра преследования, 285
игра преследования на быстродействие,
В 301
игра преследования при наличии сил тре-
вектор Банзафа, 185 ния, 321
вектор Шепли, 174 игра с интегральным выигрышем, 290
верхнее значение, 17 игра с нулевой суммой, 12
верхние значение игры, 58 игра с полной памятью, 213
вогнутая игра, 76 игра с постоянной суммой, 161
вполне смешанная стратегия, 43, 130 игра с терминальным выигрышем, 290
выпуклая игра, 76 игры на единичном квадрате, 58
выпуклая оболочка, 26 интегральный выигрыш, 290
выпуклая функция выигрыша, 76 информационное множество, 206
выпуклое многогранное множество, 26
выпуклое множество, 26 К
выпуклый конус, 27
коалиция, 159
Г конус, 27
крайняя точка, 26
гипотетическое рассогласование, 307 кусочно-программные стратегии, 288
423
424 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
СКПСП, 324
седловая точка, 18, 28
сильное равновесие, 126
симметричная игра, 46, 221
симметрия в игре, 221
синтезирующие стратегии, 287, 292
ситуация в игре, 12
смешанная стратегия, 23, 63, 129