Teorigr Upravlenie

Российская Академия Наук
Институт проблем управления УДК 519

им. В.А. Трапезникова ББК 22.18
Г 93
Губко М.В., Новиков Д.А. Теория игр в управле-

Г 93 нии организационными системами. Издание 2,
М.В. ГУБКО, Д.А. НОВИКОВ М.: 2005.
ТЕОРИЯ ИГР В настоящем учебном пособии излагаются основные понятия и ре-

зультаты теории игр применительно к задачам управления организаци-
В УПРАВЛЕНИИ онными системами. В том числе, рассматриваются: модель управления
в организационных системах, игры с полной и неполной информирован-
ОРГАНИЗАЦИОННЫМИ ностью, кооперативные, иерархические, рефлексивные игры, а также

игры формирования сетей.
СИСТЕМАМИ Учебное пособие предназначено для студентов ВУЗов, аспирантов

и специалистов в области управления социально-экономическими сис-
темами.
(2-е издание, переработанное и дополненное)
Рекомендовано в качестве учебного по- Рецензенты: д.т.н., проф. В.Н. Бурков,

собия Методическим советом ФРТК
Московского физико-технического ин-
д.т.н., проф. А.В. Щепкин
ститута по специальности № 010300
«Прикладные математика и физика»,
специализация «Прикладные информа- УДК
ционные технологии в управлении и 519
бизнесе» ББК
22.18
Г 93
ISBN
Москва – 2005
Ó М.В. Губко, Д.А.Новиков, 2005
2
5.2. Переход от нормальной формы игры к игре в форме
СОДЕРЖАНИЕ характеристической функции....................................................95
5.3. Описание игры в терминах характеристической функции 98
5.4. Определение дележа, доминирование дележей..................99
Введение ............................................................................................. 5 5.5. Концепции решения кооперативных игр ......................... 101
Глава 1. Управленческие решения................................................. 7 5.6. C-ядро............................................................................... 103
1.1. Модель принятия решений...................................................7 5.7. Выпуклые игры ................................................................ 105
1.2. Управление и его типы.......................................................16 5.8. НМ-решения..................................................................... 108
1.3. Технология управления организационными системами ....23 5.9. Решения в конфигурациях................................................ 109
1.4. Примеры задач управления................................................27 5.10. Значения игры ................................................................ 111
5.11. Вектор Шепли ................................................................ 112
Глава 2. Проблематика теории игр .............................................. 34
5.12. N-ядро............................................................................. 113
2.1. Отношения предпочтения ..................................................34
5.13. Решения в угрозах и контругрозах ................................. 114
2.2. Полезность и функция полезности.....................................38
5.14. Роль информированности .............................................. 116
2.3. Классификация и примеры игр ..........................................45
Глава 6. Иерархические игры ..................................................... 117
Глава 3. Игры с полной информированностью .......................... 51
6.1. Игры с фиксированным порядком ходов......................... 117
3.1. Определение игры в развернутой форме............................51
6.2. Базовые модели иерархических игр ................................. 118
3.2. Определение игры в нормальной форме............................53
6.3. Метаигры.......................................................................... 130
3.3. Переход от игры в развернутой форме к игре в
нормальной форме ....................................................................55 ЗАКЛЮЧЕНИЕ............................................................................. 133
3.4. Смешанные стратегии........................................................58
Литература .................................................................................... 134
3.5. Различные концепции решения игр ...................................61
3.6. Удаление доминируемых стратегий...................................65
3.7. Равновесие в доминантных стратегиях ..............................66
3.8. Оптимальность по Парето..................................................67
3.9. Равновесие Нэша ................................................................69
3.10. Вычисление равновесий Нэша .........................................78
3.11. Сильное равновесие Нэша................................................81
3.12. «Параметрическое» равновесие Нэша..............................81
3.13. Сравнение концепций решения........................................85
Глава 4. Игры с неполной информированностью ...................... 86
4.1. Принцип максимального гарантированного результата ....87
4.2. Байесовы игры, равновесие Байеса ....................................88
Глава 5. Кооперативные игры ...................................................... 91
5.1. Виды взаимодействия игроков...........................................91
3 4
ВВЕДЕНИЕ заинтересованному читателю получить более полное представле-
ние о вопросах, не рассмотренных подробно.
Данная книга посвящена описанию подходов и результатов Изложение имеет следующую структуру. В первой и второй
теории игр1 к постановке и решению задач управления организа- главах вводится модель принятия управленческих решений, выяв-
ционными системами. Теория игр – раздел прикладной матема- ляется роль и место теории игр в формулировке и решении задач
тики, исследующий модели принятия решений в условиях несов- управления организационными системами, приводится классифи-
падения интересов сторон (игроков2), когда каждая сторона стре- кация игр, а также примеры игровых моделей и задач управления.
мится воздействовать на развитие ситуации в собственных инте-
ресах [19]. В третьей главе рассматриваются некооперативные игры с
Среди литературы по теории игр можно выделить: моногра- полной информированностью игроков о параметрах игры. Рас-
фии [1, 3, 5, 18, 19, 21, 20, 23, 26, 33, 35, 41, 42, 48, 62, 63, 74, 81, сматриваются наиболее популярные теоретико-игровые концепции
82, 87 и др.], содержащие изложение фундаментальных результа- решения, проводится их сравнительный анализ.
тов; малочисленные, к сожалению, учебные пособия [20, 24, 35, Четвертая глава вкратце рассказывает о более сложных мо-
37, 47, 46, 62, 65, 74, 79, 82] и сборники задач и упражнений [30, делях игр – играх с неполной информированностью, в которых
45]. Основной акцент при описании прикладных результатов игроки неточно знают предпочтения своих партнеров. Для этих
обычно делается на применении теоретико-игровых моделей в со- моделей приводятся две концепции решения – принцип макси-
циальных, экономических системах и в военном деле. Наряду с мального гарантированного результата (МГР) и равновесие Байе-
этим, аппарат теории игр широко используют многочисленные са.
математические модели управления организационными система- Пятая глава рассматривает кооперативные игры и посвящена
ми [9-14, 21, 29, 37, 49-58, 79, 80, 83, 85], многие из которых изу- исследованию сотрудничества игроков в процессе игрового кон-
чаются в ВУЗах при подготовке специалистов по управлению. Ко- фликта. Вводится модель игры в форме характеристической
нечно, в рамках учебного пособия невозможно, да и нецелесооб- функции, и на этой модели рассматриваются различные концепции
разно, привести детальную картину современного состояния тео- решения – C-ядро, НМ-решения и некоторые другие.
рия игр (так, ниже, например, практически не рассматриваются Заключительная шестая глава посвящена иерархическим иг-
дифференциальные [1, 28, 32, 33] и повторяющиеся [21, 33, 52, рам (играм Ю.Б. Гермейера). Рассматриваемая в ней проблема-
58, 74, 82] игры). Такая задача и не ставится. Цель данной книги – тика имеет самое непосредственное отношение к задачам управ-
дать общее представление о подходах и результатах теории игр, ления в организационных системах.
которые используются в моделях управления именно организаци- Как свидетельствует преподавательский опыт авторов, мате-
онными системами. Многочисленные ссылки дают возможность риал настоящего учебного пособия может служить либо основой
семестрового курса лекций, либо, совместно с моделями управле-
1
ния, излагаемыми в учебном пособии [55], содержанием годового
Под игрой будем понимать взаимодействие сторон, интересы кото-
курса3.
рых не совпадают. Возможны и другие определения игры – см. [5, 6, 19,
20, 21, 48, 62, 65]. В частности, в [67, C.475] приводится следующее
определение: «Игра – вид непродуктивной деятельности, мотив кото-
3
рой заключается не в ее результатах, а в самом процессе». В этом случае слушателям можно рекомендовать использовать па-
2
Понятия, вводимые впервые, выделены курсивом. Основные определе- раллельно пособия по приложениям теории графов и теории нечетких
ния выделены рубленым шрифтом. множеств в управлении организационными системами [12].
5 6
Авторы считают своим приятным долгом выразить призна- Опишем модель принятия решений агентом. Для того чтобы
тельность рецензентам д.т.н. В.Н. Буркову и д.т.н. А.В. Щепкину, определить, как задаются предпочтения агента (и центра), введем
а также к.ф-м.н. Р.П. Агаеву, д.т.н. Ф.Т. Алескерову, к.ф-м.н. следующее описание взаимодействия агента с его обстановкой, в
М.А. Горелову, М.Б. Искакову, А.П. Караваеву, Н.А. Коргину, которую могут входить другие агенты, управляющие органы и
С.Н. Петракову, к.ф.-м.н. А.Д. Халезову, к.ф.-м.н. прочие объекты и субъекты (как принадлежащие рассматриваемой
А.Г. Чхартишвили, Т.Е. Шохиной за внимание к настоящей работе ОС, так и являющиеся элементами внешней среды – четкое выде-
и конструктивные замечания и предложения. ление границ ОС не принципиально – см. ниже).
Пусть агент способен выбирать действия (стратегии, состоя-
ния и т.д.) из множества A допустимых действий данного агента.
ГЛАВА 1. УПРАВЛЕНЧЕСКИЕ РЕШЕНИЯ Действие будем обозначать y (y Î A). В результате выбора дейст-
вия y Î A под влиянием обстановки реализуется результат дея-
В настоящей главе рассматривается модель принятия решений тельности агента, который будем обозначать z Î A0, где A0 –
участниками организационных систем (модели индивидуального и множество возможных результатов деятельности. Возможное не-
коллективного поведения), в рамках которой определяется понятие совпадение действия агента и результата его деятельности может
управления и выделяются его основные типы; описывается быть обусловлено влиянием обстановки – внешней среды, дейст-
технология управления, что позволяет выявить роль и место в ней вий других участников ОС и т.д.
теории игр; приводится ряд примеров теоретико-игровых задач Связь между действием агента y Î A и результатом z Î A0 его
управления. деятельности может иметь сложную природу и описываться рас-
пределениями вероятности, нечеткими информационными функ-
1.1. Модель принятия решений циями и др. (см. ниже).
Рассмотрим организационную систему (ОС), состоящую из Будем считать, что агент обладает предпочтениями на мно-
двух участников – центра и агента4, обладающих свойством ак- жестве результатов z Î A0, то есть имеет возможность сравнивать
тивности, то есть собственными предпочтениями и способностью различные результаты деятельности. Предпочтения агента обо-
самостоятельно предпринимать некоторые действия. Системы, значим R A0 , множество возможных предпочтений – Â A0 .
элементы которых активны, получили название активных систем Часто предпочтения из множества Â A0 можно параметризо-
(АС) [9, 13, 14, 55].
вать переменной r, принимающей значения из подмножества W
действительной оси, W Í Â1. То есть каждому возможному пред-
4
В соответствии с подходами теории иерархических игр [21] и теории
почтению агента R A0 Î Â A0 ставится во взаимно однозначное
активных систем [14, 55] центром будем называть игрока, делающего соответствие значение параметра r Î W, называемого типом аген-
ход первым (то есть метаигрока, обладающего правом устанавливать та.
правила игры для других игроков), а агентом – игрока, делающего ход При выборе действия y Î A агент руководствуется своими
вторым при известном ему выборе первого игрока. В моделях управле-
предпочтениями и тем, как выбираемое действие влияет на резуль-
ния социально-экономическими системами центр играет роль управ-
ляющего органа, агент – роль управляемого субъекта, причем первона- тат деятельности z Î A0 , то есть некоторым законом WI(×) измене-
чально распределение «ролей» может не быть фиксированным (см. ния результата деятельности в зависимости от действия и обста-
модели сетевого взаимодействия в [51, 57]). новки, информация о которой отражена переменной I. Выбор дей-
7 8
ствия агентом определяется правилом индивидуального рацио- Выше речь шла о «наилучшей» альтернативе. Но, если пред-
нального выбора PW I ( Â A0 , A, I) ÍA, которое выделяет множество почтения агента определены на множестве результатов деятельно-
сти, зависящих, помимо его действий, от обстановки, то в общем
наиболее предпочтительных с точки зрения агента действий.
случае не существует однозначной связи между действием агента и
Правило индивидуального рационального выбора определим
результатом его деятельности. Поэтому, принимая решение о вы-
следующим образом. Примем две гипотезы [49, 55]:
бираемом действии, агент должен предсказывать, к каким резуль-
- гипотеза рационального поведения, заключающаяся в том, татам могут привести те или иные действия (здесь существенна та
что агент с учетом всей имеющейся у него информации вы- информация, которую он имеет относительно обстановки) и ана-
бирает действия, которые приводят к наиболее предпочти- лизировать предпочтительность соответствующих результатов
тельным результатам деятельности;
деятельности. Процесс перехода от предпочтений R A0 на множе-
- гипотеза детерминизма, заключающаяся в том, что агент
стремится устранить с учетом всей имеющейся у него ин- стве A0 к индуцированным предпочтениям5 RA на множестве A,
формации существующую неопределенность и принимать основывающийся на законе WI(×), называется устранением неоп-
решения в условиях полной информированности (другими ределенности. В случае, когда предпочтения агента исходно опи-
словами, окончательный критерий, которым руководству- сывались функцией полезности, его индуцированные предпочтения
ется лицо, принимающее решения (ЛПР), не должен содер- будут описываться целевой функцией, которая каждому действию
жать неопределенных параметров). агента ставит в соответствие некоторое действительное число
Пояснений требуют два понятия – «использование всей (которое может интерпретироваться как его «выигрыш» от выбора
имеющейся информации» и «наиболее предпочтительные резуль- этого действия).
таты деятельности». При рассмотрении математических моделей принятия реше-
Начнем со второго понятия. Существуют несколько способов ний будем различать6 (основание классификации – объекты и
задания индивидуальных предпочтений. Наиболее распространены субъекты, относительно которых имеется недостаточная информа-
два из них – отношения предпочтения (бинарные [61, 66, 68, 69], ция) объективную неопределенность (неполная информирован-
метризованные [12, 55] и др.) и функции полезности (см. раздел ность относительно параметров обстановки) и субъективную не-
2.2) [48, 62, 68]. Бинарное отношение определяет для пары
альтернатив, какая из них является «лучше», функция полезности 5
каждой альтернативе ставит в соответствие действительное чис- Термин «индуцированные предпочтения» обусловлен тем, что пред-
почтения на множестве действий порождаются (индуцируются)
ло – полезность этой альтернативы. В соответствии с гипотезой
предпочтениями на множестве результатов деятельности и законом
рационального поведения агент выбирает альтернативу из мно-
взаимосвязи между действиями и результатами.
жества «лучших» альтернатив. В случае функций полезности это 6
В литературе описаны несколько классификаций неопределенностей
множество является множеством альтернатив, на которых дости- [14, 34, 55, 61]. Например, в [61] предлагалось выделять «неопределен-
гается максимум функции полезности, в случае отношений пред- ности природы» (факторы, которые неизвестны ЛПР, и/или исследо-
почтения множество выбора определяется более сложным образом вателю операций, в том числе – относительно взаимосвязи между дей-
(см. [2, 69]), зависящим от свойств отношения предпочтения. ствиями и результатами деятельности), «неопределенности против-
Обсуждать подробно (за исключением раздела 2.2) взаимосвязь ника» (отражающие невозможность полного учета и предсказания
между различными представлениями индивидуальных предпоч- действий других активных участников системы) и «неопределенности
тений мы не будем, отослав заинтересованного читателя к [68]. целей» (отражающие, в том числе, многокритериальность задач при-
нятия решений).
9 10
определенность (неполную информированность о принципах по- I
ведения других субъектов). Неопределенность относительно пара- АГЕНТ
метров, описывающих участников ОС, называется внутренней не- {A, A0 , Q, w(×), v(×), I}
определенностью, относительно внешних параметров – внешней
неопределенностью. Внешняя объективная неопределенность на-
зывается неопределенностью природы (или неопределенностью
состояния природы), внутренняя субъективная неопределенность7 yÎA
называется игровой неопределенностью.
Ниже будет использоваться следующая модель предпочтений
и информированности агента. Пусть предпочтения агента на мно- z Î A0
УПРАВЛЯЕМЫЙ ОБЪЕКТ
жестве возможных результатов деятельности заданы его функцией
w(×): A ´ Q ® A0
полезности v(×), а результат деятельности z Î A0 зависит от дейст-
вия y Î A и обстановки q Î Q известным образом8: z = w(y, q). То- qÎQ
гда закон WI(×) определяется функцией9 w(×), отражающей структу-
ру пассивного управляемого объекта, и той информацией I, Рис. 1. Структура модели принятия решений агентом.
которой обладает агент на момент принятия решений о выбирае-
мом действии. Рассмотрим сначала объективную неопределенность10
Структура модели принятия решений агентом изображена на (внешнюю или внутреннюю). Тогда существенной для агента яв-
рисунке 1. ляется информация относительно обстановки. В качестве такой
Детализируем, что понимается под информацией и каким информации (различных видов неопределенности) могут высту-
образом устраняется неопределенность того или иного типа. пать11:
- множество возможных значений обстановки Q’ Í Q. Соот-
ветствующая неопределенность называется интервальной
неопределенностью и устраняется использованием макси-
7 10
Внешняя субъективная неопределенность, как правило, не рассматри- Традиционно под «неопределенностью» понимают объективную не-
вается, так как она может быть исключена путем включения субъек- определенность и большинство исследований ОС с неопределенностью
тов, о принципах поведения которых у ЛПР имеется неполная инфор- учитывает именно ее [6, 21, 55]. В то же время, например, для дина-
мированность, в ОС. мических ОС характерна не только текущая объективная неопределен-
8
Использование такого описания не снижает общности, так как в ность, но и неопределенность будущего, которая заключается в том,
многоэлементных системах партнеры каждого агента могут рас- что, принимая решение, ЛПР, с одной стороны, «влияет» на будущее
сматриваться как внешняя для него среда, и их стратегии будут обра- (это влияние может проявляться в изменении множеств его будущих
зовывать «состояние природы» (которое, правда, будет для каждого допустимых действий, выигрышей и т.д.), а, с другой стороны, воз-
из агентов свое) – см. описание игровой неопределенности ниже. можности его анализа этого влияния ограничены незнанием будущих
9
Отображение, связывающее действия и обстановку с результатами значений существенных параметров. Многочисленные примеры прояв-
деятельности, может рассматриваться как «технология» функциони- лений неопределенности будущего приведены в [58].
11
рования некоторого объекта, управление которым осуществляет Всюду, где встречаются максимумы и минимумы, предполагается,
агент (см. рисунок 1). что они достигаются.
11 12
мального гарантированного результата (МГР): ков (участников некоторой системы), в котором полезность каждо-
f(y) = min v( w( y, q )) , использованием гипотезы благоже- го игрока зависит как от его собственного действия (стратегии),
q ÎQ '
так и от действий других игроков. Если, в силу гипотезы рацио-
лательности (ГБ): f(y)= max v( w( y,q )) , их комбинаций и нального поведения, каждый из игроков стремится выбором стра-
θ ÎQ'
т.д. [13, 18, 21]; тегии максимизировать свою целевую функцию, то понятно, что в
- распределение вероятностей p(q) на множестве Q. Соответ- случае нескольких игроков индивидуально рациональная стратегия
ствующая неопределенность называется вероятностной не- каждого из них зависит от стратегий других игроков. Набор таких
определенностью и устраняется использованием ожидаемых рациональных стратегий называется решением игры (равновеси-
значений (EUA – expected utility analysis): ем). В теории игр на сегодняшний день не существует единого по-
нятия равновесия. Введение различных предположений о рацио-
ò
f ( y ) = v( w( y,q )) p (q )dq , быть может, с учетом риска
q ÎQ '
нальном поведении игроков порождает различные концепции рав-
новесия (см. главы 3–6), причем в одной и той же игре равновесия
(дисперсии полезности) и моментов более высоких поряд-
одного типа могут существовать, а другого – нет.
ков;
Каждому из n игроков (агентов) поставим в соответствие
- функция принадлежности mQ’(q) нечеткого множества
Q’ Í Q. Соответствующая неопределенность называется
функцию выигрыша vi (y), где y = ( y1 , ..., yn ) Î A' = Õ
Ai – вектор
iÎ N
нечеткой неопределенностью и обычно устраняется выде- действий всех игроков, N = {1, 2, ..., n} – множество игроков.
лением множества максимально недоминируемых действий
Следуя сложившейся терминологии теории игр, будем называть
[53, 55, 61].
действия y i стратегиями, а вектор y – ситуацией игры. Совокуп-
До сих пор мы рассматривали индивидуальное принятие ре-
шений. Рассмотрим теперь игровую (внутреннюю субъективную) ность стратегий y -i = ( y1 , ..., y i -1 , y i +1 , ..., y n ) называется обста-
неопределенность, в рамках которой существенными являются новкой игры для i-го игрока.
предположения агента о множестве возможных значений обста- Таким образом, рациональному коллективному поведению
новки (действий других агентов, выбираемых ими в рамках тех соответствует выбор игроками равновесных стратегий (тип рав-
или иных неточно известных рассматриваемому агенту принципов новесия – см. ниже – должен оговариваться в каждом конкретном
поведения) в зависимости от его действий, то есть Q’ = Q’(y). случае). Отметим, что любые концепции равновесия должны быть
Для описания коллективного поведения агентов, входящих в согласованы (при n = 1) с введенными выше принципами
некоторую многоэлементную ОС (включающую центр и несколь- индивидуального рационального выбора.
ких агентов), недостаточно определить их предпочтения и соответ- Более того, в теоретико-игровых моделях можно считать, что
ствия рационального индивидуального выбора по отдельности, так обстановка игры определяет состояние природы для рассматри-
как следует описать модель их совместного поведения. Как отме- ваемого игрока (агента), то есть qi = y-i , i Î N, а результат дея-
чалось выше, в случае, когда в системе имеется единственный тельности будет один для всех игроков – ситуация игры, то есть
агент, гипотеза его рационального (индивидуального) поведения zi = y, i Î N. Информация игрока и те предположения, которые он
предполагает, что агент ведет себя таким образом, чтобы выбором использует о поведении других игроков [13, 21, 35, 56, 76, 82], от-
действия максимизировать значение своей целевой функции. В ражают его принцип устранения неопределенности. Совокупность
случае, когда агентов несколько, необходимо учитывать их взаим- принципов устранения неопределенности, используемых игроками,
ное влияние. В этом случае возникает игра – взаимодействие игро- порождает тип равновесия игры (принципу максимального гаран-
13 14
тированного результата соответствует максиминное равновесие, теза рационального поведения проявляется в том, что агент выби-
принципу усреднения – равновесие Байеса, предположению о фик- рает действия, наилучшие с точки зрения его индуцированных
сированной обстановке y*-i – равновесие Нэша и т.д. – см. ниже) – предпочтений (стремится выбором действия максимизировать
устойчивой в том или ином (оговариваемом в каждом конкретном свою целевую функцию, в качестве которой может выступать га-
случае) смысле совокупности действий участников системы. рантированная полезность, ожидаемая полезность и т.д. – см. вы-
Другими словами, субъективная (игровая) неопределенность, ше).
как правило, устраняется введением тех или иных предположений Описав модель принятия индивидуальных и коллективных
о принципах поведения участников системы, позволяющих одно- решений, перейдем к рассмотрению модели управления.
значно доопределить выбираемые ими стратегии. То есть устра-
нение субъективной неопределенности производится в два этапа –
1.2. Управление и его типы
на первом этапе определяется концепция равновесия, на втором
В общем случае управлением называется воздействие на
этапе определяется принцип выбора игроками конкретных равно-
управляемую систему (управляемый субъект или объект управле-
весных стратегий в случае, если последних несколько – гипотеза
ния), нацеленное на обеспечение требуемого ее поведения12.
благожелательности, принцип гарантированного результата и т.д.
Классификация управлений может строиться на основании тех
[13, 21, 55, 57].
компонентов управляемой системы13 (точнее, ее модели) – агента,
«Предельным» для всех перечисленных выше типов и видов на которые оказывается воздействие при использовании управле-
неопределенности является случай детерминированного измене- ний тех или иных типов [14, 49, 55].
ния результата деятельности – когда он не зависит от обстановки
В рамках представления предпочтений агента в терминах
(или, что то же самое, когда множество Q’ состоит из единствен-
функции полезности, модель принятия им решений описывается
ного элемента), то есть когда каждому действию y Î A соответст-
следующим кортежем: Y = {A, A0, Q, v(×), w(×), I}, то есть множе-
вует единственный результат деятельности z = w(y) Î A0. При этом ствами: допустимых действий A, допустимых результатов дея-
можно сразу считать, что предпочтения агента заданы на тельности A0 , возможных значений обстановок (неопределенности)
множестве его действий. Если v(×) - функция полезности агента, то Q; функциями: полезности v(×) и «технологии» w(×) между
его целевая функция f(×) в детерминированном случае определяется действиями, обстановкой и результатом деятельности; а также
как f(y) = v(w(y)). информацией I, которой обладает агент на момент принятия ре-
Правило индивидуального рационального выбора в детерми- шений.
нированном случае заключается в выборе агентом действий, дос- Будем считать, что закон w(×) известен всем участникам ОС и
тавляющих максимум его целевой функции, то есть не может быть изменен. Содержательно это предположение соот-
P WI ( Â A0 , A, I) = Arg max f(y).
yÎA
12
Принятие решений агентом также может рассматриваться как
Таким образом, гипотеза детерминизма проявляется в том,
выработка управляющих воздействий (см. рисунок 1). Агент, осущест-
что агент, устраняя неопределенность (то есть используя МГР, ма- вляющий управление активным субъектом, должен рассматриваться
тематическое ожидание, отношение недоминирования, предполо- как центр.
жения о поведении других агентов и т.д. – в зависимости от типа и 13
Примером может служить стимулирование – «побуждение к совер-
вида неопределенности), переходит от предпочтений, зависящих от шению действий; комплексное целенаправленное внешнее воздействие
неопределенных факторов, к предпочтениям, зависящим от его на процессуальные компоненты деятельности управляемой системы и
собственных действий – к индуцированным предпочтениям. Гипо- процессы их формирования» [55, С.13].
15 16
ветствует фиксированной технологии деятельности агента (или Институциональное управление, которое обозначим uA Î UA,
фиксированной технологии функционирования управляемого аген- является наиболее жестким и заключается в том, что центр целе-
том объекта) и не является критическим, так как практически лю- направленно ограничивает множества возможных действий и ре-
бое изменение связи между действием и результатом может быть зультатов деятельности агента. Такое ограничение может осущест-
отражено зависимостью этой связи от обстановки. вляться явными или неявными воздействиями16 – правовыми ак-
Также без ограничения общности можно считать, что множе- тами, морально-этическими нормами и т.д.
ство обстановок Q известно всем участникам ОС и фиксировано Мотивационное управление, которое обозначим uv Î Uv, яв-
(для выполнения этого предположения всегда можно выбрать это ляется более «мягким», чем институциональное, и заключается в
множество достаточно широким, ограничивая в каждом конкрет- целенаправленном изменении функции полезности агента. Такое
ном случае возможные значения обстановок имеющейся у агента изменение может осуществляться введением системы штрафов
информацией). и/или поощрений за выбор тех или иных действий и/или дости-
В соответствии с приведенным выше определением, управ- жение определенных результатов деятельности. Широкий класс
ление – это воздействие на управляемую систему. Так как управ- примеров моделей мотивационного управления составляют задачи
ляемая система (точнее, управляемый субъект – агент) описыва- планирования и стимулирования [10, 11, 13, 56, 64, 79]. В случае,
ется кортежем Y, то внешнее воздействие в общем случае может например, задачи стимулирования, мотивационное управление
быть направлено на каждый из элементов этого кортежа. Выделим заключается в непосредственном (входящем в функцию по-
три группы переменных (элементов кортежа Y, которые могут лезности аддитивно) вознаграждении агента за выбор определен-
изменяться) – допустимые множества A и A0, функция полезности ных действий.
v(×) и информация I. Этим трем группам переменных соот- Наиболее «мягким» (косвенным), по сравнению с институ-
ветствуют три типа управлений (основание классификации – циональным и мотивационным, и, в то же время, наименее иссле-
группа переменных, описывающих модель принятия решений, на дованным (с точки зрения формальных моделей) является инфор-
изменение которых направлено управление)14: мационное управление. В соответствии с введенной в [49] класси-
- институциональное управление (изменение ограничений фикацией, частными случаями информационного управления яв-
и норм деятельности, в том числе, допустимых множеств); ляются: рефлексивное управление [27, 40], при котором центр воз-
- мотивационное управление (изменение функции полезно- действует на представления агента о параметрах других участни-
сти); ков ОС («передает ему основания для принятия решений» [40]);
- информационное управление (изменение информации, активный прогноз, при котором центр сообщает агентам инфор-
которую агент использует при принятии решений). мацию о будущих результатах (осуществляет прогноз) их деятель-
Обсудим кратко специфику каждого из введенных типов
управлений15. 16
Достаточно ярко институциональное управление проявляется в мо-
делях управления многоэлементными организационными системами, в
которых центр может запрещать или разрешать совместный выбор
14
Управление составом и структурой мы не рассматриваем, считая агентами определенных комбинаций действий (примеры – производст-
состав и структуру ОС заданными. венные цепочки [56], управление проектами [12] и др.) или достижение
15
Естественно, на практике иногда трудно выделить в явном виде определенных результатов совместной деятельности (примеры – агре-
управление того или иного типа, так как они используются (и долж- гирование информации в системах управления [56], управление много-
ны(!) использоваться) одновременно. уровневыми системами [51, 57] и др.).
17 18
ности; информационное регулирование [23], при котором центр (управляющей) стороны, то есть центра [15, 21, 45, 57]. Следова-
сообщает агентам информацию о внешней обстановке, влияя тем тельно, необходимо описать предпочтения центра и рассмотреть
самым на их равновесные стратегии. Подробный анализ такого модель принятия им решений по выбору управлений.
эффекта информационного регулирования как манипулирование Модель принятия решений центром в целом аналогична17 рас-
посредством СМИ и другими способами, проведен в [36]. смотренной выше модели принятия решений агентом и описыва-
ется кортежем18 Y0 = {UA, Uv, UI, A0 , Q, w(×), v0(×), I0}. Поясним
I0
ЦЕНТР элементы модели (см. рисунок 2).
Y0 = {UA, Uv, UI, A0, Q, w(×), v0(×), I0} «Действиями» центра (выбираемыми им стратегиями) явля-
ются управления uA Î UA, uv Î Uv, uI Î UI. Обозначим
u u = (uA, uv, uI) Î U = UA ´ Uv ´ UI – вектор управлений.
В большинстве моделей управления организационными сис-
темами считается, что единственная роль центра заключается в
АГЕНТ
I осуществлении управления, то есть у него отсутствует собственный
{A, A0, Q, w(×), v(×), I} (не опосредованный агентом) результат деятельности, поэтому
результатом деятельности центра обычно считают результат дея-
тельности агента.
yÎA Таким образом, структура системы управления агентом имеет
вид, приведенный на рисунке 2 (ср. со структурой модели при-
нятия решений агентом, приведенной на рисунке 1).
Так как предпочтения центра v0(×) определены, в том числе, на
УПРАВЛЯЕМЫЙ ОБЪЕКТ z Î A0 множестве A0 возможных результатов деятельности агента, а по-
w(×): A ´ Q ® A0
qÎQ
Рис. 2. Структура системы управления.
В соответствии с данным выше определением, управление –

воздействие на управляемую систему, нацеленное на обеспечение
требуемого ее поведения. Введенные типы управлений характе- 17
Нижний индекс «0» в настоящей главе обозначает переменные, выби-
ризуют объекты воздействия (компоненты управляемой системы, раемые центром. Использование обозначения A0 для множества ре-
на которые направлено управляющее воздействие), поэтому обсу- зультатов деятельности агента следует признать неудачным, но
дим, что следует понимать под требуемым поведением управляе- сложившимся исторически.
18
мой системы, и, в первую очередь – «требуемым» с чьей точки В силу единообразия описания моделей принятия решений, в сложных
зрения. (многоуровневых иерархических) системах центр может рассматри-
ваться как субъект, управляемый центром более высокого уровня, а
Исследователь операций, занимающийся построением и ана-
агент – как центр, управляющий агентом более низкого уровня (ср. ри-
лизом модели, как правило, находится на позициях оперирующей
сунки 1 и 2) [49, 51].
19 20
следние зависят от действий агента и обстановки19, то качественно означает, что агент выбирает из множества рационального выбора
управление заключается в побуждении центром агента к выбору действие, наиболее благоприятное для центра.
определенных действий. Обсудим, какие действия следует центру Величина K(u), u Î U, называется эффективностью управ-
побуждать выбирать агента. ления. Следовательно, задача управления организационной
Предпочтения центра v0(×), определенные на множестве системой формально может быть сформулирована следующим
A0 ´ U, с учетом имеющейся у него информации I0 индуцируют образом: найти допустимое управление, имеющее максимальную
(устранение неопределенности центром производится по той же эффективность (такое управление называется оптимальным
схеме, которая описана выше для агента) на множестве A ´ U управлением), то есть K(u) ® max .
uÎU
предпочтения (целевую функцию центра) f0(×).
Рассмотренная модель управления является базовой моделью
Рациональный выбор P(×) агента (см. выше) зависит от управления организационными системами, так как она позволяет
управляющих воздействий u(×) Î U, используемых центром, то унифицированно описывать процессы принятия решений участни-
есть множество рационального выбора агента есть ками организационных систем. Действительно, в многоуровневых
WI
P(u) = P ( Â A0 ( u A ) (uv), A(uA), I(uI)) Í A. системах взаимодействие между участниками различных уровней
Итак, центр может предсказать, что, если он использует неко- управления20 может описываться наращиванием структур,
торое управление u Î U, то агент выбирает одно из действий из приведенных на рисунках 1 и 2, по «вертикали». Введение
множества P(u) Í A. Если это множество содержит более одного нескольких управляющих органов (центров) или нескольких
элемента, то у центра остается неопределенность относительно вы- управляемых субъектов (агентов) соответствует «горизонтально-
бора агента, которая может устраняться одним из описанных выше му» расширению этих структур.
для интервальной неопределенности методов. Будем использовать Игровая неопределенность в принятии решений отражает
далее гипотезу благожелательности (или принцип оптимистиче- взаимодействие субъектов, в результате которого выигрыши (по-
ских оценок), в соответствии с которой значение целевой функции лезности и т.п.) каждого из них в общем случае зависят от дейст-
центра при использовании управления uÎU равно вий всех участников системы. Предположение о рациональном их
K(u) = max f0(y, u). Содержательно гипотеза благожелательности поведении, в зависимости от используемого способа устранения
yÎP ( u ) игровой неопределенности, приводит к той или иной концепции
равновесия игры. Равновесие игры управляемых субъектов зависит
от используемых центрами управляющих воздействий, поэтому
19
Обстановка центра (и та информация об обстановке, которой об- можно считать, что решение задачи управления ОС заключается в
ладает центр), естественно, может отличаться от обстановки аген- исследовании, во-первых, равновесия игры управляющих органов
та. Более того, вне рассматриваемой модели управления (но легко впи- и, во-вторых, – управляемого равновесия игры агентов. В зависи-
сываемой в нее) остается неполная информированность центра об мости от уровней иерархии, которым принадлежат участники рас-
агенте (например, о его типе, правилах устранения неопределенности и сматриваемого игрового взаимодействия, можно выделять игры
принятия решений и т.д.). Неполная информированность центра о ти- между агентами (см. пример 2), игры между центрами (см.
пе агента учитывается в механизмах управления с сообщением инфор-
20
мации, которые полностью укладываются в рассматриваемую модель Напомним, что принадлежность к определенному уровню иерархии
управления – см. пример 2 (механизм экспертизы). Неполная информи- определяется последовательностью принятия решений и возможно-
рованность центра о принципах принятия решений агентом на сего- стью выбирать стратегии, являющиеся «функциями» от стратегий
дняшний день исследована недостаточно полно – см. [21, 49]. участников, принадлежащих более низким уровням иерархии [21, 57].
21 22
пример 3) и игры между центрами и агентами (последний класс Реальная ОС
игр называется иерархическими играми) – см. пример 1 и главу 6.
Примеры задач управления, в которых используются игры пе- Описание системы и Т И
речисленных типов, приводятся ниже (см., в частности, разделы построение модели Е С
1.5 и 2.3). О С
Р Л
Анализ модели Е Е
Т Д
1.3. Технология управления И О
организационными системами Задача синтеза Ч В
Как отмечалось выше, теория игр изучает игровую неопреде- управлений Е А
С Н
ленность в принятии решений. Рассмотрим, на каких этапах по- К И
становки и решения задач управления (см. раздел 1.2) возникает О Е
Исследование
эта неопределенность. Для этого опишем технологию управления Е
устойчивости решений
организационными системами.
Под технологией понимается совокупность методов, опера-
ций, приемов и т.д., последовательное осуществление которых Идентификация ОС
НАСТРОЙКА
обеспечивает решение поставленной задачи. Отметим, что рас-
сматриваемая ниже технология управления охватывает все этапы, Имитационное МОДЕЛИ
начиная с построения модели ОС и заканчивая анализом эффек- моделирование
тивности внедрения результатов моделирования на практике (см.
рисунок 3, на котором в целях наглядности опущены обратные
Обучение
связи между этапами).
управленческого
Первый этап – построение теоретико-игровой модели – за- персонала, внедрение,
ключается в описании реальной ОС в формальных терминах, то анализ эффективности ВНЕДРЕНИЕ
есть задании целевых функций и множеств допустимых стратегий практического
участников системы, их информированности21 , порядка использования и т.д.
функционирования22, гипотез о поведении и т.д. На этом этапе
существенно используется аппарат теории игр, в терминах кото- Рис. 3. Технология управления ОС.
рой, собственно, и формулируется модель.
Второй этап – анализ модели – исследование поведения уча-

стников при тех или иных механизмах управления23. Решение тео-
ретико-игровой задачи анализа заключается в следующем: для
21
Информированностью участников называется та информация, ко-
23
торой они обладают на момент принятия решений (см. раздел 1.1) Механизмом управления ОС называется совокупность правил, зако-
[55]. нов и процедур, регламентирующих взаимодействие ее участников. В
22
Порядком функционирования называется последовательность полу- узком смысле механизм управления – совокупность правил и процедур
чения информации и принятия решений участниками ОС [55]. принятия управленческих решений центром [14, 55].
23 24
фиксированного механизма управления определяются стратегии идентифицировать моделируемую систему [54] и провести серию
агентов, которые являются равновесными при этом управлении. имитационных экспериментов [4, 9] – соответственно пятый и
Решив задачу анализа, то есть зная поведение управляемых шестой этапы. Исходными данными для идентификации системы
субъектов при различных управлениях, можно переходить к треть- служат обобщенные решения, которые ограничиваются информа-
ему этапу – решению, во-первых, прямой задачи управления, то цией, имеющейся о реальной системе. Этап имитационного моде-
есть задачи синтеза оптимальных управляющих воздействий, лирования во многих случаях необходим по нескольким причинам.
заключающейся в поиске допустимых управлений, имеющих Во-первых, далеко не всегда удается получить аналитическое ре-
максимальную эффективность, и, во-вторых, обратной задачи шение задачи синтеза оптимальных управлений и исследовать его
управления – поиска множества допустимых управлений, перево- зависимость от параметров модели. При этом имитационное моде-
дящих ОС в заданное состояние. Критерием эффективности лирование может служить инструментом получения и оценки ре-
управления является значение (максимальное или гарантирован- шений. Во-вторых, имитационное моделирование позволяет про-
ное) целевой функции управляющего органа на множестве реше- верить справедливость гипотез (в первую очередь, относительно
ний игры агентов. Следует отметить, что, как правило, именно принципов поведения участников системы – используемых ими
этот этап решения задачи управления вызывает наибольшие тео- процедур устранения неопределенности, правил рационального
ретические трудности и наиболее трудоемок с точки зрения ис- выбора и т.д.), принятых при построении и анализе модели, то
следователя операций. есть дает дополнительную информацию об адекватности модели
Имея набор решений задачи управления, необходимо перейти без проведения натурного эксперимента. И, наконец, в-третьих,
к четвертому этапу, то есть исследовать их устойчивость. Ис- использование деловых игр и имитационных моделей в учебных
следование устойчивости подразумевает решение, как минимум, целях позволяет управленческому персоналу освоить и апробиро-
двух задач. Первая задача заключается в изучении зависимости вать предлагаемые механизмы управления.
оптимальных решений от параметров модели, то есть является Завершающим является седьмой этап – этап внедрения, на
задачей анализа устойчивости решений (корректности оптимиза- котором производится обучение управленческого персонала, вне-
ционной задачи, чувствительности, устойчивости принципов оп- дрение в реальной ОС разработанных и исследованных на пре-
тимальности и т.д.) в классическом понимании. Вторая задача дыдущих этапах механизмов управления с последующей оценкой
специфична для математического моделирования. Она заключа- эффективности их практического использования, коррекцией мо-
ется в теоретическом исследовании адекватности модели реальной дели и т.д.
системе, которое подразумевает изучение эффективности решений, Таким образом, аппарат теории игр используется на всех
оптимальных в модели, при их использовании в реальных ОС, этапах технологии управления (так как сама модель ОС является
которые могут в силу ошибок моделирования отличаться от теоретико-игровой моделью). В явном виде игровое взаимодейст-
модели. Результатом решения задачи адекватности является вие участников ОС наиболее отчетливо проявляется на этапах
обобщенное решение задачи управления – параметрическое се- построения модели, анализа и синтеза управлений, а также ими-
мейство решений, обладающих некоторой гарантированной эф- тационного моделирования.
фективностью в определенном множестве реальных ОС [54, 84]. Приведем примеры постановок задач управления, соответст-
Итак, перечисленные выше четыре этапа заключаются в об- вующие первому этапу приведенной на рисунке 3 технологии.
щем теоретическом изучении модели ОС. Для того, чтобы исполь-
зовать результаты теоретического исследования при управлении
реальной ОС, необходимо произвести настройку модели, то есть
25 26
1.4. Примеры задач управления
В разделе 1.2 было определено понятие управления в рамках
f i (s i , y ) = s i ( y ) - ci ( y ), i Î N , f 0 (s , y ) = H ( y ) - ås ( y) .
iÎN
i
принятой в настоящей работе модели принятия решений, в разделе Отметим, что и индивидуальное вознаграждение, и индиви-
1.3 описана технология управления организационными системами, дуальные затраты i-го агента по выбору действия yi в общем слу-
из содержания этапов которой видны роль и место теории игр. В чае зависят от действий всех агентов.
настоящем разделе приводится ряд примеров постановки задач Примем следующий порядок функционирования ОС. Центру
управления организационными системами (задача стиму- и агентам на момент принятия решения о выбираемых стратегиях
лирования, задача экспертизы и задача распределенного контро- (функциях стимулирования и действиях соответственно) известны
ля), которые иллюстрируют использование теоретико-игрового целевые функции и допустимые множества всех участников ОС.
описания взаимодействия участников организационных систем. Центр, обладая правом первого хода, выбирает функции стимули-
Решения поставленных задач приводятся после изложения соот- рования и сообщает их агентам, после чего агенты при известных
ветствующих (используемых в них) разделов теории игр. функциях стимулирования выбирают действия, максимизирующие
Пример 1. [56] «Задача стимулирования». их целевые функции.
Рассмотрим многоэлементную детерминированную двух- Обозначим M – множество допустимых систем стимулиро-
уровневую ОС, состоящую из центра и n агентов. Стратегией ка- вания, P (s ) – множество равновесных при системе стимулиро-
ждого агента является выбор действия, стратегией центра – выбор вания s стратегий агентов – множество решений игры (тип рав-
функции стимулирования, то есть зависимости вознаграждения новесия пока не оговаривается; пока предположим лишь, что
каждого агента от его действия и, быть может, действий других агенты выбирают свои стратегии одновременно и независимо друг
агентов. от друга, не имея возможности обмениваться дополнительной
Обозначим yi Î Ai – действие i-го агента, i Î N = информацией и полезностью).
{1, 2, …, n} – множество агентов, y = ( y1 ,y 2 ,¼ ,y n ) Î A' = Õ
Aj – Эффективностью стимулирования (эффективностью управ-
jÎN ления) является максимальное значение целевой функции центра
вектор действий агентов, y-i = ( y1,y2 ,¼ ,yi-1,yi+1,¼ ,yn ) Î A-i = Õ A j на соответствующем множестве решений игры:
j ¹i K (s ) = max f 0 (s , y ) .
yÎP (s )
– обстановка игры для i-го агента.
Предпочтения участников ОС – центра и агентов – выражены Задача синтеза оптимальной функции стимулирования за-
их целевыми функциями. Целевая функция центра f0(s, y) ключается в поиске допустимой системы стимулирования s*,
представляет собой разность между его доходом H(y) и суммар- имеющей максимальную эффективность: s* Î Arg max K(s). Ре-
s ÎM
ным вознаграждением u(y), выплачиваемым агентам: шение этой задачи приводится в третьей главе. ·24
Пример 2 [10, 55, 64]. «Задача экспертизы».
u(y) = å σ (y) ,
iÎN
i где si (y) – стимулирование i-го агента,
В многоэлементных ОС план (желательное с точки зрения
центра состояние – действие или результат деятельности агента),
s(y) = (s1(y), s2(y), …, sn(y)) – механизм стимулирования. Целе-
назначаемый i-му агенту, обозначим xi Î X i , где X i – множество
вая функция i-го агента fi (si , y) представляет собой разность между
стимулированием, получаемым от центра, и затратами ci (y), то
есть: 24
Символ «·» здесь и далее обозначает окончание примера, доказа-
тельства и т.д.
27 28
допустимых планов, сообщение i-го агента (его действие) обозна- агента). При фиксированном соответствии отбора равновесий для
чим si Î S i , i Î N = {1, 2, …, n} – множество агентов. Будем счи- непрямого механизма p (×) можно построить соответствующий
тать, что центр определяет планы (на основании предоставляемой ему прямой механизм25: h (r~ ) = p ( s * ( ~
r )) , в котором агенты сооб-
агентами информации) по процедуре планирования p : S ® X , где щают непосредственно (прямо) оценки ~ r Î W своих типов (поэтому
S = Õ S i , X = Õ X i . Тогда план, назначаемый i-му агенту, будет этот механизм и называется прямым). Если в соответствующем
i ÎN iÎ N прямом механизме сообщение достоверной информации является
определяться выражением: xi = p i (s) , i Î N, s = (s1, s2, …, sn) Î S. доминантной стратегией (см. раздел 3.7), то он называется эквива-
Совокупность S = (S, p(×)) множеств возможных сообщений аген- лентным прямым механизмом.
тов и процедуры планирования называется механизмом планиро- Очевидно, в механизмах с сообщением информации агенты
вания. Так как план каждого агента зависит в общем случае от со- будут руководствоваться своей полезностью и не обязательно бу-
общений всех агентов, то возникает игра агентов, поэтому в каче- дут сообщать достоверную информацию. Явление сообщения
стве моделей поведения агентов можно использовать ту или иную агентами недостоверной информации называется манипулирова-
концепцию равновесия (см. ниже). нием информацией, а механизмы, в которых агентам выгодно со-
Будем считать, что интересы центра задаются его целевой общение достоверной информации (оно является равновесием
функцией f0(x, r), где r = (r1, r2, …, rn) – неизвестный ему вектор игры агентов), называются неманипулируемыми.
типов агентов, r Î W – множеству возможных типов, Под задачей экспертизы понимают задачу оценки некоторой
x = (x1, x2, …, xn ) – вектор планов. Тогда задачей центра является величины группой экспертов – специалистов в определенной об-
выбор такой процедуры планирования, чтобы в точке равновесия ласти. Пусть ri – собственное мнение i-го агента-эксперта (его
значение его целевой функции было максимально.
тип), ri Î [d , D ] ÌÂ1 , i Î N, - ¥ < d < D < +¥ , и пусть
Обозначим множество равновесий при фиксированной про-
r1 £ r2 £ ... £ rn , то есть ri упорядочены по возрастанию. Экспертам
цедуре планирования Pp(r), r Î W. Отображение, ставящее в соот-
ветствие множеству равновесий Pp(r) конкретное равновесие известна процедура p : [ d , D ]n ® [ d , D ] принятия итогового
s*(r) Î Pp(r), называется соответствием отбора равновесий. Бу- решения на основе сообщаемых оценок si Î [d , D], i Î N:
дем считать, что конкретный выбор агентов из этого множества x = p (s) .
удовлетворяет гипотезе благожелательности, в соответствии с Будем считать, что функции полезности агентов однопико-
которой, в том числе, при прочих равных, агенты предпочтут со-
вые26 с точками пика ri , i Î N, а процедура p (s) – механизм ак-
общать достоверную информацию. Для фиксированного равнове-
сия s*(r) Î Pp(r), определяемого принятым соответствием отбора тивной экспертизы – удовлетворяет следующим свойствам:
равновесий, вычисляя, например, гарантированный результат по
множеству W, можно ввести гарантированную эффективность
K (S) механизма планирования S = (S , p ) :
*
25
В механизмах с сообщением информации обозначение « ~ r » для век-
K (S) = min f 0 (p ( s (r )), r ) . тора сообщений агентов в прямом механизме вводится для того, что-
rÎW
бы подчеркнуть, что в общем случае сообщения о типах r могут от-
Механизм p : S ® X , в котором агенты сообщают оценки из личаться от истинных, то есть может иметь место: $i Î I : ~ri ¹ ri .
множеств {S i } , называется непрямым механизмом (содержатель- 26
То есть каждый из экспертов заинтересован в том, чтобы итоговое
но, в нем сообщение может нести косвенную информацию о типе решение было как можно ближе к его собственному мнению.
29 30
1. p (s ) строго монотонна по всем переменным при функция стимулирования агента i-ым центром в зависимости от
s Î [ d , D] ;
n выбираемого действия.
Предпочтения агента представлены функцией полезности
2. p (s ) непрерывна по всем переменным при s Î [d , D ]n ;
f ( y ) = å s i ( y ) - c( y ) , где c(y) – положительная выпуклая возрас-
3. если обозначить s a = (a, ..., a ), a Î [ d , D] , то p ( s a ) = a (ус- iÎN
ловие единогласия). тающая по y Î A функция затрат агента в зависимости от выби-

Примером механизма активной экспертизы является линейный раемого действия y, причем существует непрерывная третья про-
механизм экспертизы: x = å a i s i , где a i > 0 , åa i = 1 . Частным изводная функции затрат. Также предполагается, что
iÎN iÎN c(0) = c ' (0) = 0 .
случаем линейного механизма является вычисление среднего Все центры и агент имеют полную информацию о функциях
арифметического мнений экспертов (ai = 1/n, i Î N). Hi (y) и c(y), а также о множестве A.
Задачей управления для рассматриваемой модели ОС является Порядок функционирования системы следующий:
синтез неманипулируемого механизма экспертизы. Решение этой - центры одновременно сообщают агенту функции стимули-
задачи приводится в четвертой главе. · рования σi (y);
Пример 3 [25, 57]. «Задача распределенного контроля». - если существует действие y , для которого f ( y ) ³ 0 , то агент
выбирает действие y * Î P (s ) = Arg max [ å s i ( y ) - c( y )] , где
yÎA iÎN
Центр 1 … Центр i … Центр n
s = (s i ( y)) iÎN – вектор функций стимулирования всех центров, и
y*
y*
*
y несет затраты c(y*), иначе он отказывается от игры, и все ее
участники получают нулевые выигрыши;
s1(y) si(y) sn(y) - центры получают доходы Hi (y*) и выплачивают агенту сум-
мы σi (y*).
АГЕНТ Для функций стимулирования центров должно выполняться
балансовое ограничение: s i ( y * ) £ H i ( y * ) , i Î N, то есть центры
Рис. 4. Модель ОС с несколькими центрами
должны иметь достаточно средств, чтобы оплатить агенту обе-
щанную сумму.
Рассмотрим организационную систему со структурой, изо-
Должно также выполняться условие «обоснованности угроз»,
браженной на рисунке 4. Центры представляют собой менеджеров
или «условие запрета блефа»: "y Î A, "i Î N s i ( y ) £ H i ( y ) , го-
проектов и руководителей функциональных подразделений
некоторой проектно-ориентированной организации, а агент – со- ворящее о том, что обещания любого центра не превышают его
трудника подразделения или подразделение в целом. дохода.
Предпочтения n центров описываются их функциями полез- Для завершения описания модели необходимо указать, какое
ности f 0i ( y ) = H i ( y ) - σi ( y ) , i Î N = {1, 2, ..., n} – множество цен- действие выберет агент, если множество P(s) состоит более чем из
одной точки, и агент должен выбрать одно действие из множества
тров, где Hi (y) – кусочно-непрерывная функция дохода i-го центра
равнозначных для него действий. Для описания процесса выбора
от выбора агентом действия y Î A = Â1+ , σi (y) – неотрицательная агентом действия из множества «оптимальных» действий P(s)
31 32
введем функцию Y (s ) , известную всем центрам, которая каждому 2.1. Отношения предпочтения
вектору s функций стимулирования ставит в соответствие точку из Как отмечалось в первой главе, в основе теории принятия
соответствующего множества P(s). решений лежит предположение, что человек, поставленный перед
Будем считать, что для функции Y (s ) выполняется свойство проблемой выбора, в процессе выработки решения (выбора аль-
тернативы) руководствуется своими предпочтениями, то есть вы-
независимости от посторонних альтернатив: для любых век-
бирает действие, которое, по его мнению, приведет к наиболее
торов стратегий s 1 , s 2 из Y (s 1 ) Î P (s 2 ) Ì P (s 1 ) следует предпочтительному для него результату деятельности (исходу).
Y (s 2 ) = Y (s 1 ) , то есть если агент выбрал действие Y (s 1 ) из Формальное описание процесса сравнения альтернатив может
быть дано через отношения предпочтения и неразличимости
более широкого множества P(s 1 ) , то и из более узкого множества
[44, 69, 70, 77].
P (s 2 ) он выберет действие Y (s 1 ) (если оно содержится в
Бинарное отношение Ã на множестве A0 – это подмножество
P (s 2 ) ). Ã Í A0 ´ A0, где A0 ´ A0 – множество всех упорядоченных пар
Задача управления, заключающаяся в анализе поведения ( a, b) , a, b Î A0 . Если (a, b) Î Ã, говорят, что отношение Ã вы-
центров, предсказании их рациональных стратегий и исследовании
полнено (или имеет место) для (a, b) и пишут aÃ b.
возможностей их совместных действий решается в пятой главе. ·
Если бинарное отношение Ã не имеет места для a, b, этот
Решение сформулированных в примерах 1-3 задач управления факт обозначается aÃcb.
организационными системами дается ниже после описании соот- Отношение предпочтения f – это бинарное отношение, оп-
ветствующих результатов теории игр. ределяемое свойством: a f b тогда и только тогда, когда a пред-
Таким образом, в настоящей главе рассмотрены модели при- почтительнее (лучше) для лица, принимающего решение (ЛПР),
нятия решений и управления, что позволяет перейти к системати- чем b.
ческому изложению результатов теории игр, необходимых для Отношение неразличимости » имеет место для пары a, b
постановки и решения задач управления организационными сис- тогда и только тогда, когда a f с b и b f с a .
темами. Для этого, в первую очередь, необходимо рассмотреть Отношение Ã называется рефлексивным, если для всех
различные способы представления предпочтений участников ОС a Î A0 выполнено aÃa, антирефлексивным, если для всех a Î A0
(отношения предпочтения и функции полезности, а также связь
выполнено aÃca.
между ними – см. разделы 2.1 и 2.2) и провести классификацию
Отношение Ã называется антисимметричым, если из aÃb и
игровых моделей (см. раздел 2.3).
bÃa следует a = b , асимметричным, если из aÃb следует bÃca.
ГЛАВА 2. ПРОБЛЕМАТИКА ТЕОРИИ ИГР Далее рассматривается отношение строгого предпочтения f ,

для которого выполнено условие асимметричности.
В настоящей главе рассматривается аппарат описания пред- Отношение Ã называется транзитивным, если для всех
почтений участников организационных систем – отношения a, b, c Î A0 из aÃb и bÃc следует aÃ c.
предпочтения и функции полезности, а также приводятся клас- Отношение Ã называется полным, если для всех a, b Î A0
сификация игр и примеры игровых моделей. выполнено aÃb или bÃa.
33 34
Пусть на множестве исходов A0 задано предпочтение ЛПР, то предпочтения ЛПР результату из A0. Чтобы решить эту задачу,
есть отношение типа f , которое для пары a, b исходов из A0 вы- необходимо тем или иным образом из отношения предпочтения на
полняется, если a лучше b с точки зрения лица, принимающего множестве исходов A0 вывести отношение предпочтения на мно-
решение. Определим также множество действий A. Это множество жестве действий A, а затем выбрать наиболее предпочтительное
содержит все возможные действия ЛПР и состоит из элементов действие.
вида «Сделать то-то», «Приказать то-то», «Купить то-то…» и пр. Пусть имеется некоторая функция w: A ® A0 – детерминиро-
Рассмотрим пример, который иллюстрирует, во-первых, опи- ванное (однозначное) соответствие между выбранным действием и
сание предпочтений агента бинарными отношениями, а, во- его результатом. В этом случае выбор действия равнозначен
вторых, приведенные в разделе 1.1 модель принятия решений и выбору результата. Задача, таким образом, состоит лишь в нахо-
способы устранения неопределенности ждении реализуемого исхода (то есть исхода, для которого есть
Пусть контрабандист, готовясь переправить морем груз через действие, его реализующее), предпочтительного по отношению ко
границу, выбирает пункт назначения из двух вариантов, А и Б. До всем остальным реализуемым исходам. Выбранное действие будет
пункта А путь короче, до Б – длиннее. Однако в случае шторма принадлежать множеству:
первый маршрут гораздо опаснее, чем второй. На любом из этих {a Î A | $ b Î A : w(b) f w(a )} .
маршрутов его могут задержать пограничники. Все действия, принадлежащие решению, приводят к исходам,
Множество исходов A0 для этого примера будет состоять из равнозначным с точки зрения отношения » .
следующих элементов: Если в рассматриваемом примере с контрабандистом функция
z1. Контрабандист успешно добрался до пункта А.
w(×) задана следующим образом:
z2. Контрабандист успешно добрался до пункта Б.
1. w(«Плыть в А») = z4,
z3. Судно было задержано пограничниками.
2. w(«Плыть в Б») = z2,
z4. Судно разбилось во время шторма.
3. w(«Сидеть дома») = z5,
В этот список с полным основанием можно добавить и исход
то, очевидно, решением задачи принятия решения будет действие
z5. Контрабандист никуда не поплыл.
y2 - «Плыть в Б», то есть действие, приводящее к наилучшему
Отношение предпочтения между этими исходами можно оп-
реализуемому результату z2.
ределить, например, так: z1 f z 2 f z 5 f z 3 f z 4 .
Такая задача, в соответствии с терминологией, введенной в
Множество A действий для данного примера будет включать
первой главе, называется детерминированной задачей принятия
элементы:
решения.
y1 – «Плыть в А»,
y2 – «Плыть в Б»,
Сложнее дело обстоит, если результат z действия y зависит не
y3 – «Сидеть дома». только от самого действия ЛПР, но и от некоторых внешних по
Однако определением множеств A0, A и отношения предпоч- отношению к ЛПР факторов, то есть зависимость результата от
тения на A0 формулировка задачи принятия решения не исчерпы- действия имеет вид z = w(y, q, u), где q и u – факторы, не зави-
вается. Необходимо определить еще связь между принятым ре- сящие от ЛПР. Множества возможных значений этих параметров
шением и реализующимся результатом, то есть отображение w(×) обозначим Q и U соответственно. Если эти факторы известны на
(см. раздел 1.1). момент принятия решения, задача сводится к предыдущему слу-
Задача принятия решения – это задача выбора ЛПР действия чаю. Если же они не известны, возникает неопределенность.
из множества A, которое приводит к наилучшему с точки зрения
35 36
Например, Q может быть совокупностью погодных факторов, P(«Судно контрабандиста разбилось в шторме»|«Плыть в Б») = 10%.
например, «Погода хорошая» и приводить к исходам: «Судно раз- P(«Судно было задержано пограничниками»|«Плыть в Б») = 45%.
билось во время шторма на маршруте в А», «Судно не разбилось P(«Контрабандист никуда не поплыл»|«Сидеть дома») = 100%.
во время шторма на маршруте А», «Судно разбилось во время Остальные исходы имеют нулевую вероятность.
шторма на маршруте в Б», «Судно не разбилось во время шторма В соответствии с терминологией, введенной в первой главе,
на маршруте Б». Множество U описывает неопределенность описанная выше задача – это задача принятия решения в условиях
действий других лиц и может иметь, например, вид: {«По- вероятностной неопределенности.
граничники выбрали для патрулирования маршрут в А», «Погра- Немногим отличается случай, когда ЛПР не имеет информа-
ничники выбрали для патрулирования маршрут в Б»}. Считаем, ции о вероятностях некоторых значимых событий, но имеет пред-
что если пограничники патрулируют маршрут, то они задержи- положения о них. В этом случае объективные вероятности заме-
вают все плывущие по нему суда с контрабандой. няются на субъективные и реализуется та же схема решения.
Таким образом, в данном примере каждое решение (действие)
Теперь уже выбор ЛПР некоторого действия y* не приводит к
единственному возможному результату. В зависимости от реали- ЛПР приводит к лотерее, случайному процессу, в котором исходы
могут реализовываться с некоторыми вероятностями. Для того,
зации не зависящих от ЛПР факторов q и u может реализоваться
чтобы от предпочтения на множестве исходов перейти к
любой результат из множества R(y*) = {w(y*, q, u) | q Î Q, u Î U}.
предпочтениям на множестве действий, ЛПР должен уметь срав-
Чтобы сделать выбор, ЛПР необходимо научиться сравнивать эти
нивать свои предпочтения на множестве подобных лотерей, то
множества. Однако отношение предпочтения на системе множеств
есть определять, какая из лотерей для него лучше или хуже. Тогда
R(×) не задано условиями задачи. Его необходимо получать оптимальным решением будет действие, приводящее к наилучшей
(возможно, используя некоторые дополнительные предположения) лотерее. Каким образом осуществляется этот переход, описывается
из отношения предпочтения на множестве результатов A0. в следующем разделе.
Так, если известно распределение вероятностей реализации
событий из Q и U, то можно определить вероятности появления
различных результатов при выборе определенного действия.
Например, пусть вероятность 2.2. Полезность и функция полезности
P («Погода хорошая») = 80%, При решении задач принятия решений для описания интере-
P(«Судно разбилось в шторме на маршруте в А»|«Плыть в А»)=0%, сов ЛПР редко используется непосредственно отношение пред-
P(«Судно не разбилось в шторме на маршруте А»|«Плыть в А»)=100%, почтения. Это связано с тем, что бинарные отношения довольно
P(«Судно разбилось в шторме на маршруте в Б»|«Плыть в Б») = 50%, неудобны для моделирования реальных систем и анализа этих
P(«Судно не разбилось в шторме на маршруте Б»|«Плыть в Б»)=50%. моделей. Гораздо чаще используются функции полезности.
Предположим также, что вероятности патрулирования по- Соответствие между отношением предпочтения f и функцией
граничниками обоих маршрутов равны 50%.
полезности f : A0 ® Â1 определяется условием
Тогда, если судно отправляется в А:
P(«Контрабандист успешно добрался до пункта А»|«Плыть в А») = 50%. (1) "a, b Î A0 f(a) > f(b) Û a f b.
P(«Судно было задержано пограничниками»|«Плыть в А») = 50%. Рассмотрим, каким ограничениям должно удовлетворять от-
Соответственно, для других действий вероятности различных ношение предпочтения, чтобы можно было рассматривать вместо
исходов будут следующими: него функцию полезности. Эта задача является предметом изуче-
P(«Контрабандист успешно добрался до пункта Б»|«Плыть в Б») = 45%. ния математической теории полезности [48, 68] (впервые во-
37 38
прос о представимости отношения предпочтения функцией полез- 3. Если x » y, y » z, то x » z. Это – условие транзитивно-
ности – см. (1) – рассматривался Г. Кантором (1895 г.) – см. под- сти отношения неразличимости, оно уже не столь очевидно.
робности в [77]). Существуют примеры достаточно логичных с точки здравого
Как отмечалось выше, отношение предпочтения – бинарное смысла предпочтений, когда эта аксиома не выполняется [2, 31,
отношение на множестве исходов A0, удовлетворяющее, как ми- 38, 39, 44, 73].
нимум, свойству асимметрии. Для продуктивного использования, 4. Если x f y, y f z, то x f z (условие транзитивности
однако, необходимы дополнительные условия на отношение пред- отношения предпочтения).
почтения (см. [44, 77]). При этом то, какие дополнительные 5. Если x f y, y » z, то x f z, то есть если x лучше y и y
предположения необходимо сделать, чтобы получить инструмент, равнозначно z, то x лучше z. На самом деле, эта аксиома вводит
с которым можно работать, не отходя в то же время от встречаю- предположение о произвольно глубокой разрешающей способно-
щихся в реальной жизни предпочтений – это вопрос, который на сти агента – о том, что последний всегда может различить сколь
протяжении многих лет служил предметом дискуссий и продол- угодно близкие ситуации.
жает обсуждаться до сих пор. Дело в том, что подобные дополни- 6. Если x » y, y f z, то x f z (аналогично аксиоме 5).
тельные предположения вводятся в виде аксиом, некоторых гипо- Этих предположений хватает [62], чтобы ввести функцию f (.)
тез о закономерностях процесса выбора, и обоснованность введе- таким образом, чтобы выполнялось условие (1). Однако, их недос-
ния тех или иных предположений отнюдь не бесспорна. таточно, чтобы определить эту функцию однозначно. И действи-
Кроме того, некоторые аксиомы, которые по отдельности тельно, в случае конечного числа исходов нестрогое упорядочение
представляются достаточно логичными, вступают в противоречие позволяет лишь выстроить их в порядке от наихудшего до наи-
друг с другом [2, 17, 34, 46, 71, 86]. То есть необходимо опреде- лучшего. Этой последовательности событий можно сопоставить
лить минимальные комбинации аксиом, которые, не вступая друг с любую последовательность возрастающих чисел, назначая в каче-
другом в противоречие, дают достаточный для конструктивного стве значения функции полезности соответствующий элемент чи-
использования набор предположений о закономерностях выбора. словой последовательности (другими словами, функция полезности
Приведем типичный набор таких аксиом (отметим, что неко- определена с точностью до монотонного преобразования).
торые из перечисленных ниже аксиом зависимы). Другие примеры Чтобы от отношения предпочтения перейти к определенной с
введения аксиоматики можно найти в [68]. точностью до линейного преобразования функции полезности,
Введем следующие аксиомы полезности: требуются дополнительные аксиомы (так называемые, аксиомы
1. Если f – отношение предпочтения (асимметричное), » – комбинирования), определяющие модель поведения в условиях
отношение неразличимости, то для любых исходов x и y имеет неопределенности.
место одно из событий: либо x f y, либо y f x, либо x » y, то есть Пусть x и y – любые исходы из A0 и 0 < r , s < 1 . Тогда выра-
для любой пары исходов либо первый исход предпочтительнее жение r x + (1 – r) y будет обозначать исход, представляющий
второго, либо второй предпочтительнее первого, либо же исходы собой лотерею, которая реализует два исхода x и у с вероятностями
равнозначны. Если a » b Û a f с b и b f с a , то эта аксиома вы- r и (1 – r) соответственно. Тогда от этой лотереи потребуем
полняется всегда. выполнения следующих условий:
2. x » x, для любого исхода x, то есть исход всегда неотличим 7. rx + (1 – r) y = (1 – r) y + r x для любой лотереи r на x, y.
от себя самого, что также очевидным образом следует из оп- Это свойство коммутативности лотереи, имеющее лишь техни-
ределения отношения безразличия. ческое значение. Оно, по сути, не ограничивает предпочтения.
39 40
8. r x + (1 – r) (s y + (1 – s) z) = r x + (1 – r) s y + (1 – r) (1 – жим f(z)=s. В случае d) положим f(z)=0. В случае e) существует
s) z для любых лотерей s и r на исходах x, y, z Î A0 . Это свойство t Î [0, 1] , такое, что tz + (1 - t ) x » y . Положим f(z)=(t-1)/t.
вводит предположение о том, что для ЛПР порядок лотерей не Теперь необходимо доказать, что введенная таким образом
важен. функция удовлетворяет условию (2) для произвольных событий z1
9. r x + (1 – r) x = x (рефлексивность лотереи). и z2. Доказательство довольно длинно и состоит в последователь-
10. Если x » z, то для любых y, r имеем ном рассмотрении z1 и z2, удовлетворяющих условиям a)-e) в раз-
(r x + (1 – r) y) » (r z + (1 – r) y). личных сочетаниях.
11. Если x f z, то для любых r > 0 и y имеем Докажем один из случаев, в котором и для z1, и для z2 выпол-
(r x + (1 – r) y) f (r z + (1 – r) y). нено условие c) (остальные 14 случаев доказываются аналогично).
12. Пусть x f z f y. Тогда существует 0 £ r £ 1, такое, что Итак, пусть f(z1)=s1, f(z2 )=s2, причем s1>s2. Надо показать, что
(r x + (1 – r) y) » z. Эта очень важная аксиома имеет отдельное z1 f z2 .
название – аксиома непрерывности. z1 » s1e1 + (1 - s1 )e0 » ( s1 - s2 )e1 + s 2 e1 + (1 - s1 )e0 »
Теорема 1 (Неймана-Моргенштерна) [62]. Если для отноше- é (s - s ) (1 - s1 ) ù
ния предпочтения f выполнены аксиомы 1-12, то существует » s 2 e1 + (1 - s2 ) ê 1 2 e1 + e0 ú f
функция f: A0 ® R, что для любых x, y из A0 и любого r Î [0, 1] ë 1 - s2 1 - s2 û
(2) f ( x) > f ( y ) Û x f y , é (s - s ) (1 - s1 ) ù
f s 2 e1 + (1 - s2 ) ê 1 2 e0 + e0 ú »
(3) f ( rx + (1 - r ) y ) = r f ( x) + (1 - r ) f ( y ) . ë 1 - s2 1 - s2 û
Эта функция единственна с точностью до положительного » s 2 e1 + (1 - s2 )e0 » z 2 .
линейного преобразования, то есть если некоторая функция F(×) Повторяя те же действия в обратном направлении, получаем и
удовлетворяет условиям (2), (3), то F ( x) = a × f ( x ) + b , где a > 0 и обратное утверждение.
b – некоторые константы. Докажем, что для функции f, введенной выше, справедлива
Доказательство. Если для всех исходов x, y верно x » y, то f(×) формула (3). Известно, что z1 » s1e1 + (1 - s1 )e0 ,
можно положить всюду равной константе, например, нулю. z 2 » s2 e1 + (1 - s2 )e0 . Следовательно, для произвольного 0 < r < 1
Пусть, однако, существуют исходы x, y такие, что x f y. То- выполняется условие
гда для произвольного исхода z имеется пять возможностей:
rz1 + (1 - r ) z2 » r ( s1e1 + (1 - s1 )e0 ) + (1 - r )( s2 e1 + (1 - s2 )e0 ) »
a) z f x,
b) z » x, rs1e1 + r (1 - s1 )e0 + (1 - r ) s2 e1 + (1 - r )(1 - s2 )e0 »
c) x f z f y, (rs1 + (1 - r ) s2 )e1 + (r (1 - s1 ) + (1 - r )(1 - s2 ))e0 =
d) z » y, [rs1 + (1 - r ) s2 ]e1 + [1 - ( rs1 + (1 - r ) s2 )]e0 .
e) y f z.
Обозначим g := rs1 + (1 - r ) s 2 . По построению f (.),
Обозначим x = e1, y = e0. Положим f(e1) = 1, f(e0) = 0.
По аксиоме непрерывности, в случае a) существует r, такое, f (ge1 + (1 - g )e 0 ) = g . Значит,
что rz + (1 - r ) y » x . Положим тогда f(z)=1/r. В случае b) положим f ( rz1 + (1 - r ) z 2 ) = rs1 + (1 - r ) s 2 = rf ( z1 ) + (1 - r ) f ( z 2 ) .
f(z)=1. В случае с) существует s, такое, что sx + (1 - s) y » z . Поло- Пусть теперь некоторая F(×) удовлетворяет (2) и (3). Так как
e1 f e0, значит, F(e1)>F(e0). Положим a = F (e1 ) - F (e0 ) > 0 ,
41 42
b = F (e0 ) . Пусть теперь e1 f z f e0. Если f(z)=s, то полезность (или выигрыш) игрока, понятно, что в этом случае ча-
z » se1 + (1 - s)e0 , то есть стью описания исходов (на множестве которых определена функ-
ция полезности) должно быть количество денег или материальных
F ( z ) = F ( se1 + (1 - s)e0 ) = sF (e1 ) + (1 - s) F ( e0 ) = s(a + b ) + (1 - s ) b ,
ценностей, являющихся средством обмена. Можно показать [62],
и, значит, F ( z ) = as + b = af ( z ) + b . · что для того, чтобы уменьшение полезности «донора» d при пере-
Итак, предположений 1-12 достаточно, чтобы построить по даче некоторого количества денег соответствовало пропорцио-
отношению предпочтения функцию полезности, единственную с нальному увеличению полезности «акцептора» a, их функции по-
точностью до переноса координат и изменения масштаба [62], то лезности Fi (×) должны иметь вид:
есть описать полезность в виде функции F ( x) = a × f ( x) + b , где (4) Fi ( xi , ci ) = g i ( xi ) + l i ci , i Î {d , a}
f(x) – некоторая известная функция, а константы a > 0 и b не оп- где Fi (×) – функция полезности игрока i, сi – сумма денег в его
ределены. Выбор этих констант сходен с выбором нулевой точки и распоряжении, xi – остальные компоненты описания исхода для
шкалы измерения (по Цельсию, по Фаренгейту) для измерения игрока i, а gi (×) – полезность компонент x ситуации.
температуры. Если функции полезности имеют вид (4) для всех рассматри-
В постановках задач математической экономики и управления ваемых индивидуумов, то говорят о существовании отделимого
отношение предпочтения, как таковое, фигурирует крайне редко. линейно трансферабельного товара. При этом соответствующим
Функция полезности в этом случае строится почти эмпирически выбором масштаба функций предпочтения можно сделать прира-
(на самом деле при этом используются уже полученные, готовые щения полезности при передаче некоторого количества денег не
результаты теории полезности [46, 47, 68, 82]), например, часто в просто пропорциональными, но и равными по абсолютной вели-
экономических задачах полезность компании равна стоимости чине. Наличие линейно трансферабельного товара облегчает ис-
активов в ее распоряжении и т.д. (см. подробности в [44, 68, 70, следование игровых моделей.
77]). Тем не менее, всегда необходимо помнить, что для Завершив описание предпочтений участников организаци-
корректного использования функции полезности Неймана- онных систем, перейдем к классификации игр и рассмотрению
Моргенштерна, предпочтение, которым она определяется, должно примеров игровых моделей.
удовлетворять аксиомам 1-12.
Выше была построена функция полезности отдельного агента.
2.3. Классификация и примеры игр
Однако задачей теории игр является исследование взаимодействия
Теория игр является сравнительно молодой наукой. Ее само-
многих агентов. Поэтому интересен вопрос о том, как соотносятся
стоятельная27 история насчитывает менее века [43]. В 1911 году
друг с другом полезности разных агентов, как «привести к общему
Э. Цермело описал теоретико-игровой подход к шахматной игре, в
знаменателю» шкалы измерения их полезностей. Особенную акту-
1921 году Э. Борель начал систематическое изучение матричных
альность этот вопрос представляет при рассмотрении игровых мо-
игр, в 1928 году вышла в свет работа Дж. Фон-Неймана «К теории
делей, в которых игроки могут передавать друг другу полезность
(так называемые игры с трансферабельной полезностью, или ТП- 27
Зарождение теории игр как математической дисциплины можно
игры, в отличие от игр с нетрансферабельной полезностью, или датировать 29 июля 1654 г., то есть днем, когда Б. Паскаль написал
НТП-игр, в которых передача полезности запрещена правилами известное письмо П. Ферма (это же письмо считается началом тео-
игры). Передача полезности между игроками может принимать рии вероятностей) [43]. Идеи, которые можно отнести к теоретико-
вид денежных выплат или передачи иных материальных ценно- игровым, высказывались на протяжении 17-19 вв. Д. Бернулли,
стей. Поскольку целью таких платежей является воздействие на П. Лапласом, П.Л. Чебышевым, Г. Минковским и др.
43 44
стратегических игр», содержащая основные идеи современной По количеству повторений игры различают однократные и
теории игр. В 1944 году, после выхода в свет книги Дж. Фон- динамические игры. Динамические игры с дискретным временем
Неймана и О. Моргенштерна «Теория игр и экономическое пове- называются повторяющимися играми [33, 52, 58, 74, 82]. Дина-
дение» [48] теория игр окончательно сформировалась как само- мические игры, в которых динамика описывается дифференциаль-
стоятельная наука. ными или разностными уравнениями, называются дифференци-
В настоящее время теория игр – развитая математическая альными играми [1, 28, 32, 34].
теория с большим количеством направлений и сложными взаимо- По мощности множества исходов и/или стратегий разделяют
связями между ними. Одним из оснований системы классифи- дискретные и непрерывные игры (в отличие от непрерывных игр,
каций теоретико-игровых задач может служить количество сторон в дискретных играх множество исходов конечно).
(или, как принято говорить, игроков), участвующих в конфликте По возможности совместных действий различают некоопе-
(игре). Различают игры двух лиц и игры многих лиц28. Так, кон- ративные и кооперативные игры. Некооперативные игры – это
фликт контрабандиста и пограничников (см. раздел 2.1) – игра класс моделей теории игр, в постановке которых предполагается,
двух лиц. Игры двух лиц являются наиболее исследованной моде- что в процессе выработки решений игроки не могут действовать
лью, для них получено наибольшее число результатов [17, 20, 21, совместно. Это значит, что запрещены договоры между игроками,
37, 48, 63]. Тем не менее, игры многих лиц привлекают не менее передача игроками друг другу ресурсов и информации, образова-
пристальное внимание исследователей, в первую очередь потому, ние каких-либо коалиций и пр. Наоборот, отличительной чертой
что именно такие игры наиболее часто встречаются в задачах кооперативных игр является то, что при их исследовании ре-
управления. шающее значение имеет возможность игроков выбирать действия
В зависимости от ограничений на выигрыши среди игр двух совместно, объединяясь для этой цели в коалиции.
лиц различают игры с нулевой суммой (антагонистические игры), В большинстве игровых моделей принимается порядок функ-
в которых сумма выигрышей игроков при каждом исходе равна ционирования, в соответствии с которым игроки выбирают стра-
нулю, и игры с произвольной суммой, в которых сумма вы- тегии одновременно. Рассмотрение последовательности ходов
игрышей игроков может отличаться от нуля для всех или некото- позволяет выделить иерархические игры. Теория иерархических
рых исходов игры. игр [21-24, 33, 35, 76] занимается изучением игровых моделей, в
Другим основанием классификации является информирован- которых фиксирован порядок ходов игроков, то есть предписана
ность сторон. Существуют игры с полной информированностью и последовательность, в которой игроки выбирают свои действия.
игры с неполной информированностью о различных параметрах Рассмотрим некоторые содержательные (можно сказать, хре-
игры29. Полная информированность не означает, что рассматрива- стоматийные для теории игр) примеры постановок теоретико-
ется задача принятия решения с полной информированностью, а игровых задач.
лишь то, что в задаче имеется только игровая неопределенность, а Пример 4 [82]. «Минипокер».
остальные типы неопределенности (см. первую главу) отсутствуют.
28
Игры, в которых имеется один активный игрок, называются играми
с природой и рассматриваются, в основном, в теории статистических
решений.
29
Параметрами игры являются компоненты моделей принятия реше-
ний участниками игры (см. раздел 1.1).
45 46
Такое представление игры называется игрой в развернутой
форме. По введенной выше классификации, эта задача – дискрет-
ная некооперативная однократная игра двух лиц с неполной ин-
1. красная 2. нау гад 2, -2 формированностью одного из игроков относительно внешних
я ть (природных) факторов. ·
ин
Пр
Пов ысить Па с Пример 5. «Два начальника».
1, -1 Этот пример является частным случаем примера 3. Имеются
Па
5
с
0.
1, -1 два игрока-начальника. У них есть один подчиненный. Каждый из

0 1. черная
начальников дает подчиненному задание и может как разрешить
-2, 2
я ть выполнять свое задание совместно с заданием противника (другого
0.
н
Пр и
5
Пов ысить начальника), так и потребовать выполнения своего задания в

Па
с первую очередь. Назовем первый выбор «сотрудничество», а
Па
1, -1
второй – «эгоистическое поведение». Если задания выполняются
с
-1, 1 совместно, то каждый из начальников получает по 10 единиц

выигрыша. Если только один из начальников потребовал перво-
очередного выполнения своего задания, он получает 15 единиц
выигрыша, времени на выполнение задания второго начальника у
Рис. 5. Игра в развернутой форме подчиненного не остается и второй начальник несет убытки в
размере 5 единиц. Если оба начальника потребовали выполнения
Опишем правила игры (см. рисунок 5). Два игрока кладут по своего задания в первую очередь, подчиненный отказывается ра-
доллару на кон. Первый игрок наугад выбирает карту из ботать вообще, и начальники получают нулевые выигрыши. Вы-
перетасованной колоды, замечая ее цвет (красный – червы или игрыши игроков можно представить в виде следующей матрицы:
бубны, черный – пики или трефы). Второй игрок не знает цвета [ сотр. эгоист.]
карты. После этого первый игрок имеет две альтернативы:
А) повысить ставку é сотр. ù æ 10, 10 - 5, 15 ö (игра является биматричной).
ê эгоистú çç15, - 5 0, 0 ÷÷
Б) спасовать. ë ûè ø
Если он пасует, то забирает все деньги (2 доллара), если вы- Здесь паре чисел в каждой из четырех ячеек матрицы соот-
брана красная карта и, наоборот, все деньги забирает второй иг- ветствуют выигрыши первого и второго игрока при том или ином
рок, если карта черная, и игра заканчивается. Если первый игрок их поведении. Строки соответствуют выбору первого игрока,
повышает ставку, то он кладет еще один доллар на кон и игра столбцы – второго.
продолжается следующим образом. Второй игрок выбирает свое
Эта классическая игра широко известна под другим названием
действие: принять кон и доложить свой доллар на кон или спасо-
– «дилемма заключенного» [5, 19, 62, 65, 82].
вать. При пасе второго игрока все деньги забирает первый игрок.
По рассмотренной классификации «Два начальника» – дис-
При принятии ставки, все деньги получает первый игрок, если
кретная однократная некооперативная игра двух лиц с полной
выбрана красная карта, и второй игрок – если выбрана черная
информированностью.
карта.
Также можно заметить, что, в отличие от предыдущей игры,
при любых стратегиях игроков сумма их выигрышей в результате
47 48
не равна нулю, то есть это – игра с непротивоположными интере- - продавец знает лишь, что цена покупателя лежит в диапазо-
сами, в отличие от антагонистической игры примера 5. · не от b до B, а покупатель знает, что цена продавца лежит в диапа-
Пример 6 [46, 47]. «Фермеры на общем поле». зоне от s до S?
Два фермера пасут коров на общем поле. Количество молока - продавец знает вероятность P1(b'), b' Î [b; B] того, что цена
x, которое приносит корова, зависит от общего числа коров на покупателя равна b', а покупатель знает вероятность P2 (s'),
поле, x = 120 – n (литров), где n = n1 + n2 – общее количество коров s' Î [s; S], того, что цена продавца равна s'? ·
на поле. Доход фермера определяется количеством молока, при- Пример 8 [65]. «Дележ в оркестре».
носимым его коровами: П1 = n1 (120 – n1 – n2), П2 = n2 (120 – n1 – Директор клуба обещает 100 руб. певцу S, пианисту P и
n2). Сколько коров выпустят на поле фермеры? В этой игре ударнику D за совместное выступление. Дуэт певца и пианиста он
действия игроков – n1 и n2, а выигрыши – П1 и П2. Это также дис- оценивает в 80 руб., ударника и пианиста – в 65 руб., а одного
кретная однократная некооперативная игра двух лиц с полной пианиста – в 30 руб. Другие дуэты и солисты им не рассматри-
информированностью. ваются (присутствие пианиста он считает обязательным). В других
Если предположить, что фермер может выпускать коров не на местах дуэт ударник-певец зарабатывает за выступление 50 руб.,
полный день, то полученная игра будет уже непрерывной, певец – 20 руб. Ударник один ничего не может заработать.
множество действий каждого фермера будет представлять собой Как должны быть поделены деньги от выступления оркестра,
отрезок действительной оси. · чтобы никто не был обижен? ·
Пример 7 [74, 79, 82]. «Аукцион». Игры в примерах 4-8 сформулированы по-разному. Так, по-
На аукционе на продажу выставлен предмет. Есть один про- становка игры в виде дерева принятия решений, как в примере 4
давец и один покупатель. Цена предмета для продавца (мини- «Минипокер», называется игрой в развернутой форме. Игрой в
мальная цена, по которой продавец готов продать предмет) rs, цена нормальной форме называется представление игры в виде табли-
для покупателя (максимальная цена, по которой покупатель готов цы (как в примере 5 «Два начальника»), или в виде задания воз-
купить предмет) – rb. Оба игрока знают свою цену, но не знают можных действий игроков и их выигрышей в зависимости от их
цену противника. Они делают заявки ps и pb. Если заявка действий (как в примере 6 «Фермеры на общем поле») – см. гла-
покупателя выше заявки продавца, то предмет продается по сред- ву 3.
ней стоимости p = (ps + pb ) / 2. Если заявка продавца выше заявки Игры, в которых игроки неточно знают интересы противника,
покупателя, то сделка не состоится. как в примере 7 «Аукцион», называются играми с неполной ин-
Это также непрерывная игра двух лиц с непротивоположными формированностью – см. главу 4.
интересами, причем имеется неопределенность относительно Наконец, для теории кооперативных игр базовой является
параметров (предпочтений), характеризующих противника. Для постановка задачи в форме перечисления выигрыша всевозмож-
завершения описания этой игры необходимо определить вид не- ных объединений (коалиций) игроков, как в примере 8 «Дележ в
определенности, то есть вид информации, которую могут иметь оркестре». Такая постановка задачи называется игрой в форме
игроки о предпочтениях друг друга. В зависимости от вида этой характеристической функции – см. главу 5.
неопределенности можно ставить различные вопросы, например, Ниже будут подробно описаны все перечисленные формы игр
каковы рациональные ставки игроков в случаях, если: и способы их исследования.
Итак, игровая задача может задаваться в различных формах.
Одни формы больше подходят для описания одних классов игр
49 50
(реальных ситуаций), другие – для других. Тем не менее, такое Для каждой нетерминальной вершины необходимо указать,
многообразие постановок задач порождает свои сложности. Может какой игрок контролирует данную вершину, то есть осуществляет
ли одна и та же игра быть представлена в различных формах? выбор. Вершина может и не контролироваться ни одним из
Стоит ли рассматривать все эти игры или можно ограничиться игроков, тогда эту вершину контролирует природа (как, например,
рассмотрением игр только в одной форме? Как тогда будут соот- стартовую вершину в примере 4). Вершина, контролируемая
носиться решения игры, представленной в одной форме с реше- игроком с номером i, называется еще «точкой выбора i-го игро-
ниями этой же игры, представленной в другой форме? Ниже будут ка».
даны ответы на некоторые из этих вопросов. В частности, в главе При каждом розыгрыше игроки (и реализация природных
3 будет показано, каким образом производится переход от игры в факторов) выбирают путь в этом дереве от стартовой вершины до
развернутой форме к игре в нормальной форме. В главе 5 будет одной из терминальных вершин.
продемонстрирован переход от игры в нормальной форме к игре в Немаловажной деталью описания игры в развернутой форме
форме характеристической функции. является информированность игрока в каждой контролируемой им
Перейдем к изложению основных результатов теории игр. игровой ситуации. Из рисунка 5 видно, что, поскольку первый
игрок знает, выпала ему красная или черная карта, он может раз-
личить две ситуации принятия решения, в отличие от второго
ГЛАВА 3. ИГРЫ С ПОЛНОЙ ИНФОРМИРОВАННОСТЬЮ игрока, который не знает цвета масти выпавшей карты, но должен
принять решение: принять ставку или спасовать. Значит, для
3.1. Определение игры в развернутой форме полноты описания необходимо, помимо игрока, контролирующего
Развернутая форма – естественный способ представления са- данную вершину, указать информационное состояние, в котором
лонных игр, вроде шахмат или преферанса. Однако и другие игры он находится. На рисунке 5 контролируемые вершины второго
(по крайней мере, дискретные), обычно сначала рассматриваются игрока объединены пунктиром, чтобы показать, что им соот-
в развернутой форме. ветствует одно информационное состояние, названное – «Наугад».
Для того чтобы продемонстрировать основные элементы Заметим, что возможные альтернативы вершин, объединенных
описания игры в развернутой форме, вспомним пример 4 «Ми- одним информационным состоянием, должны совпадать, иначе
нипокер» (см. рисунок 5). нарушается предположение об одинаковой информированности
Игры в развернутой форме представляются в виде дерева, игрока в обеих ситуациях.
вершины которого представляют собой текущие игровые ситуа- Таким образом, для описания игры n лиц в развернутой фор-
ции. Вершины соединяются дугами, которые означают возможные ме необходимо определить:
переходы между ситуациями. Если из данной вершины выходят 1) Дерево, ребрам и вершинам которого присвоены сле-
несколько дуг, это значит, что в данной ситуации ход игры зависит дующие метки:
от выбора одного из игроков или от реализации внешнего 2) Каждой терминальной вершине Fi ставится в соот-
события. Самая левая вершина («корень» дерева) означает си- ветствие метка-«вектор выигрышей», то есть числовой вектор
туацию в начале игры, конечные (терминальные) вершины озна- f(Fi )=(f1, f2, …, fn) (размерности n) выигрышей (полезностей)
чают возможные исходы игры. Каждой конечной вершине по- игроков.
ставлен в соответствие вектор выигрышей игроков. В случае двух
3) Каждой нетерминальной вершине ставится в соответ-
игроков этот вектор состоит из пары чисел – значений полезности
ствие метка контроля – номер игрока i Î N = {1, 2, …, n},
игроков при заданном исходе игры.
51 52
контролирующего вершину. Если данную вершину контроли- Всем игрокам известны как зависимость их выигрышей от ис-
рует природа (внешние обстоятельства, случай и т.д.), то эта хода игры, так и выигрыши противников. То есть в таком виде
метка равна нулю. определение игры в нормальной форме подходит только для игр с
4) Каждой нетерминальной вершине ставится в соответ- полной информированностью.
ствие метка информационного состояния игрока (обычно она В соответствии с введенной выше классификацией, среди игр
отделяется от номера игрока точкой). в нормальной форме можно выделить антагонистические игры, в
5) Каждое ребро помечено возможными альтернативами, которых сумма выигрышей игроков при любом исходе равна
доступными для выбора игрока, контролирующего вершину, нулю, и игры с непротивоположными интересами, в которых
из которой выходит данное ребро. Если вершину контролирует сумма выигрышей может быть различной для разных ситуаций.
природа, метки должны обозначать вероятности реализации
данной альтернативы, причем сумма вероятностей должна рав- Для экономических задач и задач организационного управ-
няться единице. ления типична ситуация, когда интересы игроков не противопо-
6) Набор исходящих ребер множества вершин с одним ложны. Тогда, в принципе, игроки могут быть заинтересованы в
информационным состоянием имеет одинаковый набор мар- совместных действиях, например, в обмене информацией. Однако,
кировок. иногда подобное кооперирование запрещено правилами игры.
Определение 1: Игрой в развернутой форме называется систе- Этот случай является предметом исследования теории некоопера-
ма 1-6. тивных игр. Кроме того, результаты теории некооперативных игр
Описание игры в развернутой форме довольно сложно, хотя и будут использованы в дальнейшем при исследовании коопера-
содержательно богато. Следует ожидать, что и формулировка тивных игр.
понятия решения для таких игр будет громоздка. Поэтому вместо Определение 2: Игрой в нормальной форме n лиц с произ-
того, чтобы подробно исследовать игры в развернутой форме, вольной суммой называется система30 Г = (Xi , Ki , i Î N), где Xi –
введем новую, более простую форму игры (нормальную, или непустые множества действий, Ki – функции выигрыша игроков,
стратегическую форму), определим формальную процедуру пе-
K i : X1 ´ … ´ Xn ® Â1 .
рехода от игр в развернутой форме к играм в нормальной форме, и
Обычно множества действий считаются компактами, то есть
на время забудем о существовании развернутой формы вообще.
ограниченными и замкнутыми множествами. Определения
замкнутости и ограниченности подразумевают, что на множестве
3.2. Определение игры в нормальной форме действий определено понятие сходимости, то есть задана, как
В отличие от довольно сложной постановки игры, рассмот- минимум, топология. Часто в доказательствах необходимо наличие
ренной выше, постановка игры в нормальной форме сравнительно метрики на множестве действий. На практике множества действий
проста. Предполагается, что игроки имеют возможность лишь игроков обычно представляют собой подмножества векторного
один раз выбрать альтернативу (действие), каждый из своего пространства, для которых можно использовать евклидову метри-
множества возможных действий. Также предполагается, что ку.
выбор действия игроки производят одновременно и независимо
друг от друга, не зная выбора противников. После выбора всех
действий реализуется определенный исход. Каждому исходу со- 30
При описании моделей теории игр (вне их связи с задачами управле-
ответствуют значения полезности игроков, их выигрыши. ния ОС) будет использоваться принятая в теории игр система обозна-
чений.
53 54
Если множества действий игроков конечны, то действия каж- Таким образом, стратегия определяет, какую альтернативу иг-
дого игрока можно последовательно пронумеровать. Если, к тому рок должен выбирать в каждом из своих информационных состоя-
же, игроков двое, выигрыши первого игрока можно представить в ний.
виде матрицы, в которой он выбирает действие – номер строки, Множество стратегий каждого игрока будем обозначать Xi .
его противник выбирает действие – номер столбца, а на пересече- Элементы x декартова произведения множеств стратегий всех иг-
нии столбца и строки находится число, соответствующее роков будем называть векторами стратегий, а само декартово
выигрышу первого игрока. Аналогичную матрицу можно постро- произведение будем обозначать X.
ить и для второго игрока. Определенная с помощью пары таких Для каждой вершины Q графа игры в развернутой форме и
матриц игра в нормальной форме называется биматричной. каждого вектора стратегий x Î X определим вероятность P(Q|x)
Игры из примеров 5 и 6 – это игры в нормальной форме, реализации данного состояния Q при использовании игроками
причем в примере 5 рассматривается биматричная игра. Приведем стратегий x с помощью рекуррентной процедуры, а именно:
еще один пример биматричной игры. - если Q – корневая вершина, то, для произвольных x,
Пример 9 [65]. «Семейный спор». P(Q|x) = 1;
Муж и жена решают, куда им пойти – на футбольный матч - если вершина R предшествует вершине Q в графе игры, пе-
или в театр. Если они не договариваются, то остаются дома. Пер- реход из R в Q определяется природой и происходит с ве-
вое действие каждого из игроков соответствует поездке на фут- роятностью p, то P(Q|x) = P(R|x) p;
больный матч, второе – в театр. Биматрица игры записывается так - если вершина R предшествует Q в графе игры и переход из
(первое число пары соответствует выигрышу мужа, второе – R в Q определяется одним из игроков, то P(Q|x) = P(R|x) в
é (4, 1) (0, 0)ù случае, если данный переход содержится в векторе страте-
выигрышу жены): A = ê ú. · гий игроков, в противном случае P(Q|x) = 0.
ë(0, 0) (1, 4) û Таким способом для каждой терминальной вершины Fi можно
определить соответствующие вероятности P(Fi |x) попадания в них
3.3. Переход от игры в развернутой форме при условии использования игроками вектора стратегий x.
к игре в нормальной форме Теперь можно определить ожидаемые значения выигрышей
Постановка игры в нормальной форме гораздо проще для игроков при использовании ими вектора x по формуле
изучения и формализации, чем игра в развернутой форме, поэтому (5) K i ( x1 ,x 2 ,...,x n ) = å f i ( F j ) P ( F j|x ) ,
ниже будут рассматриваться только решения игр в нормальной j
форме. Для игр же в развернутой форме построим формальную где Fj – терминальные вершины графа игры.
процедуру перехода от них к играм в нормальной форме. Теперь можно определить игру в нормальной форме, которая
Сначала введем для игры в развернутой форме понятие соответствует исходной игре в развернутой форме. Множество иг-
стратегии игрока. роков новой игры совпадает с множеством игроков исходной иг-
Определение 3: Стратегией игрока для игры в развернутой ры, множествами действий будут определенные выше множества
форме называется функция, отображающая множество информа- стратегий Xi , а функция выигрыша определяется формулой (5).
ционных состояний игрока на множество его ходов таким образом, Эта игра вполне эквивалентна в исследовании исходной игре в
что каждому информационному состоянию ставится в соответст- развернутой форме и, если определить, что для нормальной формы
вие один из возможных в данном состоянии ходов. игры целесообразными является набор действий x Î X , тем са-
55 56
мым полностью определяется и поведение игроков в исходной иг- каждый игрок составляет до начала игры. Этот план описывает все
ре. действия, которые игрок будет предпринимать во всех возможных
Отметим, что, поскольку выше было дано описание лишь игровых состояниях. Стратегия игроков даже в игре в нормальной
дискретных игр в развернутой форме, то и получающиеся с по- форме может быть более сложной, чем просто выбор одного из
мощью рассмотренной процедуры игры в нормальной форме так- элементов множества действий Xi (стратегия, состоящая в выборе
же будут дискретными. действия из множества Xi , называется чистой стратегией).
Пример 10. Построение игры в нормальной форме Вспомним, что в играх в развернутой форме для тех ходов,
для примера 4 «Минипокер». которые делала природа, указывалась вероятность того или иного
Игрок 1 имеет два информационных состояния: он знает, ка- ее «хода». Аналогично и игроки могут не выбирать в каждой си-
ков цвет выбранной карты. Следовательно, его стратегиями будут: туации некоторое единственное действие, а выбирать одно из
{(повысить, повысить), (повысить, пасовать), (пасовать, по- действий с определенной вероятностью. Тогда выбор игрока будет
высить), (пасовать, пасовать)}. В этих парах первый элемент оз- описываться вероятностным распределением на множестве
начает действие игрока в случае выпадения красной, второй – в возможных в данной игровой ситуации действий, которое назы-
случае выпадения черной карты. вается смешанной стратегией. Оказывается, что такое поведение
Второй игрок имеет одно информационное состояние и две в некоторых ситуациях может привести игрока к более выгодному
возможных стратегии {(Принять), (Пасовать)}. распределению полезностей. Например, пусть в рассмотренной
Нормальная форма игры, построенная с учетом усреднения выше игре «Минипокер» (см. примеры 4 и 10), первый игрок в
полезности по состояниям природы (цвета выбранной карты) то- результате долгого размышления выбрал стратегию повышать,
гда будет следующей: если выпала красная карта, и пасовать, если выпала черная. Тогда,
Принять Пасовать если игрок 2 достаточно умен, он может повторить со своей
Повысить, повысить æ (0,0) (1,-1) ö стороны рассуждения первого игрока, и считать, что если игрок 1
ç ÷ повышает, значит, выпала красная карта, и ему нужно пасовать31.
Повысить, пасовать ç (0.5,-0.5) (0,0) ÷ . · Если же игрок 1 может использовать смешанные стратегии, то
Пасовать, повысить ç ( -0.5,0.5) (1,-1) ÷ второй игрок уже не может установить цвет карты по ходу первого
ç ÷
Пасовать, пасовать ç (0,0) (0,0) ÷ø игрока. Его задача усложняется. Таким образом, блеф (а в данном
è
случае именно так можно охарактеризовать использование первым
Понятно, что непрерывную игру, в которой множество стра-
игроком смешанных стратегий) может быть очень полезен. Мало
тегий не является конечным, изобразить в виде конечного графа
того, оказывается, что возможность использования игроками
невозможно. Однако, в большинстве случаев можно непосредст-
смешанных стратегий играет немалую роль в доказательстве
венно построить соответствующую игру в нормальной форме.
существования решения теоретико-игровых задач.
3.4. Смешанные стратегии Определение 4: Смешанной стратегией c i i-го игрока
При построении нормальной формы игры по ее развернутой ( i Î N ) для игры в нормальной форме называется распределение
форме, множества стратегий исходной игры превращаются во
множества действий игры в нормальной форме. Зачастую дейст-
вие игрока в игре в нормальной форме также называют стратеги-
ей. Это не совсем верно. Обычно термин «стратегия» имеет более 31
Класс игр, в которых наблюдение выборов партнеров дает игрокам
широкий смысл и используется для обозначения «плана», который дополнительную информацию, получил название signaling games [74].
57 58
вероятности на множестве действий Xi с плотностью c i ( xi ) , где Теорема 2 [82]. Для произвольной обстановки в смешанных
xi Î X i . стратегиях найдется чистая стратегия, являющаяся «наилучшим
ответом» на данную обстановку, то есть
Определение 5: В ектор действий x-i = ( x1 ,..., xi -1 , xi +1 ,..., xn )
"c -i max K ( c i , c -i ) = max K ( xi , c -i ) .
всех игроков, кроме i-го, называется обстановкой игры для i-го ci xi ÎX i
игрока ( i Î N ). Более того, любая смешанная стратегия c i , которая содержит

Определение 6: Распределение вероятности (с плотностью с ненулевой вероятностью чистую стратегию, не являющуюся
c -i ( x-i ) = Õ c j ( x j ) ) реализации заданной обстановки при исполь- лучшим ответом на обстановку c -i , не будет и сама лучшим отве-
j ¹i
том на обстановку c -i .
зовании игроками смешанных стратегий cj называется обстанов-
кой в смешанных стратегиях для i-го игрока, i Î N . Доказательство. Множество смешанных стратегий – это
Ожидаемый выигрыш игроков при использовании ими сме- компакт, в котором содержатся и чистые стратегии. Для игрока i
шанных стратегий будет вычисляться как математическое ожи- зафиксируем обстановку в смешанных стратегиях c -i . Тогда
дание их функции выигрыша. Для дискретных игр ожидаемый выигрыш игрока i будет функцией только его сме-
~ шанной стратегии c i . Очевидно, существует смешанная стратегия
K i ( c ) = å å K i ( xi , x -i )c i ( xi ) c -i ( x-i ) , i Î N .
xi ÎX i x- i ÎX - i c i* , при использовании которой ожидаемый выигрыш достигает
Смешанная стратегия для непрерывных игр представляет со- максимума.
бой вероятностную меру на множестве чистых стратегий игрока. Для стратегии c i* ожидаемый выигрыш есть
Ожидаемая полезность игроков при использовании ими смешан-
ных стратегий будет интегралом функции полезности по декартову (6) K i ( c i* , c -i ) = åc
xi Î X i
*
i ( xi ) å K (x , x
x - i ÎX - i
i i -i ) c -i ( x -i ) .
произведению этих вероятностных мер.
Дискретную игру, в которой игроки используют смешанные Так как åc
xi ÎX i
*
i ( xi ) = 1 , то K i ( c i* , c -i ) представляет собой
стратегии, можно привести к непрерывной игре, в которой игроки
используют только чистые стратегии. Это достигается путем взвешенную с весами c i* (.) сумму величин
~
замены множества чистых стратегий игрока на множество его
смешанных стратегий, а функции выигрыша – ее математическим
(7) K i ( x i ) = å
K i ( xi , x -i )c -i ( x -i ) .
x - i ÎX - i
ожиданием. Взвешенная сумма (6) не может превышать своего макси-
Тогда можно исследовать свойства новой игры в предполо-
мального слагаемого, то есть существует чистая стратегия xi** , для
жении, что игроки используют только чистые стратегии. Это, од- ~
нако, не всегда бывает удобным, так как такой переход приводит к которой K i ( xi** ) ³ K i ( c i* , c -i ) . Но в правой части этого неравенст-
замене более простой, дискретной игры, более сложной – не- ва стоит максимальный ожидаемый выигрыш, возможный при
прерывной. использовании смешанных стратегий. Значит, неравенство можно
Приведем несколько свойств смешанных стратегий в дис- заменить равенством, а это, в свою очередь, значит, что макси-
кретных играх. мальный ожидаемый выигрыш достигается на некоторой чистой
Лемма 1 [8 2]. Ожидаемая полезность дискретной игры – не- стратегии. Кроме того, если любой не максимальный элемент (7)
прерывная функция смешанных стратегий. · входит в сумму (6) с ненулевым весом, то ожидаемая полезность
59 60
будет строго меньше максимально возможной, и смешанная стра- этом исследователю приходится становиться на точку зрения каж-
тегия не будет наилучшим ответом на обстановку c -i . · дого из игроков, то есть абстрагироваться (хотя бы на время) от
Смешанные стратегии – довольно хрупкая конструкция. Их непосредственных интересов оперирующей стороны. Аналогично
использование в ряде практических задач неоднократно подвер- и задача описания рациональных исходов распадается на задачи
галось критике. Один из аргументов [21] против использования рационального выбора всех игроков, то есть рассмотрения игры с
смешанных стратегий таков: «Применение смешанных стратегий точки зрения каждого из игроков. Тем не менее, эти два подхода
подходит только для игр с большим числом повторений. Рас- несколько различаются в методическом плане. В некоторых ситуа-
смотрим игру, которая должна быть сыграна лишь один раз. При циях (например, в иерархических играх – см. шестую главу) более
использовании смешанных стратегий игрок должен выбирать свое продуктивным оказывается подход теории принятия решений, в
решение на основании реализации случайного процесса, за- других же ситуациях лучше подходит описательный метод. Соот-
даваемого распределением вероятности его смешанной стратегии. ветственно, различные концепции решения игр более склонны к
Однако эта реализация может дать стратегию, настолько «экзо- тому подходу, в рамках которого они зародились.
тическую», что ее применение в единичной игре будет малоэф- Решением игры в самом общем смысле можно назвать любое
фективно, несмотря на теоретические обоснования эффективности описание того, каким образом должны вести себя игроки в той или
такой смешанной стратегии в смысле среднего выигрыша на иной игровой ситуации [18]. Это не обязательно должен быть
протяжении многих игр». набор рекомендуемых для каждого игрока действий. Решением,
например, может быть набор исходов игры. Такое решение можно
Поэтому, когда возможно, особенно при моделировании ре-
интерпретировать как набор ситуаций, рациональных относи-
альных систем, следует использовать только чистые стратегии.
тельно некоторых предположений о поведении игроков. То есть
при рациональном поведении игроков должны реализовываться
3.5. Различные концепции решения игр только ситуации, принадлежащие решению. Решением игры мо-
Выше были перечислены постановки задач теории игр. Те- жет быть и набор смешанных стратегий, если одних только чис-
перь наступило время для того, чтобы приступить к решению этих тых стратегий недостаточно.
задач. Но что означает найти решение игры, решить теоретико-
игровую задачу? В настоящее время в теории игр не существует единой кон-
цепции решения, одинаково подходящей для всех классов игр.
С формальной точки зрения можно разделить задачи приня-
Связано это, во-первых, с тем, что формальное описание игры
тия решений в теории игр, когда игра рассматривается с точки
представляет собой лишь очень грубый «слепок» с чрезвычайно
зрения одного из игроков, которому (на основании исследования
сложных реальных процессов, происходящих в ходе игры: обмена
игры) рекомендуется то или иное поведение, и задачи прогнозиро-
информацией, возможных договоров между игроками, само-
вания результатов игры, то есть описательные задачи, когда иссле-
стоятельных действий игроков по увеличению своей информиро-
дователь занимается поиском возможных устойчивых исходов иг-
ванности. Нельзя исключать и возможности иррационального
ры при рациональном поведении игроков. Понятно, что, в силу
поведения игроков, которое на сегодняшний день практически не
специфики теории игр, эти задачи взаимосвязаны, так как задача
поддается формализации.
принятия решений в теории игр с неизбежностью требует прогно-
зирования поведения других рациональных игроков. Предположе- Если ставить целью включить все подобные детали в описа-
ние о разумности противников/партнеров требует рассмотрения их ние игры, то оно может стать слишком сложным для конструк-
поведения с не меньшей подробностью, чем поведения ЛПР, при тивного анализа.
61 62
Другая сложность состоит в том, что само понимание того, Сами предположения о рациональном поведении при этом
что такое рациональное поведение, различно у разных людей. То, остаются на заднем плане. Их обоснование не является, на самом
что кажется рациональным одним, может показаться не рацио- деле, сферой действия теории игр или теории принятия решений, и
нальным другим, и современная наука зачастую не знает объек- относятся скорее к сфере психологии, социологии и философии.
тивных причин, лежащих за этими различиями в поведении [31, Этот подход был продемонстрирован выше при определении
38, 39, 46, 73]. условий, которым должно удовлетворять отношение предпочте-
В связи с этим теория игр не всегда может точно предсказать ния, чтобы на его основе можно было определить функцию по-
поведение игроков в реальной игровой ситуации или дать одно- лезности (см. раздел 2.2). Условия формулировались в виде набора
значную рекомендацию по принятию решения. аксиом. Аналогично можно поступить и при формулировке кон-
Это общая проблема всех формальных, модельных исследо- цепции решения [18, 46]:
ваний, не только в теории игр, но и в физике, экономике и т.д. Тем Шаг 1. Определить аксиомы, фиксирующие некоторое пред-
не менее, ценность модельных исследований конфликта бесспорна, ставление о рациональном поведении.
поскольку они дают возможность, исследуя достаточно простые Шаг 2. Проверить, что аксиомы не противоречат друг другу.
модели, выяснять основные закономерности, которые лежат в Шаг 3. Убедиться, что аксиомы позволяют сузить множество
основе рационального поведения в конфликтных ситуациях. рассматриваемых игроками альтернатив.
Шаг 4. На основе введенных аксиом построить механизм на-
Задачей теории игр на современном этапе ее развития явля- хождения решения игры.
ется не поиск единственного решения игры, то есть полного пред- Шаг 5. Исследовать свойства решений: их существование для
сказания поведения игроков, а, скорее, отсечение ситуаций и спо- всех (или некоторых) классов игр, единственность решения и т.д.
собов поведения игроков, которые рациональными, разумными, Шаг 6. Разработать алгоритмы вычисления решения.
назвать нельзя. Известные на сегодняшний день концепции решения обла-
Формально теоретико-игровую концепцию решения можно дают одним из двух недостатков: либо решение существует не для
представить, как некоторое отображение множества игр на мно- всех игр, либо существуют игры, для которых это решение про-
жество решений. Это отображение может не охватывать все воз- тиворечит здравому смыслу. Трудности с поиском приемлемой
можные игры, то есть решение может не существовать для неко- общей концепции решения привели к появлению многочисленных
торых игр или их классов, может быть неоднозначным, то есть частных концепций, удовлетворяющих требованиям здравого
ставить в соответствие некоторой игре несколько решений, кото- смысла, но существующих только для ограниченного класса игр.
рые представляются разумными с точки зрения этой концепции.
Определение любой концепции решения невозможно без не- Ниже рассматриваются наиболее часто используемые в теории
которых предположений относительно психологии игроков, того, игр и в теории принятия решений принципы рационального
что они понимают под рациональным поведением. По сути, любое поведения и соответствующие им концепции равновесия (решения
такое предположение, которое позволяет сузить множество аль- игры). Соотношение между различными концепциями равновесия
тернатив в игровой задаче выбора, определяет некоторую концеп- обсуждается в разделе 3.13.
цию решения [18]. После этого можно говорить о формализации
концепции решения, проверке существования или единственности
решения для всех игр или некоторых классов игр, исследовать
свойства решений, разрабатывать алгоритмы их нахождения.
63 64
3.6. Удаление доминируемых стратегий вания первой смешанной стратегии ниже, чем от использования
Определение 7: Стратегия xi Î Xi называется строго домини- второй стратегии.
руемой стратегией игрока i, если существует стратегия yi Î Xi та- Удаление доминируемых стратегий, тем не менее, довольно
кая, что для произвольной обстановки x -i , выполняется неравен- слабая концепция решения, так как во многих практически инте-
ресных играх все стратегии строго недоминируемы. Ее примене-
ство32 K i ( yi , x-i ) > K i ( xi , x-i ) .
ние к анализу игры оправданно на первоначальном этапе, когда, за
Определение 8: Стратегия xi Î Xi называется строго недоми- счет исключения из рассмотрения доминируемых стратегий,
нируемой стратегией игрока i, если для произвольной стратегии исследование игры упрощается.
yi ÎXi найдется обстановка x -i такая, что K i ( y i , x -i ) £ K i ( x i , x -i ) .
Использование строго доминируемых стратегий представля- 3.7. Равновесие в доминантных стратегиях
ется неразумным способом поведения, ведь, независимо от пове- *
Определение 9: Стратегия xi называется доминантной стра-
дения противников, можно получить больший выигрыш, исполь- тегией игрока i, если для любой обстановки x -i Î X -i и для лю-
зуя одну из строго недоминируемых стратегий.
бых xi Î X i справедливо неравенство K i ( xi* | x-i ) ³ K i ( xi x-i ) .
Первое, что можно сделать для сужения множеств альтерна-
тив игроков – это убрать из рассмотрения строго доминируемые Это определение означает, что, если у игрока, независимо от
чистые стратегии. После удаления из игры доминируемых стра- действий противников, есть стратегия, дающая ему максимальный
тегий одного из игроков может оказаться, что одна или несколько по сравнению с другими его стратегиями выигрыш, то эта страте-
стратегий другого игрока, недоминируемых в исходной игре, гия называется доминантной.
становятся доминируемыми в новой игре. Тогда процесс удаления Целесообразность использования каждым игроком своих до-
можно повторять до тех пор, пока все стратегии всех игроков минантных стратегий очевидна.
будут недоминируемыми. Определение 10: Если для каждого игрока i существует доми-
Легко показать, что для любой дискретной игры множество нантная стратегия xi *, то их совокупность x * = ( xi* ) iÎN называется
строго недоминируемых стратегий для каждого игрока не пусто. равновесием в доминантных стратегиях (РДС).
Действительно, поскольку отношение доминирования транзитив- Равновесие в доминантных стратегиях существует далеко не
но, а стратегий конечное число, всегда найдется недоминируемая для всех игр. Приведем несколько лемм, определяющих некоторые
стратегия. классы игр, в которых существует равновесие в доминантных стра-
Множество недоминируемых стратегий непусто и в случае тегиях.
бесконечных компактных множеств стратегий и функций выиг- Лемма 2 [65]. Если в игре n лиц xi Î [ ai , bi ] , функции выиг-
рыша, непрерывных по всем переменным [82]. рыша непрерывны по совокупности стратегий и для каждого игро-
Точно так же, как для чистых стратегий, можно определить и ¶K i
доминирование смешанных стратегий. Одна смешанная стратегия ка частная производная (xi , x-i ) существует и везде знакопо-
¶xi
доминируется другой, если для произвольного вектора смешанных
стратегий остальных игроков ожидаемая полезность от использо- стоянна, то существует РДС. При этом доминантной стратегия xi*
i-го игрока будет стратегия
32
Для вектора стратегий (x1, x2, …, xi-1, yi, xi+1, …, xn) используется
обозначение (yi, x-i ).
65 66
ì ¶K i реализующаяся ситуация зависит от «правильного» выбора всех
ïïa , ¶x < 0 стратегий. Из принадлежности ситуации множеству недоминируе-
xi* = í i i , i Î N. мых по Парето ситуаций не следует, что такая ситуация выгодна
b , ¶K
ï i i
>0 для всех игроков. Как будет показано ниже при рассмотрении рав-
ïî ¶xi
новесия Нэша, отдельные игроки могут быть недовольны своим
Идею леммы 2 можно обобщить на более широкий класс игр. выигрышем в недоминируемой по Парето ситуации, так как, изме-
Лемма 3 [65]. Если в игре n лиц x i = [a i , bi ] , а функция выиг- нив в одиночку свою стратегию, они могут увеличить свой выиг-
рыша произвольного игрока i сепарабельна по стратегии этого рыш. Ответные действия других игроков, ущемленных таким по-
игрока, то есть K i ( xi , x -i ) = K i0 ( xi ) + K i1 ( x -i ) , i Î N, и K i0 (×) име- ведением, могут вывести ситуацию из множества Парето.
Как и удаление доминируемых стратегий, равновесие Парето
ет единственный максимум на множестве действий Xi , то сущест-
вует РДС, причем для игрока i его доминантная стратегия: обычно выделяет достаточно широкое множество ситуаций, в ко-
торых одновременно не может быть увеличен выигрыш всех иг-
x i* = arg max K i0 ( x i ) , i Î N. роков. Тем не менее, очевидная рациональность оптимальных по
xi Î X i
Для доказательства лемм 2 и 3 достаточно проверить опреде- Парето исходов приводит к мысли, что хорошая теоретико-
ление РДС. игровая концепция решения должна считать рациональными
только оптимальные по Парето исходы.
3.8. Оптимальность по Парето Пример 11. «Сравнение оптимальности по Парето и РДС».
«Равновесие» Парето можно назвать, наверное, самым общим Рассмотрим игру, в которой участвуют n > 2 игроков со стра-
принципом рациональности. Принцип В. Парето утверждает, что, тегиями xi Î [0; 1]. Функции выигрыша игроков: K i = xi - å x j .
j ¹i
если для ситуации x существует такая ситуация y, что выигрыш
каждого из игроков при реализации ситуации y не меньше, чем Так как целевые функции сепарабельны, доминантными
при реализации ситуации x, и по крайней мере один игрок по- стратегиями всех игроков являются стратегии xi = 1 (см. лемму 3).
лучает выигрыш, строго больший, то игроки предпочтут ситуацию Выигрыши игроков при этом будут равны K i = 2 - n < 0 .
y ситуации x. Формально определение выглядит следующим об- Равновесие в доминантных стратегиях не оптимально по Па-
разом.
*
рето, поскольку при выборе, скажем, xi = 0 все игроки получают
Определение 11: Ситуация x в игре Г называется оптималь-
нулевой выигрыш вместо отрицательного выигрыша в РДС. ·
ной по Парето, если для любой ситуации x ¹ x * , найдется игрок i, Этот пример показывает, что стремление к общему благу
такой, что K i ( x) < K i ( x * ) . может вступать в противоречие с индивидуальными интересами.
Этот принцип представляется в некотором смысле полярным, Используя доминантные стратегии, все игроки обеспечивают себе
противоположным к равновесию в доминантных стратегиях. Если меньший выигрыш, чем при использовании строго доминируемой
РДС представляет собой верх индивидуалистического поведения стратегии xi = 0 .
игроков, то равновесие Парето является критерием сотрудничест- Неустойчивость оптимальной по Парето ситуации поднимает
ва. Действительно, если есть ситуация, которая приносит всем иг- вопрос о целесообразности расширения рассматриваемой модели
рокам не меньший доход, чем существующая, то почему им не игры. Можно, например, включить в модель возможность заклю-
реализовать более выигрышную для всех них ситуацию? Однако чения игроками договора о выборе стратегий. Если этот договор
для этого необходимы объединенные усилия всех игроков, так как будет предусматривать наказание за невыполнение соглашения,
67 68
оптимальный по Парето исход в этой игре будет достижим [51]. Определение 14: Набор смешанных стратегий
Такие игровые модели будут рассмотрены ниже. Аналогичные c * = ( c 1* , c 2* ,..., c n* ) называется ситуацией равновесия Нэша в
идеи используются для обеспечения устойчивости оптимальных по
Парето исходов в повторяющихся играх [21, 33, 52, 58]. смешанных стратегиях, если для любого игрока i Î N и произ-
вольной смешанной стратегии c i справедливо неравенство
~ ~
3.9. Равновесие Нэша K i ( c i* , c -*i ) ³ K i ( c i , c -* i ) ,
Стремление к устойчивости решений является широко рас- ~
где K i (×) – результат усреднения функций выигрыша игроков по
пространенным способом формулирования принципов рацио-
используемым ими смешанным стратегиям.
нального поведения в теории игр. Устойчивость при этом может
Множество равновесий Нэша в чистых стратегиях может
пониматься по-разному. Самый популярный принцип рацио-
оказаться пустым для некоторых игр, и возможное отсутствие
нального поведения в некооперативных играх рекомендует в ка-
честве рациональных исходов использовать ситуации равновесия равновесных ситуаций является большим недостатком равновесия
Нэша в чистых стратегиях. Тем не менее, для равновесия в
Нэша. Они характеризуются тем, что отклонение от данной си-
смешанных стратегиях справедлив следующий результат
туации равновесия одним из игроков не может увеличить его вы-
игрыша. Можно сказать, что ситуация называется равновесной по Теорема 3 [59. ]. Для произвольной дискретной игры сущест-
Нэшу, если она устойчива относительно индивидуального откло- вует, по меньшей мере, одно равновесие Нэша в смешанных стра-
нения игроков. тегиях.
* * * * Доказательство [82]. Множество смешанных стратегий каж-
Определение 12: Ситуация x =(x1 , x2 , …, xn ) называется си-
дого игрока – непустой выпуклый компакт (ограниченное и
туацией равновесия по Нэшу (в чистых стратегиях), если для
замкнутое множество) в конечномерном пространстве. Обозначим
всех i Î N и xi Î Xi , справедливо неравенство множество наилучших ответов игрока на произвольную обстанов-
K i ( xi* , x -*i ) ³ K i ( x i , x -*i ) . ку c -i
Определение 13: Совокупность всех равновесных по Нэшу си- ~
(8) R i ( c - i ) = Arg max K i ( c i , c - i ) .
туаций игры называется множеством равновесий Нэша. ci
Если ситуация x* – равновесие Нэша, то никому из игроков не По теореме 2, это множество представляет собой множество
выгодно в одиночку отклоняться от нее. Однако возможно, что, всех вероятностных распределений на множестве чистых страте-
объединившись, игроки могут улучшить свое положение выходом гий – наилучших ответов на заданную обстановку. Поэтому Ri –
из равновесия Нэша (см. раздел 3.11). выпуклое множество, так как оно представляет собой ограничен-
Например, в примере 5 «Два начальника» единственным рав- ное линейными неравенствами подмножество выпуклого множе-
новесием Нэша является ситуация (x1 = x2 = «Эгоист.»). При этом, ства смешанных стратегий [74, 82]. Определим многозначное со-
поскольку равновесие Нэша в данной игре не является оптималь- ответствие
ным по Парето, оба игрока могут улучшить свое состояние, выбрав (9) R ( c ) = ( R1 ( x-1 ),..., Rn ( x- n )) ,
ситуацию (x1 = x2 = «Сотр.»). Однако, эта ситуация уже не будет
которое ставит в соответствие каждой ситуации множество – де-
равновесной, так как отклонение одного из игроков от этой си-
картово произведение множеств стратегий – наилучших ответов
туации увеличивает его выигрыш (см. также пример 11). Именно
каждого игрока на обстановку, заданную остальными компонен-
поэтому сложно ожидать от игроков сотрудничества в этой игре.
тами ситуации. Для произвольной ситуации в смешанных страте-
гиях c , R ( c ) является непустым, выпуклым компактом (так как
69 70
является декартовым произведением непустых, выпуклых компак- На основании полученных результатов можно сформулиро-
тов). вать одно из возможных достаточных условий существования рав-
Для дальнейшего доказательства воспользуемся теоремой новесия в чистых стратегиях:
Какутани. Введем сначала определение: Теорема 6 [65]. Если в непрерывной игре множества страте-
Определение 15: Многозначное отображение F компакта S в гий Xi – выпуклые подмножества линейных метрических про-
себя, называется полунепрерывным сверху, если для любых схо- странств, для каждого игрока i функция выигрыша K i непрерывна
дящихся последовательностей ckÎS (ck®c), и rkÎS (rk®r), таких, по всем переменным и строго вогнута по переменной xi , то в этой
что rkÎF(ck), r принадлежит F(c). игре существует равновесие Нэша в чистых стратегиях.
Теорема 4 [82] (теорема Какутани о неподвижной точке). Доказательство. Ранее была доказана теорема 2 о том, что
Пусть S есть непустой, выпуклый компакт конечномерного про- наилучший ответ всегда достигается на чистых стратегиях. Теперь
странства. Если F – полунепрерывное сверху многозначное соот- необходимо показать, что следствием вогнутости целевых функций
ветствие, которое ставит в соответствие каждой точке S непустое является единственность наилучшего ответа. Это будет означать,
выпуклое подмножество S, то существует такой элемент c*ÎS, что что наилучшим ответом может быть только чистая стратегия.
c*ÎF(c*). Тогда и равновесие Нэша будет состоять только из чистых страте-
Покажем, что отображение R полунепрерывно сверху. гий.
Для этого рассмотрим произвольные сходящиеся последова- Введем обозначение X i* ( c -i ) = Arg max K i ( x i , c - i ) – множе-
тельности ck и rk из определения полунепрерывности сверху. xi
Из того, что rkÎR(ck) следует, что для произвольной смешан- ство чистых стратегий, которые являются наилучшими ответами
~ ~ на обстановку c-i . Пусть имеются два наилучших ответа – xi* Î X i*
ной стратегии si выполнено K i ( r ik , c -ki ) ³ K i (s i , c -ki ) . По лемме 1
функция ожидаемого выигрыша непрерывна по совокупности и xi** Î X i* . Так как оба они являются лучшими ответами на об-
~ ~ становку c-i , значит K i ( xi* , c -i ) = K i ( xi** , c -i ) , то есть
переменных, поэтому K i ( r i , c -i ) ³ K i (s i , c -i ) , то есть rÎR(c).
ò K i ( x i , x -i ) c -i ( x -i ) dx -i = ò K i ( x i , x -i ) c -i ( x -i ) dx -i .
* **
По теореме Какутани, существует неподвижная точка – си-
X -i X -i
туация c*, такая, что c*ÎR(c*).
~ ~ Для краткости обозначим этот выигрыш буквой M.
Значит, для всех игроков K i ( c i* , c -*i ) ³ K i ( c i , c -*i ) , где ci –
произвольная смешанная стратегия. То есть c* – это равновесие Рассмотрим стратегию ~ xi = axi* + (1 - a ) xi** , где a Î (0, 1) .
Нэша. · В силу выпуклости Xi , ~xi Î X i . Ожидаемая полезность от приме-
Аналогичные результаты можно получить и для бесконечных нения этой стратегии:
игр, например, справедлива K (~x , c ) = K (~
Теорема 5 [82]. Если множества стратегий игроков компакт-
i i ò
x , x ) c ( x ) dx =
-i
X -i
i i -i -i -i -i
ны, а функции выигрыша непрерывны по совокупности перемен-

ò K (ax
*
ных (чистых стратегий игроков), то в игре существует, по крайней i i + (1 - a ) xi** , x -i ) c -i ( x -i ) dx-i .
мере, одно равновесие Нэша в смешанных стратегиях. X -i
Доказательство теоремы 5 аналогично доказательству теоре- В силу строгой вогнутости целевой функции Ki , имеем
мы 3.
71 72
K i (~
xi , c -i ) > a ò K i ( xi* , x -i ) c -i ( x -i )dx-i + венно, все равновесия Нэша этих игр совпадают. Однако рассмот-
X -i рение исходных игр дает возможность отдать предпочтение одним
из равновесий перед другими. В результате можно отбросить не-
+ (1 - a ) ò K i ( xi** , x-i ) c -i ( x -i )dx-i . которые из равновесий, усилив, тем самым, предсказание поведе-
X -i
ния игроков. Подробно с такими концепциями решения, как: рав-
Следовательно, K i ( x~i , c -i ) > aM + (1 - a ) M = M , что невоз- новесие по подыграм (subgame perfect equilibria), trembling hand
можно, так как M – это максимальный ожидаемый выигрыш. Та- perfect equilibria и другими можно ознакомиться в [74, 79, 82].
ким образом, наилучший ответ всегда один, а, значит, и равнове- Другой выход заключается в предположении (подтвержден-
сие Нэша будет равновесием в чистых стратегиях. · ном, кстати, экспериментально [82]) о том, что выбор одного из
Итак, как показано выше, множество равновесий Нэша в равновесий Нэша игроки производят на основе некоторой второ-
смешанных стратегиях не пусто для достаточно широкого класса степенной информации, которая не нашла своего отражения в
игр. Однако оно далеко не всегда единственно. постановке задачи. Стремление игроков к выбору одного из рав-
Так, например, равновесие Нэша не единственно в игре «Се- новесий Нэша в результате игры называется эффектом фокальной
мейный спор» (см. примеры 9, 14): в ней три равновесия Нэша, точки [40, 74, 82].
два – в чистых и одно – в смешанных стратегиях. Разрешению проблемы неединственности равновесия Нэша
Наличие нескольких равновесий Нэша порождает опреде- посвящено очень большое количество исследований, и в рамках
ленные проблемы, ведь в идеальном случае концепция решения данной книги нет возможности подробно останавливаться на этом
должна точно предсказывать результат игры, что возможно лишь вопросе.
при однозначном определении рациональных стратегий всех иг- Равновесие Нэша подвергается справедливой критике, ведь
роков33. чтобы результатом игры было равновесие Нэша, все игроки
Одним из выходов является констатация того, что ситуации должны выбрать именно равновесную ситуацию, при этом пред-
равновесия Нэша не являются точным и единственным решением, варительно конкретизировав одну из равновесных ситуаций в слу-
а являются лишь набором рациональных стратегий поведения, вы- чае, когда равновесий много. Тем не менее, содержательных
бор из которых нельзя произвести на основе имеющихся данных. объяснений рациональности использования равновесных ситуаций,
В таком случае возникает вопрос об улучшениях и поправках к как и рекомендаций по обеспечению реализации равновесных
определению равновесия Нэша, которые сужали бы множество ситуаций, можно предложить довольно много.
равновесий (желательно – до одной ситуации). Теме «улучшения» Так, например, принятие решения о выборе равновесной стра-
равновесия Нэша посвящено большое количество работ. Один из тегии может быть следствием рефлексивных рассуждений вида: «Я
методов уточнения равновесия Нэша заключается в переходе к думаю, что противник думает, что я поступлю так, значит, он по-
рассмотрению игры в развернутой форме. Оказывается, что неко- ступит так, поэтому я должен действовать следующим образом…».
торые игры, имеющие разные представления в развернутой форме, Вложенность таких рассуждений может быть очень большой, и
могут иметь одинаковую нормальную форму. При этом, естест- равновесие Нэша – именно та ситуация, которая позволяет разо-
рвать «порочный круг», поскольку, даже если противник знает,
33 какую стратегию мы собираемся использовать, то равновесная
В задачах управления наличие нескольких равновесий Нэша игры
агентов, зависящих от управлений центра, означает, что центр дол-
стратегия дает ему максимальный в этих условиях выигрыш. За-
жен вводить и обосновывать дополнительные предположения о том, в метим, что для проведения подобных рассуждений каждому игро-
каком из равновесий окажется управляемая система [25, 51, 56, 57]. ку необходимо точное знание целевых функций всех игроков [62].
73 74
Другим подходом к обоснованию равновесия Нэша является ны, то их решением должно стать использование равновесных
создание игроками «центра» – рекомендательного органа, который стратегий.
берет на себя вычисление равновесия Нэша и выбор одной из
Пример 12 [56]. «Решение задачи стимулирования».
ситуаций равновесия, выдавая затем рекомендации игрокам. При
этом, если игрок в одиночку отклоняется от этой рекомендации, Опишем решение задачи стимулирования в многоэлементной
выиграть от этого он не сможет, поэтому логичным для него ОС (пример 1). Относительно параметров ОС введем следующие
представляется следовать рекомендации «центра». Здесь, как ми- предположения:
нимум, центр должен знать все целевые функции, а игроки долж- А.1. " i Î N Ai Í Â1+ .
ны доверять центру в этом вопросе (см. описание реализации этого
подхода для задач управления организационными системами в [21, А.2. " i Î N 1) функция ci (×) непрерывна по всем перемен-
51, 56, 57]). ным; 2) " yi Î Ai ci (y) не убывает по yi , i Î N; 3) " y Î A’ ci (y) ³ 0;
Заметим, что этот подход, по сути дела, нарушает ранее вве- 4) " y-i Î A-i ci (0, y-i ) = 0.
денное предположение о бескоалиционности игры, так как озна- А.3. Функции стимулирования кусочно-непрерывны и при-
чает создание всеми игроками информационной коалиции – ре- нимают неотрицательные значения.
гулирующего органа. Тем не менее, он довольно широко исполь- А.4. Функция дохода центра непрерывна по всем переменным
зуется некоторыми исследователями [82]. и достигает максимума при ненулевых действиях агентов.
В теории управления широко распространен метод повторе- Если стимулирование каждого агента зависит от действий
ния игры, или «метод фиктивного разыгрывания» для реализа- всех агентов, то определение множества равновесий Нэша PN(s)
ции равновесных ситуаций. При этом игрокам разрешается разыг- имеет вид:
рывать игру многократно, возможно, меняя стратегии от тура к PN(s) = {yNÎA| " iÎN " yi ÎAi si (yN) – ci ( y N ) ³
туру. При этом оказывается, что стремление к максимизации вы-
игрыша заставляет игроков менять свои стратегии таким образом, ³ si (yi , y -Ni ) - ci (yi , y -Ni )};
чтобы прийти, в конце концов, в одну из ситуаций равновесия. РДС yd Î A' определяется условием: y id Î Ai – доминантная
Оправданность такого подхода объясняется тем, что при проведе-
стратегия i-го агента тогда и только тогда, когда
нии экспериментов – так называемых, имитационных игр [4, 9,
60], – игроки ведут себя таким образом, что, после проведения " yi Î Ai , " y-i Î A-i si ( y id , y-i ) – ci ( y id , y-i ) ³ si (yi , y-i ) – ci (yi , y-
достаточного числа повторений игры (при этом можно даже не Если при заданной системеi ). стимулирования у всех агентов
выплачивать игрокам их выигрыш, а лишь ставить их в извест- имеется доминантная стратегия, то говорят, что данная система
ность о его величине) стратегии игроков сходятся к одному из рав- стимулирования реализует соответствующий вектор действий как
новесий Нэша34. Можно заметить, что рефлексивные рассуждения, РДС.
по сути, представляют собой то же фиктивное разыгрывание, про- Если стимулирование каждого агента зависит только от его
изводимое каждым игроком отдельно. Если все игроки рациональ- собственных действий, то определение множества равновесий
Нэша PN(s) имеет вид:
EN(s) = {yNÎA' | " iÎN " yi ÎAi si ( y iN ) – ci ( y N ) ³
34
Сходимость различных процедур выбора агентами стратегий к рав-
новесию Нэша и другие эффекты динамики коллективного поведения ³ si (yi ) – ci (yi , y -Ni )},
исследовались в [4, 9, 50, 60].
75 76
РДС yd Î A определяется условием: y id Î Ai – доминантная стра- Содержательно, при использовании системы стимулирования
s* центр использует следующий принцип декомпозиции: он пред-
тегия i-го агента тогда и только тогда, когда
" yi Î Ai , " y-i Î A-i si ( y id ) – ci ( y id , y-i ) ³ si (yi ) – ci (yi , y-i ). лагает i-му агенту: «выбирай действие yi* , а я компенсирую тебе
затраты, независимо от того какие действия выбрали остальные
Фиксируем произвольный вектор действий агентов y* Î A’ и
агенты, если же ты выберешь любое другое действие, то воз-
рассмотрим следующую систему стимулирования:
награждение будет равно нулю». При использовании системы
ìci ( yi* , y -i ) + d i , yi = yi* стимулирования s** центр предлагает i-му агенту: «выбирай дей-
s*i (y*, y) = í , di ³ 0, i Î N.
î 0, y i ¹ y*i ствие yi* , а я компенсирую тебе затраты, считая, что остальные
Если стимулирование каждого агента зависит только от его агенты также выбрали соответствующие компоненты – y -* i , если
собственного действия, то, фиксировав для каждого агента об-
же ты выберешь любое другое действие, то вознаграждение будет
становку игры, перейдем от s* к системе индивидуального сти- равно нулю». Используя такую стратегию, центр декомпозирует
мулирования следующим образом: фиксируем произвольный век-
игру агентов. ·
тор действий агентов y* Î A’ и определим систему стимулирова-
ния:
3.10. Вычисление равновесий Нэша
ìc ( y * , y * ) + d i , yi = yi* Чтобы для конкретной игры вычислить равновесие Нэша в
s**i (y*, yi ) = í i i -i , di ³ 0, i Î N.
y i ¹ y*i чистых стратегиях, необходимо проверить наличие собственного
î 0, значения оператора R (см. (9)) для собственного числа 1. Оператор
Справедливы следующие утверждения [56]: R – отображение произвольной игровой ситуации на совокупность
1) При использовании центром системы стимулирования s* век- наилучших ответов игроков на задаваемую для них этой ситуацией
тор действий y* является РДС. Более того, если di > 0, i Î N, то y* – обстановку. Таким образом, для бесконечных игр, задача сводится
единственное РДС. к нахождению вида этого оператора и решения уравнения
2) При использовании центром системы стимулирования s** век- (10) x* = R(x*).
тор действий y* является равновесием Нэша. Пример 13. Вычисление равновесий Нэша для игры «Фермеры на
3) Вектор оптимальных реализуемых действий агентов y*, фигу- общем поле».
рирующий в качестве параметра в системах стимулирования s* и Целевые функции игроков в этой игре K i = xi (120 - x1 - x2 ) .
s**, определяется в результате решения следующей задачи: Функции выигрыша вогнуты по стратегиям игроков, поэтому в
y* Î Arg max {H(t) – å ci ( t ) }, этой игре существует равновесие Нэша в чистых стратегиях (см.
tÎA¢ iÎN теорему 6).
а эффективность этих систем стимулирования равна следующей Наилучший ответ игрока при фиксированном поведении про-
n
тивника вычисляется в результате нахождения максимума функ-
величине: K* = H(y*) – å c ( y ) – d, где d := å d
i =1
i
*
iÎ N
i
ции выигрыша по стратегии этого игрока, то есть
5) Класс (с параметром y*) систем стимулирования s* и s** явля- x i* = R i ( x -i ) = arg max K i ( x i , x -i ) . Частная производная в этой
xi Î X i
ется d-оптимальным.
77 78
¶K i ( x i* , x -*i ) x [ x2 y2 ]
точке равна нулю, то есть = 0 , значит x i* = 60 - -i ,
¶x i 2 Пусть матрица выигрышей имеет вид é x1 ùæ 3, 1 0, 0 ö .
i = 1, 2. ê y úçç 0,0 1, 3 ÷÷
ë 1 ûè ø
ì x * = 60 - x 2* / 2 Смешанная стратегия первого игрока определяется одним
Получили систему уравнений í 1* , решением ко-
* числом p – вероятностью выбора им первой стратегии, смешанная
î x 2 = 60 - x1 / 2
стратегия второго, соответственно, числом q. Вычисляем:
торой является пара стратегий x1* = x 2* = 40 , приводящих к выиг- K 1 ( x1 , qx 2 + (1 - q ) y 2 ) = 3q , K 1 ( x2 , qx2 + (1 - q ) y 2 ) = 1 - q .
рышам K 1 = K 2 = 1600 . Таким образом, при q < 0.25, наилучшим ответом первого иг-
Заметим, что при условии безусловного сотрудничества иг- рока является стратегия y1, при q > 0.25 – стратегия x1. При
роков, то есть в случае объединения их выигрышей и выбора q = 0.25 обе стратегии равнозначны с точки зрения ожидаемого
стратегий из условия максимизации нового критерия выигрыша. То есть наилучший ответ первого игрока:
K = K1(x1, x2) + K2 (x1 , x2), стратегии игроков были бы x1 = x2 = 30 . ì 0, q < 0.25
При этом K = 3600, то есть при распределении выигрыша * ï
p ( q ) = í1, q > 0.25 .
поровну на долю каждого из игроков достается по 1800 единиц, ï [0, 1], q = 0.25
что больше, чем при конкуренции. Эта оптимальная по Парето î
ситуация, не является, однако, равновесной, так как неустойчива Аналогично, наилучший
по односторонним отклонениям игроков от оптимальной по Па- ответ второго игрока:
рето стратегии. · ì0, p < 0.75
* ï
Система (10) может давать несколько решений, и все они бу- q ( p ) = í1, p > 0.75 .
дут равновесиями Нэша. ï [0, 1], p = 0.75
î
Кроме того, уравнения системы (10) могут оказаться зависи-
мыми. Это значит, что равновесий Нэша в этой игре бесконечное Изобразив эти зависимости
множество. Например, для игры двух лиц с функциями выигрыша на плоскости p ´ q, получим Рис. 6.
рисунок 6. Точки A, B, C
ì1; x ³ 0
K i = 1( x1 + x 2 - c ) - xi , где 1( x) := í , x1 , x2 , c Î [0, 1] , мно- пересечения ломаных линий на рисунке и будут соответствовать
î0; x < 0 трем равновесиям Нэша этой игры:
жество равновесных ситуаций описывается равенством x1 + x2 = c . (x1, x2), (y1, y2), (0.75 x1 + 0.25 y1, 0.25 x2 + 0.75 y2). ·
Такая ситуация характерна, в основном, для игр с разрывной
функцией выигрыша (см. примеры в [56, 57, 82]). 3.11. Сильное равновесие Нэша
Вычисление равновесий Нэша в смешанных стратегиях для Как показано выше, равновесие Нэша и РДС зачастую всту-
дискретных игр сводятся к той же программе действий. Она может пают в конфликт с принципом оптимальности Парето. Введение
быть легко проиллюстрирована для биматричной игры, в которой понятия сильного равновесия можно считать попыткой объеди-
каждый игрок имеет две стратегии. нения концепций равновесия Нэша и равновесия Парето.
Определение 16: Для игры n лиц обозначим множество игро-
Пример 14. «Нахождение равновесий Нэша в смешанных ков через N = {1, 2, 3, …, n}. Любое непустое подмножество S
стратегиях в игре «Семейный спор». данного множества, включая и само N, называется коалицией.
79 80
Понятно, что для игры n лиц возможны 2n–1 коалиций. Мно- сят как от действий xi Î X i всех игроков, так и от их типов
жество всех возможных коалиций обозначим 2N. Обозначим ri Î Wi , i Î N.
( x -* S , x S ) ситуацию, в которой игроки, не входящие в коалицию Определение 18: Профилем типов игроков называется вектор
S Ì N, используют стратегии xi * ( i Î N \ S ), а игроки из S исполь- r = (r1, r2, …, rn) Î W = Õ
Wi .
зуют стратегии x j ( j Î S ). i ÎN
* * *
*
Определение 17: Ситуация x называется сильно равновесной Определение 19: Набор функций x ( r ) = ( x1 ( r ),..., x n ( r )) будем
35
по Нэшу, если для любых коалиций S Í N и любых называть равновесием Нэша (в чистых стратегиях) в игре с па-
xS Î Õ X i найдется участник коалиции i Î S, такой, что раметрически заданными функциями выигрыша, если для каждо-
iÎS го фиксированного профиля r типов игроков для каждого игрока
K i ( x * ) > K i ( x -* S , x S ) . i Î N и для всех его стратегий xi Î Xi , справедливо неравенство
* *
Как видно из определения, сильное равновесие отличается от K i ( x ( r ), r ) ³ K i ( x i , x -i ( r ), r ) .
равновесия Нэша тем, что игроки не только поодиночке не могут
увеличить свой выигрыш выходом из равновесия, но и произ- Пример 15. «Простая задача распределения ресурса».
вольная их коалиция не может, отклоняясь от равновесия, увели- Рассмотрим организационную систему, состоящую из центра
чить этим одновременно выигрыш всех своих участников. и двух агентов (игроков). Центру распределяет между игроками
Довольно просто показать, что все сильные равновесия Нэша, ресурс, для чего собирает от них заявки si Î [0; 1] (i = 1, 2) и вы-
если они существуют, оптимальны по Парето. дает каждому игроку ресурс по формуле
Тем не менее, при всех привлекательных чертах сильного s +s
равновесия Нэша, его использование ограничено тем, что даже в (11) xi = si - 1 2 .
4
смешанных стратегиях оно существует не во всех играх.
В этом механизме центр «недодает» игрокам ресурс относи-
тельно заявленных ими потребностей, причем, чем больше сооб-
3.12. «Параметрическое» равновесие Нэша
щенная общая потребность в ресурсе s1 + s2 , тем существеннее ста-
Для того чтобы вычислить равновесие Нэша, исследователь
игры должен точно знать функции выигрыша игроков. В задачах новится «недодача».
управления, однако, часто встречается ситуация, когда на момент Игроки имеют типы ri Î [0; 1]. Функции выигрыша игроков
исследования игры функции выигрыша известны исследователю зависят от полученного ими ресурса и типа следующим образом:
игры не полностью. Эта ситуация характерна для механизмов x2
(12) K i = 2 xi - i .
управления с сообщением информации [10, 64] (см. пример 2). ri
Неточную информацию о функциях выигрыша игроков при- Параметр ri Î [0; 1] можно интерпретировать как количество
нято описывать с помощью понятия типа игрока. Рассмотрим ресурса, оптимальное для игрока, так как именно при xi = ri дости-
следующую игру n лиц, в которой каждый из игроков имеет неко- гается максимум его выигрыша. Центр не знает типы {ri } игроков.
торый тип ri Î Wi из множества Wi возможных типов данного иг-
рока i. Будем считать, что все множества типов Wi компактны,
i Î N. Функции выигрыша игроков Ki = K i ( x1 ,...xn , r1 ,..., rn ) зави-
35
Для задач управления оказывается существенным, что равновесная
по Нэшу стратегия каждого из игроков зависит от типов всех игроков
[55, 64, 80, 85].
81 82
Стратегиями игроков в этой игре являются их заявки si на Сообщение достоверной информации в механизмах планиро-
ресурс. Подставив (11) в (12), можно выразить функции выигрыша вания является равновесием в доминантных стратегиях для всех
через стратегии, получив игру в нормальной форме. В этой игре r Î W , если: "r Î W, "i Î N , "si Î W i , "s -i Î W -i , выполняется
функции выигрыша игроков зависят не только от их стратегий, но ji (p i (ri , s- i ), ri ) ³ ji (p i ( si , s-i ), ri ) .
и от типов ri . Для механизма активной экспертизы справедливо следующее
Задача исследователя заключается в том, чтобы предсказать,
утверждение [55, 64]: для каждого r Î [d , D ]n равновесие Нэша
насколько это возможно, равновесные заявки игроков.
Можно показать, что в зависимости от типов r1 и r2 игроков s* ( r ) имеет следующую структуру:
равновесие Нэша в этой игре будет задаваться заявками ìïD, если x < ri ;
*
( s1* (×), s 2* (×)) = 1) si* = í

ïîd , если x* > ri ;
ì(1.5r1 + 0.5r2 , 0.5r1 + 1.5r2 ); 3r1 + r2 £ 2, r1 + 3r2 £ 2
ï 2) если d < si* < D , то x* = ri .
(13) ï ( 4r1 / 3 + 0.25, 1); 3r1 + r2 > 2, r1 £ 1 / 2 .
=í Определим для каждого k = 0, n векторы сообщений:
ï (1, 4r2 / 3 + 0.25); r1 + 3r2 > 2, r2 £ 1 / 2
ïî ìk первых экспертов сообщают d ;
(1, 1); r1 > 1 / 2, r2 > 1 / 2 s( k ) = í
Равновесные заявки зависят от типов {ri } игроков. Если в î(n - k ) последних экспертов сообщают D
дальнейшем исследователь получит точную информацию о типах и вычислим последовательность точек Wk = p ( s (k )) .
игроков, то, подставив значения типов игроков в (13), сможет по- Упорядочим экспертов в порядке возрастания ri . В [9] дока-
лучить точное равновесие Нэша этой игры. зано, что всегда найдется такой номер q Î N , что либо
Однако полученный результат можно использовать и другим rq Î [Wq , Wq -1 ] , либо rq > Wq -1 .
способом. Пусть исследователю известна та же информация, что и
Общий результат, характеризующий решение задачи экспер-
центру. Пусть игра разыграна один раз, и центр получил от игро-
тизы [9, 55, 64], гласит, что итоговое решение в равновесии имеет
ков заявки ( s1, s2 ) . Тогда, зная (13), центр может узнать типы иг-
вид: x * = max min ( rq , Wq -1 ) .
роков. Так, например, если обе заявки меньше 1, центр может оп- k ÎN
ределить типы игроков по формуле: Следовательно, для любой процедуры активной экспертизы
r1 = 0.75 s1 – 0.25 s2, r2 = 0.75 s2 – 0.25 s1. найдется эквивалентный прямой механизм (см. определение в
Если обе заявки равны 1, центр может сделать вывод, что первой главе). ·
типы обоих игроков превышают 0.5. Аналогично можно восста-
новить типы и для случаев, когда лишь одна из заявок равна 1. 3.13. Сравнение концепций решения
Таким образом, по результатам игры центр (а, значит, и исследо- Чтобы подытожить результаты данной главы, удобно рас-
ватель) может с той или иной точностью восстановить типы иг- смотреть следующий рисунок, показывающий, как соотносятся
роков. · между собой различные концепции решения некооперативных игр.
Пример 16 [9, 55]. «Решение задачи «Экспертиза».
Области на рисунке 7 представляют собой различные концеп-
Приведем решение задачи примера 2. ции решения. Если одна область включается в другую, значит,
первая из них является более «точной», то есть, если первая кон-
83 84
цепция дает некоторую ситуацию в качестве решения, значит, вто- ных теоретико-игровых задач. Несколько особняком от других
рая будет давать эту ситуацию, как одно из решений игры. стоит оптимальность по Парето. Рисунок показывает, что, даже
Сплошной линией на рисунке обведены концепции решения, для просто удаляя доминируемые стратегии, можно получить в резуль-
которых доказано существование решения для произвольной игры тате лишь не оптимальные по Парето исходы (см. пример 11).
в нормальной форме (для равновесия Нэша в смешанных страте- Причина, по которой это происходит, состоит в том, что в данной
гиях его существование доказано в условиях теоремы 3). Пункти- главе рассматриваются некооперативные игры, где каждый игрок
ром обведены концепции, которые для некоторых игр дают пустое следует лишь своим интересам, не зная ничего о поведении парт-
множество в качестве решения. неров. Достижение же оптимальных по Парето ситуаций зачастую
Оптимальность по Парето
требует обмена информацией между игроками, согласования их
Удаление доминируемых стратгеий действий или даже компенсационных выплат некоторым игрокам
Равновесие Нэша за выбор ими определенных стратегий. Теоретико-игровые моде-
в смешанных стратегиях
ли, учитывающие такие взаимодействия, рассматриваются ниже в
Равновесие Нэша
в чистых стратегиях Сильное равно- главах 5 и 6.
весие Нэша
Равновесие в
доминантных
стратегиях ГЛАВА 4. ИГРЫ С НЕПОЛНОЙ
ИНФОРМИРОВАННОСТЬЮ
При определении игры в нормальной форме (см. раздел 3.2)

предполагалось, что на момент выбора стратегий игроки имеют
полную информацию о виде функций (матрице) выигрыша других
Рис. 7. Сравнение концепций решения некооперативных игр
игроков.
Из рисунка 7 видно, что РДС и сильное равновесие Нэша яв- В разделе 3.12 был рассмотрен случай, когда у исследователя
ляются самыми сильными концепциями решения: из того, что си- нет полной информации о типах игроков, однако, предполагалась
туация равновесна в доминантных стратегиях, следует, что она полная информированность игроков о параметрах функций вы-
является и равновесием Нэша. Также и из сильной равновесности игрыша.
следует равновесность по Нэшу. Самая слабая концепция – это Но как описать рациональное поведение игроков в случае,
удаление доминируемых стратегий. Она предлагает в качестве ре- когда они сами не знают точно интересы своих противников
шения самое широкое множество ситуаций. Этот недостаток не- (партнеров)? Ответу на этот вопрос посвящен материал настоящей
сколько оправдывается его логической простотой. «Золотой сере- главы «Игры с неполной информированностью».
диной» в некотором роде, является равновесие Нэша в смешанных
стратегиях. Выше доказано (см. теорема 3) существование, по 4.1. Принцип максимального
крайней мере, одной равновесной ситуации для достаточно широ- гарантированного результата
кого класса игр. В то же время, эта концепция достаточно строгая: Принцип максимального гарантированного результата
множество равновесий Нэша обычно гораздо уже, чем можно по- (МГР) – это один из самых общих принципов принятия решений в
лучить, удаляя доминируемые стратегии. Эти преимущества и оп- условиях интервальной неопределенности. В соответствии с прин-
ределили популярность равновесия Нэша при решении приклад- ципом МГР неопределенность устраняется введением предположе-
85 86
ния, что неопределенные параметры принимают наихудшие для гией i-го игрока в игре с полной информированностью будет стра-
ЛПР значения. тегия
Определения принципа МГР для очень широкого класса игр yi* Î Arg max [ min K i ( y1 ,..., y n )] .
можно найти в [21]. Приведем некоторые из них. y i ÎAi y -i ÎA-i
Пусть игровая ситуация с точки зрения i-го игрока определя- Для существования гарантирующей стратегии достаточно
ется вектором z = (yi , q, r), yi Î Ai , q Î Q, r Î W, и его выигрыш ограниченности функции выигрыша игрока и компактности
K i = Ki (z) зависит от ситуации. Пусть yi Î Ai – действие i-го игро- множеств стратегий Ai и множеств типов игроков Wi [21], поэтому
ка, и на момент принятия игроком решения о выборе стратегии можно говорить, что гарантирующие стратегии существуют
ему известны значения параметров q Î Q. Об остальных пара- «почти всегда».
метрах информации не ожидается. Тогда принцип МГР предлагает Еще одним преимуществом МГР является то, что для вычис-
использование, так называемой, гарантирующей стратегии. ления гарантирующей стратегии игрока i достаточно знать только
Определение 20: Гарантирующая стратегия i-го игрока – это функцию его выигрыша, и не нужно знание функций выигрыша
стратегия, определяемая по формуле: других игроков.
Недостатком МГР является его чрезмерная пессимистичность.
yi* (q ) Î Arg max [min K i ( y i , q , r )] .
y i ÎAi rÎW МГР призывает игрока рассчитывать на наихудшее для него
Другими словами, для того, чтобы найти гарантирующую поведение противников. Это оправданно в случае антагони-
стратегию i-го игрока, необходимо при фиксированных известных стических игр, но, если игрок знает, что интересы противников
параметрах q найти минимум функции выигрыша по неизвестным лишь ненамного отличаются от его интересов, предположение о
параметрам r Î W, а затем максимизировать результат миними- том, что рациональные противники будут выбирать наихудшее для
него действие, не всегда адекватно.
зации выбором действия yi . Стратегия y*i (θ ) , на которой
достигается максимум, и будет гарантирующей.
4.2. Байесовы игры, равновесие Байеса
Вектор ( y*i (θ ) )i Î N гарантирующих стратегий игроков назы- Если принцип МГР используется в случае интервальной не-
вается максиминным равновесием. определенности, то ситуация, в которой, помимо знания множе-
Неизвестные параметры могут иметь очень широкое содер- ства возможных типов противников, каждый игрок знает вероят-
жательное наполнение: от информации о действиях других игро- ность реализации того или иного профиля их типов, соответствует
ков, о виде их целевых функций, до информации о правилах игры. игре в форме Байеса (или байесовой игре). Байесова игра фор-
Рассмотрим с этой точки зрения игру с неполной информацией. мально определяется следующим образом [82].
Пусть имеется n игроков. Игрок i имеет тип ri Î Wi , принад-
Пусть на момент принятия решения каждому игроку известен лежащий множеству возможных типов Wi данного игрока. Каж-
его тип ri Î Wi , неизвестны типы других игроков rj Î Wj (j ¹ i) и их дый игрок знает все множества {Wi }, а также функцию представ-
стратегии. Если Ki (y1, …, yn, r1, …, rn) – функция выигрыша i-го лений, (или, иначе, вер) игрока pi (r-i |ri ), описывающую плотность
игрока, то его гарантирующей стратегией будет стратегия условной вероятности появления некоторого сочетания (профиля)
y*i ( ri ) Î Arg max [ min K i ( y1 ,..., y n , r1 ,..., rn )] , i Î N. типов других игроков в зависимости от типа игрока i. Функции
y i ÎAi y -i ÎA-i , r-i ÎW -i
выигрыша K i = K i ( y1 ,... y n , r1 ,..., rn ) зависят как от действий
Можно заметить, что приведенное определение подходит и
для игр с полной информированностью – гарантирующей страте-
87 88
yi Î Ai всех игроков, так и от их типов ri Î Wi , и известны всем 2-й игрок
игрокам. y 21
2
Определение 21: Игра в форме Байеса задается следующей 1-й игрок y22
системой: {N ; W1 ,..., W n ; p1 (×),..., pn (×); K 1 (×),..., K n (×)} .
11
y
1 y12 y 21
2 y22
Рассмотренный выше пример «Аукцион» представляет собой
2-й игрок
игру в форме Байеса. В этом примере каждый из двух игроков
знает функцию выигрыша противника с точностью до некоторого y 21
1
r2
2
1,
y22
параметра.
r1
y 11
Каким же будет рациональное поведение игроков в условиях 1 y12
2 y 21
, r 22 y22
байесовой игры, ведь игроки должны наилучшим образом ис- r1 1
0
пользовать имеющуюся в их распоряжении информацию (см.
r1 1-й игрок y 21
раздел 1.1)? Ответ на этот вопрос дает концепция равновесия 2, r2 2
y22
Байеса. Стратегией игрока i в данной игре будем считать распре- 1 y 11
1
y
деление h i = h i ( y i | ri ) условной вероятности выбора действия yi 12
2
y21
r 12
y22
, r 22
при условии, что тип игрока равен ri . Тогда равновесием Байеса
y 21
считается такой набор стратегий (h1B (.), h 2B (.), ..., h nB (.)) , что для 2
y22
y 11
1
любого игрока i и любого его типа ri Î Wi стратегия h iB (.) макси- y1
2 y 21
2
мизирует по h i (.) функционал y2
2
ò ò K i ( y i , y -i , ri , r-i ) p i ( r-i ri ) h i ( y i ri ) Õ h
B
j ( y j r j ) dy dr-i ,
W-i X j ¹i Рис. 8. Игра с неполной информацией
представляющий собой ожидаемый выигрыш игрока i с учетом его
субъективного представления о типах других игроков. Равновесие Байеса является обобщением равновесия Нэша в
В этом определении решением считается, по сути, набор смешанных стратегиях на случай байесовых игр. На самом деле,
смешанных стратегий. Можно переопределить равновесие Байеса оно представляет собой равновесие Нэша игры, в которой непол-
для чистых стратегий. Тогда стратегией будем считать функцию ная информация о целевых функциях игроков заменена на не-
полную информацию о ходе природы. Д. Харшаньи [75] предло-
yi = hi (ri ), которая предписывает игроку действие yi в зависимости
жил считать, что в начале байесовой игры природа (или другие
от его типа ri Î Wi . В этом случае равновесие Байеса определяется
внешние обстоятельства) определяет типы игроков. После этого
набором стратегий (h1B (×), h 2B (×), ..., h nB (×)) , таким, что для любого игроки должны, зная свой тип, но не зная типов противников,
игрока i и любого его типа ri Î Wi стратегия h iB ( ri ) максимизи- выбрать стратегию (см. рисунок 8).
рует по hi функционал Представление этой игры в развернутой форме для двух игро-
ков, каждый из которых имеет два возможных типа (r11, r12 для
ò K i ( r-i , ri ,h -i ( r-i ),h i ) p i ( r-i | ri )dr-i
B
.
W-i
первого игрока, r21, r22 - для второго), и два возможных действия
(y11, y12 – у первого игрока, y21, y22 – у второго) приведено на ри-
сунке 8. Для нахождения равновесий байесовой игры необходимо
89 90
построить игру в развернутой форме, аналогичную изображенной В примере 5 рассматривалась игра с биматрицей
на рисунке. Далее, эту игру необходимо привести к нормальной [ сотр. эгоист.]
форме с помощью процедуры, описанной в разделе 3.3, и для игры
é сотр. ù æ 10, 10 - 5, 15 ö .
в нормальной форме найти множество равновесий Нэша в сме- ê эгоистú çç15, - 5 0, 0 ÷÷
шанных стратегиях. ë ûè ø
Такая схема построения байесового равновесия подходит Выше было показано, что единственное равновесие Нэша
лишь для дискретных множеств типов игроков. Кроме того, необ- («эгоист.», «эгоист.») этой игры не оптимально по Парето. В то же
ходимо, чтобы представления игроков были совместны, то есть, время, в реальной жизни подобные конфликты зачастую раз-
чтобы существовало некоторое априорное вероятностное распре- решаются довольно эффективно. Дело в том, что на практике в
деление p(r1,…, rn) типов игроков, из которого представления ка- подобных ситуациях у игроков имеются и другие способы пове-
ждого игрока получались бы по формуле условной вероятности: дения, помимо одновременного выбора одной из двух своих стра-
pi ( r-i | ri ) = p ( r1 ,..., rn ) / å s p( ri , s -i ) .
-i
тегий. Модифицируем игру следующим образом: добавим каж-
дому игроку дополнительную стратегию «договор» и доопределим
Зато для этого класса игр существование байесового равно- матрицу выигрышей следующим образом:
весия следует непосредственно из теоремы о существовании рав-
новесия Нэша. [сотр. эгоист. договор]
é сотр. ù æ 10, 10 - 5, 15 5, 15 ö
ê эгоист. ú ç15, - 5 0, 0 0, 0 ÷
÷
ГЛАВА 5. КООПЕРАТИВНЫЕ ИГРЫ ê úç
êëдоговорúû çè 15, 5 0, 0 10, 10 ÷ø
5.1. Виды взаимодействия игроков Содержательно дополнительную стратегию можно проин-
В предыдущих главах были рассмотрены некооперативные терпретировать следующим образом: первый начальник, выбрав
игры, то есть игры, в процессе которых игроки не могут действо- эту стратегию, предлагает второму заключить совместный договор
вать совместно. При этом под совместными действиями может (обычно называемый в таких случаях положением о должностных
подразумеваться добровольный обмен между игроками информа- полномочиях), который бы регламентировал время, которое
цией о выбранных стратегиях, о функциях выигрыша, о других подчиненный тратит на работы каждого начальника. В случае,
параметрах игры, совместный выбор стратегий, передача игро- если второй начальник отвергнет договор, выбирая «эгоистиче-
ками части выигрыша друг другу. Этот подход вполне оправды- скую» стратегию (ситуация («договор», «эгоист.»)), первый
вает себя в целом ряде практически важных случаев. Однако, за- начальник угрожает также применить «эгоистическую» стратегию,
частую способность игроков к совместным действиям является что приводит к нулевым выигрышам для обоих. Если второй
неотъемлемой частью конфликтной ситуации. Примером подоб- начальник выбирает безусловное сотрудничество (это ситуация
ных конфликтов являются задачи дележа (см. пример «Дележ в («договор», «сотр.»)), договор будет подписан на условиях, более
оркестре»). Исследование этих задач требует учета переговорных выгодных для первого начальника. Если же оба начальника
процессов между игроками. Для этого необходимо изменить мо- одновременно выходят с инициативой подписания договора (си-
дель игры. туация («договор», «договор»)), их выигрыши равны выигрышам
при одновременном сотрудничестве.
Пример 17. Парето-оптимальное равновесие в примере 5
как результат кооперации игроков.
91 92
В этой игре уже две ситуации равновесия Нэша, («эгоист.», Игры, в которых игроки могут образовывать коалиции полез-
«эгоист.») и («договор», «договор»), причем вторая доминирует по ности, называются играми с трансферабельной полезностью (ТП-
Парето первую. Кроме того, можно заметить, что, при «эгои- играми). В отличие от них, игры, в которых игроки могут образо-
стической» стратегии второго начальника, первому безразлично, вывать только информационные коалиции, называются играми с
«эгоистическую» ли стратегию выбирать, или «договор». Но если нетрансферабельной полезностью (НТП-играми). Исследование
он выберет «договор», стратегия «договор» станет выгодной и ТП- и НТП-игр исторически происходило параллельно, однако,
второму начальнику. Дело в том, что «эгоистическое» равновесие – теория НТП-игр технически гораздо сложнее, поэтому ниже
это нестрогое равновесие Нэша, в отличие от «договорного». ограничимся рассмотрением только ТП-игр. С результатами
Все сказанное позволяет надеяться, что именно «договорное» теории НТП-игр можно ознакомиться в [46].
равновесие будет исходом этой игры. · Теория кооперативных игр делает упор, в основном, на коо-
Вышеприведенный пример проиллюстрировал, как расшире- перативные действия игроков в процессе игры, то есть ее интере-
ние множества стратегий за счет введения возможности совмест- сует то, какие коалиции образуются в процессе игры и какие ус-
ных действий между игроками может вывести игру из неопти- ловия необходимы для устойчивого существования коалиций. С
мального по Парето равновесия Нэша. Подобные идеи лежат в этим связано существенное различие в постановке задачи по
основе отдельного раздела теории игр – теории кооперативных сравнению с теорией некооперативных игр, основной математи-
игр. Основы этого направления были заложены одновременно с ческой моделью которой является игра в нормальной форме.
основами теории некооперативных игр [48], однако исследование Игра в нормальной форме, как достаточно подробное описа-
совместных действий игроков потребовало создания игровых мо- ние конфликтной ситуации, оказалась слишком сложной моделью
делей, значительно отличающихся от постановок игровых задач в для исследования кооперативных взаимодействий игроков. Чтобы
нормальной или развернутой формах. описать с помощью игры в нормальной форме даже самый
В теории кооперативных игр взаимодействия игроков фор- простой переговорный процесс, требуется немыслимое усложнение
мализуются с помощью понятия коалиции. Информационными множества стратегий каждого игрока, включающее в себя как
коалициями будем называть группу игроков, обменивающихся элементы, соответствующие передаче информации другим игро-
друг с другом информацией. Считается, что в процессе образова- кам, так и элементы, описывающие реакцию на их сообщения.
ния коалиции заключаются соглашения, заставляющие игроков Основная идея теории кооперативных игр состоит в том,
сообщать необходимую информацию. При этом возможность чтобы, не рассматривая переговорный процесс как таковой, ана-
блефа, сообщения недостоверной информации, не рассматрива- лизировать возможные его исходы и делать выводы о реализуе-
ется. мости того или иного результата переговоров. Поэтому и элемен-
Коалиции, члены которых могут обмениваться между собой тами описания игры в форме характеристической функции (ба-
выигрышем, будем называть коалициями полезности, или просто зовой модели теории кооперативных игр) являются не стратегии
коалициями. игроков, а выигрыши, которые может себе гарантировать та или
иная коалиция.
93 94
5.2. Переход от нормальной формы игры Супераддитивные игры представляют собой, в некотором ро-
к игре в форме характеристической функции де, типичный случай. Действительно, пусть есть коалиции S и T с
Игра в форме характеристической функции может быть по- их выигрышами v(S) и v(T). Что мешает образующейся коалиции
строена на основе игры в нормальной форме. Так обычно и прихо- SÈT действовать так, как если бы такого объединения не сущест-
дится делать, потому что даже кооперативные игры обычно вовало? Тогда полезность этой коалиции будет как минимум равна
формулируются сперва в нормальной форме – перечислением сумме полезностей коалиций S и T, обеспечивая супераддитив-
стратегий игроков и их функций выигрыша. ность. Это – нестрогие рассуждения и, как будет показано ниже,
Характеристическая функция определяет выигрыш, полу- они верны лишь при соответствующих предположениях.
чаемый коалицией S (если в процессе игры такая коалиция обра- Классическая теория рассматривает, в основном, суперадди-
зовалась) при рациональных действиях ее участников. Что пони- тивные игры. Главными вопросами, которые встают при их ис-
мать в каждом конкретном случае под рациональными действиями следовании – это вопросы об условиях реализуемости и устойчи-
игроков, должно быть понятным из постановки игры в нор- вости максимальной коалиции и «справедливом» распределении
мальной форме и выбранной модели рационального поведения выигрыша v(N) между игроками.
(см. главы 3 и 4). Обычно игровые задачи ставятся в нормальной форме. Для
Базовая модель кооперативной игры разрешает передачу вы- исследования кооперативных взаимодействий игру необходимо
игрыша между игроками, а это значит, что предполагается нали- перевести в форму характеристической функции. При этом про-
чие линейно-трансферабельного товара, например, денег (см. цедура перехода существенно зависит от используемого принципа
раздел 2.2). рационального поведения. Для классической постановки задачи
Характеристической функцией игры n лиц называется веще- теории кооперативных игр характерно отсутствие информирован-
ственнозначная функция36 v(S), определенная на подмножествах ности членов коалиции о стратегиях игроков, не входящих в коа-
SÍN, такая, что v(Æ)=0. лицию. У членов коалиции не предполагается даже знания о
Характеристическая функция называется супераддитивной, структуре других образовавшихся коалиций. Также предполага-
если ется, что выбор стратегий игроками происходит одновременно.
(14) "S , T Î 2 N : S I T = Æ v( S ) + v(T ) £ v( S U T ) , В этих условиях осторожные игроки должны использовать
то есть для любых непересекающихся коалиций их объединение принцип МГР для оценки выигрыша коалиции, к которой они
может получить полезность не меньшую, чем эти коалиции могли собираются присоединиться. Применение принципа МГР для не-
которой коалиции S состоит в минимизации выигрыша коалиции
бы в сумме получить, действуя по отдельности. В этих условиях
по стратегиям игроков, не входящих в коалицию S, и, затем, в мак-
объединение в коалицию, включающую всех игроков, представ-
симизации выигрыша по стратегии коалиции S (см. раздел 4.1).
ляет собой самое эффективное с точки зрения суммарной полез-
ности поведение участников игры, однако дополнительного ис-
следования требует устойчивость этой коалиции. Под стратегией коалиции понимается вектор стратегий ее
участников, а под выигрышем коалиции – сумма их выигрышей.
Характеристическая функция определяется выражением
36
В настоящей главе используются обозначения, принятые в работах (15) v ( S ) = max min [ å K i ( y S , y N \ S )] ,
y S Î AS y N \ S ÎAN \ S iÎS
по кооперативным играм. Можно надеяться, что совпадения символов
(например, характеристической функции и функции полезности – см.
раздел 1.1, и др.) не приведут к путанице.
95 96
где y S = ( y i ) iÎS Î AS = Õ Ai – вектор действий участников коа- 5.3. Описание игры в терминах
iÎS характеристической функции
лиции S. Определение 22: Игра в форме характеристической функции
Можно заменить чистые стратегии на смешанные. Тогда v(S) задается множеством игроков N и характеристической функцией
будет в точности совпадать с решением антагонистической игры v(×) на его подмножествах.
двух лиц – коалиции S и коалиции N\S [17, 48, 65]. Одним из часто встречающихся видов игр являются игры с
Введенная таким образом характеристическая функция су- постоянной суммой.
пераддитивна [65]. Определение 23: Кооперативная игра (N, v) называется игрой
Несмотря на удобство использования максимина (то есть с постоянной суммой, если для любой коалиции S справедливо
применения принципа МГР) для построения характеристической равенство
функции, дополнительная информированность игроков может (16) v( S ) + v( N \ S ) = v( N ) .
сделать более логичным использование других концепций равно- Многими исследователями отмечалось, что вопрос о порядке
весия. Обратим внимание на то, что переговорный процесс должен и способах взаимодействия игроков в теории кооперативных игр
сопровождаться передачей игроками друг другу информации о разработан недостаточно полно. Однако целью введения характе-
своих функциях выигрыша, поскольку подобные данные могут ристической функции, как основы описания игры, является именно
оказывать существенное влияние на структуру коалиций. В связи с упрощение постановки задачи за счет того, что подробности
этим можно предположить, что к моменту окончательного выбора функционирования, такие как: переговорный процесс, процесс
коалиции каждый игрок (а, значит, и любая коалиция) будет образования коалиций, механизмы выработки совместной страте-
обладать информацией о целевых функциях всех остальных иг- гии, и пр. скрыты «внутри» характеристической функции игры.
роков (а, значит, и всех возможных коалиций). В этих условиях Такое смысловое наполнение характеристической функции может
коалиция S должна ожидать от остальных игроков действий, на- быть достаточно сложным, однако на уровне постановки задачи
правленных на максимизацию их функций полезности, а не дей- поведение игроков описывается относительно просто.
ствий, наихудших для коалиции S, как предписывает максимин
Игроки в процессе игры выбирают, к какой коалиции им
(напомним, что в играх с произвольной суммой минимаксная
присоединиться, и каким образом будет распределяться выигрыш
стратегия второго игрока может не совпадать с наихудшим, с
этой коалиции. Затем, после образования коалиций, каждая из них
точки зрения первого игрока, его поведением). Такие модифика-
получает выигрыш v(S), равный значению ее характеристической
ции процедуры построения характеристической функции могут
функции. Полученный выигрыш распределяется между членами
приблизить модель к реальному процессу переговоров, однако при
коалиции согласно предварительной договоренности.
этом может нарушаться супераддитивность. Чтобы восполь-
Классическая постановка с целью упрощения задачи не
зоваться многочисленными результатами кооперативной теории
предполагает никакого описания процесса переговоров. Фактиче-
игр, полученными для супераддитивных игр, необходимо для
ски, предметом исследования является рациональное, с некоторой
каждой такой процедуры проверять, сохраняется ли при ее при-
точки зрения, распределение выигрыша коалиции между ее уча-
менении свойство супераддитивности.
стниками.
Обычно считается, что выигрыш коалиции равен значению
характеристической функции для этой коалиции. Однако можно
заметить, что характеристическая функция определяет гарантиро-
97 98
ванный выигрыш, но, в общем случае, в результате игры коалиция Несущественность игры означает нулевой эффект от коопе-
может получить и выигрыш, больший гарантированного, опреде- рации. Действительно, выигрыш любой коалиции в несущест-
ляющего лишь минимальное значение выигрыша при самых не- венной игре равен просто сумме индивидуальных выигрышей ее
благоприятных условиях. Проблема распределения такого «не- участников.
ожиданного» дохода лежит за рамками исследования кооператив- Множество дележей несущественной игры состоит из един-
ной теории игр, так как этот «бонус» не влияет на рациональную, с ственного элемента
точки зрения игроков, структуру коалиций. Считается, что процесс (20) xi = v({i}), i Î N.
кооперирования опирается только на имеющуюся информацию, в Доказательство этого утверждения следует непосредственно из
роли которой выступает лишь характеристическая функция игры. определений дележа и несущественной игры (см. (18)-(20)).
Перейдем к обсуждению возможных способов распределения Обычно рассматриваются лишь существенные игры, так как
выигрыша коалиции между ее участниками. вопрос о поиске решения среди дележей несущественной игры три-
виален.
5.4. Определение дележа, доминирование дележей Пусть x и y – два дележа, и S – произвольная коалиция. Го-
Определение 24: Эффективным распределением суперадди-
ворят, что x доминирует y по коалиции S (обозначается x f S y ),
тивной игры (N, v) называется вектор x = (x1, x2, …, xn), такой, что
если
(17) å xi = v(N ) .
iÎ N
(21) xi > yi "i Î S ,
Определение 25: Дележом для игры (N, v) называется эффек- (22) å x £ v(S ) .
i
тивное распределение, удовлетворяющее условию iÎS
(18) xi ³ v({i}) , i Î N. Если существует коалиция S, такая, что x f S y , говорят, что x

Множество дележей игры (N, v) будем обозначать E(v). доминирует y (обозначается x f y ).
Условие (17) ограничивает понятие дележа лишь случаем, ко- Условие (21) означает, что дележ x лучше дележа y для членов
гда игроки достигли достаточного взаимопонимания, чтобы обра- коалиции S, а условие (22) отражает реализуемость дележа x коа-
зовать коалицию, состоящую из всех игроков. Условие (18), назы- лицией S – если оно выполнено, то коалиция действительно может
ваемое еще индивидуальной рациональностью (individual rational- предложить своим участникам выигрыши xi .
ity), предлагает рассматривать только распределения полезности, Определение 26: Игры n лиц с характеристическими функция-
дающие каждому игроку значения выигрыша не меньшие, чем он ми u и v называются изоморфными, если существует функция f,
получил бы, действуя в одиночку. Это условие позволяет сразу ог- взаимно однозначно отображающая множество дележей игры u на
раничится рассмотрением только множества индивидуально ра- множество дележей игры v таким образом, что для любой пары
циональных распределений дохода между игроками. дележей x и y игры u и произвольной коалиции S из доминирова-
Определение дележа приводит к понятию существенных игр. ния дележа x дележом y следует доминирование образа f(x) обра-
Супераддитивная игра называется существенной, если зом f(y). Иначе говоря, x f S y « f ( x) f S f ( y ) , где f(×) – дележи
å
(19) v( N ) > v({i}) . игры v.
iÎ N При анализе свойств игры с помощью отношения доминиро-
В противном случае супераддитивная игра называется несу- вания полезно знать, у каких игр множества дележей имеют оди-
щественной [62].
99 100
наковую структуру доминирования, то есть какие игры являются Некоторые концепции решения пришли в теорию игр из
изоморфными. теорий общественного благосостояния и кооперативного выбо-
Определение 27: Игры n лиц u и v называются S- ра [46, 79]. Темой исследования этих теорий является задача вы-
эквивалентными, если существует положительное число r и n та- бора коллективных решений. Понятно, что коллективный выбор
ких вещественных чисел a1,…,an, что для любой коалиции S Í N должен быть (или желательно, чтобы был) единственным. Для
(23) v( S ) = r × u ( S ) + åa
i ÎS
i . сужения круга возможных решений эти теории пользуются ак-
сиоматическими предположениями о стратегии принятия коллек-
Теорема 7 [62]. Если u и v являются S-эквивалентными, то тивных решений. В этих аксиомах широко используется понятие
они изоморфны. «справедливого» распределения благ (то есть распределения вы-
Определение 28: Игра v называется игрой в (0, 1)- игрышей, полезности и т.д.).
редуцированной форме, если " i Î N v({i}) = 0 , v( N ) = 1 . С понятием справедливости в условиях принятия решения
Теорема 8 [62]. Любая существенная игра S-эквивалентна од- обществом связана отдельная проблематика. Аксиоматический
ной и только одной игре в (0, 1)-редуцированной форме. подход предполагает, что при исследовании ситуации выбора, для
Таким образом, определение 27 вводит классы игр, изо- того, чтобы обосновать выбор общества, исследователь делает
морфных относительно операции доминирования, теорема 7 дает предположения, более или менее очевидные, о моральных ус-
удобный способ проверки изоморфности игр, а теорема 8 утвер- тановках данного общества, и, тем самым, определяет, что в дан-
ждает, что анализ игр с помощью отношения доминирования ном обществе понимается под справедливостью. Парадокс состоит
можно ограничить анализом игр в (0, 1)-редуцированной форме. в том, что многие соответствующие здравому смыслу по от-
Понятия дележа и доминирования дележей играют немало- дельности предположения оказываются противоречащими друг
важную роль в формулировках концепций решения, изложение другу. На сегодняшний момент в науке не существует единого
которых представлено ниже. мнения о том, что понимать под справедливостью. Двумя основ-
ными концепциями справедливого распределения благ являются
эгалитаризм и утилитаризм [46]. Эгалитаризм утверждает, что
5.5. Концепции решения кооперативных игр
при распределении благ в первую очередь следует обращать вни-
В теории кооперативных игр, также как и вообще в теории
мание на полезность наиболее «обделенных» членов общества.
игр, не существует единой концепции решения. Это связано с тем,
Утилитаризм же считает справедливым «эффективное» распреде-
что на начальной стадии развития теории были разработаны
ление, приводящее к наибольшему значению суммы полезностей
достаточно простые модели игр, которые легко поддавались ана-
членов общества. Применение этих концепций к теории коопера-
лизу, и, соответственно, простые концепции решений, такие, как
тивных игр приводит к понятиям N-ядра и вектора Шепли соот-
C-ядро и НМ-решения (см. ниже). По мере развития теории встал
ветственно (см. разделы 5.11 и 5.12).
вопрос о практической применимости полученных результатов.
Для того чтобы приблизить теорию к примерам игр, встречаю- Все концепции решения кооперативных игр, определяющие в
щихся в жизни, были разработаны более сложные модели, на- качестве решения единственное распределение полезности между
пример, игры с нетрансферабельной полезностью, игры «в раз- игроками, называются значениями игры (см. раздел 5.10).
биениях» и др. Параллельно появлялись как обобщения понятий
решения на эти более сложные модели, так и новые концепции
решений – см. ниже.
101 102
5.6. C-ядро Неравенства (25) делят симплекс на области, границы кото-
Если игроки пришли к такому дележу x выигрыша макси- рых параллельны одной из его сторон. С-ядро выделено на рисун-
мальной коалиции, что не существует дележа, доминирующего де- ке черным цветом. В зависимости от вида характеристической
леж x, то дележ x устойчив в том смысле, что никакой коалиции S функции оно может быть множеством трех-, четырех-, пяти- и
не выгодно отделяться от коалиции N и делить между членами шестиугольной формы, может вырождаться в линию или точку.
этой коалиции выигрыш v(S). Оно может быть и пустым множеством. ·
Определение 29: Множество недоминируемых дележей игры
называется ее C-ядром.
Множество дележей, принадлежащих C-ядру, считается ре-
шением кооперативной игры.
Теорема 9 [46]. Для того чтобы дележ x принадлежал C-ядру,
необходимо и достаточно выполнения для всех SÌN неравенств
(24) v( S ) £åxi .
iÎS
Доказательство очевидно. ·
Эта теорема дает удобный способ нахождения C-ядра путем
решения системы неравенств. Решением этой линейной системы
является выпуклый многогранник в пространстве Â |N | . Можно Рис. 9. С-ядро в игре с тремя игроками
найти его крайние точки и описать любой дележ из ядра, как Итак, C-ядро существует не для всех игр. Например, все коо-
взвешенную линейную комбинацию крайних точек. перативные игры с постоянной суммой имеют пустое C-ядро.
Пример 18. «Нахождение C-ядра игры трех лиц». Необходимым и достаточным условием существования не-
Рассмотрим игру трех лиц с характеристической функцией пустого ядра является свойство сбалансированности игры.
v(S): v({1}) = v ({2}) = v ({3}) = 0, v({1,2}) = 0.5 , v({1,3}) = 0.6, Определение 30: Максимальной коалицией называется коали-
v({2,3}) = 0.7 , v( N ) = 1 . Условие на дележи, принадлежащие C- ция, состоящая из всех игроков.
ядру, задается системой неравенств: Определение 31: Собственной коалицией называется коали-
ция, отличная от максимальной коалиции.
ì x1 + x2 ³ 0.5
ï x + x ³ 0 .6 Определение 32: Для данного множества игроков N сбаланси-
ï 1 3 рованным покрытием называется такое отображение d (×) из 2N\{N}
(25) í
ï 2x + x3 ³ 0.7 в [0, 1], что
ïî x1 + x2 + x3 = 1. (26) å d S = 1 для всех игроков i,
S: iÎS
Множество дележей игры трех лиц можно изобразить на
симплексе (см. рисунок 9), то есть на треугольнике, задаваемом в причем суммирование в (27) ведется по всем собственным коали-
циям, содержащим игрока i.
Â3 неравенствами xi ³ 0, i = 1,3 , и равенством å xi = v( N ) = 1
iÎ N
Теорема 10 [7, 8]. С-ядро игры (N, v) не пусто тогда и только
(изображен на рисунке 9 серым цветом). тогда, когда для любого сбалансированного покрытия d (×) выпол-
нено неравенство
103 104
(27) åd S v(S ) £ v( N ) . v ( S U {i1}) - v ( S ) £ v ( S U {i1 }) - v(T ),
SÌN v ( S U {i1 , i2 }) - v ( S U {i1 }) £ v ( S U {i1 , i2 }) - v (T U {i1 }),
Если для игры выполнено условие (27), то игра называется
...
сбалансированной.
Например, для супераддитивной игры трех лиц непустоту C- v ( S U {i1 ,..., ik }) - v ( S U {i1 ,..., ik -1}) £
ядра гарантирует следующее дополнительное (к условиям супер- v (T U {i1 ,..., ik }) - v (T U {i1 ,...,ik -1})
аддитивности) условие v({1,2}) + v({1,3}) + v({2,3}) £ 2v( N ) . Для ...
игры четырех лиц условия сбалансированности задаются уже се- Суммируя эти неравенства, находим, что для любой коалиции
мью дополнительными неравенствами, и т.д. R ' Í R верно следующее неравенство:
v ( S U R ' ) - v( S ) £ v(T U R ' ) - v(T ) .
5.7. Выпуклые игры
Зафиксируем две произвольные коалиции S0 и T0 и применим
Свойство сбалансированности в общем случае достаточно
полученную формулу к S = S 0 I T0 , T = T0 и R ' = S 0 \ T0 . Это и
сложно проверить (проверка сбалансированности игры сводится к
решению задачи линейного программирования), поэтому встает дает искомое определение выпуклости. ·
вопрос о построении достаточных условий непустоты ядра, опре- Условие выпуклости иногда называют условием возрастания
деляющих классы игр, для которых C-ядро гарантированно не доходов от кооперации, то есть игрок, присоединяясь к большей
пусто. коалиции, приносит ей дополнительный доход, больший, чем до-
Определение 33: Игра (N, v) называется выпуклой, если для полнительный доход, который он принес бы, присоединяясь к
любых коалиций S, TÌN справедливо неравенство меньшей коалиции.
v( S ) + v(T ) £ v( S I T ) + v( S U T ) . Выпуклость игры проверить гораздо проще, чем условие
сбалансированности (просто проверив вышеуказанные 22N нера-
Теорема 11 [46]. Любая выпуклая игра имеет непустое C-ядро.
венств), и, если игра оказалась выпуклой, можно с уверенностью
Другая формулировка выпуклости игры может быть дана в
говорить о непустоте С-ядра.
виде следующего критерия:
Пример 19 [25]. «Кооперация центров в задаче распределен-
Теорема 12 [46]. Игра (N, v) выпукла тогда и только тогда, ко-
ного контроля».
гда для любых коалиций S, T Ì N, таких, что S Ì T и любого i Ï T
Исследуем возможности устойчивого существования коали-
справедливо v ( S È {i}) - v( S ) £ v(T È {i}) - v(T ) .
ции, состоящей из всех центров в задаче распределенного контроля
Доказательство. Покажем, что из определения выпуклости (см. пример 3). Будем считать, что такая коалиция устойчива, если
следует, что для любых коалиций S, TÌN, таких, что S Ì T и лю- непусто C-ядро соответствующей кооперативной игры.
бого i Ï T справедливо v ( S È {i}) - v ( S ) £ v (T È {i}) - v(T ) . В [25] приведены предположения, в рамках которых харак-
Действительно, эта формула является частным случаем оп- теристическую функцию игры центров в этой задаче можно пред-
ределения выпуклости для пары коалиций SÈ{i} и T. ставить в виде (см. обозначения примера 3):
Для доказательства в обратную сторону рассмотрим две коа- (28) v( S ) = max[å H i ( y ) - c( y )] , где S Í N .
y
лиции S и T, такие, что SÌT. Обозначим R=N\T и рассмотрим по- iÎS
следовательность {i1, i2, …, ir}, покрывающую R. Последовательно Рассмотрим частный случай линейных функций доходов цен-
применяя формулу в условии теоремы, получим: тров, то есть будем считать, что H i ( y ) = l i y , l i > 0 . Затраты
105 106
агента, как и предполагалось в постановке задачи, будем считать Продифференцируем f(.) по l S :
неотрицательной возрастающей выпуклой функцией действия y. f ' (lS ) := g (lS ) + lS g ' (lS ) - c' ( g (lS )) g ' (lS ) . Из (29) следует, что
å
Обозначим lS := li – наклон функции дохода коалиции S,
iÎS
c' ( g (l S )) = l S . Значит, f ' (l S ) = g (l S ) . Следовательно, f(.) вы-
пукла. Кроме того, очевидно, что f (0) = 0 , а значит условие лем-
y S – точка, в которой достигается максимум (28).
мы выполнено, и игра (28) выпукла. Значит, по теореме 11, эта
Для произвольной коалиции S точка y S определяется из ре-
игра имеет непустое C-ядро, и в ней устойчива коалиция, состоя-
шения уравнения c' ( y ) = ål
iÎS
i . Таким образом, щая из всех центров. ·
(29) yS = g (lS ), g (lS ) := [c' ]-1 (lS ). 5.8. НМ-решения

Поскольку ядро кооперативной игры часто оказывается пус-
Так как функция затрат выпукла, [c' ]-1 (lS ) – возрастающая тым, приходится искать другие концепции решения.
функция. Понятие НМ-решения было введено Дж. Фон-Нейманом и
Игра с характеристической функцией (28) супераддитивна. О. Моргенштерном [48]. Этот факт нашел отражение и в названии
Действительно, из (28) следует, что она супераддитивна, если спра- НМ-решений, которые обычно называют решениями по Нейману и
ведливо неравенство Моргенштерну.
lS yS - c ( yS ) + lT yT - c ( yT ) £ (lS + lT ) yS UT - c( yS UT ), Они предложили рассматривать в качестве множества реше-
(30) ний игры не отдельный дележ, и даже не множество дележей, а
S , T Í N , S I T = Æ. множество подмножеств множества дележей, обладающих опре-
Пусть lS £ lT . Тогда из возрастания g(.) следует, что деленными свойствами. Каждое из этих подмножеств называется
y S UT ³ yT ³ y S , НМ-решением.
и, следовательно, Идея, которая лежит в основе НМ-решений – это стремление к
(lS + lT ) y S UT - c( yS UT ) ³ (lS + lT ) yT - c ( yT ). внешней и внутренней устойчивости. Внутренняя устойчивость
гарантирует равноправность дележей одного НМ-решения, то есть
Значит, для справедливости (30) достаточно выполнения не- то, что в НМ-решении нельзя найти пару дележей, такую, что один
равенства å
iÎS
å
li yT ³ li yS - c ( yS ) . Оно верно, так как y S £ yT ,
iÎ S
из них доминирует другой. Внешняя устойчивость состоит в том,
что для любого произвольного дележа найдется доминирующий
c(×) ³ 0 . его дележ, принадлежащий данному НМ-решению.
Для того чтобы показать, что игра (28) выпукла, воспользуем- Множество VÌE(v) называется НМ-решением, если
ся следующим результатом: 1) Не существует такой пары x, yÎV, что x f y ;
å
Лемма 4 [25]. Если v( S ) = f ( li ) , где f(×) – произвольная
iÎS
2) Если yÏV, то найдется такой xÎV, что x f y .
выпуклая функция, f (0) = 0 , а li , i Î N – набор неотрицатель- Между НМ-решениями и C-ядром существует определенная
связь. Так, справедлива
ных чисел, то игра v(×) выпукла. · Теорема 13 [62]. Если C-ядро не пусто, и существует НМ-
Подставим (29) в (28). Тогда решение, то оно содержит в себе C-ядро.
v( S ) = f (lS ), f (lS ) := lS g (lS ) - c( g (lS )) .
107 108
НМ-решения должны были решить проблему возможной пус- Определение 35: Конфигурацией для игры (N, v) и коалицион-
тоты C-ядра. Однако в 1967 году была найдена игра десяти лиц, не ной структуры P называется такое распределение дохода
имеющая НМ-решений [78]. Обычно же игра имеет огромное x = {( xi , i Î S ); S Î P} между участниками коалиций, что
множество НМ-решений, что очень ограничивает применимость
этого понятия к практическим задачам. НМ-решения скорее
(31) åx
iÎS
i = v( S ) , S Î P ,
представляют собой философскую категорию, чем практически (32) xi ³ v({i}) , i Î N .
применимую концепцию решения.
Здесь же определим понятия, которые понадобятся ниже при
Заметим, что понятие НМ-решения оперирует дележом как
описании решений в угрозах и контругрозах (см. раздел 5.13).
выигрышем максимальной коалиции, то есть в определении
Определение 36: Индивидуально рациональной называется
предполагается, что максимальная коалиция все-таки образова-
конфигурация x, в которой для всех игроков i справедливо
лась. Чтобы определить, каким же образом будет распределен
xi ³ v({i}) (все конфигурации, удовлетворяющие формуле (32),
доход между участниками максимальной коалиции, игроки
должны сначала определить, в рамках какого НМ-решения они индивидуально рациональны по определению).
будут выбирать дележ, а потом выбрать дележ из множества де- Определение 37: Если в конфигурации x = {( xi , i Î S ); S Î P}
лежей, принадлежащих этому НМ-решению. никакая подкоалиция T произвольной коалиции SÎP не может га-
Фон-Нейман и Моргенштерн предлагают следующую интер- рантировать себе больший доход, чем она получает в конфигура-
претацию этого процесса. По их мнению, каждое НМ-решение ции x, (то есть если "S Î P и "T Ì S å xi ³ v(T ) ), то такая
ограничивает множество дележей, удовлетворительных с точки iÎT
зрения некоторого набора моральных принципов, действующих в конфигурация называется коалиционно рациональной.
данном обществе. То есть каждое НМ-решение представляет собой Понятно, что индивидуальная рациональность есть более
некоторую этику поведения. Выбор же дележа, принадлежащему слабое условие, чем коалиционная рациональность.
выбранному НМ-решению, зависит от переговорных способностей Определение 38: Конфигурация x = {( xi , i Î S ); S Î P} домини-
участников игры. рует конфигурацию y = {( yi , i Î T ); T Î R} , если найдется такая
Поиск НМ-решений достаточно трудоемок ввиду их много- коалиция SÎP, что xi > yi , "i Î S .
численности. Примеры построения НМ-решений можно найти в Легко видеть, что при этом коалиция S не может принадле-
[48, 62]. жать коалиционной структуре R.
На основании введенного таким образом отношения доми-
5.9. Решения в конфигурациях нирования можно определить решение по Нейману и Морген-
Недостатки классических НМ-решений привели к необходи- штерну аналогично тому, как это было сделано выше. Опреде-
мости их модификаций. Так, Р. Ауман и М. Машлер [72], пред- ленное таким образом решение называется НМ-решением в кон-
ложили в качестве исхода игры использовать не дележ, а конфи- фигурациях.
гурации, которые учитывают образование коалиционной структу-
Было доказано [72], что любая игра пяти лиц имеет решение в
ры, отличной от максимальной коалиции. конфигурациях, а для игры n лиц можно сколь угодно мало из-
Определение 34: Коалиционной структурой для игры (N, v) менить значение характеристической функции, чтобы игра имела
называется разбиение P множества игроков N, то есть множество решение в конфигурациях.
непересекающихся коалиций, объединение которых дает N.
109 110
5.10. Значения игры 5.11. Вектор Шепли
Общими недостатками рассмотренных выше концепций ре- Чтобы определить аксиомы, которые лягут в основу опреде-
шения является, во-первых, то, что решение существует не для ления вектора Шепли, введем следующие определения.
всех игр, во-вторых, что, если оно существует, то в большинстве Определение 40: Оператор значения анонимен, если он комму-
случаев не является единственным. Однако в реальности резуль- тирует с перестановкой агентов, то есть при перестановке любых
татом игры является вполне определенное распределение выиг- двух игроков местами соответственно переместятся и компоненты
рыша между игроками. В этой связи представляется заманчивым значения игры.
построение концепции решения, которое всегда было бы опреде- Определение 41: Оператор значения маргинален, если его зна-
лено и всегда давало бы единственный дележ в качестве решения. чение зависит только от маргинальных вкладов игроков в коали-
Такие концепции решения называются операторами значения ции, то есть от величин v( S U {i}) - v ( S ) .
игры. Определение 42: Н осителем игры называется такая коалиция
Определение 39: Оператором значения игры называется ото- S, что для любой коалиции T выполнено v (T ) = v(T I S ) .
бражение j[v], ставящее в соответствие любой кооперативной игре Определение 43: Для двух игр n лиц с характеристическими
единственный дележ из множества дележей, называемый значени- функциями u и v их суммой называется игра с характеристической
ем игры. функцией w(S) = u(S) + v(S) для любой коалиции S.
Этот подход к поиску решения разрабатывался, в основном, Аксиомы (Шепли) [46]:
аксиоматической теорией принятия решений [46]. Его основной
чертой является введение в виде аксиом определенных предполо- 1. Если S – любой носитель игры v, то å (j[v]) i = v(S ) , где
жений о механизме принятия решения и поиск понятия решения, iÎS
удовлетворяющего данным аксиомам. (j [v]) i – это компонента вектора Шепли, относящаяся к i-му
Уже само определение оператора значения несет в себе черты игроку.
вводимой аксиоматики. Так, по сути дела, априори предполагает- 2. j[v] анонимен.
ся, что любая игра обязательно должна иметь решение, и решение 3. Для любой пары игр u и v выполнено j[u + v]= j[u] + j[v].
это должно быть единственным. Вектор Шепли есть оператор значения, задаваемый форму-
Дальнейшие аксиомы вводятся в основном в рамках основных s! (n - s - 1)!
направлений теории кооперативного выбора – утилитаризма и лами: x i = å
0£ s £ n -1 n!
å (v( S U {i}) - v( S )) , i Î N [46].
S Ì N \{i}
эгалитаризма [46], приводя к разным концепциям решения – |S|= s
вектору Шепли и N-ядру соответственно. Теорема 14 [46]. Аксиомы Шепли определяют единственный
Значительным достижением аксиоматической теории приня- оператор значения – вектор Шепли.
тия решений является демонстрация взаимной противоречивости Существует и альтернативный набор аксиом, также единст-
некоторых, казалось бы, очевидных предположений о справедли- венным образом характеризующий вектор Шепли:
вом распределении благ, то есть оказывается, что некоторым ус- Теорема 15 [46]. Вектор Шепли – единственный анонимный и
ловиям справедливости нельзя удовлетворить одновременно. Этот маргинальный оператор значения.
факт сказался и на результатах, относящихся к операторам зна- Для содержательной интерпретации вектора Шепли использу-
чения. ется, так называемая, арбитражная схема Шепли. Пусть игроки
договорились собраться в определенном месте. Из-за случайных
111 112
флуктуаций они будут прибывать в разное время. Будем предпола- симинного порядка. Это распределение называется N-ядром игры
гать, что вероятность любого из n! порядков появления игроков (N, v).
одинакова и равна 1/n!. Предположим, что если игрок, прибывая Можно показать [46], что для супераддитивных игр N-ядро
на место, находит там членов коалиции S и только их, то он полу- удовлетворяет принципу индивидуальной рациональности, то есть
чает величину xi = v( S U {i}) - v( S ) . Значение компоненты вектора является дележом.
Шепли – это математическое ожидание выигрыша игрока в усло- По сути дела, механизм выбора N-ядра следующий. Для лю-
виях описанной рандомизированной схемы. бого эффективного распределения ранжируем коалиции по их
От оператора значения было бы логично ожидать, чтобы сверхприбыли (разнице дохода коалиции в результате распреде-
справедливо (в соответствии с принятой аксиоматикой) распре- ления дохода v(N) и значения характеристической функции v(S)
деленный доход давал бы дележ, принадлежащий ядру (если ядро для нее). На множестве эффективных распределений вводим от-
непустое), то есть чтобы он был селектором ядра. Одним из не- ношение предпочтения, основанное на лексиминном порядке век-
достатков вектора Шепли является то, что он, в общем случае, торов эксцессов, и определяем наилучшее в этом смысле распре-
селектором ядра не является. Однако для выпуклых игр справед- деление.
лива Характеризация N-ядра основана на достаточно сложных оп-
Теорема 16 [46]. В выпуклых играх вектор Шепли принадле- ределениях, поэтому в данной работе она опускается. Подробное
жит C-ядру. рассмотрение характеризации N-ядра и его модификаций прове-
дено в [46].
5.12. N-ядро
Самый распространенный оператор значения, являющийся 5.13. Решения в угрозах и контругрозах
селектором C-ядра – это N-ядро. Этот оператор реализует эгали- Еще одна концепция решения, которая, подобно решениям в
тарный подход в распределении кооперативной прибыли. Эгали- конфигурациях, не ограничивается исследованием случая, когда
таризм [46] считает справедливым распределение дохода, макси- реализуется максимальная коалиция, а рассматривает как резуль-
мизирующее доход наименее удовлетворенного члена общества. тат игры и случаи неполного согласия игроков – это концепция
Для вектора x будем обозначать L(x) вектор, составленный из решений в угрозах и контругрозах, которая основана на следую-
компонент вектора x, ранжированных по возрастанию. щей идее. Пусть, например, в процессе игры трех лиц образовалась
Определение 44: Вектор x Î R превосходит вектор y Î R в
n n коалиционная структура {{1, 2}, {3}}, содержащая коалицию
смысле лексиминного порядка, если найдется i Î {1,…, n–1} та- T = {1, 2}, в которую входят игроки 1 и 2. При распределении до-
кой, что L( x) k = L( y) k при k < i , L( x) i > L( y ) i . хода коалиции v({1, 2}) игроки 1 и 2 получают суммы x1 и x2 соот-
ветственно. Тогда, если игрок 1 недоволен таким распределением,
Определение 45: Поставим в соответствие каждому эффектив-
то он может сказать своему партнеру, что если его доля дохода не
ному распределению x в игре (N, v) вектор эксцессов
N будет увеличена, то он сформирует коалицию S = {1, 3}, где смо-
e( x) Î Â| 2 \ {N }| такой, что любой собственной коалиции S соответ- жет рассчитывать на больший выигрыш. Если такая коалиция S
ствует компонента этого вектора e( x) S и e( x) S = å xi - v( S ) . может образоваться, то есть если игроку 3 выгодно сменить кон-
iÎS фигурацию x на новую конфигурацию y, то такое заявление реаль-
На множестве эффективных распределений существует един- но может угрожать целостности коалиции T и называется угрозой
ственное распределение g, такое, что для любого эффективного игрока 1 игроку 2. В свою очередь, игрок 2, интересы которого
распределения x вектор e(g) предпочтительнее e(x) в смысле лек- ущемлены подобным сценарием, может заявить игроку 1, что в
113 114
случае подобных его действий он может предложить игроку 3 та- получат не меньше своей первоначальной доли. Если для этого
кую конфигурацию z коалиционной структуры {{1}, {2, 3}}, что членам L в качестве партнеров нужны некоторые партнеры коали-
игрок 3 получит больший доход, чем в конфигурации y, а сам иг- ции K (или даже некоторые члены K) в конфигурации угрозы, то
рок 2 получит не меньше, чем в исходной конфигурации x. Таким им дают не меньше, чем они получали в коалиционно рациональ-
образом, игрок 2 выдвигает контругрозу, «защищающую» его до- ной конфигурации угрозы.
лю x2. Для математического описания этой идеи введем следую- Определение 46: Конфигурация называется устойчивой, если
щие определения. на каждую угрозу произвольной коалиции K против любой другой
Пусть G = {T1,..., TN } – некоторая коалиционная структура, а K коалиции L найдется контругроза коалиции L против коалиции K.
– произвольная коалиция. Тогда партнерами коалиции K назовем Определение 47: Множество всех устойчивых конфигураций
множество P ( K , G) = {i : i Î Tk , Tk I K ¹ Æ} . называется решением в угрозах и контругрозах (или решением по
Ауману-Машлеру [72]).
Таким образом, игрок i – партнер коалиции K в Г, если он
входит в ту же коалицию, что и какой-либо из игроков K. Смысл
5.14. Роль информированности
этого определения состоит в следующем: чтобы члены коалиции K
Как отмечалось ранее, на современном этапе развития теории
могли получить свою долю в коалиционно рациональной кон-
игр не найдено единого понятия решения, которое для всех клас-
фигурации (x, Г), им необходимо согласие только своих партнеров.
сов игр давало бы однозначное указание, какая из стратегий
является оптимальной для игроков. Это относится как к некоопе-
Пусть (x, Г) – коалиционно рациональная конфигурация в
ративной теории игр, так и к кооперативным моделям. Возможно,
игре v, а K и L – непустые непересекающиеся подмножества неко-
что из-за огромного многообразия игровых ситуаций подобная
торой коалиции Tk Î G . Тогда угрозой коалиции K против коали- общая концепция не существует вообще.
ции L называется коалиционно рациональная конфигурация (y, U), Имеющиеся концепции решения (равновесие Нэша, Парето-
удовлетворяющая условиям: P ( K ,U ) I L = Æ , yi > xi для всех доминирование, C-ядро и пр.) могут применяться в основном
i Î K , yi ³ xi для всех i Î P( K ,U ) . лишь для определенных классов игр. Поэтому при исследовании
Пусть (x, Г) – коалиционно рациональная конфигурация в каждой конкретной задачи необходимо выбирать концепцию ре-
игре v, а K и L – те же коалиции, что и в предыдущем определе- шения, которая будет использоваться. При ее выборе необходимо
нии. Если (y, U) – угроза коалиции K против коалиции L, то максимально использовать специфику задачи и имеющуюся в рас-
контругрозой коалиции L против коалиции K называется коали- поряжении ЛПР информацию (см. главу 1).
ционно рациональная конфигурация (z, V), удовлетворяющая ус-
ловиям: K Ë P ( L,V ) , zi ³ xi для всех i Î P( L,V ) , zi ³ yi для всех
i Î P ( L, V ) I P ( K , U ) .
То есть члены коалиции K, выдвигая угрозу против L, претен-
дуют на то, что они смогут получить больше путем перехода к но-
вой коалиционно рациональной конфигурации, и что их новые
партнеры будут согласны с этим. Члены коалиции L могут выдви-
нуть контругрозу, если они сумеют найти третью коалиционно ра-
циональную конфигурацию, в которой и они, и все их партнеры
115 116
ГЛАВА 6. ИЕРАРХИЧЕСКИЕ ИГРЫ числе допускающая последовательное принятие решений игроками
в рамках некоторого фиксированного порядка ходов.
Требования применения теории игр к задачам управления в
6.1. Игры с фиксированным порядком ходов
ОС приводят, таким образом, к необходимости разработки опи-
Описание игр в нормальной или в байесовой форме во многих
сания игры и концепций решения, ориентированных именно на
случаях может оказаться громоздким. В том числе, для многих
эти случаи.
распространенных в практике управления организационными сис-
На современном этапе развития теории нельзя говорить о
темами моделей сложно построить игру в нормальной форме, то
создании единой модели, охватывающей все случаи произвольных
есть описания игры будут объемными, кроме того, для них будет
конфликтных ситуаций в управлении. Сколько-нибудь пло-
характерно отсутствие многих «хороших» свойств целевых функ-
дотворное исследование свойств игровых задач управления воз-
ций, например, непрерывности; существенно усложняется и расчет
можно только в рамках некоторых частных случаев, так называе-
равновесий этих игр.
мых базовых моделей. При их рассмотрении очень важно, однако,
Причина этих сложностей состоит, в частности, в том, что придерживаться единого подхода к описанию игры. Такой подход,
модель «классической» теории игр, на самом деле, не всегда теория иерархических игр, был сформулирован в работах
является самой простой. Предположение об одновременном Ю.Б. Гермейера и его учеников [21-24, 27, 33, 35]. Ниже приво-
выборе игроками своих стратегий значительно усложняет дятся некоторые результаты теории иерархических игр двух лиц.
рассмотрение именно в случаях нетривиальных взаимодействий
игроков, обмена информацией между ними, а также в задачах, в
которых фиксированный порядок ходов является органической 6.2. Базовые модели иерархических игр
чертой их описания (это характерно именно для задач управления). Для иерархических игр характерно использование макси-
Действительно, при описании игры в нормальной форме учет мального гарантированного результата (МГР) в качестве базовой
процессов взаимодействия между игроками отражается концепции решения игры. При этом взятие минимума по множе-
непосредственно на сложности множества стратегий, так как под ству неопределенных параметров в МГР компенсируется воз-
стратегией понимается полный план поведения игрока во всех можностью передачи информации между игроками, что, очевидно,
возможных игровых ситуациях. снижает неопределенность при принятии решения.
Критерии эффективности (целевые функции) первого и вто-
Так, в примере 1 (задача стимулирования) с одним агентом
множество стратегий центра Xц будет состоять из всех допустимых рого игроков обозначим w1 = f1 ( x1 , x2 ) и w2 = f 2 ( x1 , x2 ) соответ-
функций стимулирования, то есть будет множеством всех кусочно- ственно. Выигрыши игроков зависят от их действий x1 и x2 из
непрерывных неотрицательных функций s ( y ), y Î A . Множество множеств действий X 10 , X 20 .
всех стратегий агента еще сложнее – оно состоит из всевозможных Во всех моделях иерархических игр считается, что первый иг-
ответов на заданное поведение центра, то есть является множест- рок (центр) имеет право первого хода. Его ход состоит в выборе
вом отображений X ц ® A . В построенной таким образом игре стратегии ~x1 . Понятие стратегии существенно отличается от поня-
равновесие Нэша ищется в виде пары функций – контракта тия действия и тесно связано с информированностью первого иг-
{s(×), y(×)}. Но, так как задачи стимулирования очень распростра- рока о поведении второго игрока – агента. Под стратегией игро-
нены в управлении, то для их плодотворного рассмотрения необ- ка здесь и далее понимается правило его поведения, то есть прави-
ходима соответствующая концепция решения (см. ниже), в том ло выбора конкретного действия в зависимости от содержания и
конкретного значения той информации, которую он получит в
117 118
процессе игры. Выбирать же собственно действие центр может и Определение 48 : Пара действий ( x1* , x2* ) в игре Г1 называется
после выбора действия агентом. равновесием Штакельберга, если
Самая простая стратегия центра состоит в выборе непосред-
ственно действия x1 (если поступления дополнительной инфор- (33) x1* Î Arg max f 1 ( x1 , x 2 ) ,
x1ÎX 10 , x2 ÎR2 ( x1 )
мации о действии агента в процессе игры не ожидается), более
сложная – в выборе функции ~ x1 ( x2 ) (если в процессе игры ожи- (34) x 2* Î R 2 ( x1* ) = Arg max0 f 2 ( x1* , x 2 ) ,
x2 Î X 2
дается информация о действии агента). Также стратегия центра то есть R2 ( x1 ) – функция наилучшего ответа агента на действие
может состоять в сообщении агенту некоторой информации, на-
центра.
пример, информации о планах своего поведения в зависимости от
выбора действия агентом. При этом агент должен быть уверен, что Равновесие в игре Г1 отличается от равновесия Штакельберга
(33) тем, что при определении оптимальной стратегии первого
первый игрок может реализовать эту стратегию, то есть что
первый игрок будет точно знать реализацию действия x2 на мо- игрока вычисляется минимум по множеству R2 ( x1 ) :
мент выбора своего действия x1. x1* Î Arg max0 min f 1 ( x1 , x 2 ) [21].
x 1Î X 1 x 2 Î R 2 ( x 1 )
Например, если агент (выбирающий стратегию вторым) не
ожидает информации о действии центра, то реализация права
Равновесие по Штакельбергу реализуется, если агент выбирает
первого хода центра может состоять в сообщении им агенту
действие, максимизируя свой выигрыш при известном ему на
функции ~ x1 ( x2 ) . Такое сообщение может рассматриваться как момент принятия решения действии центра, а центр, зная о таком
обещание выбрать действие x1 = ~ x1 ( x2 ) при выборе агентом дей- поведении агента, выбором действия x1 максимизирует свой
ствия x2. Тогда стратегия агента состоит в выборе действия в за- выигрыш, считая заданной реакцию агента на свои действия.
~ Кроме того, видно, что, максимизируя свой выигрыш по
висимости от сообщения центра, x2 = ~ x2 ( ~
x1 (.)) . Если при этом
x2 Î R2 ( x1 ) , центр, по сути, рассчитывает на благожелательность
агент доверяет сообщению центра, он должен выбрать действие
агента, то есть на то, что агент из множества равнозначных для
x2* , реализующее max0 f 2 ( ~
x1 ( x2 ), x 2 ) .
x2 ÎX 2 него действий R2 ( x1 ) выберет наиболее благоприятное для центра
Игра с описанным выше порядком функционирования назы- действие.
вается для краткости игрой Г2 (примером такой игры служит, как Будем считать множество равновесий Штакельберга решени-
раз, задача стимулирования в условиях информированности центра ем игры Г1.
о действии агента – см. теорему 19). Теорема 17 [21]. Если в игре Г1 множества действий X 10 , X 20
Если центр не ожидает информации о действии агента, и это
известно агенту, то стратегия центра состоит, как уже было ска- компактны, функции выигрыша f1, f 2 непрерывны, то в этой игре
существует по крайней мере одно равновесие Штакельберга.
зано, просто из выбора некоторого действия x1* . Стратегия агента
Справедливость теоремы 17 следует непосредственно из суще-
состоит в выборе x = ~ 2x ( x * ) (он делает ход вторым, уже зная
2 1 ствования в условиях теоремы максимумов (33), (34).·
действие центра). Такая игра называется игрой Г1 (это, например, В игре Г1 агент выбирает действие в условиях полной инфор-
та же задача стимулирования, но уже в условиях отсутствия у мированности, уже зная действие центра. Максимизация выигры-
центра информации о действии агента). ша выбором своего действия является здесь частным случаем при-
Рассмотрим сначала игру Г1 . менения принципа МГР. Равновесное по Штакельбергу действие
119 120
центра также дает ему гарантированный результат, если центр max f i ( x1, x2 ) £ f i ( x1* , x2* ) , " i Î {1, 2}, j ¹ i .
уверен в том, что агент выбирает свое действие в соответствии с xi Î X i0 ,
x j ÎR j ( x i )
(34) и принципом благожелательности. Таким образом, равновес-
ные стратегии как центра, так и агента, являются для них и гаран- Теорема 18 [65]. Если в игре двух лиц имеются хотя бы два
тирующими. оптимальных по Парето равновесия Нэша, в которых вектора вы-
Пример 20 [65]. «Нахождение равновесия Штакельберга». игрышей отличаются, то в этой игре имеет место борьба за первый
В игре примера 9 («Семейный спор»), если первый игрок ход.
имеет право первого хода (является центром), то равновесием Для игры «Семейный спор» условия теоремы 18 выполнены,
поэтому в этой игре каждый игрок заинтересован в том, чтобы
Штакельберга будет ситуация (1, 1), дающая ему выигрыш 4. ·
выбирать действие первым (см. пример 20).
В этой игре право первого хода дает центру преимущество
перед агентом. Однако это не всегда так. Тем не менее, во многих случаях соответствующее игре Г1
поведение центра нельзя назвать эффективным. Если в задаче
Пример 21. «Невыгодное для центра равновесие Штакельбер-
стимулирования (пример 1) центр будет первым выбирать дейст-
га». В антагонистической игре «чет-нечет» с матрицей
вие (стимулирование агента, уровень зарплаты), а затем уже агент
é(1, - 1) ( -1, 1) ù будет выбирать свое действие при заданном стимулировании,
ê (-1, 1) (1, - 1) ú
ë û единственное равновесие Штакельберга будет состоять в том, что
имеются два равновесия Штакельберга: (1, 2) и (2, 1). Оба они центр ничего не будет платить агенту, а агент, соответственно, не
дают центру, делающему ход первым, выигрыш –1. Однако в этой будет работать. Эффективное решение этой проблемы в условиях,
игре есть равновесие Нэша в смешанных стратегиях, дающее когда центр не может в момент принятия решения наблюдать
обоим игрокам нулевой выигрыш. действие агента, приводится ниже, в разделе «Метаигры». В слу-
Использование центром смешанных стратегий в игре Г1 не чае же, когда центр наблюдает действие агента, он заинтересован
может увеличить его выигрыш, так как в момент выбора действия сообщить агенту о своих планах по выбору действия в зависимости
агент все равно будет знать конкретную реализацию действия от действия агента, реализуя тем самым игру Г2.
центра. Таким образом, игроки в этой игре (как и в любой игре, в
которой нет равновесия Нэша в чистых стратегиях) не заинтере- Далее приводится формулировка и доказательство теоремы о
сованы в том, чтобы противник наблюдал их действие. · максимальном гарантированном результате центра в игре типа Г2.
Однако ситуация, когда первый ход дает преимущество, все К этой игре сводятся многие модели управления, например, задача
же более типична. Тогда, если порядок ходов определяется самими стимулирования в условиях полной информированности [57]. Для
игроками, между ними возникает борьба за лидерство. Игре двух наглядности ход доказательства теоремы и вводимые при этом
лиц в нормальной форме можно поставить в соответствие две понятия демонстрируются на примере именно этой задачи. В
игры Г1 (игры первого порядка), отличающиеся последова- левой колонке приводятся выражения для произвольной игры типа
тельностью ходов. Тогда борьба за лидерство (первый ход) опре- Г2, в правой – их описание в терминах задачи стимулирования.
деляется выгодностью перехода от исходной игры к какой-либо из
иерархических игр первого порядка. Теорема 19 [21]: (Теорема Ю.Б. Гермейера).
Определение 49: В игре двух лиц имеет место борьба за пер- Определение необходимых для формулировки теоремы поня-
вый ход, если не существует ситуации ( x1* , x *2 ) , для которой тий:
Целевые функции игроков: Пусть
121 122
w1 = f1 ( x1 , x2 ) , ìïA(1- e-x2 ) - B - x1 , x2 > 0 вие x2, максимизируя свою ции при заданном контракте
f1(x1, x2 ) = í , целевую функцию с под- (обещании центра).
w2 = f 2 ( x1 , x 2 ) . ïî - x1 , x2 = 0
ставленной туда стратегией
x1 Î X 10 , x 2 Î X 20 . ì x - C , x < 0.5 первого игрока, а затем
При доказательстве будем f 2 ( x1 , x 2 ) = í 1 2 2 . первый игрок – действие
î x1 - x2 , x 2 ³ 0.5 ~
считать, что f 2 ( x1 , x 2 ) не- x1 ( x2 ) .
Это – задача стимулирования
прерывна по x1 при любом Стратегия наказания Стратегией наказания в данном
второго рода [55], где x1 играет
x2. x1н = x1н ( x2 ) определяется из случае будет отказ центра выпла-
роль зарплаты, выплаченной
центром (игроком 1) работнику условия чивать зарплату, так как при лю-
(агенту, игроку 2). При этом x2 – бом действии x2, минимум f2 дос-
f2 ( x1н ( x2 ), x2 ) = min0 f2 ( x1 , x2 ).
тигается при нулевой зарплате
это результат работы, от которо- x1 ÎX 1
го зависит доход цен- Если стратегий наказания (x1 = 0).

тра A(1 - e - x2 ) , где A – ценовой несколько, то будем назы-
коэффициент, B – постоянные вать оптимальной страте-
затраты центра. Затраты работ- гией наказания ту из них,
ника считаются равными C<0.25 на которой достигается
при малых (x2<0.5) действиях, а максимум выигрыша пер-
дальше быстро растут. вого игрока.
~ Гарантированный результат Наилучшее действие, которое
sup f 2 ( x1 ( x 2 ), x 2 ) > L 2 , x1 Î X 10 = [0,10] – это ограниче- второго игрока (при ис- может выбрать работник при
x 2 Î X 20 ние по заработной плате, более пользовании первым игро- нулевой зарплате, принадлежит
x 2 Î X 20 – компактные 10 единиц она быть не может. ком стратегии наказания) отрезку [0, 0.5], так как только
множества действий. x2 Î X 20 = [0,10] физическое ог- L2 = max0 f 2 ( x1н ( x2 ), x2 ) = на этом отрезке его затраты рав-
раничение по производительно- x2 Î X 2 ны C, а дальше только возраста-
сти работы. = max0 min0 f 2 ( x1 , x 2 ). ют. То есть L2 = –C.
x2 Î X 2 x1Î X 1
Стратегия центра – Трудовой контракт, который
~ Множество действий второ-
x1 = ~ x1 ( x2 ) , то есть предпо- центр предлагает работнику, со-
го игрока, обеспечивающих
лагается следующий поря- стоит в указании зависимости ему максимальный выиг-
~ ~
док функционирования: x1 = x1 ( x2 ) зарплаты x1 от ре- рыш при использовании
игрок 1, обладая правом зультата работы x2. Зарплата вы- первым игроком стратегии
первого хода, сообщает иг- плачивается по результату рабо- наказания
року 2 план выбора своей ты, то есть после выбора работ-
E 2 = {x2 | f 2 ( x1н ( x 2 ), x 2 ) =L2}.
стратегии в зависимости от ником действия x2.
выбранной игроком 2 стра- Считается, что работник выбира- Множество достижимости Здесь множество D представляет
тегии x2. После этого вто- ет свое действие из условия мак- D = {(x1, x2 ) : f2 (x1, x2 ) > L2} собой совокупность всех зарплат
рой игрок выбирает дейст- симизации своей целевой функ- – это договорное множество и действий, которые выгодны
123 124
рассматриваемой игры, то для работника (по сравнению с Наилучший результат пер- Для данного примера целевая
есть множество сочетаний угрозой получения результата – вого игрока на множестве функция центра есть разница
стратегий первого и второ- C). достижимости дохода и затрат x1 на стимули-
го игроков, которые гаран- Множество открытое «снизу», не ìï sup f1 ( x1, x2 ) , D ¹ Æ рование. Нижняя грань затрат
тировали бы второму ре- включает границу, поскольку K = í( x1 , x2 )ÎD при этом достигается на нижней
зультат, строго больший неравенство строгое (см. рисунок ïî -¥ ,D =Æ границе D (см. рис. 11). Поэтому
того, что тот может полу- 10). Принадлежность ситуации выбор наиболее выгодного для
чить даже при наихудших множеству достижимости центра x2 сводится к поиску
для него действиях первого гарантирует реализуемость максимума разницы дохода цен-
игрока (то есть при исполь- этого результата путем ис- тра и затрат работника (это и
зовании первым игроком пользования стратегии на- есть «нижняя грань D»), то есть
стратегии наказания). казания. подставляем
ì 0, x2 < 0.5
x1 ( x2 ) = í 2 .
î x2 - C , x2 ³ 0.5
Как показано на рис. 11, в зави-
симости от параметров игры,
этот максимум может достигать-
ся как при x2=0 (невыгодность
производства, K=0), при x2=0.5
(средняя производительность),
так и при x2>0.5 (при f1’(x2)=0).
Рис. 11. Выбор плана x2
Действие игрока 1, реали- x1e – это размер вознаграждения
зующее K - e при выборе работнику, который гарантирует
Рис. 10. Множество достижимости
игроком 2 рекомендуемого центру результат, не более чем на
действия из D e меньший, чем K при выборе
( f1 ( x1e , x2e ) ³ K - e , работником действия x2e . При
( x1e , x2e ) Î D ¹ Æ ). этом, данный результат дости-
жим, так как ( x1e , x2e ) Î D ¹ Æ .
125 126
M = inf sup f1 ( x1 , x2 ) – В приведенных условиях этот Формулировка теоремы: Для задач стимулирования всегда
x2ÎE2 x ÎX 0
1 1 результат достигается при x2®+0 В указанных условиях наи- K>M, так как выше найдено K³0,
гарантированный результат и равен –B. Он символизирует больший гарантированный в отличие от отрицательного M.
центра при применении им гарантированный выигрыш, результат центра равен Можно показать, что при
стратегии наказания (так который получает центр при max [ K , M ] . довольно необременительных
как стратегии игрока 2 отказе от даже минимального условиях на целевые функции
ограничены множеством сотрудничества (если оно ока- игроков (в частности, при допу-
E2 ). зывается невыгодным), то есть щении возможности даже про-
наихудшее, что центр может извольно малых положительных
ожидать от рациональных дей- побочных платежей игроку 2),
ствий работника при нулевой это условие всегда выполняется
зарплате. [21, 22, 57]. В данном же случае
ae
Стратегия x1 ( x2 ) реализу- В этом примере, из-за монотон- зарплата предоставляет возмож-
ность практически неограничен-
ет (с точностью e) наилуч- ного убывания прибыли центра ных побочных платежей работ-
ший ответ игрока 1 на дей- при возрастании зарплаты, эта нику.
ствие x2 игрока 2, то есть изоляционистская стратегия
почти совпадает со стратегией При K>M e-оптимальная Как уже показано, именно эта
f1(x1ae ( x2 )) ³ sup f1(x1, x2 ) - e . наказания, (она состоит из про-
x1ÎX10 стратегия игрока 1 ситуация всегда реализуется в
извольных действий x1 Î [0, e ] ). ì xe , при x2 = x2e задаче стимулирования. Страте-
Это e-доминантная страте- ~
Тем не менее, эти стратегии мо- x1e ( x2 ) = í н 1 . гия состоит в обещании наказы-
гия. e
î x1 ( x2 ), при x2 ¹ x2
гут и сильно отличаться друг от вать (использовать стратегию
друга (формально связи между наказания) работника при любом
их определениями нет). его отклонении от некоторого
действия x 2e . Это действие, как
показано выше, выбирается из
условия максимизации прибыли
центра в пределах «пере-
говорного множества» D.
127 128
При K £ M оптимальная Как показано выше, данный 1) Если sup f 2 ( ~
x1 ( x2 ), x2 ) > L2 , то центр никак не гаранти-
стратегия игрока 1 заклю- случай не является оптимальным x2ÎX 20
чается в применении опти- поведением в нашем примере, рован от выбора x2, такого, что ( x1 ( x2 ), x2 ) Î D , что гарантирует
мальной стратегии наказа- так как здесь всегда K>M. Эта центру не более K.
ния. стратегия в данном случае
2) Если sup f 2 ( ~
x1 ( x2 ), x2 ) = L2 (меньше быть не может, по
вырождается в стратегию нака- x2ÎX 20
зания, то есть выплату нулевой
определению L2), то эта верхняя грань достигается при всех
зарплаты. Более широко эту
x2 Î E2 , так как L2 = inf f 2 ( x1 , x2 ) £ f 2 ( ~
x1 , x2 ) £ sup f 2 ( ~
x1 , x2 ) = L2 .
стратегию можно понимать, как x1 x2ÎX 20
попытку ограничения выбора Тогда центр не застрахован от наихудшего для себя выбора x2 из
работника множеством E2, на E2, что дает ему гарантированный результат M. ·
котором центр не в силах нака-
Каким же образом соотносятся выигрыши центра в играх Г1 и
зать работника более чем до L2 ,
Г2 с одинаковыми функциями выигрыша? Существуют ли более
при этом центр выбирает наи-
рациональные для центра методы обмена информацией, дающие
лучший ответ на любое действие
ему больший выигрыш? Ответ на эти вопросы дает рассмотрение
из E2, в противном случае – на-
информационных расширений игры, или метаигр.
казывает. Использование этой
стратегии говорит о невозмож-
ности компромисса. 6.3. Метаигры
Если центр не планирует самостоятельно получить инфор-
мацию о действии агента, он может первым выбрать действие,
Доказательство. В случае K > M, sup f 2 ( ~
x1e ( x2 ), x2 ) достига- реализуя игру Г1. Однако ему можно порекомендовать и более
x2ÎX 20
сложное поведение. Центр может попросить агента сообщить ему
ется при x2 = x2e , так как только выбор этой стратегии позволяет свою стратегию x2 = ~ x2 ( x1 ) , которая основана на ожидаемой
агенту получить более L2. Значит, агент выберет x2 = x2e , что га- агентом информации о действии центра. Реализация права первого
рантирует центру K – e. Если K £ M, то, выбирая стратегию хода центром состоит в этом случае в сообщении агенту стратегии
~
~
x2 Ï E 2 , по определению E2, агент получит строго меньше L2. В то x1 ( ~
x2 ( x1 )) . Эту стратегию можно интерпретировать, как обещание
~ ~
же время, из непрерывности f2 следует достижимость результата L2 центра выбрать действие ~
x1 ( x2 ( x1 )) при условии, что агент
выбором x 2 Î E 2 . обещает выбирать свое действие в соответствии с ~ x2 ( x1 ) . Так
При этом центр гарантирует себе образуется игра Г3. Здесь также не рассматривается возможность
inf f1 ( x1ae , x2 ) ³ inf sup f1 ( x1 , x2 ) - e = M - e . блефа, как со стороны центра, так и со стороны агента.
x2ÎE2 x2ÎE2 x ÎX 0
1 1
То есть показано, что данная стратегия центра действительно Если центр определяет порядок обмена информацией, он
приводит к обещанному результату.
может выбирать, играть ему Г1 или Г3. В обеих играх центр вы-
Необходимо еще показать, что произвольная стратегия нужден выбирать действие, не зная действия, выбранного агентом.
x1 = ~
x1 ( x2 ) не может гарантировать центру больше max[ K , M ] . Можно считать Г3, в некотором роде, усложнением игры Г1.
129 130
Аналогично тому, как, с помощью образования дополнитель- ре Г3, а тот, в свою очередь, не меньше гарантированного выиг-
ной «петли обратной связи», из Г1 была образована Г3, можно ус- рыша в игре Г1.
ложнить и игру Г2. Так образуется игра Г4. В ней агент, ожидая от
Этот результат показывает, что Г2 является «идеальной» иг-
центра, как и в Г2, информацию вида ~ x1 ( x 2 ) , формирует и со- рой для центра. Соответственно, если центр имеет возможность
~
~ ~
общает центру свою стратегию x 2 ( x1 ) . Центр, обладающий пра- определять порядок и содержание обмена информацией, и, кроме
~
~ ~ ~ того, при выборе своего действия знает действие, выбранное
вом первого хода, пользуется стратегиями ~ x1 ( x2 ) , которые опре- агентом, он должен играть Г2. Если центр на момент выбора сво-
деляют, какую функцию ~ x1 ( x2 ) выберет центр в зависимости от его действия не знает действия агента – ему наиболее выгодна игра
~
сообщения агента ~x2 . Г3.
В заключение стоит остановиться на определении равновес-
Таким же способом можно на основе Г3 построить игру Г5, и
так далее. ных ситуациях в метаиграх. Выше в примере 17 было показано,
как расширение множества стратегий игроков позволяет уравно-
В каждой из построенных четных игр Г2m, m = 1, 2…, центр
весить ранее неравновесные исходы. Интуитивно понятно, что,
использует в качестве стратегий отображения множества стратегий
добавляя возможности информационного обмена между игроками,
агента в этой игре на множество стратегий центра в игре Г2m-2.
можно добиться устойчивой реализации большего числа исходов.
Аналогично, стратегиями агента являются отображения множества
Выше также было упомянуто, что в задаче стимулирования
стратегий центра в Г2m на множество стратегий агента в игре Г2m-2.
равновесий Нэша чрезвычайно много. Следующий результат
формулирует это утверждение более строго:
Такую рефлексию можно было бы наращивать бесконечно,
переходя к все более сложным схемам обмена информацией, если Теорема 22 [21]. В игре Г2m (при m ³ 1) те, и только те, исхо-
бы рассмотрение этих игр увеличивало выигрыш центра (в инте- ды ( x10 , x20 ) , которые удовлетворяют условиям
ресах которого и проводится исследование всех метаигр). Однако f1 ( x10 , x20 ) ³ min0 max0 f1 ( x1 , x2 ) , f 2 ( x10 , x20 ) ³ max0 min0 f 2 ( x1 , x2 ) ,
имеет место следующий результат: x 2 Î X 2 x1 Î X 1 x 2 Î X 2 x1 Î X 1
могут быть ситуациями равновесия Нэша игры со стратегиями

Теорема 20 [21]. Максимальный гарантированный результат ~0
центра в игре Г2m при m > 1 равен максимальному гарантирован- (~
x 0, ~
1 x ) (здесь стратегии понимаются в метаигровом смысле, как
2
ному результату центра в игре Г2. В играх же Г2m+1 при m > 1 мак- функции информированности соответствующей метаигры).
симальный гарантированный результат центра равен его макси- Таких исходов действительно может быть очень много. В
мальному гарантированному результату в игре Г3. этом смысле метаигровые схемы можно рассматривать, как сред-
ство расширения множества равновесий Нэша, если множество
Таким образом, при исследовании гарантированного резуль-
равновесий исходной игры почему-то не устраивает исследователя
тата центра можно ограничиться исследованием только игр Г1 , Г2
или одного из игроков. Большое количество общих теоретических
и Г3. Следующая теорема устанавливает взаимосвязь между га-
результатов исследования равновесий в метаиграх получено в [16,
рантированными выигрышами центра в этих играх:
35, 76].
Теорема 21 [21]. Максимальный гарантированный результат
центра в игре Г2 не меньше его гарантированного результата в иг-
131 132
ЗАКЛЮЧЕНИЕ ЛИТЕРАТУРА
Таким образом, в настоящем учебном пособии приведены 1. Айзекс Р. Дифференциальные игры. М.: Мир, 1967.
основные сведения из теории игр, необходимые для построения и 2. Айзерман М.А., Алескеров Ф.Т. Выбор вариантов: основы теории.
анализа математических моделей управления организационными М.: Наука, 1990.
3. Ауман Р., Шепли Л. Значения для неатомических игр. М.: Мир,
системами. Эффективность теоретико-игрового моделирования в
1977.
организационном управлении подтверждается как принципиаль-
4. Бабкин В.Ф., Баркалов С.А., Щепкин А.В. Деловые имитационные
ной необходимостью исследования возможных реакций агентов на игры в организации и управлении. Воронеж: ВГАСУ, 2001.
те или иные управления в отсутствии возможности проведения 5. Берж К. Общая теория игр нескольких лиц. М.: Физматгиз, 1961.
натурного эксперимента, так и опытом практического использо- 6. Блекуэлл Д., Гиршик М. Теория игр и статистических решений. М.:
вания значительного числа моделей и методов управления в ре- Иностранная литература, 1958.
альных социально-экономических системах (см. ссылки в [14]). 7. Бондарева О.Н. Некоторые применения методов линейного про-
Для более плодотворного применения теории игр в прикладных граммирования к теории кооперативных игр / Проблемы кибернетики.
задачах необходимо как дальнейшее развитие теории (поиск новых Вып. 10. М.: Физматгиз, 1963. С. 119 – 140.
адекватных концепций решения игр, методов их анализа и т.д.), 8. Бондарева О.Н. О теоретико-игровых моделях в экономике. Л.: ЛГУ,
так и систематическое привлечение результатов менеджмента, 1974.
социологии и психологии как эмпирической базы формальных 9. Бурков В.Н., Данев Б., Еналеев А.К. и др. Большие системы: моде-
моделей. лирование организационных механизмов. М.: Наука, 1989.
10. Бурков В.Н., Еналеев А.К., Новиков Д.А. Механизмы функциони-
рования социально-экономических систем с сообщением информации //
Автоматика и Телемеханика. 1996. № 3. С. 3 - 25.
11. Бурков В.Н., Еналеев А.К., Новиков Д.А. Механизмы стимулиро-
вания в вероятностных моделях социально-экономических систем // Ав-
томатика и Телемеханика. 1993. № 11. С. 3 - 30.
12. Бурков В.Н., Заложнев А.Ю., Новиков Д.А. Теория графов в управ-
лении организационными системами. М.: Синтег, 2001.
13. Бурков В.Н., Кондратьев В.В. Механизмы функционирования орга-
низационных систем. М.: Наука, 1981.
14. Бурков В.Н., Новиков Д.А. Теория активных систем: состояние и
перспективы. М.: СИНТЕГ, 1999.
15. Вагнер Г. Основы исследования операций. М.: Мир, 1972. Т. 1 – 3.
16. Васин А.А., Гурвич В.А. Коалиционные ситуации равновесия в ме-
таиграх / Вестник МГУ. Вычислительная математика и кибернетика.
1980. № 3. С. 38 – 44.
17. Вилкас Э.Й. Аксиоматическое определение значения матричной
игры // Теория вероятностей и ее применения. 1962. Том. 8. № 3. С. 324-
327.
18. Вилкас Э.Й. Оптимальность в играх и решениях. М.: Наука, 1990.
133 134
19. Воробъев Н.Н. Основы теории игр. Бескоалиционные игры. М.: 39. Ларичев О.И. Объективные модели и субъективные решения. М.:
Наука, 1984. Наука, 1987.
20. Воробъев Н.Н. Теория игр для экономистов-кибернетиков. М.: Нау- 40. Лефевр В.А. Конфликтующие структуры. М.: Советское радио,
ка, 1985. 1973.
21. Гермейер Ю.Б. Игры с непротивоположными интересами. М.: Нау- 41. Льюс Р., Райфа Х. Игры и решения. М.: Иностранная литература,
ка, 1976. 1961.
22. Гермейер Ю.Б., Ерешко Ф.И. Побочные платежи в играх с фикси- 42. Мак-Кинси Д. Введение в теорию игр. М.: Физматгиз, 1960.
рованной последовательностью ходов // ЖВМ и МФ. 1974. № 14. С. 43. Математическая энциклопедия. М.: Советская энциклопедия, 1979.
1437 – 1450. Том. 2.
23. Горелик В.А., Кононенко А.Ф. Теоретико-игровые модели принятия 44. Миркин Б.Г. Проблема группового выбора. М.: Наука, 1974.
решений в эколого-экономических системах. М.: Радио и связь, 1982. 45. Морозов В.В., Сухарев А.Г., Федоров В.В. Исследование операций в
24. Горелик В.А., Фомина Т.П. Элементы теории игр. Липецк: ЛГТУ, задачах и упражнениях. М.: Высшая школа, 1986.
1999. 46. Мулен Э. Кооперативное принятие решений: аксиомы и модели. М.:
25. Губко М.В., Караваев А.П. Матричные структуры управления // Ав- Мир, 1991.
томатика и Телемеханика. 2001. № 10. С. 132 – 146. 47. Мулен Э. Теория игр с примерами из математической экономики.
26. Дюбин Г.Н., Суздаль В.Г. Введение в прикладную теорию игр. М.: М.: Мир, 1985.
Наука, 1981. 48. Нейман Д., Моргенштерн О. Теория игр и экономическое поведе-
27. Ерешко Ф.И. Моделирование рефлексивных стратегий в управляе- ние. М.: Наука, 1970.
мых системах. М.: ВЦ РАН, 2001. 49. Новиков Д.А., Чхартишвили А.Г. Активный прогноз. М.: ИПУ РАН,
28. Жуковский В.И., Салуквадзе М.Е. Некоторые игровые задачи управ- 2002.
ления и их приложения. Тбилиси: Мецниереба, 1998. 50. Новиков Д.А. Динамика поведения систем с большим числом целе-
29. Интрилигатор М. Математические методы оптимизации и эконо- направленных элементов // Автоматика и Телемеханика. 1996. № 4. С.
мическая теория. М.: Прогресс, 1975. 187 - 189.
30. Коваленко А.А. Сборник задач по теории игр. Львов: Высшая шко- 51. Новиков Д.А. Механизмы функционирования многоуровневых ор-
ла, 1974. ганизационных систем. М.: Фонд "Проблемы управления", 1999.
31. Козелецкий Ю. Психологическая теория решений. М.: Прогресс, 52. Новиков Д.А. Механизмы стимулирования в динамических и мно-
1979. гоэлементных социально-экономических системах // Автоматика и Те-
32. Колмановский В.Б. Игровые задачи управления. М.: МИЭМ, 1990. лемеханика. 1997. № 6. С. 3 - 26.
33. Кононенко А.Ф., Халезов А.Д., Чумаков В.В. Принятие решений в 53. Новиков Д.А. Механизмы стимулирования в моделях активных сис-
условиях неопределенности. М.: ВЦ АН СССР, 1991. тем с нечеткой неопределенностью. М.: ИПУ РАН, 1997.
34. Краснощеков П.С., Петров А.А. Принципы построения моделей. М.: 54. Новиков Д.А. Обобщенные решения задач стимулирования в ак-
ФАЗИС, ВЦРАН, 2000. тивных системах. М.: ИПУ РАН, 1998.
35. Кукушкин Н.С., Морозов В.В. Теория неантагонистических игр. М.: 55. Новиков Д.А., Петраков С.Н. Курс теории активных систем. М.:
МГУ, 1984. СИНТЕГ, 1999.
36. Кульба В.В., Малюгин В.Д., Шубин А.Н., Вус М.А. Введение в ин- 56. Новиков Д.А., Цветков А.В. Механизмы стимулирования в много-
формационное управление. С.-Пб.: Изд-во С.-Петербургского Универси- элементных организационных системах. М.: Апостроф, 2000.
тета, 1999. 57. Новиков Д.А., Цветков А.В. Механизмы функционирования орга-
37. Лабскер Л.Г., Бабешко Л.О. Игровые методы в управлении эконо- низационных систем с распределенным контролем. М.: ИПУ РАН, 2001.
микой и бизнесом. М.: Дело, 2001. 58. Новиков Д.А., Шохина Т.Е. Механизмы управления динамическими
38. Ларичев О.И. Выявление экспертных знаний. М.: Наука, 1989. активными системами. М.: ИПУ РАН, 2002.
135 136
59. Нэш Д. Бескоалиционные игры / Матричные игры. М.: Физматгиз, 80. Moore J. Implementation, contracts and renegotiation in environment
1961. С. 205 – 221. with complete information / Advances in Economic Theory. Cambridge:
60. Опойцев В.И. Равновесие и устойчивость в моделях коллективного Cambridge University Press, 1992. Vol. 1. P. 182 – 281.
поведения. М.: Наука, 1977. 81. Moulin H. Cooperative microeconomics: a game-theoretical introduc-
61. Орловский С.А. Проблемы принятия решений при нечеткой исход- tion. London: Prentice Hall, 1995.
ной информации. М.: Наука, 1981. 82. Myerson R.B. Game theory: analysis of conflict. London: Harvard Univ.
62. Оуэн Г. Теория игр. М.: Мир, 1971. Press, 1991.
63. Партхасаратхи Т., Рагхаван Т. Некоторые вопросы теории игр двух 83. Myerson R.B. Optimal coordination mechanisms in generalized princi-
лиц. М.: Мир, 1974. pal-agent problems // Journal of Mathematical Economy. 1982. Vol. 10. № 1.
64. Петраков С.Н. Механизмы планирования в активных системах: не- P. 67 - 81.
манипулируемость и множества диктаторства. М.: ИПУ РАН, 2002. 84. Novikov D.A. Management of active systems: stability or efficiency //
65. Петросян Л.А., Зенкевич Н.А., Семина Е.А. Теория игр. М.: Высшая Systems science. 2001. Vol. 26. № 2. P.85-93.
школа, 1998. 85. Repullo R. The revelation principle under complete and incomplete in-
66. Пфанцагль И. Теория измерений. М.: Мир, 1976. formation / Economic Organizations as Games. Oxford: Basil Blackwell,
67. Советский энциклопедический словарь. М.: Советская энциклопе- 1986. P. 179 – 195.
дия, 1988. 86. Ross A.E. Game-theoretic models of bargaining. Cambridge: Cambridge
68. Фишберн П. Теория полезности для принятия решений. М.: Наука, University Press, 1988.
1978. 87. Shubik M. Game theory in the social sciences: concepts and solutions.
69. Шрейдер Ю.А. Равенство, сходство, порядок. М.: Наука, 1971. Massachusetts: MIT Press, 1991.
70. Aleskerov F., Monjardet B. Utility maximization, choice and preference.
Berlin: Springer, 2002.
71. Arrow K.J. Social choice and individual values. Chicago: Univ. of Chi-
cago, 1951.
72. Aumann R.J., Mashler M. The bargaining set for cooperative games //
Advances in Game Theory. Ann. Math. Studies. 52. Princeton: Princeton
Univ. Press, 1964.
73. Coombs C.H., Dawes M., Tversky A. Mathematical psychology. N.Y.:
Englewood Cliffs, 1970.
74. Fudenberg D., Tirole J. Game theory. Cambridge: MIT Press, 1995.
75. Harsanyi J. Games with incomplete information played by "Bayesian"
players // Management Science. Part I: 1967. Vol. 14. № 3. P. 159 - 182. Part
II: 1968. Vol. 14. № 5. P. 320 - 334. Part III: 1968. Vol. 14. № 7. P. 486 -
502.
76. Howard N. Theory of meta-games / General systems. 1966. № 11. P. 187
– 200.
77. Kreps D. Theory of choice. London: Vestview Press, 1988.
78. Lucas W. F. A game with no solution. RAND Memorandum RM-5518-
PR. Rand Corporation, October 1967.
79. Mas-Colell A., Whinston M.D., Green J.R. Microeconomic theory.
N.Y.: Oxford Univ. Press, 1995.
137 138

Teorigr Upravlenie

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Teorigr Upravlenie

Загружено:

Авторское право:

Доступные форматы

Российская Академия Наук

Институт проблем управления УДК 519

Губко М.В., Новиков Д.А. Теория игр в управле-

ТЕОРИЯ ИГР В настоящем учебном пособии излагаются основные понятия и ре-

ОРГАНИЗАЦИОННЫМИ ностью, кооперативные, иерархические, рефлексивные игры, а также

СИСТЕМАМИ Учебное пособие предназначено для студентов ВУЗов, аспирантов

Рекомендовано в качестве учебного по- Рецензенты: д.т.н., проф. В.Н. Бурков,

Рис. 2. Структура системы управления.

В соответствии с данным выше определением, управление –

Второй этап – анализ модели – исследование поведения уча-

ловие единогласия). тающая по y Î A функция затрат агента в зависимости от выби-

ГЛАВА 2. ПРОБЛЕМАТИКА ТЕОРИИ ИГР Далее рассматривается отношение строгого предпочтения f ,

1, -1 два игрока-начальника. У них есть один подчиненный. Каждый из

Пов ысить начальника), так и потребовать выполнения своего задания в

-1, 1 совместно, то каждый из начальников получает по 10 единиц

игрока ( i Î N ). Более того, любая смешанная стратегия c i , которая содержит

ны, а функции выигрыша непрерывны по совокупности перемен-

( s1* (×), s 2* (×)) = 1) si* = í

При определении игры в нормальной форме (см. раздел 3.2)

системой: {N ; W1 ,..., W n ; p1 (×),..., pn (×); K 1 (×),..., K n (×)} .

(18) xi ³ v({i}) , i Î N. Если существует коалиция S, такая, что x f S y , говорят, что x

(29) yS = g (lS ), g (lS ) := [c' ]-1 (lS ). 5.8. НМ-решения

го зависит доход цен- Если стратегий наказания (x1 = 0).

могут быть ситуациями равновесия Нэша игры со стратегиями

Вам также может понравиться