Вы находитесь на странице: 1из 213

В.

Босс

ПЕкqии по
МАТЕМАТИКЕ
ТlM

Вероиmносmь, uнформацuи,
4 сшашосmпка

моекм
- - URSS I~I
ББК 22.J71я73

Босс В.

Jlекuии по математике. Т. 4: Вероятиость, ииформаuии, статистика.


М.: КомКнига. 2005. - 216 с.
ISBN 5-484-00168-4
Книга ОТЛllчается краткостью 11 прозрачностью изложении. Объяснении
лаются .чеЛОRеческим языком .. - лаконично и доходчиво. Значительное вни­
мание уделяетсн мотивации результатов. Помимо классических разлелов теории
IlCроятностей ОСlICщается ряд новых направлений: нелинейный 'l3кон больших
чисел, асимптотическое агрегирование. Изложение сопровождается большим ко­
личеством ПРllмеров и паралОКСОD. способствующих рельсфному восприятию
материала. Затрагиваются многие приклалные области: управление запасами.
биржевые игры, массовое обслуживание, страховое дело. стохаСТllческая ап­
11роксимацин. обработка статистики. Несмотрн на краткость. лостаточно полно
11злагается теория информации с ответuлениями .энтропийно термолинамиче­
СIШI'О" характера. Охват тематики достаточно широкиi1, 110 И.illОжение построено
так, 'ПО можно ограничитьсн любым желаемым срезом содержанин. Книга легко
Чlпаетси.

длн студентов. преподавателей. инженеров и научных работников.

Иuат".1ЬСТIЮ 'КОМКНI1I.'. 117312. Г. Москва. пр-г БО-лег". OKI.6" •. 9.


Пuдп"санu к псчаllt 21.06.20О5 г. Фор .. ат 60,,90/16. Печ. л. 13.5. Зак. Ni 130.
Отпечатано It 000 .ЛЕНЛНД•. 117312. 1. Москка. "р-т 6О-лепt. Окт.6р•. д. IIA. Clp. 11.

ISBN 5-484-00168-4 © Ком Книга. 2005

1,I
НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА

Е_, UR',",URSSru 3299 ID 29480

JiIlIШ1~НI[II,IШ
Катаnor и:щаний В Интернвте:

htlp:IIURSS.ru
Твn./факс: 7 (095) 135-42-16
URSS ТвnJфакс: 7 (095) 135-42-46 >
Оглавление

Предисловие к .Лекциям- . . . . . . . . . . . . . . . . . . . . . . . . .. 7
Предисловие к тОму . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9
Глава 1. Основы в задачах и парадоксах . . . . . . . . . . . . . . .. 10
1.1. Что такое вероятность . . . . . . . . . . . . . . . . . . . .. , 1О
1.2. Подводные рифы статистики 13
1.3. Комбинаторика 14
1.4. Условная вероятность . . . . . . . . . . . . . . . . . . . . .. 1б
1.5. Случайные величины 19
l.б. Континуальные пространства . . . . . . . . . . . . . . . .. 23
1.7. Независимость 28
1.8. Дисперсия и ковзриаuия . . . . . . . . . . . . . . . . . . .. 29
1.9. Неравенства 31
1.10. 'Случайные векторы. . . . . . . . . . . . . . . . . . . . . . .. 34
1.11. Вероятностные алгоритмы . . . . . . . . . . . . . . . . . .. 3б
1.12. Об истоках 37
1.13. Задачи и дополнения. . . . . . . . . . . . . . . . . . . . . . . 40

lЛава 2. Функции распределения .., . . . . . . . . . . . . . . . . .. 43


2.1. Основные стандарты . . . . . . . . . . . . . . . . . . . . . .. 43
2.2. Дельта-функuия . . . . . . . . . . . . . . . . . . . . . . . . .. 47
2.3. Функuии случайных величин . . . . . . . . . . . . . . . .. 49
2.4. Условные плотности . . . . . . . . . . . . . . . . . . . . . .. 51
2.5. Характеристические функuии , 54
2.б. Производяшие функuии 57
2.7. Нормальный закон распределения 59
2.8. Пуассоновские потоки. ..................... б2
2.9. Статистики размещений б5
2.10. Распределение простых чисел бб
2.11. Задачи и дополнения б8
4 Оглавление

IЛава 3. Законы больших чисел . . . . . . . . . . . . . . . . . . . . . . 71


3.1. Простейшие варианты 71
3.2. Усиленный закон больших чисел. . . . . . . . . . . . . .. 73
3.3. Нелинейный закон больших чисел ..... . . . . . . . . 75
3.4. Оценки дисперсии . . . . . . . . . . . . . . . . 77
3.5. доказательство леммы 3.4.1 79
3.6. Задачи и дополнения. . . . . . . . . . . . . . . . . . . . . .. 81

IЛава 4. Сходимость 84
4.1. Разновидности . . . . .. . . . . . . . . .. .... ....... 84
4.2. Сходимость по распределению . . . . . . . . . . . . . . .. 87
4.3. Комментарии ,88
4.4. Закон «нуля или единицы. . . . . . . . . . . . . . . . . . . . 90
4.5. Случайное блуждание 91
4.6. Сходимость рядов . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.7. Предельные распределения 94
4.8. Задачи и дополнения. . . . . . . . . . . . . . . . . . . . . . . 96

IЛава 5. Марковские процессы 99


5.1. Uепи Маркова . . . . . . . . . . . . . . . . . . . . . . . . . .. 99
5.2. Стохастические матрицы 101
5.3. Процессы с непрерывным временем 103
5.4. Оприложениях 105
IЛава 6. Случайные функции 107
6.1. Определения и характеристики 107
6.2. Эргодичность 109
6.3. Спектральная плотность 111
6.4. Белый шум 113
6.5. Броуновское движение 114
6.6. Дифференцирование и интегрирование 116
6.7. Системы регулирования 118
6.8. Задачи и дополнения 119
IЛава 7. Прикладные области 120
7.1. Управление запасами 120
7.2. Страховое дело 121
7.3. Закон арксинуса 122
Оглавление 5

7.4. Задача о разорении 124


7.5. Игра на бирже и смешанные стратегии 126
7.6. Проиессы восстаноаления 128
7.7. Стохастическое агрегирование 129
7.8. Агрегирование и СМО 133
7.9. Приниип максимума энтропии 134
7.10. Ветвяшиеся проиессы 137
7.11. Стохастическая аппроксимauия 139
(Лава 8. Теория информации . . . . . . . . . . . . . . . . . . . . . . . . 141
8.1. Энтропия 141
8.2. Простейшие свойства 144
8.3. Информаиионная точка зрения 145
8.4. Частотная интерпретаиия 147
8.5. Кодирование при отсугствии помех 149
8.6. Проблема нетривиальных кодов 152
8.7. Канал с шумом 153
8.8. Укрупнение состояний 157
8.9. Энтропия непрерывных распределений 158
8.10. Передача непрерывных сигналов 160
8.11. Оптимизаиия и термодинамика 163
8.12. Задачи и дополнения 166
(Лава 9. Статистика 169
9.1. Оиенки и характеристики 169
9.2. Теория и практика 173
9.3. Большие отклонения 174
9.4. от _хи-квадрат. до Стьюдента 176
9.5. Максимальное прамоподобие 177
9.6. Парадоксы : 179
(Лава 10. Сводка основных определениА и результатов 183
10.1. Основные понятия 183
10.2. Распределения 187
10.3. Законы больших чисел 191
10.4. Сходимость 192
10.5. Марковские проиессы 195
10.6. Случайные функиии и проиессы 196
6 Оглавление

10.7. Теория информauии 199


10.8. Статистика 204
Сокращения и 0б0значения 207
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Предметный указатель 211
Предисловие к «ЛеКЦИRМ»

Самолеты позволяют летать, но до6и­


раты:я да аэропорта nриходится самому.

Для нормального изучения любого математического предмета


необходимы, по крайней мере, 4 ингредиента:

1) живой учитель;
2) обыкновенный nодр06ный учебник;
3) рядовой задачник;
4) учебник, освобожденный от рутины, но дающий общую картину, мотивы, связи,
«что зачем,..

До четвертого пункта у системы образования руки не дохо­


дили. Конечно, подобная задача иногда ставилась ирешалась,
но в большинстве случаев - при параллельном исполнении функ­
ций обыкновенного учебника. Акценты из-за перегрузки менялись,
и намерения со второй-третьей главы начинали дрейфовать, не до­
стигая результата. В виртуальном пространстве так бывает. Аналог
объединения гантели с теннисной ракеткой перестает решать обе
задачи, хотя это не сразу бросается в глаза.

«Лекции» ставят 4-й пункт своей главной целью. Сопутствую­


wая Идея - экономия слов и средств. Правда, на фоне деклараций
о краткости и ясности изложения предполагаемое издание около

20 томов может показаться тяжеловесным, но это связано с обшир­


ностью математики, а не с перегрузкой деталями.

Необходимо сказать, на кого рассчитано. Ответ «на всех» вы­


глядит наивно, но он в какой-то мере отражает суть дела. Обо­
зримый вИд, обнаженные конструкции доказательств, - такого
8 Предисловие к «Лекциям»

сорта книги удобно иметь под рукой. Не секрет, что специалисты


самой высокой категории тратят массу сил и времени на освоение
математических секторов, лежаших за рамками собственной спе­
циализации. Здесь же ко многим проблемам предлагается короткая
дорога, позволяюшая быстро освоить новые области и освежить
старые. Для начинаюших «короткие дороги .. тем более полезны,
поскольку облегчают движение любыми другими путями.
В вопросе «на кого рассчитано .., - есть и друтой аспект.
На сильных или слабых? На средний вуз или физтех? Опять-таки
выходит «на всех ... Звучит странно, но речь не идет о регламентации
кругозора. Простым языком, коротко и прозрачно описывается
предмет. Из этого каждый извлечет свое и двинется дальше.

Наконец, последнее. В условиях информационного наводнения


инструменты вчерашнего дня перестают работать. Не потому, что
изучаемые дисциплины чересчур разрослись, а потому, что новых

секторов жизни стало слишком много. И в этих условиях мало


кто готов уделять много времени чему-то одному. Поэтому учить
всему - надо как-то иначе. «JIекuии~ дают пример. ПЛохой ли,
хороший - покажет время. Но в любом случае, это продукт нового
поколения. Те же «колеса .., тот же «руль.., та же математическая
суть, - но по-друтому.
Предисловие к тому

Без пассивной части словарною


запаса - активная не работает.

Жизнь уходит на заделывание мелких трещин. Типографская


краска - на угочнения. В теории вероятностей (ТВ) это особенно
заметно из-за контраста простых выводов и сложных объяснений.
Сложность, в свою очередь, проистекает из-за максималистских
устремлений, согревающих профессионалов и убийственных для
остальной части населения.
Учитывая, что профессионалы теорию вероятностей и так хо­
рошо знают, нижеследующий текст ориентируется на умеренные
аппетиты к строгости и детализаиии. Разумеется, обоснование то­
го, что более-менее (си так ясно~, имеет свою иену. Но в ТВ
на первом этапе гораздо важнее разобраться в том, что не ясно
на самом элементарном уровне. Интуииия и здравый смысл на­
столько путаются в статистике и оиенках вероятности, что многие

тонкости вполне естественно отодвинуть на второй план.


Глава 1

ОСНОВЫ В задачах и парадоксах

1.1. Что такое вероятность

Карты, кости, тотализаторы, статистика, броуновское движение,


отказы электроники, аварии, Р311иопомехи - все это вместе взятое

СОЗllает ощущение смутного понимания случайности. Бытовое по­


нятие вероятности оказывается в результате ничуть не менее осно­

вательным, чем бытовое понятие геометрической точки. Но стоит


начать вдумываться, как явление ускользает. Теория вероятностей
(ТВ) поэтому вглубь не Иllет, чтобы не утодить в ловушку.

FeoMempUR Евклида не оnредеЛRет точек и npRMblX, WaJ(ltfOmHblU ко­


декс - фер3R и пешек. TeoPUR eepoRmHocmeu не оnредеЛRет, что такое
eepoRmHocmb элементарного событиR. Число от НУЛR да единицы. Пер­
вичное nOHRmue, априори заданное. ВepORmHOCmu сложнЫJ( событии -
другое дело. Этим, собственно, и зонU/tfаетСR meoPUR.

Отправная точка у теории вероятностей очень проста. Рас­


сматривается конечное или бесконечное ,Множество 1)

называе,Мое nространство.м ЗАементарных событий, на которо,М за­


дана функция P("'i), nрини'мающая значения из [О, 1] и удовлетворя-
ющая условию НОр'мировки L
P("'i) = 1. Значения P("'i) считаются
вероятностями ЗАементарных событий "'i. Множества А С n на­
зывают событиями, и определяют их вероятности как

Р(А) = L P("'i),
IoI;ЕА

1) Пока счетное. Континуanьиые варианты n рассматриваются дanее.


1.1. Что такое вероятность 11

Вот и весь фундамент, упрошенно говоря, Исторический путь


к нему бьUl долгим и запутанным. Пройтись той же дорогой при
изучении вероятностей, вообше говоря, необходимо. Пусть не в мас­
штабе один к одному, но инкубаuионный период созревания поня­
тий так или иначе должен быть преодолен.
Первым делом желательно привязать абстрактную модель к ре­
альности. Для этого проще всего посмотреть, как примеры уклады­
ваются в общую схему.

Из колоды вытаскивается 7 карт. Какова вероятность, Ifто среди них 3 короля


и 2 дамы?

... Подтягивание задачи к обшей схеме в данном случае совсем просто.


Различные способы выбора 7 карт из 36 естественно считать равновероятными
элементарными событиями, т. е.

1 t п!
p(CoIj) = Сl,' где СП = k!(n _ k)!
- число сочетаний из n элементов по k элементов.
Число различнbIX выборов, удовлетворяюших условиям задачи, равно

J 2 2 GG~
С4 С4 С28 • Искомая вероятность есть с 7 ~
J6

в задачах, где элементарные события равновероятны. Р(А) всегда равно числу


вариантов, составляюших А, деленному на число всех вариантов:

РА
() = Ifисло благоnриятныхвариантов.
Ifисло всех вариантов

На первый взгляд, суть дела тривиальна. Однако не все так


просто, как поначалу кажется.

Парадокс КapдaHo%l. При бросании двух шестигранных костей сумма выпавших


чисел получается равной - как 9. так if 10 - в двух вариантах:

сумма 9 {::> (3,6) (4,5), сумма 10 {::> (4,6) (5, 5).


Но вывод о равенстве вероятностей этих событий - ошибочен. Способов полу­
чения сумм 9 и 10 на самом деле больше, и их количество разное:

сумма 9 {::> (3,6) (6,3) (4,5) (5,4), сумма 10 ~ (4,6) (6,4) (5,5).

2) ИЗ -Кннги об Hrpe В костн-, написанной Кардано в XXVI В., но НЗданной лншь


В 1663 г.
12 Глава 1. ОСНОВЫ В задачах и парадоксах

Таким образом, из 36 возможных пар чисел 4 пары дают в сумме 9, и только 3 - 10.
Вероятности, соответственно, равны 4/36 и 3/36, что подтверждает эксперимент)).

На данном примере становится понятно, что в подборе про­


странства n элементарных событий имеется определенный про­
извол. Первый вариант - это 36 равновероятных упорядоченных
пар (i, j). Второй вариант n- это неуnорядоченные пары (21 па­
ра), но тогда они не равновероятны, - и в этом аккуратно надо
разобраться. Задача выглядит то простой, то сложной. Начинаешь
присматриваться, и ум заходит за разум. Недаром Секей (22] от­
мечает, что в такого рода задачах ошибались в том числе великие
(Лейбниu, Даламбер).
Пyrаниuy в задаче создает независимость суммы от переста­
новки слагаемых. При последовательном выбрасывании костей -
первая, потом вторая - проблемы не возникает. Но кости можно
выбрасывать одновременно, они падают вместе, и первая от второй
не отличается. Тогда различных вариантов имеется только 21 -
и не вполне ясно, почему они не равновероятны 4).
Чтобы полностью развеять туман, полезно выделить подзада­
чу, в которой проблема сконuентрирована в максимально простом
виде. Какова вероятность при бросании двух костей получить в ре­
зультате (5,5) и (4,6)?

На примерах хорошо видна диалектика взаимоотношения собы­


тия как смыслового явления, имеющего содержательное описание,

и как множества из П, для выделения которого необходимо уме­


ние перечислить CUj Е П, удовлетворяющие оговоренным в задаче
условиям.

Реальность, окружающая абстрактную модель, включает ряд


привходящих обстоятельств:
• возможность проведения опыта (эксперимента), исходом которого является
наступление одного из элементарных собblТИЙ S) c.Jj;

) при достаточно большом количестве бросаниi1 двух костеА - частоты. с которыми


в сумме выпадают 9 и 10, стремятся к ука]8ННЫМ вероятностям.
4) Уrлубить непонимание можно, обратившись к парадоксу Гиббса в статистической
физике. Смешение разнородных ra30B увеличивает энтропию. при естественном yrле 3рениЯ
не ясно, куда исчезает прирост энтропии, коrда молекулы r830В стаНОВЯТСЯ одинаковы.

S) Событие А наступает. если наступает c.Jj Е А.


1.2. Подводные рифы статистики 13

• связь !1 с есубэлементарным уровнем. - с однократным бросанием мо­


неты, например, тогда как элементарным событием может быть n-кратное
бросание;

• возможность проведения серии опытов, в результате чего частота наступле­

ния события А стремится к Р(А) при увеличении длины серии,

N(A) -+ Р(А) при N -+ 00, (1.1 )


N
где N общее число опытов, а N(A) число опытов, в которых наступило
событие А.

Долгое время устойчивость частот была первична по отноше­


нию к понятию вероятности, и это в какой-то мере удовлетворяло
спрос на понимание причин. Случившаяся затем метаморфоза из­
менила точку зрения на противоположную, но не ликвидировала

выгод прежнего взгляда - ибо сходимость (1.1) превратил ась в тео­


рему и осталась в арсенале.

Вместе с тем с самого начала необходимо сказать о наличии


логических трудностей - не в ТВ, но в непосредственной близо­
сти. Пусть речь идет о бросании монеты. Равенство вероятностей
выпадения герба и решетки «вытекает», С одной стороны, из от­
сугствия оснований отдать предпочтение какой-либо альтернативе,
с друтоЙ,. - из наблюдения за длинными сериями бросаний.
Казалось бы, аргументов хватает. Тем не менее бросание моне­
ThI - хотя И сложная, но поддающаяся расчету механическая задача.

По крайней мере, можно сконструировать высокоточный автомат,


который почти всегда будет бросать монету гербом вверх. Поче­
му же человек, действуя спонтанно, бросает «как надо»? Становится
ясно, что источник случайности находится не в монете, а в чело­
веке. Следующий вопрос ведет дальше, и причинно-следственная
uепочка петляет по таким закоулкам Вселенной, что проблема,
по большому счету, остается нерешенноЙ.

1.2. Подводные рифы статистики

Теория оперирует вероятностями, практика - статистическими


данными, т. е. исходами опытов, будь то бросание костей, количе­
ство аварий, смертей, выздоровлений, денег в казне и т. п. Умение
делать выводы на базе статистики составляет оборотную сторону ТВ.
14 Глава 1. ОСНОВЫ В задачах и парадоксах

Не слишком утрируя действительность, допустим, что медики провели экс­


перимент по оценке влияния средства «чирикс. на заболевание «чикс •. Как это
всегда делается, контрольной группе давали плацебо. Гипотетические данные
по Калуге и Рязани приведены в таблицах.

Калуга чирике nлацебо


10 1
10 1
-->--
помогло 10+80 1 +9'
безрезультатно 80 9

Рязань чирике nлацебо


10 89
10 89
-->--.
nомогло 0+ 10 1 + 89
безрезультатно О 1

Объединение результатов рождает химеру. В Калуге и Рязани чирикс эффек­


тивнее плацебо, в целом - наоборот.

Калуга + Рязань чирике nлацебо


20 90
помогло 20 90 20+80 < 10+90'
безрезультатно 80 10

На абстрактном уровне речь идет о следующем. Из

иногда делается поспещный вывод о справедЛИВОСТИ неравенства

~I + ~2 А. + А2
~I +"1 + ~2 + "2 > A1+ B1+ А'
2 + В2

К чему нет никаких предпосылок.

Самое неприятное, что такого рода статистика - в облике


экономических показателей и рейтингов - сваливается на нас
со страниц вполне респектабельных газет.

1.3. Комбинаторика

Элементарная (но не обязательно простая) часть теории вероятно­


стей в значительной мере опирается на комбинаторику.
1.3. Комбинаторика 15

Размещеиия. Число ра1llИЧНЫХ вариантов выбора (с учетом порядка) k предметов


из n предметов al. а2 •... ,а. равно

I A~ = п(п - 1) ... (п - k + 1). I


... Есть n способов выбрать один предмет из п, т. е. А:. = п. На каж­
дый выбор первого предмета приходится n - 1 возможностей выбора второго
(из оставш.ихся n - 1 предметов) - поэтому A~ = п(п - 1). И так далее. •
Перестаиовки. Число всевозможных перестановок n предметов al • ...• а п равно
4ЭН факториал.

I п!= 1'2 ... n,1


что очевидно из п! = А:.
По соображениям удобства принимается О! = 1.
Для оценки п! при больших n удобна Формуло Сmuрлuнzо

0<8. < 1.

Сочетаиия, Если k предметов из al, '" ,а. выбираются без учета порядка (cКJIa­
дываются в мешок). то число ра1llИЧНЫХ вариантов (число сочетаний из n по k)
равно

k п!
С. = k!(n _ k)!
... Всевозможные РОVlещеНUR получаются перестановками элементов в со­
четаниях. Поэтому
A~ = C~k!.
что дает формулу для C~, с учетом того, что A~ = п!/(п - k)! •

Перес:таиовки С повтореииями. Пусть имеется n предметов k типов

Число раэпичных перестановок этих предметов равно

... в любой перестановке рассматриваемой совокупности предметов, нuчеzo


внешне не MeHRR. можно nl элементов аl переставить между собой nl! способами,
16 Глава 1. ОСНОВЫ В задачах и парадоксах

n2 элементов а2 - "2! способами•...• nk элементов ak - nk! способами. Поэтому


nl!n2!'" nk! перестановок и1 n! - неотличимы друг от друга, что при водит
к указанной формуле. •

в слове «абракадабра. 5 букв .. а., 2 - .. б., 2 - .р., 1 - «к., 1 - ..д •.


Из такого набора букв можно Сделать

II!
IP(5, 2, 2,1,1) = 5!2!2! = 83010

различных буквосочетаний.

Выбор из k ТИПОВ. Имеется k типов предметов, каждый тип представлен бесконеч­


ным количеством экземпляров. Число различных способов выбора r предметов
в данном случае

СИ1)'ация и1 перечисленных самая простая, но иногда почему-то ставит


в 1)'пик. десять (типов) цифр, шестизначных чисел - миллион. 106.

Упражнении '1

• Сколько раЗЛИЧНblХ чисел можно получить перестановкой четырех цифр 1,


3, 5, 7? (4!).
• Сколько есть восьмизначных чисел, в записи которых участвуют только
цифры 1,3,5, 7? (48).
• Сколько есть различных чисел, в записи которых участвуют две единицы
и одна семерка? (3).
• При размешении n шаров по n ячеАкам вероятность того, что все ячейки
будут заняты, равна n!/n .
п

• При размешении k шаров (днеА рождения) по 365 ячейкам (дням) вероят­


ность того, что все шары попадут в разные ячейки, равна A~s/365k.

1.4. Условная вероятность

Объединениеи пересечение событий. Объединениемили суммой собы­


тий А и В называют событие, состоящее в наС1)'Плении хотя бы
одного из событий А, В и обозначаемоекак AUB или А+В. Пер­
вое обозначение прямо указывает, какое множество в n отвечает
сумме событий.

6) Упражнсния В .лскцияк. используются в основном как способ поместить в фокус


внимания нскоторыс факты без обсуждения дeтanеll.
1.4. Условная вероятность 17

Пересечением ИJlИ произведением событии А и В называют


событие, состоя шее в совместном наступлении А, В и обозначаемое
как А nВ ИJlИ АВ.

Очевидно,

I Р(А + В) = Р(А) + Р(В) - Р(АВ), I (1.2)

поскольку при суммировании UJi по А и В элементарные собы­


тия из пересечения АВ считаются два раза, и один раз Р(АВ)
приходится вычесть. Если события не пересекаются, то

Р(А + В) = Р(А) + Р(В).


Формулы типа (1.2) становятся совершенно прозрачны при использовании
рисунков объединения и пересечения множеств (рис. 1.1). Опробовать рецепт
можно на проверке равенства

Р(А + В + С) = Р(А) + Р(В) + Р(С) - Р(АВ) - Р(АС) - Р(ВС) + Р(АВС),


а также в обшем случае n событий А 1, ••• , А,,:

Р(Е Ak) = Е P(A k) - Е P(A;A j ) + Е P(A;AjA k) -... . (1.3)


k k iJ i.j.k

АВ А+В А-В

Рис.1.1

Параллели лоrических высказываний с операциями над множествами исполь­


зуются достаточно широко. Событию -не А. отвечает дополнение А множества А
в П, а разность А \В, или А - В, интерпретируется как наступление А, но не В.
Наконец, симметрическая разность

А !:J. В = (А U В) \ (А n В)
обозначает событие, состоя шее в наступлении одного из А, В, но не двух вместе.
Пустое множество 0, считается, принадлежит n и символизирует невозмож­
ное событие. При этом Р(0) = О.
с учетом нормировки Р(n) = 1, очевидно, Р(А) + Р(А) = 1.
18 Глава 1. ОСНОВЫ В задачах и парадоксах

Перечисленные действия над событиями в совокупности с формулами


вычисления вероятностей позволяют решать многие задачи, не спус­
каясь на уровень рассмотрения пространства элементарных событий.
Это экономит УСШlия, но иногда затрудняет ориентацию.

Условна,. вероитность. Вероятность P(BIA) наступления В при


условии наступленияв то же время события А - называют условной.

Из всех 111; е А входят в В лишь IAJ;, принадлежашие пересечению АВ. Они­


ТО И определяют P(BIA). И если бы А было нормировано,то P(BIA) равнялоеь бы
Р(АВ). Нормировка А корректирует результат очевидным образом:

Р(АВ)
P(BIA) = Р(А) . ( 1.4)

Перезапись (1.4) в форме

I Р(АВ) = P(A)P(BIA) I (1.5)

называют формулой умножения вероятностей.

З8.ll8ча. Имеется три картонки. На одной - с обеих сторон нарисована буква А,


на другой - В. На третьей картонке с одной стороны А, с другой - В. Одна
из картонок выбирается наугад и кладется на стол. Предположим, на видимой сто­
роне картонки оказывается буква А. Какова вероятность, что на другой стороне -
тоже А?

.Одна вторая., - ошибочно отвечает интуиция, и причина заблуждения


далеко не очеВИдна. Дело в том, что картонка не только случайно выбирается,
но и случайно укладывается на одну из сторон. Поэтому логика здесь такая. Всего
имеется шесть нарисованных букв, из них - три буквы А, две на картонке АА
и одна - на АВ. Букву А из АА выташить В два раза более вероятно, чем из АВ.
Получается, вероятность того, что на столе лежит картонка АА, равна 2/3.

Если кого-то смушают картонки, то это - для простоты И краткости.


Реальные прикладные задачи описывать Il'омоздко, а читать скучно. Но таких
задач, где здравый смысл терпит фиаско, довольно много. И дело не в том, что
ахиллесова пята интуиции приходится на вероятность. Слабое место ИНТУИЦИИ
в другом. Взаимодействие всего двух факторов ставит воображение в тупик.
А комбинация многофакторности с наглядностью - в теории вероятностей
такова, что все время искрит.
1.5. Случайные величины 19

Формула Байеса. Разбиение f! на полную группу несовместимых 7)


событий А 1, ••• ,А п позволяет любое событие В записать в виде

= BA 1 + ... + ВА п ,
в

откуда Р(В) = P(BA 1) + ... + Р(ВА п ), и в силу (1.5) - получается


формула полной вероятности:

(1.6)

Пусть Р(А), Р(В) > О. Из

Р(АВ) = P(AIB)P(B) = P(BIA)P(A)


вытекает
_ P(BIA)P(A)
Р (А IВ ) - Р(В) ,

что после учета (1.6) приводит к формуле Байеса

P(BIAj)P(Aj)
(1.7)
P(AjIB) = L: P(BIAk)P(A k)'
k

сильно скомпрометированной безосновательными попытками ее


применения.

Неутихающее колоброжение вокруг (1.7) всегда определяла со­


блазнительная интерпретация. Если Aj это гипотезы с априорными
вероятностями P(A j ), то при наступлении события В в результате
эксперимента - формула определяет апостериорные вероятности
P(AjIB). Звучит красиво, но априорные вероятности, как прави­
ло, не известны. А поскольку с идеей расставаться жалко, P(Aj)
начинают трактовать как степень уверенности.

1.5. Случайные величины

Числовая функuия 8 ) X(UJ) , заданная на П, представляет собой слу­


чайную величину (с. в.). Примером может служить функция, прини­
мающая значения 1 или О при выпадении герба или решетки.

7) НепересекаЮШИХСR.
8) О необходимых yrочнеНИRХ см. главу 10.
20 Глава 1. ОСНОВЫ В задачах и парадоксах

Среднее значение т ж = Е (Х),

Е (Х) = I: X(UJ)P(UJ),
I&IEfI

называют ",атожидание",9) Х (UJ).


Математическое ожидание функции-индикатора XA(UJ) множе­
ства А,
A(UJ) ={ 1, если UJ Е А;
Х О, если UJ ~ А,
равно, очевидно, вероятности Р(А).
Матожидание представляет собой весьма важную характери­
стику случайной величины. Очевидно,

Е (аХ + /ЗУ) = аЕ (Х) + /ЗЕ (У).


Еше можно отметить: X(UJ) ~ о => Е (Х) ~ О.
На вид все очень просто, но, как говорится, в тихом омуге
черти водятся.

Парадокс траН:JН'ПIВНOCТII. Сравнивая случайные величины Х и У, будем говорить


.Х больше У по вероятностu», - если

Р{Х > У} > Р{Х ~ У},

т. е. вероятность неравенства Х >У больше 1/2.


Пусть пространство элементарных событий !1 состоит из 6 точек, в кото­
рых с. в. Х, У, Z, W с равной вероятностью 1/6 принимают значения согласно
таблиuе 10):

Х 6 6 2 2 2 2
У 5 5 5 1 1 1
Z 4 4 4 4 О О

W 3 3 3 3 3 3

Очевидно, Х = 6 с вероятностью 1/3 = 2/6. В этом случае Х > у независи­


мо от значения У. С вероятностью 2/3 = 4/6 величина Х равна 2. Тогда Х > У,
9) Математическим ОJlCИданием.
10) Фуикция Х, например, может быть реализована бросанием шестигранноil кости, грани
катораil помечены цифрами {6 6 2 2 2 2}.
1.5. Случайные величины 21

если У = 1, что имеет вероятность 1/2 = 3/6. Поэтому, с учетом формул умно­
жения вероятностей и суммы непересекаюшихся событий. итоговая вероятность
неравенства Х >у равна
1 2 1 2
3 + 3' 2 = з'
Аналогично подсчитывается, что У > Z, Z > W, - с той же вероятностью
2/3. Получается цепочка неравенств

х > у > z > W.


Возможность W > Х представляется в некотором роде дикой. Тем не менее
W >х с вероятностью 2/3 (!).

Парадокс ожидаиия серии. Какая в случайной .Оl.-последовательности 11) ком­


бинация, 00 или 01, появится раньше? Очевидно, равновероятно, поскольку
после первого появления нуля на следуюшем шаге возникнет либо О, либо 1, -
с вероятностью 1/2.
Напрашивается вывод. что среднее число шагов (среднее время ожидания)
тоо и mol до появления, соответственно, серий 00 либо 01 - тоже одинаково.
Но это не так.
... Пусть mo обозначает среднее число шагов до появления комбинации 01
при условии, что первая цифра .Оl.-последовательности оказалась нулем, а ffll -
среднее число шаroвдо появления комбинации 01 при условии. что первая цифра
.Оl.-последоватепьности оказалась единицей. Легко видеть. что

откуда

mo = 3, т. =5, fflOI = mo+т.


2
= 4.
Если же т~, т; обозначают аналоги то. т. в ситуации, когда речь идет
о появлении комбинации 00. то

• 1 1.
mo = 1 + 2 + 2 т ••
т~+т;
В конечном итоге это дает moo = = 6. Писать опровержения можно
2
80 многие адреса 12). ~

Не так удивительно, но заслуживает упоминания, что из

«и >V по верояmносmu~,

Подразумевается равная веРОЯТНОСТЬ ПОЯВllения нуля и единиuы.


.1)
12) ДополнителЬНУЮинформаuию можно найти в [221. см. также Li Shou- Уеn R. А mаniпgalе
8pproach 10 Ihe sludy of оссиrтeпсе of sequence pallems in repealed experimenls // Annals of
Prob. 1980. 8. Р. 1171-1176.
22 Глава 1. ОСНОВЫ В задачах и парадоксах

вообще говоря, не следует Е {И} > Е {V}, но U((IJ) > V((IJ), конеч­
но, влечет за собой Е {И} > Е {V}.
Заслуживаетупоминаниятакже оборотная сторона медали. ТВ,
как сильнодействующеесредство, не только спасает от заблужде­
ний, но и создает их.
Общепринятодумать, например, что в лотерею играть неразум­
но, поскольку матожидание выигрыша меньше стоимости билета.
В результате покупать лотерейные билеты приходится, оглядываясь
по сторонам.

При этом подсознательновсе понимают, что конечный денеж­


ный выигрыш может иметь бесконечную ценность. Покупка дома,
переезд, лечение, образование. Да мало ли что еще меняет судьбу,
и потому в деньгах не измеряется, хотя нуждается в той или иной
стартовой сумме. Почему же за 30 копеек не купить шанс? Взве­
шивание здесь только вредит. Но авторитет иероглифов формул
и таинственной терминологии создает гипнотизирующий мираж.

Другой пример - знаменитый _Петербургс"uй nарадо"с•. Если герб при


неоднократном бросании монеты выпадает в первый раз в n-й попытке, -
n
уча~нику игры вымачивается 2 рублей.
Математическое ожидание выигрыша,

1 1 n 1
2 • 2 + 4· 4 + ... + 2 . 2n + ... = 1 + 1 + ... ,
бесконечно. Поэтому, с точки зрения ТВ (как бы), )8 уча~ие в игре денег можно
)8матить сколько угодно - казино в любом случае проиграет.
Хороший пример на тему того, как респектабельная теория направляет ход
мыслей не в то русло, тогда как реальная »дача не стоит выеденного яйца. Кази­
но проигрывает в среднем, но в данном случае это не дает разумных оснований
судить об однораювой игре. Средние значения продуктивно работают в других
ситуациях, но не )Десь.

Рассмотрим упрошенный аналог. Монета бросается один раз, и падает маш­


мя с вероятн~ью 1 - г· оо . Выигрыш при этом с~вляет 1 рубль. На ребро
монета становится с вероятн~ью г· оо , И тогда выигрыш равен 2300 рублей.
МаТОЖИдание выигрыша ..... 2200. Но, очевИдНО, больше рубля за участие в игре
платить глупо. Потому что событие, имеющее вероятн~ь г 100 «никогда. не слу­
чается, и какая разница, сколько )8 него обещано. Испольювание маТОЖИдания
оказывается просто не к меС1)'.

в русле «Петербургского парадокса. было сломано немало копий при участии


великих математиков. В рамках Идеологии сходим~и (глава 4) это довольно
типичная ситуация, когда XN сходится по вероятно~и К нулю, а маТОЖИдание XN
стремится К бесконечно~и.
1.6. Континуальные пространства 23

1.6. Континуальныепространства

Пространство элементарных событий n часто имеет континуаль­


ную природу. Это может быть вещественная прямая или отрезок,
Rn либо его подмножество. За кадром здесь находятся вполне
естественные задачи. Вот два рядовых примера .

• Стер;»rень АВ ломается в точках Р и Q на три куска. Какова вероятность


того, что из них можно сложить треугольник?

.. в случае ж = АР, у = PQ возможность сло­


жить треугольник описывается неравенствами
А Р
I
Q
I ,
в

1 1
2 < ж + у < 1; Ж,у < 2'
которым на рис. 1.2 удовлетворяют внутренние точки
треугольника EPG. Если все точки {ж, у} равнооероят­
ны, то искомая вероятность

Р = St>f:PG = ~.
St>OCD 4
• во время боя в течение часа в корабль попадает два снаряда. Для заделки одной
nробоины требуется 15 минут. Если nробоина еще не заделана, а в корабль попа­
дает второй снаряд, - корабль тонет. Какова вероятность потопить корабль?
.. Если времена поп:uаний снарядов tl и t2 равномерно распределены
110 квадрату S размера 60 мин х 60 мин, то искомую lIероятность дает отношение
площади многоугольника {It, - t 2 1~ 15} n S к площади S. ~

Задачи подобного рода берут начало от классической задачи


Бюффона об игле 13) и предполагают, как правило, равномерность
распределения пара метров в некоторой области П. Вероятность по­
падания точки в подмножество А С n считается при этом равной
отношению площадей НА к SN, что выглядит достаточно логично.
Безмятежное отношение к такой идеологии сохранялось до столк-
14)
новения с парадоксом Бертрана .

в задаче Бертрана вычисляется вероятность того, что наугад взятая хорда


заданной окружности больше стороны вписанного праllИЛЬНОГО треугольника.

щ Игла дnиноА r бросается на плоскость, разграфленную параллельными прямыми,


отетояшими друг от друrз на расстоянии о > г. Какова вероятность того, что игла пересечет
одну из параллелеА? Ответ: р = 2r/(oll").
14) Вenrand J. Calcul des probabililes. Р., 1889.
24 Глава 1. ОСНОВЫ В задачах и парадоксах

Бертран рассмотрел три варианта параметров, определяюших положение


хорды:

• расстояние до центра и угол нормали хорды с осью х;

• угловые координаты точек пересечения хорды с окружностью;

• декартовы координаты середины хорды.

Во всех трех случаях вероятности оказались разными (1/2, 1/3, 1/4).

Казус пошел на пользу. Стало ясно, что внимательнее надо


изучать ситуацию неравномерного распределения точек в П.

Допустим, точки в n распределены с плотностью p(UJ) , причем


J
{}
p(UJ) dы = 1.

Тогда вероятность события UJ Е А определяется как

Р(А) = J
А
p.(UJ) dы,

а если на n задана случайная величина Х (UJ), в том числе векторная


X(UJ) = {X1(UJ), ••• , Xn(UJ)} , то матожидание равно

Е (Х) = J
{}
X(UJ)p(UJ) dUJ. (1.8)

Сделаем теперь важный ШDl. Изменим точку отсчета. Первичное ПРО­


странствоэлементарнbIXсобытий CbllPOllO свою ролЬ, и при необходимости
можно обойтись без него. во многих ситуациях это дает определенные
выгоды.
Урожайность капусты, например, случайнаR величина? По-видимому.
Но на нее влиRет столько факторов, что о НOIIичии глубинного n мы
можем только дагадываться. Госnодь бросает кости по ту сторону, а мы
тут наблюдаем результат - саму случайную величину. И даже в nростей­
шем случае бросаниR монеты - пространство -герб - решетка. лишь
агрегированная иллюзиR. PeOllbНoe n надо искать на другом уровне, где
об устройстве Вселенной известно немного больше.

Исключить исходное n из рассмотрения можно, переходя непо­


средственно на описание с. в. Х С помощью функции распределения:

11 F(z) = Р(Х < Z)·II


1.6. Континуальные пространства 25

Разумеется,

Р(Х < х) = !
Х<Ж
IL(U)) dU),

110 это остается за кадром. Таким образом, случайные величины


MOJyr характеризоваться непосредственно в терминах функиий рас­
пределения. Отказ от рассмотрения пространства элементарных
событий· носит, разумеется, условный характер. На самом деле одно
пространство заменяется другим. Происходит нечто вроде агре­
гирования. Пространством n случайной величины Х становится
пещественная прямая или ее подмножество. Вне поля зрения оста­
ется более глубокий уровень, если таковой имеется.

ОчевИlIНО, функция F(ж) монотонно возрастает (не убывает) и

Iim F(ж) = 1, Iim


%-+-00
F(ж) = о.
ж-""

Вместо Р(х) часто используют плотность распределения р(х),


связанную с Р(х) условием:

! р(u)
ж

Р(х) = du. (1.9)


-00

Из (1.9) следует

F(ж + Llж) - F(ж) = 76.Жр(и) du = р(ж)Llж + о(Llж),


z
откуда

I р(х) = Р'(х). I
Понятно, что для дифференцируемости Р(х) нужны предположе­
ния, но мы на этом не останавливаемся. Более того, далее исполь­
зуются - в том числе - плотности, содержащие 5 -функиии 15), что
позволяет единообразно охватить дискретно и непрерывно распре­
деленные случайные величины.

15) См. (5, т.2).


26 Глава 1. ОСНОВЫ В задачах и парадоксах

Аналогом равновероятных элементарных событий служит си­


туация равномерной плотности:

р(х) = { Ь - а' х Е (а, Ь];

О, х f/. (а, Ь].


При этом говорят о равномерном распределении Х на (а, Ь].

Если Х вектор. то в Р(х) = Р(Х < х) под Х <х подразумеВ;lется совокуп­


ность покомпонентных неравенств. Из

! ...!
I1 z"
F(xl, ... , X n ) = P(UI ..... un ) dUI о .. dun
-00 -iX)

вытекает

Вместо Р(х) и Р(Х) обычно пишут рх(х) и Рх(Х), помечая случайную


8еличину Х и аргумент х. Мы не только будем опускать и"декс,
но 8место Х будем иногда писать х. Конечно,это не 8nолне корректно,

! I (х)
ж

но не более чем dx. Строгие обозначения - не 8сегда благо. Если


из контекста ясно, о чем речь, обозначение тем лучше - чем проще.

в соответствии со сказанным 16) ,

Е (Х) = ! хр(х) dx.

При нежелании впадать в обсуждение деталей то же самое


пишуг в виде

I Е(Х) JXdF(X).!
=

16) Бесконечные пределы при интегрировании иноrда опускаются, - в ре)ультате ! 060-

!. Еше лучше скаэать, что I 060значает интегрирование по области определения


00

значает
-00
функции, стояшеА под интегралом.
1.6. Континуальные пространства 27

Далее хотелось бы сказать, что линейность оператора Е ,


Е (аХ + РУ) = аЕ (Х) + РЕ (У), (1.10)
очевидна. Но это не совсем так. В СИ1}'ации (1.8) подразумевалось, что случайные
величины MOryт быть разные, но мера p(c..r) на n одна и та же, - и тогда линейность
действительно очевидна. В данном случае Х, У могли «прибыть.. на (-00,00)
из разных П, к тому же предысторией уже никто не интересуется, Х имеет свою
плотность распределения, У - свою. Точнее говоря, надо рассматривать даже
совместнуК? плотность их распределения р(ж, у). Тогда

!!(аж + Ру)р(ж, у) dж =
Е (аХ + РУ) = dy

= а ! жр(ж) dж + Р ! ур(у) = аЕ (Х) + РЕ (У), dy

где, например, р(ж) = ! р(ж, у) dy.

Пояснение простого факта может показаться многословным, но здесь имеет


смысл потратить какое-то время, если речь идет о попытке осмыслить скелетную

основу ТВ. Исходное определение с. в. создает впечатление, что n задано, и время


от времени в рассмотрение включаются разные случайные величины. Реальная
картина обычно другая. Каждая с. в. приходит как бы со своей прямой (-00, (0),
и n постепенно расширяется с (-00, (0) до (-00, (0) х (-00, (0) и т.д.

Добавление к линейности Е трех аксиом типа Е (1) = 1 позволяет исполь­


зовать матожидание как отправную точку - вместо вероятности. Соответствую­
щий сценарий описан в книге Уипла [25]. Разумеется, при упрощенном взгляде
иа предмет особой математической разницы нет, поскольку вероятность возникает
тут же как матожидание функции-индикатора,

Р(А) = Е [ХА(Х)]'
Разница подходов начинает ощущаться на высоких этажах теории вероятностей,
где круг дозволенных неприятностей достаточно широк.
Но помимо матемаmческой - есть разница психологическая. Для кого-то
поняmе среднего значения может быть предпочтительнее понятия вероятности.

Прнмер. Случайная величина, принимающая значения из ограниченного проме­


жутка, всегда имеет матожидание. При распределении на бесконечном промежyr­
ке - не обязательно. Пусть с. в. Х распределена по закону Коши, характеризуемому
плотностью

Тогда
жdж
тж = I w(1 + ж2) = 00.
При переходе к моментам более высокого порядка СИ1}'ация только ухудшается.
28 Глава 1. ОСНОВЫ В задачах и парадоксах

1.7. Независимость

СоБЫТИЯ А и В называют незавuсu,Мы.мu, если P(BIA) = Р(В), т. е.


формула умножения вероятностей (1.5) переходит в

I Р(АВ) = Р(А)Р(В). I (1.11)

Из (1.11), в свою очередь, следует P(AIB) = Р(А).


Понятие независимости играет фундаментальную роль в теории
вероятностей, но (1.11) не вполне отвечает интуитивному понима­
нию независимости, что имеет смысл сразу оговорить.

Парадокс БернuпеЙна. Бросают две монеты. Пусть выпадение первой монеты


гербом обозначает событие А, второй - В. Наконец, С означает, что только одна
монета выпала гербом.
Для симметричных монет все три события попарно независимы, поскольку

1 1
Р(А) = Р(В) = Р(С) = -,
2
Р(АВ) = Р(АС) = Р(ВС) = 4' (1.12)
с независимостью А и В интуиция согласна, но не с независимостью А и С (или
В и С). И У нее есть основания. Независимость (1.12) имеет как бы .. арифме­
тический. характер, является результатом численного совпадения. Качественные
отличия взаимосвязей событий выявляются при нарушении симметрии монет.
Для несимметричных монет (с вероятностью выпадения герба :/: 1/2) свойство
независимости А и В вида (1.11) сохраняется, а вот равенства

Р(АС) = Р(А)Р(С) и Р(ВС) = Р(В)Р(С)

нарушаются,

Тем не менее именно «арифметическое. понимание (1.11) опре­


деляет независимость в теории вероятности.

В применении к случайному вектору с независимыми компо­


нентами Х = {Х" Х2} это дает

Р(Х, < XI, Х2 < Х2) = Р(Х 1 < XI)P(X2 < Х2),
что влечет за собой

и, как следствие,
1.8. Дисперсия и ковариация 29

Функции Р(х), Х2) и P(XI, Х2) называются совместными, соот­


ветственно, функциями и плотностями распределения случайных
величин Х] и Х2. Таким образом, если случайные величины незави­
симы, то их совместная плотность (функция) распределения равна
произведению nлотностей (функций). Это правило действует и в об­
щем случае n случайных величин - и принимается за определение
независимости.

Исходное определение n независимых событий имеет вид

Р(А, '" А.) = Р(А , ) ... Р(А.).


в сuенарии парадокса Бернштейнав случае (1.12) Р(АВС) = О при ненулевых
нсроятностях событий А, В, С, откуда ясно, что из попарной независимости А,
В, С - их независимость не следует.
Обратно. Возможна независuмость при отсутствии попарной независuмости.
Соответствуюший пример дает бросание двух упорядоченных костей (красной
и синей) (31]:
..~={(i,i): 1,2или5},

В = {(i,j): 4,5 или 6},


C={(i,j): i+i=9}.

Примеры подобного сорта свидетельствуют о наличии под­


водных течений, но на практике независимость обычно хорошо
работает, минуя аномалии. Это тем более справедливов отношении
случайных величин. Там накладывается требование независимости
не на два-три события, а на любые комбинации неравенств, что
исключает неприятности.

1.8. Дисперсия и ковариация

Скаляр

называеТС}l дисперсией СJlучайной величины Х, а

(1% = JD (Х)
- среднеквадратическим отклонением Х от своего среднего значе­
ния т х .
30 Глава 1. Основы в задачах и парадоксах

в силу линейности оператора Е :


Е (Х - m r )2 = Е (х 2
) - 2Е (X)m r + т~ = Е (х 2
) - т;.
2
Поэтому дисперсия D (Х) равна ра:JНОСТИ Е (х ) -т~, где Е (х ) так на:Jываемый 2

n
второй момент. Вообwе, Е (X ) именуется моментом n-го порядка случайной
величины Х, в соответствии с чем матожидание - первый момент.
Случайная величина Х - mr имеет нулевое матожидание, и ее Ha:JblвalOТ
центрированной, а моменты uентрированных величин - центральными. По этой
терминологии дисперсия - второй uентрanьный момент.

И:J суwествования Е (X n ) вытекает суwествование Е (X k ) при любом k ~ n,


причем Е (X k) ~ [Е (x,,)]k/n. (?)

Для двух случайных величин Х, у рассматривают смешанные


моменты Е (х"у ). Важную роль во многих ситуauиях играет КО­
т

вариация

11 сov(ху) ~ Е [(х - тхНУ - ту)] 11

и коэффициент корреляции

cov (ху)
Т ЖIl =
UЖ U
Il
Очевидно,

I cov (ХУ) = Е (ХУ) - mrm"


и cov (ХУ) = О, если Х 11 У не:JaВИСИМЫ. Но ковариаuия может быть нулевой
в случае :JaВИСИМЫХ Х, У.

Решим, например, такую :Jадачу, считая Х, У - uентрированными (для про­


стоты). Найдем приближение У случайной величиной Z = аХ по квадратичному
критерию:

Е (У - ах)2 -+ min . (1.13)


Приравнивая нулю проюводную (1.13) по а, получаем

2Е «У - аХ)Х) = О,
откуда

cov (ХУ)
а = О(Х) ,
т. е. при ненулевой ковариаuии (корреляuии) между Х и У сушеСТIlУет _линейная
:JaВИСИМОСТЬ. вида У =
аХ + W сненулевым коэффиuиентом а и случайной
величиной W, некоррелированной с Х, cov (XW) О. =
1.9. Неравенства 31

Практическое вычиCJIение корреляций часто nриводШlО к обнаружению -неожи­


дaHHЫV связей мистическоzo толка. При этом упускалось из вида, что причинная
с.язь и функциональная - совсем разные вещи. Например, nроцессы, nодверженные
иuянию солнечной активности, в результате МО2ут коррелировать дРУ2 с друzoм, а их
функциональная связь может быть иСnОЛЬ30flана дм nРО2НО3IJ, но не для оБЪJIсненuя.

Пример. Случайные величины Х и у=х 2 , при равномерном распределении Х


I проме~е [-1,1], - связаны жесткой функциональной зависимостью, но их
ковариация равна нулю,

1
ж(ж2 - т,)
соУ(ХУ) = f
-1
2 dж = О,
поскольку линейная составляюШ8А взаимосвязи oTcyrcтByeт.

Некоторыеучебникиот термина «ковариация»вообщеотказываются,


заменяя еzo КОРpeAIIЧ8еi Шlи корpeAlfц80нныNJllOIIIeNnlOJlf

Rжр = соу (ХУ)


и называя коэффициентом корреляции ту же -нормированную» вели­
чину

rжр= --о
R,.,
(0',.0',)
Это имеет свои минусы, но рй32ружает термиНОЛ02ию, и выглядит
nриe.wлемо.

YnpaJlDlеиия

• Если случайная величина Х принимает значения только иэ интервала (О, 1),


то 0',. < т,.. (?)
• (О',. - 0',)2 ~ 0',.+, ~ (О',. + 0',)2. (?)
• 0',.' 0', ~ 0',..,. (?)
• 0'; = min Е {[Х - а]2}. (?)
о

1.9. Неравенства

Неравенство Коwн-Буняковскоro17):

(1.14)

17) А1!ьтернативные наэВВНИII: нераtlенсmtю Шtlарца либо КОUlи-Шtlарца.


32 Глава 1. Основы в задачах н парадоксах

.. Из Е HAIX! -IYI)2} ~ Оспедует

А 2 Е (х 2 ) - 2АЕ (IXYI) + Е (у 2
) ~ О,

а положительность квадратного мноrочлена (от А) мечет за собой отрицательность


дискриминанта, что предстамяет собой доказываемое неравенство. •

Из (1.14) сразу вытекает, что коэффициент КОррeJJ1lции всегда по мoUyлю меньше


или равен единице.

Если 1р(х) ~ О - неубывающая при х ~ а функция, то

! 1р ! 1р !
00 00 00

dF(x) ~ dF(x) ~ 1р(а) dF(x) = 1р(а)Р(Х ~ а),


-00 а а

откуда

Р(Х ~ а) ~ Е ~~~)) при условии 1р(а)::/: О. (1.15)

Выбор 1р(х) = х 2 И IX - тжl в качестве случайной величины


дает иеравенство Чебышева:

О(Х)
P(IX - тжl ~ а) ~ -2-' (1.16)
а

Из (1.16) спедует, что оценка сверху среднеквадратическоrо отклонения


влечет за собой оценку сверху вероятности отклонения. это позволяет пере водить
разrовор из одной плоскости в друryю - от моментов к вероятностям.
Так сложилоеь, что (1.16) затмило друrие возможности. И меет см ысп держать
в памяти общее неравенство (1.1 S), из которого можно измека1Ъ более ПОдХодящие
спедствия дЛя конкретных задач. Например, неравенство Маркова

Р(Х > а) ~ Е (Х) при усповии Х ~ О


а

или

Р(lХI ~ е) ~ Е (I~I") • (k. Е, а> О).


t
1.9. Неравенства ЗЗ

Неравенство Колмогорова. Пусть последовательность независuмых


слу.,аЙных вели.,ин Х; uмeeт нулевые матожидания Е (Xj) = о
и D (Xj) < 00. Тогда

1 n
Р{mах IX, + ... + Xkl ~ Е} ~
k~n
2"
Е
L.
D (Xj). (1.17)
. ,=I

.. Пусть 8! обозначает сумму X 1 + ... + Xt ; Aj - событие, состоящее


"том, что

18j l ~ t, но 18;1 <с при всех i < j.


Объединение непересекающихся событий Aj есть событие А. означающее
max{18i l ~ t, i ~ n}.
Условная дисперсия

Е (8~IAj) = Е [(8п - 8j + 8j )2IAj ] =


= Е [(8п - 8j)2IAj] + 2Е [(8п - 8j )8j IAj ] + Е (8}IA j ) ~ t 2•
поскольку Е [(8п - 8j)2IAj] ~ О, второе слагаемое Е [(8п - 8 j )8j IA j ] О, так как =
8п - 8 j и 8 j независимы. потому что состоят из разных независимых слагаемых,
2
I Е (8}IA j ) ~ t - по определению Aj .
Поэтому
n n
Е (8~) = Е Е (8~IAj)P(Aj) + Е (8~IA)P(A) ~ t 2Е P(A j ),
j=1 j=1

что и есть (1.17). ~

Если бы максимум в (1.17) достигался при k = n, неравенство сводилось бы


К неравенствуЧебышева. Из (1.17), разумеется, следует
1 n
P{l8t l ~ t; k = 1' ... ,n} ~ 1- 2' Е D(Xj ).
t .
J=I

(!) Требование независимости с. в. X j В (1.17) можно ослабить до


Е (XjIX 1, ••• , X j _l ) =о (1.18)
при любом j, т. е. заменив независимость предположениемо равенстве условных
матожиданий безусловным. Обоснование несложно. Независимость X j при дока­
181еЛЬСТве неравенства (1.17) испольэовалась в двух пунктах. При обосновании
n
Е [(8п - 8 j )8j IAj ] =о и Е (8~) = Е D (Xj ).
j=1
34 Глава 1. Основы в задачах и парадоксах

То и другое остается справедЛИВЫМ без предположения независимости Xj , но при


условии (1.18).

Неравенство Ненсена. Пусть <р(х) - вогнутая фУНКЦUЯ (выпуклая


вверх) и матожидание Е (Х) существует. Тогда

I Е <р(Х) :::; Ip(E Х). I (1.19)

.. Для выпуклоil вверх Функuии !р(ж) всегда найдется функuия 18) ф(z)
такая, что

!р(ж) ~ 'Р(у) + ф(у)(z - у).

Матожндание этого неравенства при z= Х, у = ЕХ дает (1.19). ~

1.10. СnучаЙнь.е векторы

Если компонентыслучайного вектора Х = {X 1, ••• , Хп } независи­


мы, то Х - просто набор несвязанных друг с другом величин 19).
«Линейная часть взаимосвязей .. улавливается ковариациями

kjj = Е {(Х; - mj)(Xj - mj)} (т; = Е (Xj)),


которые объединяются в ковариационнуюматрицу К = [kij).
Корреляционная матрица R И3 К получается переходом к элементам

k,j
r,j= ~' ki , = D(X,).
yk"k jj
т. е. к коэффиuиентамкорреляuии.
Обе матрицы К и R неотрицательно определены, поскольку

L: kij~i~j = Е {Е(Хi - mi)~i} 2 ~ О.


ij ij

АналогичнодЛя R.

Метод наименьших квадратов. Допустим, на вход объекта (рис. 1.3)


действует случайный вектор Х = {X 1, ••• , Х п }. Скалярный вы­
ход У не определяется входом Х, поскольку еше действует нена­
блюдаемое возмущение'.

18) В гладком случае ф(ж) = <р'(ж).


19) По краАнеА мере, В веРОIIТНОСТНОМ смысле.
1.10. Случайные векторы 35

Задача состоит в построении линей­


ной модели 20)
,..--_I_z _-,
Z= LCjXj
4 Рис. 1.3
f
по критерию минимума среднеквадрати­

ческой ошибки:

Е (У - L CjXj) 2 -+ mjn .
j

... Минимум определяет равенство нулю проиэводных по С;:

д~j Е (У - L Ci Xi)2 = 2Е {(У - L CiXi)Xj } = О.


I I

Оптимальный вектор С, таким образом, является решением системы

где K r ковариационная матрица Х, а вектор ковариации K r, имеет координаты


Е {XjY}. ~

Обратим внимание, что задача по форме полностью совпа­


дает с поиском ближайшей к вектору у точки L CjXj, лежа-
i
щей в плоскости, натянyrой на векторы {XI, •.. , Х п }. Решение
последней - как известно - дает ситуаuия, в которой вектор

7/- L CjXj ортоroнален {XI, ... ,Х п }, т. е. все скалярные произве-


j

дения (У - L CjXj ) Х j равны нулю.


j
Это дает естественные основания считать случайные величины
с нулевой ковариаuией - орmогональны.мu. Никакой особой глу­
бины за этим нет, кроме возможности мыслить о с. в. В терминах
евклидовых пространств, что иногда раЗдвигает горизонты.

Модель Z = L CjXj обычно служит для прогноза У, что,


j
в свою очередь, является основой для принятия экономических или

20) В преДПQJIожении uенtpИрованности всех сnучаilных величин.


36 Глава 1. ОСНОВЫ В задачах и парадоксах

технологических решений 21). Проблему поиска оптимальных моде­


лей в рассмотренной постановке называют задачей идентификации.

Если линейное преобразование и = АХ преобразует случай­


ный вектор Х, то, как легко проверитъ, ковариационные матрицы
Ки И Кж связаны соотношением 22)
КU = АКжА Т , (1.20)

где А Т транспонированная матрица.


-
Равенство
(1.20) есть правило преобразования квадратичной
формы при переходе к другому базису 23). Поскольку квадратич­
ная форма всегда приводится ортогональным преобразованием А
к диагональной Форме, то от исходного вектора Х всегда можно
перейти к случайному вектору и = АХ снекоррелированными
компонентами.

1.11. Вероятностныеалгоритмы

добавление вероятностного фактора в детерминированныезадачи


иногда преображаетситуацию и дает существенныйвыигрыш. Суть
дела проще всего пояснить на примере.

Проблема выяснения простоты числа N считается пока пе­


реборной задачей. Малая теорема Ферма для любого простого N
гарантирует равенство

aN - 1
= I(mod N), a<N. (1.21 )
Нарушение
(1.21) означает, что N - составное. Но для некото­
рых составных чисел 24) условие (1.21) тоже выполняется, и поэтому
малая теорема Ферма - не очень хорошая лакмусовая бумажка для
различения простыIx и составных чисел. Однако возможна замена
(1.21) неким близким условием 25), нарушение которого хотя бы для

21) У может быть, напрнмер. котироакой акций либо параметром, карактериэуюшим эф­
фектианость работы химического реактора, прокатного стана и т. П.

22) Е {U;Uj} = Е {L Q,рQjqЖрЖq }.


p.q
2J) См., например, [5, T.3J.
Дли так наэыааемых чисел Кармайкла.
24)

Подробности и дополнительные ссылки можно найти а: Нестеренко Ю. В. Anгоритми­


2S)
ческие проблемы теории чисел // Матем. проев. 1998.3, ВЫП.2. C.87-114.
1.12. 06 истоках 37

ОДНОГО а <N гарантирует, что N - составное. Причем для лю­


бого составного N подходяших чисел а <N сушествует не менее
3
-(N
4 - 1) .
При случайном выборе а < N, таким образом, составное N
не классифиuируется как составное с вероятностью не большей
1/4, а ПQCле k проверок - с вероятностью не большей 1/4 1с • По­
сле 100 проверок вероятность ошибочной классификации числа N
имеет порядок 10-60.

КОJlJlекция задач подобного сорта на сегодняшниА день не так велика. Основ­


ные 1])уДНОСТИ заключаются в поиске удобных при знаков типа (1.21) дIIя решения
апьтернаПIВНЫХ вопросов. Известно много необходимых условиА различного рода,
но они в чистом виде, как правило, не годятся - по тоА же причине, что и (1.21)
в раССМО1])енной задаче.

в целом включение в поле зрения численных методов - веро­


ятностных алгоритмов - породило довольно интересную область
исследований. При этом на описанной выше схеме здесь дело
не зацикливается. По поводу идеологического разнообразия мож­
но упомянуть «нашумеВшyIOJJ) РСР-теорему. Вольная трактовка ее
примерно такова. Сушествует способ записи математических дока­
зательств; при котором проверка их правильности сводится к анали­

зу нескольких случайно выбранных мест, число которых не зависит


от длины исходного доказательства. Поверить, конечно, трудно.

1.12. Об истоках

в тв важную роль играют вопросы обоснования, что неред­


ко уводит изложение из сферы интересов широкой аудитории.
Нижеследующий текст призван снять некоторую долю напряже­
ния, возникаюшего в связи с употреблением терминов типа и-ал­
гебры.

При обобшении исходной вероятностной модели с конечным


множеством n на счетные и континуальные вариантыI n возникают
проблемы. Если в конечном случае можно без предосторожностей
рассматривать множество всех подмножеств П, то для бесконечных
множеств это уже не так.
38 Глава 1. Основы в задачах и парадоксах

Необходимость же договориться о том, какие подмножества n


попадают в поле зрения, возникает из-за того, что сумма и пе­

ресечение событий не должны выводить за рамки дозволенного.


Но тогда приходится требовать

А, В СП=> А uВ с П, А nВ с П, (1.22)
и рассматривать совокупность А подмножеств П, куда ВХОдЯт: са­
мо П, любое А принадлежит А вместе с дополнением, - и выпол­
няется (1.22). Такая совокупность А множеств называется алгеброй
подмножеств П, и - и-алгеброй в более общем случае, когда в А
входят любые суммы и пересечения счетных совокупностей Ak С А:

Термин «и-алгебра» обладает способностью отпугивать. Но здесь,


в крайнем случае, можно закрыть глаза. ПОНRтuя и-алгебры и меры
Лебега (см. далее) - это внутреннм кухнн ТВ, юридическаR часть.
Как бы лицензиR на право выnолнениR ра3llичных маниnУЛRциЙ. Если
речь идет об аппаратной сторане дела, то о и-алгебрах можно
забыть. Точно так же никто не помнит о дедекиндовых сечениях,
лицензирующих иСnОЛЫ08ание вещественных чисел.

далее возникает проблема задания вероятностей на П. в кон­


тинуальном варианте приходится задавать не P(LtJ), а вероятности
кубиков, например. Затем все происходит по схеме определения
интегрирования. Сложные фигуры (собьггия) аппроксимируются
совокупностями все более мелких кубиков, и пределы объявляются
интегралами:

Р(А) = !
А
p.(LtJ) dLtJ либо Е (Х) = !
fI
X(LtJ)p.(LtJ) dLtJ.

в итоге вероятностнымnространством называют непустое множе­


ство n с .узаконенным. семейством А его подмножеств и неотри­
цательной фуншией (мерой) Р, определенной на А и удовлетворя­
ющей условию Р(n) = 1, а также
1.12. Об истоках 39

ДЛЯ любой последовательности A 1, А 2 , ••• Е А взаимно непересека­


ющихся множеств А,. Другими словами, вероятностное простран­
ство определяеттройка (П, А, Р).
Подмножестваиз А называют событиями.
В зависимости от используемых схем предельных переходов
могуг получаться разные интегралы - Римана и Лебега. Интегри­
рование по Риману плохо тем, что чуть что - перестает работать.
Скажем, не интегрируются пределы функuий. На финише, прав­
да, такого почти никогда не бывает, но многие доказательства
рассыпаются. Присказка «интегрируя по Лебегу» обычно спасает
положение, потому что по Лебегу интегрируется почти все. Чтобы
подчеркнугь отличия, интеграл по Лебегу записывают несколько
иначе. Например, так

Е (Х) = J
fI
X((tJ)JL(df.u).

Интегралы Лебега и Римана совпадают, если оба существуют.


Поэтому интегрирование простыx функuий ничем не отличается
от обычного, а при интегрировании сложных - до вычислений
дело не доходит. Принципиальную важность имеет сама возмож­
ность интегрирования по Лебегу. Это сводит концы с концами.
Примерно как иррациональные числа. В приближенных вычисле­
ниях они не используются, однако, заделывая бреши, превращают
вещественную прямую в нормальное игровое поле. Но если о де­
декиндовых сечениях при этом можно даже не упоминать, то в тв
иногда требуется умение произносить фразу «интегрируя по Лебе­
гу .., не испытывая особого дискомфорта.

Множество !1 с заданной на нем и-алгеброй А называют измеримым nро­


сmрансmвом. В случае, когда n представляет собой вешественную прямую, -
6орелевская и-алгебра В ПОРОЖдается 26) системой непересекаюшихся полуинтер­
валов (а, 13]. Элементы В называют борелевскuми множествоми.
В случае !1 = RR борелевские множества определяются аналогично (как пря­
мые произведения одномерных).

Вешественная функция f(1IJ) называется измеримой относительно и-алгеб­


ры А, если прообраз любого борелевского множества принадлежит А. Если
А = В, функция f(1IJ) называется борелевскоЙ.

26) ВЭlIтием всевоэможных объединений и пересечеииЙ.


40 Глава 1. ОСНОВЫ В задачах и парадоксах

1.13. Задачи и дополнения

• Парадокс де Мере связан с бросанием двух иrpaльных костей. Вероятность


выпадения двух троек в k бросаниях равна, очевидно, Pk = 1- (3S/36)k.
Во времена Блеза Паскаля (ХУН в.) вычисление даже такого простого вы­
ражения при больших k было обременительно, и оценки часто делались
на основе правдоподобных рассуждений .• Одна тройка в 4 бросаниях выпа­
дает с вероятностью> 1/2. две тройки одновременно выпадают в 6 раз реже,
чем одна. Поэтому в 24 = 4 х 6 бросаниях естественно ожидать Р24 > 1/2•.
На самом деле Р24 ::::: 0,49.
Логические ошибки подобного рода довольно широко распространены на бы­
товом уровне .• Если лотерейный билет выигрывает с вероятностью р, то 2
билета - с вероятностью 2р •. При малых р в первом приближении это дей­
ствительно верно. Однако хотя бы один герб при двух бросаниях выпадает
с вероятностью 3/4, а не 2·(1/2) = 1.
• Двумерное неравенство Чебышева:

1+~
Р {{ IX - т .. 1~ Ul.. } U { IY - m,l ~ са, }} ~ с2 .

• Из обычной колоды вытаскивается карта. Если .пика. - это событне А,


если .туз. - В. Легко проверяется, что А и В неэависимы. Но если в колоде
есть джокер, - то это не так. (?)

• По поводу избытка парадоксов, заметим следуюwее. При изучении случайных


величин играют роль два фактора: вероятности и значения Х. Сознание же
не приспособлено следить за двумя параметрами одновременно. В результате
простейшие вопросы ставят в тупик.
Дonycтuм, Р{Х ~ О} =
Р{У ~ О} ~ 1/2, причем Х и У неэависuмы.
Вытекает ли отсюда Р{Х У ~ О} ~ 1/2?+
Нет. Если Х, Унезависимо принимают значения {-1, 2} с вероятностями
1/2, то Р{Х + У ~ О} = 1/4.
• в ТВ, как и вообwе в жизни, приходится решать нечетко поставленные
3адачи.

По равновероятноR выборке k чисел из N первых по счету - найтн


неизвестное N. Чем-то напоминает .угадать фамилию по возрасту., -
но 3адача, вообwе говоря, осмысленная.
Если с. в. Х - равна наибольшему числу в выборке, то

откуда при достаточно больших N


Nk
Е{Х}::::: k+ l'
k+1
Поэтому N оuенивается величиной -k-X' Детали уточняются в рамках

идеологии сходимости (глава 4).


1.1 З. Задачи и дополнения 41

• Задача о выборе HeвeC110l в миниатюре служит образuом задач об оптимальных


правилах остановки. Сuенарий выглядит так. Потенuиальному жениху при­
водят последовательно n девушек. В любой момент он может остановиться:
«вот моя невеста., - но возможности вернуться к какому-либо предыдущему
варианту нет.

Как гантели полезны для упражнений, но не для созерuания, - так и эта


задача. Думать можно над эквивалентным вариантом: последовательно про­
сматривая числа

в какой-то момент надо остановиться и выбрать {t (как можно большее).


Среди стратегий «просматриваютсяпервые т чисел, после чего выбирается
первое же, превосходящее все {I, ... , {т. - максимальную вероятность
выбрать наибольшее {t дает т, ближайшее к n/е. (?)

• Простота базовой модели теории вероятностей (пространство элементарных


событий f! с заданными на нем вероятностями)нелегко далась исторически,
и она нелегко достигается по сей день, ибо многие задачи к каноническо­
му виду сводятся с большим трудом. Эrо, конечно, не удивительно. Очень
простая схема, но в нее укладывается все разнообразие вероятностныхзадач.
Только «укладывание. требует иногда большой изобретательности. Поэто­
му для освоения тв необходимо развитие навыков решения задач. В хаосе
разнообразныхидей и технических приемов здесь есть наезженныепути и ха­
рактерные модели. Определенный интерес в этом отношении представляет
метод фНIП1IВНoro поrpужеНИJl.

Рассмотрим nародоксра:Jдeла ставки 27).


Матч до 6 побед nрекращен досрочно при счете 5:3. В какой nроnорции
разделить nриз?
Конечно, это не парадокс, а проблема. Проблема, а не задача, потому что
вопрос надо еще правильно поставить. Наиболее логичен был Ферма.

... Его идея - в гипотетическом nродолжении игры тремя фиктивными


партиями (даже если некоторые из них окажутся лишними). При равно­
вероятности всех 8 исходов второй игрок выигрывает матч лишь в одном
случае, - если побеждает во всех трех партиях, - поэтому справедливая
пропорuия 7 : 1. •
• Погружение задачи в более широкий круг фиктивных ситуаuий во мно­
гих случаях дает выход из положения либо обеспечивает дополнительные
удобства. Рассмотрим, для при мера, задачу Банаха.
В двух короб#€ах uмeeтCH по n спичек. На каждо'м шаге наугад выбираетСR
коробка, и из нее yдaлRетСR одна спичка. Найти веронтность Pt тога, что
в момент окончаниR nроцесса, т. е. оnустошениR одной из коробок, в другой -
остаетсн k спичек.

2'1 об исторических подробноеТIIХ см. (22).


42 Глава 1. Основы в задачах и парадоксах

.. Если одна коробка пуста, а в другой - k спичек, зто означает, что


спички брались 2п - k раз, причем n раз из (теперь уже) пустой коробки.
t
Поэтому Pt = Cfn_t/ 22n - . ~

При необходимости изучать задачу в целом (распределение Pt при разных k)


возникает определенное неудобство, связанное с выбором пространства эле­
ментарных событий П. Вариант опустошения одной из коробок в момент п+ j
происходит на фоне других вариантов, которые из-зо переменной длины имеют
разные вероятности. В итоге получается порочный круг. Для решения задачи
надо построить П, а для построения n требуется указать вероятности, кото­
рые ИшУТСЯ. Узел развязывает добавление к настояшим - фиктивных спичек.
Тогда в качестве n можно рассматривать n
i + ' ровновероятных вариантов
длины 2п+ 1. Такой длины всегда хватает для опустошения одной из коробок.
Глава 2

Функции распределения

2.1. Основные стандарты

Равномерное распределенне в промежyrxе [а, Ь) имеет плотность

р(ж) = -ЬI- ,

которой соответствуетфункшtя распределения

F(ж) =
:r

I р(и) du I
= -Ь-а I :r

du ж-а
=- -
Ь-а
-~ о

при ж Е [а, Ь). Разумеется, F(ж) = О при ж ~ а и F(ж) = I при ж ~ Ь.

Биномиальное распределение. Среди эталонных вероятностных мо­


делей осОбое место занимает схема бросания монеты, порождаю­
шая цепочки «герб-решетка»: ГРГГР ... Если при выпадении герба
писать единицу, решетки - нуль, модель будет генерировать слу­
чайные «ОI .. -последовательности:

10110 ...
При этом можно говорить о генерации двоичных чисел ВИда
0,10110 ....
В обшем случае в результате испытания (бросания, экспери­
мента) единица появляется с вероятностью р Е (О, 1), нуль - с ве­
роятностью q = 1- р. Появление единицы часто именуют успехом.
Проведение соответствуюших независимых испытаний называют
схемои, или последовательностью испытании Бернуми.
В силу независимости испытаний вероятности появления 1 или
О перемножаются. Поэтому вероятность в n испытаниях получить
k единиц в каком-либо определенном порядке (и, соответственно,
n - k нулей) - равна p"qn-". А поскольку k единиц расположить
44 Глава 2. ФУНКЦИИ распределения

в n разрядах можно числом способов c~, то вероятность получить


k единиu независимо от порядка их следования - равна

Набор таких вероятностей {Ро, ... ,Рп} называютбиномиальным


распределением (в серии испытаний длины n). Можно сказать, что
биномиальное распределение имеет сумма

где все с. в. Х" независимы и принимают два возможных значения


1 или О с вероятностями р и q = 1- р.

Легко проверить:

Е {Sn} = пр, D {Sn} = пр(1 - р), Е ([Sn - пр])} = пр(1 - р)(l - 2р).

На базе бросания монеты часто говорят об игре в «орлянку»:


герб - выиграл, решетка - проиграл. При этом удобно считать,
что Х" принимают значения не 1 и О, а 1 и -1. За этой схемой,
в свою очередь, подразумеваютиногда случайноеблужданиечастиuы
(или выигрыша).

Геометрическоераспределение. В схеме Бернулли вероятностьпояв­


ления k нулей перед первым появлением единиuы, очевидно, равна

Iр" = pq" 1· Совокупность этих вероятностей (при k = О, 1'2' ... )


называют геометрическим распределением 1). Вероятность первого
успеха, соответственно, равна

Р{Х = х} = pqX-I.

Несложный подсчет показывает:

1 q
Е{Х} =-, О{Х} = 2'
Р р

Геометрическое распределенне имеет случаАная величнна, равная числу испытаниА


1)
до первого успеха - число промахов до первого попадания, т. е. -число лягушек, которых

приходится переuеловать. пока не наАлешь своего принuа •.


2.1. ОСновные стандарты 45

В качестве механизма оргаНИ:JaЦИИ последовательных испытаний Бернулли


MOryт использоваться УРН08ые моделu. В урне находится k белых шаров и m черных.
k m
Вероятность вытащить белый шар равна Р = -k--' черный - q = -k--' При
+т +т
последовательном извлечении шаров возможны два варианта: шар, вытащенный
на предыдущем шаге, возвращается в урну или не возвращается.

Встречаются постановки 33дачи с б6льшим количеством цветов. По существу,


урновой является карточная модель с популярными 33дачами типа: .. из колоды
вытаскивается n карт - какова вероятность, что k из них одной масти?.

В основе урновых моделей лежит равновероятный выбор любого из шаров.


Симметрию нарушает раскраска ... Сложные. в данном случае события выбора
белого или черного шаров можно взять в качестве элементарных - ДЛЯ схемы
k
Бернулли. это дает готовый механизм обеспечения вероятности Р = -k--' +т

и ногда говорят, что погоду в теории вероятностей определяют


три закона распределения: биномиШlЬНЫЙ, НОРМШlьный и nуаееОН08­
екиЙ. Из дальнейшего будет видно, что из этой тройки два послед­
них можно в некотором роде исключить. Нормальное распределе­
ние и пуассоновское являются асимптотическими вариантами

биномиального.

Распределенне Пуассона, как и биномиальное, является дискрет­


ным, и характеризуется вероятностями

k
а -о
Р(Х = k) =-е (k = 0,1, ...).
k!

Легко убедиться, что


OD

а =L kP(X = k),
t=o
т. е. параметр а есть матожидание с. в. Х, распределенной по :JaKOHY Пуассона.
дисперсия Х тоже равна а.

Закон Pt = ate- a /k! получается из биномиального, если n -+ 00 и при этом


вероятность Р меняется так, что pn -+ а.
действительно, C:pt(l - p)n-t при условии р = а/п можно записать в виде
46 Глава 2. Функции распределения

Закон Пуассона получается с учетом

n/Q
а _1 (1 - ~) . .. (1 - "~I)
1-;;) -4е, ..:......--:~-~~~ -4 1 при n -4 00.
(1 - ~)"
(

Но генеалогическое древо пуассоновскоro распределения имеет


более важные ответвления (см. раздел 2.8).

НОРМ8JlЬИЫЙ закои распределеИИJl. Случайные величины, с которы­


ми приходится иметь дело на практике, чаще всеro подчинены нор­

мальному закону расnределенuя 2), имеющему lUlотности вида


1 _ (ж -";ж )2
р(х) = е 211ж (2.1)
{1z./2i
Различия определяются матожиданием т ж и дисперсией (1;. При­
меры графиков lUlотностей(2.1) изображены на рис. 2.1.

Рис. 2.1

Причины, по которым нормальный закон широко распростра­


нен в природе, анализируются в разделе 2.7. Для краткости речи
иногда используют обозначение АГ(т ж , (1;). Например, Лf(О, 1) обо­
значает нормальное распределение с нулевым матожиданием и еди­

ничной дисперсией. Функuия распределения ЛГ(О, 1) имеет вид

! е-,2/2
z
Ф(х) = ~ ds. (2.2)
-00

2) Нормальное распреlleJIение называют также гаУСС08ски.ll.


2.2. Дельта-функция 47

ИнтеJ1lал (2.2) не выражается через элементарные функции. Вместо ..c;raH-


дарта. Ф(х) используется также интеJ1lал

..
Ф(х) =.ffi II е-' I f2 ds,
о

связанный с (2.2) очевидным соотношением Ф(х) + 1/2 = Ф(х).

Упражнении

• Если Х и У распределены геометрически, то и Z = min{X, У} имеет


геометрическое распределение. (?)
• Если Х и У распределены нормально либо по Пуассону, тоZ =Х +У
имеет, cooтвeтcrвeHHo, такое же распределение.
(?)
• Если Х и У имеют функции распределения Р.. (х) и Р.(у), то С. в. Z =
mах{Х, У} имеет функцию распределения F.(z) = F.. (z)F.(z). (?)

2.2. Дельта-функция

Использованиедельта-функuийдля записи плотностей распределе­


ния сводит воедино непрерывные и дискретные задачи и позволяет

рассматривать смешанные задачи с плотностями

Плотность распределения пуассоновскоro закона, в частности,


имеет вид

00 ak _
Р(Х) =L k! е 4б(х - k).
k=O

Такого сорта выгоды иногда трактуются как чиc;rо технические нюансы, спо­
собствуюшие обозримocrи и единообразию результатов. Здесь можно добавить, что
удобства - это, как правило, вопрос жизни и смерти математической дисциплины.

Дельта-функция б(х) изначально определялась как предел единич­


ных импульсов 3) б.(х), прямоугольной формы либо колоколообраз­
ной (рис. 2.2), - при стремлении к нулю ширины импульса, Е -+ О.

3) ЕдИНИЧНОЙ ПЛОWадИ, J6.(ж) dж = 1.


48 Глава 2. ФУНКЦИИ распределения

При f ~ О никакого разумного предела в обыч­


ном смысле нет, но ситуации, в которых возникает

такая потребность, обычно сводятся к сходимости ин­


теграла

f 6е (х)<р(х)
00

dx ~ 11'(0) при f ~ О,
-00

что и закладывается в понимание предела

Рис. 2.2

Такое пониманиепредельныхпереходовработает во многихдругихСИ1Уациях,


составляюших базу теории обобшенных функций. где сначала вводится понятне
пространства 1) основных функций - бесконечно дифференцируемых фuниmных
функций. Финитных в том смысле, что 'Р(х) == О вне ограниченной области
(не обшей для всех, а своей для каждой rp Е 1).
Обобщенныефункции затем определяются как линейные функционалы f над 1),
ставяшие любой функции rp Е 1) в соответствие "скалярное произведение.. и. 'Р).
Простейший пример линейного функционала дает интегральное предстаВ11ение

!
(Х)

(f. 'Р) = f(x)rp(x) dx.


-(Х)

в соответствии с этой идеологией обобщенная ФУНКJlия 6(х) -


это «нечто», действующее на ФУНКJlии 11' Е 1) по правилу

f 6(х)<р(х)
00

(6,11') = dx = 11'(0).
-00

Что касается обычныхфункций ЛХ), 10 они одновременно- и обобщенные,


действуюшие на rp Е 1) в рамках определения скалярного произведения

(/. 'Р) = ! I(x)rp(x) dx.

Производные обобшенных функций определяются равенством

! !
(Х) (Х)

I'(x)rp(x) dx =- f(x)rp'(z) dx, (2.3)


-~ -00
2.3. Функции случайных величин 49

что можно воспринимать как результат интеrpирования по частям левого инте­

rpала. Обрашение в нуль слагаемоro


4j
I(Ж)'Р(ж)l~оо происходит из-38 финитно­
сти 'Р(ж).

для производной 6'(ж) равенство (2.3) приводит к

f 6/(ж)'Р(Ж) dж = 'Р'(О).
00

-00

Следствием (2.3) является таюке важное соотношение

I 8'(ж) = 6(ж), I
где 8(ж) - функция Хэвисаuда, единичная ступенька:

8(ж) ={ 1, ж > О;
О, ж < О.
.... Действительно, для любой функции 'Р Е 1)

f 8'(Ж)'Р(ж) dж = - f 8(ж)'Р'(Ж) dж = - / 'Р'(ж) dж = 'Р(О),


00 00 00

-00 -00 о

Т.е. производная 8'(ж) действует на 'Р так же, как 6(ж). ~

Замена переменных при интеrpированииприводит К формулам:

f 6(ж f 6(аж)'Р(Ж) dж = ;'Р(О).


00 00

- а)'Р(Ж) dж = 'Р(а),
-00 -00

Orметим, наконеи, соотношение

00

6(ж) = 2~ f
-00
e
iAz
d",

где несобственный интеrpал понимается как ero главное значение.

2.3. Функции случайнь,х величин

Если У = J(X), где f - обычная детерминированная функция,


аХ - случайная величина с плотностью р(ж), то среднее значение

4} ВоЭНИК8юшеro при ВЭIПИИ интеrpanа по частям.


50 Глава 2. ФУНКЦИИ распределения

У = j(X), очевидно, paBHo S)

d1l
----,I ту = Е (У) = / j(x)p(x) dx.
____ IL _

I
I Аналогично,
I

и: = D (У) = /[j(X) - ту ]2р(х) dx.


I
I
I

dx
Рис. 2.3 Если У = j(X) вектор, подобным
образом определяется и ковариация:

cov (1'iYj) = / (Ji(X) - myJ(Jj(X) - ту} ]Р(Х) dx.

с определением плотности распределения У = j(X) возни


немного больше. Из рис. 2.3 видно, что 6)
Р{у < J(X) < у + dy} = Px(J-I(у)) (j-I(у)]'lldУI, I
откуда функция распределения

Р(у) = Р{У < у} = / Px(J-I(у)) I(j-I(y)]'1 dy,


-00

а плотность7) -

(2.4)
где индексы х, у показывают, какие плотности подразумеваются.

Если Х и У - векторы, имеюшие одинаковую размерность, и

то
un
! ...!
и.

F(y) = Р{У < у} = Pr(h(y» det [:;;] dy,


-00 -00

. 5) Напоминаем. что бесконечные пределы в / иногда опускаютси.


6) Необкодимые оговорки здесь и далее очевидны и дли краткости - опушены.
7) ПОДр3зумеваетси. что у = '(х) имеет единственное решение при любом у. 06ший
случай рассматриваетси в следуюшем разделе.
2.4. Условные плотности 51

rде

дh]
рж(h(у» det ду; [ = р.(у),
а индексы ж, У показывают, какие плотности имеются в виду.

Упражнении

• Если F(ж) непрерывная функция распределения с. в. Х, то случайная вели­


чина У = F(X) равномернораспределена на 10,1]. (?)
• Пусть F и G непрерывные функции распределения с. в. Х И У. Torдa
проиэведение Z = ХУ имеет функцией распределения

! [1 - G(~)] ! G(~)
00

dF(,,) + dF(,,). (?)


-а:> о

2.4. Условные плотности

При известной функции распределения

F{u,v) = Р{и < и, V < v}


случайноГо вектора Х = {и, V} имеем

Fu{u) = Р{и < и} = Р{и < и, V < оо} = F{u, 00).


Аналогично,

I Fv{v) = F{oo, v). I


с друrой стороны,

! {! р(u,
• а:>

F.(u) = v) dv} du,


-('ID -ею

откуда

! р(u, !
00 а:>

р.(u) = v)dv, P.(v) = р(u, v) du.


-00 -а:>
52 Глава 2. Функции распределения

Условные плo11tости. Если события А и В означают, соответственно,


выполнение неравенств:

х < х < x+~x, У < у < У+ ~Y,


то при достаточно малых ~x и ~Y:

Р(АВ) :::: р(ж, у)6ж6у, Р(А) :::: р(ж)6ж, Р(ВIA) :::: р(уlж)6у.

Р(АВ)
Подставляя эти равенства в формулу P(BIA) = Р(А) и пере-
ходя к пределу при ~x, ~Y ~ О, получаем

_, ) _ р(х, У)
Р(11 х - р(х) , (2.5)

что определяет условную плотность вероятности p(ylx).

Объяснять такие формулы так же легко и сложно, как объяснять, что


такое чувство голодо. Для кого-то, возможно, легче заменить вероят­
ностную интерпретацию механической. Суть дела от этого не меняется.
Пластинка L единичной массы имеет плотность р(ж, у). Тогда

!
Р:r(Ж) = р(Ж, у) dy
L

это плотность распределения массы по ж, а Р(уlжо) - относительная


плотность роспределения массы в сечении ж = Жо. Точнее говоря, плот­
ность распределения в полосе

Жо < ж < Жо + 6ж
при нормировании массы полосы на единицу и 6ж -+ О.
в любом случае с этим стоит немного повозиться, чтобы исходные поня­
тия и тривиальные по сути соотношения не отвлекали при рассмотрении

более сложных ситуаций.

Из (2.5) вытекает часто используемая формула

I р(х, У) = p(Ylx)p(x). I (2.6)

Понятно, что в (2.6) х и У можно поменять местами.


2.4. Условные плотности 53

Условные матожидаНИJl. Через условную плотность определяются


любые условные моменты, в том числе условное матожидание:

Е (Ylx) = ! yp(Ylx) dy.

Условное матожидание представляет собой решение оптимиза­


ционной задачи
Е [У - <р(х)]2 --+ min, (2.7)

где минимум ишется по функции 11'. Решением оказывается

<р(х) = Е (Ylx),

т. е. <р(Х) = Е (YIX) представляет собой наилучшее среднеквад­


ратическое приближение зависимости У от Х, которое называют
регрессией.

.. Не углубляясь в детали, поясним сказанное. Приравнивая нулю вариа-

-
цию

Е [У - 'Р(х)]2 = !![У 'Р(ж)]2р(ж, у) dz dy,


получаем

!![у - 'Р(Z)]~'Р(Ж)Р(Уlz)Р(Z) dz dy = О,
откуда, в силу ПРОИЭ8ОЛЬНОСТИ вариации ~'Р(ж),

'Р(ж) = ! yp(Ylz) dy = Е (Ylz). •

ИСПОЛb:Jование дельта-функций. В случае жесткой функциональной


связи У = I(X) величина У принимает единственно возможное
значение у = /(х), если Х = х. Поэтому

I p(ylx) = б[у - I(x)], I


что влечет за собой

р(х, у) = рж(х)б[у - /(х)]

и, в силу

ру(у) = ! р(у, х) dx,


54 Глава 2. Функции распределения

приводит К формуле

!
ру(у) = рх(х)6[у - f(x)] dx. (2.8)

Интегрирование (2.8) в точках у, которым соответствуют про­


стые изолированные корни Xj(Y) уравнения У - f(x) = О, дает В)
~ pz(Xj)
()
ру У = ~ 1f'(Xj)l'
J
что совпадает с (2.4) в случае одного корня Xj(Y).

2.5. Характеристическиефункции

Соотношение (2.8) работает и в ситуаuии случайных векторов. для


суммы случайных величин Z = Х + У, в частности,

pz(Z) = !! Р(Х, y)6(z - Х - У) dx dy. (2.9)

Интегрирование (2.9) по 11 - дает

I
(Х)

P.(z) = р(х, z - х) dx. (2.10)


-(Х)

При независимости Х и У (2.10) переходит в

I
(Х)

P.(z) = рж(х)р.(z - х) dx. (2.11)


-(Х)

Формула
(2.11) предстааляет собой свертку плотностей, в свя­
зи с чем в ТВ оказываются эффективны 9) характеристические
функции (х. ф.) l!p(.\) = Е (е iЛХ ) 1, т. е.
!р(.\) = !е iЛz
dF(x),

8) Не:J8llИСИМО от тoro, коиечио или бесконечно число корней. Если мера множества
точек, rlle производнВJJ ,'(х) BыpoJКlleHB. - рввнв нулю, то это множесТ1lO МОJICИо просто
иrнорироввп. без ywербв .I1ЛJI решения 3В.I1Вчи.
9) О причинвх см. двлее.
2.5. Характеристические функции 55

либо

f р(х)еi>'Ж
00

If'('\) = dx, z·2 = - 1, -00 < ,\ < 00,


-00

ЧТО В несушественныхдеталях отличается от стандартногопреобра­


зования Фурье плотности р(х). При условии абсолютнойинтегрируе-

мости f ilf'('\) I d,\ < 00, т. е. If'('\) Е L" соответствуюшая плотность


однозначно восстанавливается «обратным преобразованием Фурье))

f 1f'(,\)e-i>'Жd,\.
00

р(х) = 2~
-00

Этот факт -территориально.принадлежитдругим дисциплинам, но ero обо­


снование. в том числе. можно найти во многих стандартных курсах теории веро­
Iтностеl!.

Если с. в. Х" ... , ХП независимы, то

Е (ei>'(X1+ ...+xn ») = Е (ei>.X 1 ) ••• Е (ei>'xn ), (2.12)


то есть х. ф. If'('\) суммы Х, +... + ХП равна произведению х. ф. сла­
гаемых: If'('\) = П If'k('\)' это обстоятельство И определяет замет­
k
ную роль характеристических Функuий в теории вероятностей.

Вот характеристические функции стандартных распределений:

распределение плотность х.ф. IpЩ

I - (r-'2.)1
нормальное р(ж) = --е т.
eim.A- !.. ~AI
(fr.,f[;
1 ei~ _ e iAiJ
равномерное р(ж) = -ь- -а
на (а, Ь)
iЛ(Ь - а)
а
e- аlА1
Коши
р(ж) = 1I"(ж 2 + а 2 )
а
показательное р(ж) = ae-ar , ж~О
а - iЛ
I _ I
показательное-2 р(ж) = -е Irl
2 I +Л 2
56 Глава 2. Функции распределения

Отметим простейшие свойства х. ф.

• Из IE(ei),X)1 ~ Elei),XI следует 11p('\)I ~ 1.


• Если 'р('\) - х. ф. случайной величины Х, то У = аХ + f3
имеет характеристическую функuию ei),fJlp(a'\).
• Разложение в ряд экспоненты 'р('\) = Е (ei),X) при водит к

'р('\) = f; k!
00(i,\)k k
Е (Х ), (2.13)

что - В связи с 'р('\) = f;


00 (,\)k
lp(k)(O)"k! - означает

Е (X k ) = гklp(k)(о), (2.14)
но для этого, конечно, требуется сушествование моментов
Е (X k ). Однако, если моменты Е (X k
) сушествуют для k ~ j, то
можно утверждать, что (2.14) справедливо для тех же k ~ j. (?)
Таким образом, при известной х. ф. определение моментов
сводится к простому вычислению производных Ip(k)(o).
• Вместо характеристических функuий иногда удобнее рассмат­
ривать их логарифмы. Соответственно, вместо моментов
(2.14) - коэффиuиенты

lIk =
·-k
Z
dk In 'р('\)
d,\k
I '
),=0

называемые семиинвариантами. Семиинвариантысуммы неза­


висимых с. в. равны суммам семиинвариантов слагаемых. (?)
Очевидно, у нормального закона все семиинварианты выше
второго порядка равны нулю.

"р"мер. Пусть независимые с. в. Х И у распреllелены равномерно, соответствен­


но, на промежутках [-а, аl и [-ь, ы (а < Ь). ТОГllа Z =Х + у имеет плотность
а Ь

P.(Z) = 11 р(ж, y)6(z - z- у) dz dy = 4:Ь 116(Z - z - у) dy dz,


-а -6

где р(ж, у) = рж(ж)рu(у).


Интегрирование приводит к функции P.(z), график которой изображен
на рис. 2.4. При а = Ь получается треугольное распределение.
2.6. Производящие функции 57

Если Z =Х +у и слага­
емые распределены нормаль­ р

но, то перемножение харак­

теристических функций

ехр {imz>t - ~0";>t2 } z


и Ь-а а+Ь

ехр { irny>t - ~0"~>t2 }


Рис. 2.4

дает характеристическую функцию z:


. I 2 + 0""2) >t 2} ,
ехр { z(m z + ту)л - 2(0":r

откуда видно, что сумма нормально распределенных с. в. тоже нор­


мально распределена, причем матожидания и дисперсии просто скла­
дываются.

Перемножение характеристических функций сразу дает анало­


гичный результат, если слагаемые в Z = Х +у имеют распределе­
ние Пуассона или Коши. Получение тех же выводов без х. ф. более
громоздко.

2.6. Производящие функции


Есть такая задача о взвешивании ,Монет. В одно'м из 100 ,Мешкав находятся фаль­
шивые ,Монет",. Настоящая ,Монета весит 7 2ра'м'м, фальшивая - 6. Надо с nО'мощью
однО2О взвешивания определить ,Мешок с фальшивыми .монетами.

.. Мешки нумеруются, после чего из k-ro мешка измекаются k монет,


и эти N = 1 + 2 + ... + 100 монет все вместе взвешиваются. Число недостаюших
до 7N грамм будет номером _фальшивого. мешка. •

Вымышленная задача отражает в миниатюре идею, примени­


мую в широком диапазоне различных ситуаций.

Опредеnение. Производящей функцией числовой последовательно­


сти йо, й,. Й2,'" называется ряд
00

A(z) = L:: Qk zk .
k=O
58 Глава 2. ФУНКЦИИ распределения

Как совокупность 1 + 2 + ... + 100 монет несла на себе всю


информацию о задаче, потому что из каждого мешка бbUlО взято
разное число монет, - так и производяшая функция A(z) несет
на себе всю информацию о последовательности ао, а1, а2, ... , по­
тому чтоak умножаются на z в разных степенях. После такого
умножения члены akzk можно безопасно складывать вместе -
информация не теряется 10).

Разумеется, эффект от использования произвоnяших функuий возникает,


если ряд L a"z" удается свернуть. Широко известна производяшая функuия
n
(1 + z)n = L C:z", порождаюшая различные связи между биномиальными
,,=0
коэффиuиентами:

n n

z=1 => L-J (.,-0


""' "" - 2 ,'
n
z =-1 => Е(-1)"С: = о.
,,=0 ,,=0
Более интересные примеры см. в [24J.

Если случайная величина Х принимает дискретные значения


Х = k с вероятностями Pk, то

00

П(z) = LPk zk
k=O

называют производяшей функцией с. в. Х. в обшем случае цело­


численной случайной величины Х производяшая функция

с характеристической функцией !р(>') ее связывает соотношение

При упоминании геометрическоrо распределения иноrда имеют в виду число


промахов k до nepBoro попадания - и Torдa р" = рч". А иноrда - номер z
nepBoro попадания, и Torдa рж = рqЖ-I. В последнем случае

П(z )
'"'
= Е {z Х} = ""'
L..J рч ж-I z ж = --.
pz
ж=1 1-qz

10) Аналогичным образом получаются рЯды Фурье.


2.7. Нормальный закон распределения 59

дискретное распределение дискретная 1UIотность х.ф. 'р(.\) n.ф. п(z)

биномиальное Pt = c:.pt qn-t (piA + q)n (pz + q)n

Р Р
геометрическое Pt = pq" 1- qe iA I-qz
t
a -о eO(.iA- 1) e-O(I-.)
пуассоновское
Pt = k! е

Первые моменты определяются исходя из формул

Е{Х} = П'(I), Е {х 2 } - Е {Х} = П"(I). (2.15)

Упражнення

• Для независимых с. в. Х И у

I Пх+у(z) = Пх(z)Пу(z). (?)

• Если
"" = L""
п(z) = :~::>"zt, T(z) q"zt,
t=o "=0
где q" = РНI + РН2 + ... - вероятности .. хвостов" распределения, то

T(z) =I- П(Z). (?)


\-z
• Если с. в. Х имеет распределение PI, Р2 • .•.• то в обозначенияхпредыдушего
пункта:

"" ""
Е{Х} = ЕА:р" = Lqt
"=1 11=1

либо, на языке производяших функuий,

Е {Х} = П'(I) = T(I).

2.7. Нормальный закон распределения

Широкое распространениенормального закона 11)

р(х) = ~e-x2/(2и\ (2.16)


211"0'2

11) Дnя простоты положено т .. = О.


60 Глава 2. Функции распределения

естественно, требует объяснения. Происхождение (2.16) принято


относить на счет предельных теорем о суммах независимых случай­
ных величин. Об этом речь будет идти в следующих главах, но есть
и другие причины, которые представляются не менее важными.

Как это часто бывает, многое становится ясным при помещении эa.nачи
в более щирокий контекст.
Вместо случайной величины рассмотрим случайный вектор

ж = {жl •... , ж n }
С неЗQSUСUJIIЫJIIU координатами жj и плотностью распределения р(ж), не зависящей
от направления 12) ж.
Этих .. необременительных. предположений достаточно, чтобы гарантиро­
вать нормальное распределение всех Жj. Обоснование несложно. Независимость
координат означает

(2.17)
а независимость р(ж) от направления ж - постоянство плотности р(ж), равно
как и ее логарифма
Iпр(ж) = IПРI(Ж) + ... + Iпрn(ж) (2.18)
на сферах ж~ + ... + ж~ const. =
Дрyrими словами, функиии (2.18) и ж 2 = ж~ + ... + ж~ имеют одни и те же
поверхности уровня, а это возможно, лищь когда их нормали (градиенты) колли­
неарны (одинаково или противоположно направлены), т. е.

Vlпр(ж)=>.vж 2 ,
что дает n равенств

Р;(Жj) + 2>' ж.. = о ,


Р; ж( )

интеrpирование которых приводит к In Рj(Жj) = ->.ж: + const, т. е.


-А.,1
Р; (жj) = JJje '.
Константы определяются нормировкой и эa.nанием, например, второго мо­
мента

! JJje-А.,j dж = ! ж:
01> 00

1, !Jje -А.,1 dЖj = и 2 •


-01> -01>

Окончательно

Р ж () = (27fU 2)-n/2 ехр


{
- ж~ ... + ж~ } .
+~
2
(2.19)
v27fu

12) MoJICНO имen. В ВИДУ стрельбу по плоской мишени с вертикальным отклонением %I


И ГОрИЮнтaJIьным - %2.
2.7. Нормальный закон распределения 61

Под нормальным распределением случайного вектора в общем


случае вместо (2.19) подразумевают плотность (2.17) с нормальными
плотностями

Pi(Xi) =
1
.Jii ехр
{(Х;
-
- т2 жj )2 } •
q Жj 211' 2q Жj

Т.е.

рх(х) = J (2'11')n1det K ехр


I - m ) т K _1 (х - m ) }
{ --2(Х •
r r r
r

где Кж - ковариационная матрица, которая в данном случае


диагональна, с элементами q;j на диагонали.
Если рх(х) - плотность случайного вектора х = {х ..... ,х n }, то

представляет собой плотность случайного вектора У = АХ, где А - невырож­


денная матрица.

Линейное преобразование У = АХ нормально распределенного вектора Х


при водит к плотности

1
ру(у)=-уехр { -2(у-а) К, (у-а)
т _1 }
,

с коэффициентом -у, определяемым нормировкой плотности, а

в соответствии с этим вектор Z считается нормально распределенным, если его


плотность равна

где К,. как уже ясно, ковариационная матрица 13).

При данном способе изложения понятно, что 'многО'мерный


нормальный закон распределения (2.20) при обратном линейном
преобразовании снова возвращается к форме с нормально распре­
деленными незавuсu,Мы,Мu координатами.

13) Ра]умеется. в (2.20) предполагается невырожденность К •. Знак модуля С определите­


ли К, снят, поскольку det К, > О в силу ПQJIожительиоА определенности К., см. ра:шел 1.8.
62 Глава 2. Функции распределения

Философски настроенной части населения больше нравится интерпретация


нормальноro закона как распределения, максимизируюшего энтропию (глава 8).
Точнее roворя, }/(т, 0'2) есть решение оптимизационнойзадачи:
(Х)

н = / р(ж) lп р(ж) dz -+ тах


-(Х)

при ограничениях

(Х) (Х) (Х)

/ р(ж) dz = 1, / жр(ж) dz = т, / ж2р(ж) dz = 0'2 + т2 .


-(Х) -(Х) -(Х)

Складывая Н с ограничениями, умноженными на множители Лагранжа


~,p,II, И варьируя р(ж), получаем нулевую вариацию Лагранжиана:
(Х)

/ {(1 + In р(ж» + ~ж2 + рж + 11 }~р(ж) dz = О,


-(Х)

откуда, в силу произвольности ~р(ж), следует

1 + lп р(ж) + ~ж2 + рж + /1 = О р(ж) = е- Лz2


=> -,.,.-V-I.
После согласования значений пара метров с ограничениями задачи - полу­
чается IUJотность, соответствуюшая }/(т, 0'2).

2.8. ПуассоновскиеПОТОКИ

Последовательностьсобытий, происходяшихв случайные моменты


времени, называют потоком событии. Это один из мошных пла­
стов вероятностныхзадач. Телефонные вызовы, аварии, обрашения
к оперативной памяти, заявки, посетители - список примеров
практически неисчерпаем.

Рассмотрим поток событий, обладаюший следуюшими свойствами:


• количества событий, поступаюшие на непересекаюшихся интервалах време­
ни, независимы как случайные величины;

• вероятность ПОC1YJ1Ления одного события за малый промежyroк ~t зависит


только от длины промежутка и равна ~~t + o(~t), rдe ~ > О, o(~t)
бесконечно малая от ~t;
• вероятность ПОC1YJ1Ления более одного события за время ~t есть o(~t).

... Разобьем интервал (О, t) на n равных частей ~I"'" ~n' И пусть Xt(~t)
обозначает число поступивших событий на промежyrке ~t,

P{Xt(~t) = 1} = ~t(~) + o(~).


2.8. Пуассоновские потоки 63

в соответствии со сделанными предположениями производяшая функция Пn(.z)


последовательности Pi = P{Xt(~t) = j} не зависит от k и равна

Производяшая функция суммы XI(~I) + ... + Xn(~n) вычисляется как произве­


дение

в пределе при n -+ 00 получается производяшая функция числа событий X(t).


поступивших на интервале (О, t):

п(z) = ~~~ [1 + M(~) (: _1)] n = е'\/(z-I).


Соответствуюшее распределение вероятностей

P{X(t) = j} = (~!i е-'\/ (j = О, 1'2' ...)


).

оказывается пуассоновским. Постоянная .л определяет среднюю интенсивность


EX(t)
поступления событий, .л = -t-' •

Проведенное рассуждение имеет пробел. Необходимо, вообше


говоря, обосновать, что из сходимости производяших функций вы­
текает сходимость распределений вероятности. В данном случае это
достаточно просто, но в принципе такого сорта вопросы постоянно

возникают в тв - см. главу 4.

Рассмотренная задача легко обобшается на случай интенсив­


ности ..\, зависяшей от времени. Результируюшее распределение
остается пуассоновским с учетом небольшой поправки:

J.& = ! ..\(Т)
О
dT. (2.21 )

Временная интерпретация t, разумеется, необязательна. Речь


может идти о распределении точек на любой числовой оси. А если
вдуматься, то размерность t тоже не играет роли. Распределение
Пуассона возникает и в случае распределения точек в пространстве
при тех же исходных предположениях, в которых под t:1t надо лишь
пони мать малые объемы. В итоге случайное число точек в области n
64 Глава 2. ФУНКЦИИ распределения

снова подчиняется распределению (2.21), с той разницей, что р.


определяется как

р. = f '\(Т) dT.
n
Опыт обшения со С1)'дентами показывает, что закон Пуассона
часто остается «вешью В себе~, не находЯ путей к подсознанию.
Положение легко выправляется размышлением над задачами.
Допустим, случайная величина (, равномерно распределенная
на (О, Т), реализуется n раз, что приводит к появлению на проме­
жутке n точек. Сколько точек попадает в область

n Е (О, Т)?
Конечно, это в чистом виде схема Бернулли с вероятностью
попадания отдельной точки в П, равной р = 1fT, где I длина (мера)
П. Вероятность попадания k точек в n определяется биномиальным
распределением C:pk(1 - р)п-k, и далее проторенным в разделе 2.1
путем можно переходить к распределению Пуассона.
для подсознания важна интерпретация этого пути в исходных
терминах. Интервал (О, Т) и количество «бросаний» n увеличива­
ются согласованно. Так, чтобы среднее число точек на единицу
длины сохранялось. Вот, собственно, и вся специфика предельного
перехода. Значения Т и n увеличиваются в одинаковое число раз,
и тогда предельное распределение числа «попаданий~ в n оказыва­
ется пуассоновским.

Экспоненциальное распределение. При пуассоновском распределе­


нии вероятность отсутствия событий на (О, t) равна e-~t. Поэтому,
если с. в. t. > О - это время наступления первого события, то
P{t. > t} = e-~t, а значит,
P{t 1 < t} = 1 - e-~t. (2.22)
Дифференцирование (2.22) по t дает плотность эксnоненцuального
закона

p(t) = '\e-~t, t ~ О.

Из сказанного очевидно, что экспоненциальный закон пред­


ставляет собой непрерывный аналог геометрического распределе-
2.9. Статистики размещений 65

ния - времени наступления первого успеха (события, ПОС1)'пления


первой заявки, рекламаuии и т. п.).

Показательное распределение случайного времени ожидания возникает в си­


туации, когда ожидание в течение времени s не влияет на то, сколько еше

придется ждать, т. е.

Р{т > s + tlT > а} = Р{т > t},


что и приводит к Р{т > t} = е-М, t ~ О.

2.9. Статистики размещений

Как путь в большой спорт пролегает через подтягивание на турнике,


так и в теории вероятностей есть простые модели того же назна­
чения. Одна из них - размешение шаров по ячейкам. Шары, как
и ячейки, могут быть неразличимы либо пронумерованы. Шаров т,
ячеек n. Для создания атмосферы важности говорят о размешении
элементарных частиu по энергетическим уровням. Не менее зна­
чимо иногда распределение карт меЖдУ игроками, людей по мес1)'
работы, аварий по дням недели и т. п.

Если шары и ячейки различимы. то в ячейках т" .•. , т п n


Т!
шаров могут быть размешены числом способов . Если все
. т,! ... т п !
такие способы равновероятны, а их всего nr , то соответствуюшее
распределение имеет вид

Т! -r
Р(т], ... , тп ) = n
TI!'" т п !

И называется статистикой Максвелла-Больцмана.

Если шары (частиuы) неразличимы, то число В(т, n) всевоз­


можных распределений равно числу uелых решений TI, ••• , т п урав­
нения TI +... + Т п = т. Это самостоятельная комбинаторная задача.
• Воспользуемся. для тренировки, методом производяши)( функций 14).
Очевидно, функция

1:1 < 1,

14) Задача совсем просто решается переформулировкоА. Выстраиваем шары в ряд, и делим
их на n I1>УПП n - I ]Впиты""и. Число ра1JlИЧИМЫХ способов: С;+п-I .
66 Глава 2. ФУНКЦИИ распределения

при разложении в ряд ПОРОЖllает нужные коэффиuиенты.

(1 - z(n
"" B(r, n)z' .

• =0

В результате

1 (.)() n(n+1) ... (n+r-1) •


В (r, n ) = -r! п о = r.
I = C.+ n- I • •

При условии равновероятностиразличных способов возникает


распределение

1 ,!(п - l)!
P(r, п) = B(r, п) = (n+r-l)!'
называемое статистикой Бозе-ЭЙнштеЙна.

При дополнительномзапрете «ячейка не может содержатьболее


одного шара~ получается статистика Ферми-дирака:

,!(п - ')!
Р (r
,
n) = -C~1 = ----'---'-
п!'
r ~ п.

Все очень просто, но в этом и заключается секрет «подтяl1tвания на турни­


ке •. Pyrинная возня с простыми моделями дает навык обрашения с различимыми
и неразличимыми вариантами. А это как раз граниuа между правильными и не­
правильными решениями.

2.10. Распределениепростых чисел

Вероятностный стиль рассуждений эффективно работает и на «чу­


жих территориях~, где все детерминированно.Показательна в этом
отношении задача о распределении простых чисел.
Количество простых чисел 15), не превосходяших х, - приня­
то обозначать через 1I'(х). С указанием всех простых чисел легко
(идеологически) справляется решето Эратосфена, реиепт которо­
го очень прост. Из записи всех натуральных чисел вычеркивается
1- первое невычеркнутое число 2- простое. далее зачеркиваются
числа, деляшиеся на 2, число 3- первое невы черкнутое - простое.
И так далее.

15) Не имеюших. по опре.пелению, .пелнтелеА кроме 1 и самого себя.


2.10. Распределение простых чисел 67

При этом ясно, что в промежугке (ж, ж + ~жl доля чисел,


деляшихся на простое р, равна l/р, а не деляшихся - (1 - l/р).
Доля же чисел в этом промежугке, не деляшихся ни на одно простое
число, равна

(2.23)

причем ясно, что говорить имеет смысл о простых р меньших .;х,


и о дж « ж, но ~ж > еж при некотором малом е > О.
Самих простых чисел на (ж, ж + ~ж] будет

р(ж)~ж ~ 1Г(ж + ~ж) - 1Г(ж),

т. е. р(ж) играет роль плотности, а формула (2.23) получается из


«предположения О независимости,. событий делимости любого на­
турального k на разные простые числа.

Дальнейшее опирается на манипуляции оасимптотического толка., несколь­


ко злоупотребляюшие ссылками на здравый смысл.
Для больших Р приближенно: 1- I/p e- / p .
I
= Поэтому

Iпр(ж) =- L -,
I
1 Pk
где Pk обозначает k-e простое число.
В промежутке [ж, ж + ~жJ, в силу ~ж« ж, можно считать Pk ..... ж, И сумма
по этому промежутку

L -1 . . . -р(ж)~ж.
Рl
1
Ж

откуда

Iпр(ж) =- "LJ -I ..... -


Р1
! р(и)
z

-du,
u
1 I

что после дифференциронания по ж при водит К уравнению

р'(ж) р(ж) dp dж
--=-- => р2 =-"Ж
р(ж) ж

решение которого р(ж) = 1/(С + In ж) при больших ж переходит в

I р(ж) ~ Iпж
I I
68 Глава 2. Функции распределения

Что касается ",(ж) , то

",(ж) =
J du
2
%
-
1п u
= -
Z
1п Z
{1
1+ -
1п Z n
r!
+ ... + -1-'- +0
Z
(1) }.
---;::;:т-
ln Z
(2.24)

для примера, точное значение ",(4000) = 550. Первые три члена разложения
(2.24) дают приближение ",(4000) == 554.

2.11. Задачи и дополнения

• Будем считать в данном пункте, что речь Идет о случайных векторах с нулевы­
ми матожиданиями. Любой случайный вектор Х линейным преобразованием
у = АХ приводится к вектору У с некоррелированными координатами 16).
действительно, матожидание матричного равенства

ууТ = АХХТАТ
дает К, = АК%А Т
• Неотрицательно определенная ковариационная матри­
ца К% всегда может быть приведена 17) ортогональным преобразованием А
к диагональному ВИду К,.

• Плотность распределения Коши


1
р(ж) = ",(1 + ж2) (2.25)

имеет с. в. Х = (1/(2, где независимые с. в. (, И (2 распределены нормально


по закону N(O, 1). Такая же плотность распределения у tg 11 при условии
paBHOMepHoro распределения 11 на [-",/2,"'/2).
Распределение Коши имеет дурную славу, поскольку обычно извлекается
на свет, когда надо продемонстрироватьсушествование "плохих. законов,

не имеюших моментов.

• Если все с. в. X 1, ••• , XN независимы и имеют одинаковое распределение


(2.25), то

распределена по тому же закону. (?)


• Если /(ZI, ... , Zn) -
n
совместная плотность вектора Х = {х., ... , Xn }, то
сумма S = Е хt имеет плотность

16) А в случае нормально распределенного Х - к &eIC1'OPY У с не:J8ВИСИМЫИИ координа­


тами.

17) См. (5. т.31.


2.11. Задачи и дополнения 69

• Проекция радиус-вектора Х, равномерно распределенного на окружности


ралиуса r, имеет функцию распределения

I 1 ж
F(ж) = -2 + - arcsin -, ж Е (-r, r),
'" r
при естественном условии F(ж ~ -r) = О и F(ж ~ r) = 1. (?)
Соответствующая плотность:

, I
р(ж) = F (ж) = ~2' Ж Е (-r, r).
"'vr 2 - ж-
Следствие приведенных формул: при равномерном вращении коленчато­
го вала порщни двигателя ВНуУреннего сгорания б6льщую часть времени
проводят в крайних положениях.
Аналогичное явление наблюдается при игре в -ОРЛЯНКУ •.

• Случайные величины Х, у независимы и равномерно распределены на


(-1/2, 1/2) (каждая). Плотность распределения произведения Z = ху равна
p(z) = -21п 41zl, Izl ~ 4'1 (?)

• у нормально распределенного вектора {Х, у} с плотностью

р(ж, у)
I!!#
= 211'и2е- 1-

полярные координаты R, Ф в представлении

Х = RсоsФ, У = RsiпФ
распределены: Ф равномерно на [0,2"'1, а R по закону Рэлея
r -.1/(2111)
р ()
r = и2е .

• Пусть независимые с. в. Х., ... , X N имеют показательные распределения


с параметрами .л l , ... , .л п ' Тогда

Х = min{X., .. _, X n }
имеет показательное распределение с параметром .л = .л. + ... + .л п •
• Залач на определение тех или иных вероятностных распределений имеется
великое множество, и 38 ними далеко ходить не нало. В любой стандартной
модели -шаг влево или вправо. - и возникают неясности. При бросании мо­
неты (случайном блуждании) - биномиальное распределение, казалось бы,
исчерпывает проблематику. Но это далеко не так. Вопрос о первом успехе -
и появляется геометрическое распределение. Механика смены лидерства (пе­
рехода блуждающей частицы слева направо или наоборот) - и дорога уводит
к 3IJконуарксuнуса. Вопрос о локальных экстремумахлибо попадании траекто­
рии выигрыша на некоторую кривую - и опять новые 38коны распределения.
70 Глава 2. ФУНКЦИИ распределения

Самые простые вопросы порожnaют иногда очень сложные задачи. Мо­


дель Изuнга, например. Если молекулы двух mпов .. 1., .. 2. располагаются
в шеренl)' (одномерная модель), то энергия цепочки равна

2
Н = Е П;jНij>
ц='

где H;j - энергия взаимодействия соседних молекул, в случае, когда за мо­


лекулой mпа .. i .. следует молекула mпа .. j •.
Равновероятное расположение молекул порожnaет легко определяемое рас­
пределение н. (?) Но уже двумерная (а тем более - трехмерная) модель -
не поддается исчерпываюшему анализу 18).
• Источником дJlЯ упражнений может служить любая задача, в том числе
классическая - что лучше всего. Вот одна из таких задач.
Имеются две одинаковые колоды, в каждой N карт, нумеруемых в порядке
их случайного расположения. Если собыmе At обозначает совпадение карт
первой и второй колоды, расположенных на k-M месте, то, очевидно,

1 (N - 1)! 1
P{A t } = N!' P{A;A j } = N! = N'
(N - 2)! 1
P{A;AjA t } = N! = N(N - 1)'

и применение формулы (1.3) сразу дает

РI = Р{Е A t } = 1- ~ + ~ - ... + (_I)N-1 ~!'


t

т. е. верояmость, что совпадет хотя бы одна карта, равна РI ::::: e- I .


Остается задача вычисления полного распределения Р., ... , PN. (?) Среднее
число совпадений,

EkPt = 1,
t
легко определяется окольным рассуждением. (?)

18) Задача не решена, несмотря на ее значимость ДIIJI кристаллоrpaфии и ферромагнетизма.


Глава 3
Законы больших чисел

Идея роЖдения порядка из хаоса материализуется в нашем мире ра11lИЧНЫМИ


способами. Один из наглядных вариантов - закон больших чисел, который, так
или иначе, говорит о стабилизаuии средних значений.

3.1. Проетейшие варианты

Если случайные величины Xj имеют одно и то же математическое


ожидание р, то

Sn Xt + ... +Х n
n = n
имеет то же самое матожидание р, и с ростом n при естественных

предположениях ~становится все менее случайной величиной». Раз­


личные варианты yrочнения этого yrверЖдения называют законом

больших чисел.

3.1.1. Пусть некоррелированные случайные величины Xj имеют одно


и то же матожидание JJ и одну и ту же дисперсию (Т2. Тогда
среднеквадратичное отклонение Sn/n от матожидания стремится
к нулю. Точнее,

D {S} (Т2
nn = -; -+ о при n -+ 00,

причем Sn/,;ii растет в среднем nроnорционально /J,;ii, имея посто­


янную дисперсию (Т2.
... в силу некоррелированности,
72 Глава З. Законы больших чисел

Поэтому

Аналогично рассматривается Sn/.;R. ~

в комбинации с угверждением 3.1.1 неравенство Чебышева


(1.16) приводит к другому варианту закона больших чисел.

3.1.2. Пусть некоррелированныеслучайные величины Х; имеют одно


и то же матожидание 1" и одну и ту же дисперсию (72. Тогда при
любом Е> О

р {IХ1 + ...n + ХП -1" I } >Е при n --+ 00.

Закон больших чисел сводит концы с концами. Частотная трактовка


вероятности (1.1) приобретает законную силу, что устанавливает связь
между абстрактными моделями и статистическими экспериментами.
Если в случайной .Оl.-последовательности единица (Х; = 1) появ­
ляется с вероятностью 1/2, то вероятность отклонения среднего Sn/n
от матожидания 1/2 более чем на 0,1 - не превосходит 25/n, поскольку
в данном случае

u
2
= (1 - ~у .~ + (о - ~у .~ = ~.
Предположения в 3.1.1, 3.1.2 о том, что величины Х; имеют
одинаковые матожидания и дисперсии, разумеется, необязательны.
Тот же метод доказательства работает и в более общих ситуациях.
Например, при некоррелированности Х 1, .•• ,ХП И

1 n
lim 2
п-+ех> n
L(71 = О,
;=1

где (71 - дисперсия Х;, при любом Е >О имеет место

. {IX +"'+X
11т Р
п-+ех> n
1 n
-
n
l }
1J1+ ... + lJn > Е = О,

где 1"; - матожидание Х;.


3.2. Усиленный закон больших чисел 73

Рассмотренные варианты стабилизации среднего обычно ха­


рактеризуются как слабый закон больших чисел, но он при осозна­
нии производит довольно сильное психологическое впечатление.

Вплоть до убеждения в одушевленности механизма обращения слу­


чайных цепочек в целесообразные явления. Это, конечно, вредит
пониманию существа дела и плодит иллюзии.

3.2. Усиленный закон больших чисел

Слабый закон больших чисел дает оценки вероятности отклонений


среднестатистических сумм от матожидания и гарантирует стрем­

ление этих вероятностей к нулю. Усиленный закон больших чисел


лает больше, гарантирует равенство предела среднестатистической
суммы матожиданию - с вероятностью 1. На первых порах зна­
комства с ТВ разница обычно не чувствуется, но она довольно
существенна, что выявляется при рассмотрении различных видов

вероятностной сходимости - см. главу 4.

Основой для анализа событий, происходящих «почти навер­


ное-, является следующий простой факт.

3.2.1 Лемма &openA-Кантеnnи.


(1) В любой nоследовательности событий А\, А 2 , ••• - при условии
00

L: P(Ak) < 00 - с вероятностью 1 происходит лишь конечное


1;=(
число событий А п ,
(О) в любой nоследовательности A 1, А 2 , ••• незавuсu.мыхсобытий -
00

при условии L: P(AI;) = 00 - с вероятностью 1 происходит


1;=(
бесконечное число событий А п ,

.. (i). Наступление бесконечного числа A 1• А 2 , ••• есть событие

А = n( U A t ).
n t~n

А поскольку

Р(А) ~ Р( U A t ) ~ Е P(A t ) -+ О при n -+ 00,


J;~n k~n

ro Р(А) = О, что мечет за собой Р(А) = 1. •


74 Глава 3. Законы больших чисел

... Для доказательства (ii) достаточно проверить условие

Р( U А,,) = 1 для любого п, (3.1)


t~n

поскольку пересечение множеств меры 1 должно иметь ту же полную меру 1.


ао

В силу L Р(А,,) = 00 и независимости A n , а значит и An = П\А n • для


"=1
любого N ~ k:

I-P(UA,,)~I-P( U А,,)=р( U At )= П [I-P(A,,)]~


"~n n~"~N n~"~N n~"~N

~ ехр {- L Р( А,,)} -+ о
n~t~N

при N -+ 00. что влечет за собой (3.1). •

Приведем теперь один из простейших вариантов усиленного


закона больших чисел.
Пусть некоррелированные случайные величины Xj имеют нулевое
матожидание и конечны'; четверты'; момент. Тогда

р( 11т
. Х 1 +···+Хn = О
)
= 1. (3.2)
n-+оо n
... Число ненулевых слагаемых в Е (X 1 + ... + X n )4 - после раскрытия
скобок, - в силу некоррелированности, пропорuионально п 2 • А ограниченность
четвертых моментов raрантирует при этом существование константы С такой, что
Е (Х. + ... + X n )4 ~ сп 2 • Поэтому (см. раздел 1.9)
Сп 2 С
Р(lХ 1 + ... + Xnl ~ сп) ~ (сп)4 = (сп)2'
ао С
В силу L (сп)2 < 00 лемма 3.2.1 гарантирует конечность числа событий

IX. + ... +Xnl


:........:~----=~ > с,
n
откуда в конечном итоге следует (3.2). •

Смысл предположения ограниченности четвертых моментов достаточно про­


зрачен. Иначе, при том же методе доказательства, не удалось бы установить
сходимость ряда
ао

L P(IX 1 + ... + Xnl ~ т)


n

и, соответственно, воспользоваться леммой Бореля-Кантелли.


3.3. Нелинейный закон больших чисел 75

Но сам по себе рассмотренный вариант усиленного закона больших чисел


довольно слаб. Более тонкие раССУЖдения дают те же выводы в менее оrpаничи­
тельных предположениях.

3.2.2 Теорема 1). Пусть независимые величины ХП имеют матожи-


00 2
дания J1.n и дисперсии (т п2 ' При условии ""'"
LJ и
2
п
< 00 имеет место
п=\ n

Х\+"'+Хп J1.\+···+J1.n
------ --+0 (п --+ 00)
n n
с вероятностью единица.

Одно из классических применений усиленного закона больших чисел указа­


но Борелем. Число Х Е 10, 1] называется нормальным, если при его записи в любой
d-ичной системе счисления частота появления каждой цифры равна l/d. доказа­
тельство нормальности почти всех Х Е [О, 1] (за исключением множества меры О)
см. например, в [11,15].

3.3. Нелинейный закон больших чисел

Понятно, что вместо стабилизации среднего предпочтительнее бы­


ло бы говорить об условиях стабилизации нелинейных функций

становяшихся при больших n почти константами. Формальная по­


становка вопроса могла бы опираться на следуюшее определение.
Последовательность функций Jn(x) асимnтотичес"и постоянна, ес­
ли сушествует такая числовая последовательность J1.n, что

P{lJn(x) - J1.nl > Е} --+ О при n --+ 00 (3.3)


для любого наперед заданного Е > О 2). Либо, в более жестком
варианте, можно потребовать D ип(х)} --+ О при n --+ 00.

Классическая теория вероятностей имеет хорошие ответы на вопрос о спра­


ВСдllивости (3.3) в случае In(x) = Е Xj. Вот простейшая формулировкас неко­
торым отступлением от стандарта.

1) См., например, [18,211.


2) ПОIl р{.} по.npaзумеваетси некотораи 38lI8ннаи мера.
76 Глава З. Законы больших чисел

Пусть Жj - независимые с. в. с одинаковыми матожиданиями Jj" и диспер­


сиями D" = /7:. Тогда дисперсия линейной функции
у = с(n)· ж = с.жl + ... + СпЖ п

равна

D, = c2(n)D" = (c~ + ... + c~)D".


и в результате D, --+ О при условии Ilc(n)11 --+ о (n --+ (0).

При изучении нелинейных зависимостей у = fn(x) под тем же


углом зрения естественно взять за основу аналогичные ограничения

на градиент

afn afn }
Vfn(x) = { дх)'"'' дх •
п
Заметим, что дЛя гладких функций условие IIV /п(ж)11 ~ 'Уп эквивалентно
в Rn липшицевости /п(ж) с константой 'Уп.
(3.4)
Если же условию (3.4) удовлетворяет негладкая функция. то у нее существует
сколь угодно точная гладкая аппроксимация с модулем I])адиента ~ 'Уп'

Рассмотрим теперь для наглядности простейший случай с. в. Xj,


равномернораспределенныхна [О, 1]. Другими словами, равномер­
ное распределение на кубе

сп = [О, 1] х ... х [О, 1].


о вероятностной точке зрения, собственно, можно забыть 3) • Задана
последовательность функuий fn(x), и мы интересуемся условиями,
при которых отклонение fn(x) от среднего значения стремится
к нулю с ростом n.
Естественный ориентир задает линейный случай. Но хватит ли
ограниченности градиента IIVfn(x)11 для D ип} < 00 В общей ситу­
зиии? Ведь разброс значений fn(x) - разность между минимумом
и максимумом - может расти пропорuионально диаметру куба СП,
т. е . .;n.
Если ответ положителен (а он положителен), то можно ли
перейти к какой либо другой мере на СП, не потеряв желаемых

3) В этом, rpубо ГОВОрА, и 3аlUlючаетсА идеА Колмогорова изучать теорию вероятиостей


как часть теории меры.
3.4. Оценки дисперсии 77

выводов? Конечно, к произвольной мере перейти нельзя, ина­


че, сосредоточив ее на кониах большой диагонали куба, получим
D {/п} "" n. Но достаточно ли, скажем, независимости Xj? Какие
плотности дают максимум D {/п}? Как от куба перейти к рассмот­
рению всего пространства? Вот примерный круг вопросов, которые
здесь возникают.

Откладывая доказательство, сформулируем следуюший резуль­


тат.

3.3.1 Теорема. Пусть независимые с. в. Xj распределены на [О, 1]


с nлотностя.ми Pj(Xj), причем все Pi(Xj) > Е > О, а последователь­
ность функций !n(XI, ... , Х п ) удовлетворяет неравенства.м

Тогда при 'Уп < 'у < 00 дисперсия D {/п} ограничена некоторой
константой, не зависящей от n. Если же 'Уп стремится к нулю
с ростом n, то

D {/п} -+ О при n -+ 00,


т. е. последовательность функций !п(Х) асuмnтотuческu постоянна
на СП.

Рекламный вариант теоремы мог бы звучать так: все лunшицевы


функции большого числа nеременных - константы.

3.4. Оценки дисперсии

в формулировке дальнейших результатов принимает участие не­


стандартная для теории вероятностей фУНКUИЯ

! !
х х

р·(Х) = J1(00) p(t) dt - J1(X), J1(x) = tp(t) dt, (3.5)


-00 -00

которую назовем сопряженной плотностью 4).


Эффективный способ оuенки дисперсии дает следуюшее утвер­
ждение.

41 COnpJlJl(CHH8JI мотность может быть нснормирована.


78 Глава З. Законы больших чисел

3.4.1 Лемма. Пусть с. в. Xj распределены независимо с nлотностями


p;(Xj), каждая из которых имеет сопряженную pi(Xj). Тогда для лю­
бой непрерывно дифференцируемой функции j(XI, .•• , Х п ) справедливо
неравенство

(3.6)

при условии существования фигурирующего в (3.6) интеграла как


повторного.

Доказзтельство при водится в следующем раЗделе.

Требование существования сопряженной плотности равносильно ограниче­


нию на порядок убывания обычных плотностей р(х) на бесконечности, что может
выражаться в терминах существования моментов. Легко убедиться, что при пере­
ходе от р(х) к р"(х) порядок убывания _ухудшается на единицу •. Если, например,
р(х) = о(lzГ k
), то р·(х) = о(lzГ Н1
) при Izl -+ 00.

Для р(х) = ~e-I:rl сопряженная плотность

р·(х) = i{1 + Izl)e-,:rI.


Если же область определения р(х) конечна, то сопряженная nло11tость
существует всегда. Наиболее отчетливо ее роль ВЫЯВllяется в ситуациях типа

р(х) = р6(х) + (1 - р)6(х - 1),


где сопряженная плотность равномерна,

р·(х) == р(1 - р),

т. е. р·(х) >
О там, где р(х) =
О. Компенсирующий эффект при этом ззключается
в следующем. Если бы, скажем, внеравенстве (3.6) вместо р. стояла исходная
плотность р, то такое неравенство было бы ззведомо ошибочно, поскольку '(х)
могла бы расти лишь там, где плотности Pi(Z) = о, и справа был бы О при
D (!) > О. Сопряженная же плотность -следит. за поведением градиента '(х)
на тех участках, где исходная плотность обнуляется.

Когда Xj равномерно распределены на [О, 1], сопряженные


плотности Р·(Х) = ~X(I - Х), и (3.6) переходит в
(81)2
D и) ~
f
С"
n
~ xj(1 - Х;) 8х;
1=1
dXI .. , dx n , (3.7)
З.5. Доказательство леммы 3.4.1 79

что тем более влечет за собой

D (Л ~ l!
8 [\7 f(x)] 2 dx\
СП
... dx n· (3.8)

Константу внеравенстве (3.8) - которое естественно назы­


вать многомерным аналогом неравенсmва Виртингера [1] - можно
уменьшить до 1г -2, но В данном контексте это не представляет
особого интереса.

Из (3.8) сразу следует, что при равномерном распределении х


на СП для fn(x) справедлив практически тот же результат, что
и в линейном случае:

D {!n} --t О, если тах


х
11\7 fn(x)11 --t О при n --t 00.

Преимуществанеравенства(3.7) выявляются на такой функuии,


как

fn(x) = m~x
I
IXil, х Е сп.

Здесь 11\7 fn(x)1I = I почти везде, но (3.7) гарантирует (после акку­


ратных вычислений) D {fn} I'V I/n.
Заметим, наконец, что из леммы 3.4.1 практически сразу вытекает теоре­
ма 3.3.). Действительно, из (3.6) в предположениях теоремы следует оценка

D ип} ~ /1 max[V f(X)]l,


rECn
где

р;(х) []. }
/1 = sup { Pj(X): х Е 0,1 , 1= 1, ... , n < 00,
что, собственно, и обеспечиваеттребуемые выводы.

3.5. ДОК8Э8теnьствоnеммы 3.4.1


Докажем сначала (3.6) в одномерном случае. Очевидно,

D {Л ! ""

= II(Х) -
-00
m,]l dP(x) = ~!
00

!
-00 -00
00

If(x) - f(y)]2 dP(x) dP(y) =

= ! ![!
"" 00 r 2

I'(l)dt] dP(x)dP(y), где dP(x) = р(х) dx.


-00 u •
80 Глава Э. Законы больших чисел

Учитывая s. ж 2 ж

[ / /'(t) dt] ~ (ж - у) /1I'(t)l2 dt, (3.9)


, ,
получаем
IX) IX) z

D {f} ~ / / (ж - у) / 1I'(t»)2 dt dР(ж) dP(y). (3.10)


-IX) , ,

Интегрирование в (3.10) идет по области, задаваемой неравенствами

-00 <у ~ t ~ ж < 00.


Изменим порядок интегрирования на следующий. По ж - от t до 00, по у -
от -00 до t, по t- от -00 до 00. В результате имеем

ас (IJ , OD

D {f} ~ /1I'(t)l2 / / (ж - у) dР(ж) dP(y) dt = / [/'(t)l2 p·(t) dt,


-IX) I -IX) -IX)

поскольку, как легко убедиться,

IX) I

/ / (ж - у) dР(ж) dP(y) = p·(t),


I -IX)

а изменение порядка в УСЛОВИЯХ леммы законно. Таким образом, (3.6) в одномер­


ном случае установлено.

Далее действуем по индукции. Пусть (3.6) справедливо в размерности n - 1.


Введем обозначения

mn-.(ж n ) = / /(ж) dР1(ЖI)'" dРn_I(Жn_I)'


R"-I

Dn-I(жn ) = / [/(ж) - m n _l(ж n ))2 dР1(ЖI)'" dРn_I(Жn_I)'


R"-'

Очевидно,

D {f} = ![/(ж) - mn-I(Ж n ) +mn-l(Ж n ) - т/)2 dР.(ЖI)'" dРn(жn ) =


R"

S) Неравенство (3.9) получается, если внеравенстве Коши-Буняковскоro

положить u(t) = "(/), 11(/) == 1.


3.6. Задачи и дополнения 81

= I D n - I (ж I
n ) dРII(ж n ) + [тn-l (ж n ) - т,)2 dРn(ж n ),
В' В'

а из доказанного уже одномерного неравенства (3.6) следует

Наконеи

Проведенные выкладки в совокупности с индуктивным предположением


обеспечивают справедЛивость (3.6) в размерности п. Лемма доказана.

3.6. Задачи и дополнения


• Несмотря на математическую тривиальность закона больших чисел, он до­
вольно часто понимался превратно. Оправданием MOIyт служить многочис­
ленные «аномальные .. эффекты в его окрестности (см. главу 4). Ограничимся
упоминанием самых простых, но достаточно удивительных фактов.

При n бросаниях монеты серия из герб08 длины 1082 n наблюдается с вероят­


ностью, стремящейся к 1 при n -+ 00. (?)

На фоне обязательною присутствия длинных чистых серий (только гербы или


только решетки) средняя длина чистой серии равна 2. для любой несиммет­
ричной монеты, выпадающей гербом с вероятностью Р Е (0,1), матожидание
длины нечетных по числу бросаний серий равно

Р 1-р
--+--,
1-р Р

а четных - равно 2 независuмо от р. (!?)

Пусть Sn = Х. + ... + Хn ' где Xt принимают значения 1, О с вероятностя­


ми Pt, 1-Pt (каждый раз бросается другая монета). При появления разброса
вероятностей Pt относительно

дисперсия Sn уменьшается. (!?)


82 Глава З. Законы больших чисел

• Усиленный закон больших чисел имеет множество вариаций. Вот один


из достаточно тонких результатов А. Н. Колмогорова, где не требуется суше­
ствование вторых моментов.

Пусть Х; независимые случайные величины с oдиHaKoBЬL4I распределением и ма­


тожuданием р. Тогда

Р
. Х 1 +"'+Хп
11т =р
)
= 1.
( n~1XI n
Если же матожuдание Х; не существует, то

р
(-.IX + ...n + ХП I= ) = 1.
11т
n.... tI)
1
00

• Снять в теореме 3.3.1 ограничение Pi(X) >Е >О без каких либо компенси­
рующих предположений нельзя. При обнулении плотностей на множествах
ненулевой меры дисперсия In(x) может неограниченно возрастать при огра­
ниченном по модулю градиенте. Рассмотрим, например, линейную функцию

считая ее определенной лишь на вершинах куба СП' Легко проверить, что


на вершинах куба СП

(3.11 )

Продолжим IJ'n(X) с вершин куба на весь куб СП с сохранением условия


сжатия (3.11), что всегда возможно (7). Пусть In(x) - соответствующее про­
должение. Поскольку In(x) принимает на вершинах куба СП те же значения,
что и IJ'n(X), то в случае

1 1
Р;(Х;) = 2 6 (х;) + 26(Х; - 1)

дисперсии /п(х) и IJ'n(X) совпадают. Но дисперсия линейной функции легко


считается. В результате

1 2
D ип} = D {lJ'n} = 4[VlJ'n(X)) -In п,

т. е. D ип} -+ 00 при n -+ 00.

• Пусть Х; распределены независимо на [0,1) с произвonьными nпотностя­


ми, и пусть задана последовательность определенных на СП липшицевых
функций In(x) с константами Липшица 7п, Тогда

D ип} -+ О, если 7п = о( ~).


Если же 1/~ = О(7п), то найдется такая последовательность In(x), что
D ип} -+ 00.
З.6. Задачи и дополнения 8З

• Изучение пограничных ситуаций типа рассмотренной в преДЫдущем пункте


опирается на построение примеров последовательностей /n{х) С максималь­
ными D {/n}. Довольно неожиданно, что функции /n{x), обеспечивающие
максимум дисперсии,оказываются симметрическими6). Неожиданно - с по­
зиций распространенной легенды, которая главным источником статистиче­
ских закономерностей считает симметрию. Такой взгляд особенно упрочился
после интересной публикации Хинчина 7).

6) См.: оnойцн В. И. Нелинеilныil эакон больших чисел 11 А и Т. 1994. Ni! 4. С.65-75.


7) XUHI/UH А. Я. Симме1рические функции на многомерных поверхностях 11 Сб. памяти
А.А.Андронова. М.: И1ll. АН ссср, 1955. С.541-57Ь.
Глава 4

СХОДИМОСТЬ

4.1. Разновидности

Вот три основных вида вероятностной сходимости, которые отличаются друт


от друта не только по форме, но и по сути.

• Последовательность случайных величин ХП сходится к С. в. Х


р
по вероятности, Х П 4 Х, если для любого g >о

I Р(!ХП ХI > g) ~ о при


- n ~ 00.
• Последовательность случайных величин Х П сходится к с. в. Х
в ереднеквадратичеекам, ХП ~ Х, если

• Последовательность случайных величин ХП сходится к с. в. Х


почти наверное (синоним: «с вероятностью 1»), ХП ~ Х, если

I P{IXk - XI < g, k ~ n} ~ 1 при n ~ 00·1

Вспоминая. что С. в. ХП есть на самом деле функция Xn(III). можно сказать


так: ХП ~ Х. если Xn(III) сходится к X(III) В обычном смысле почm для всех 111.
за исключением III-множества нулевой верояmосm (меры).

Перечисленные определения обладают общим недостатком -


используют предельное значение Х, которое не всегда известно.
для преодоления подобной трудности в анализе изобретено понятие
4.1. Разновидности 85

фундаментШlЬНОЙ последовательности (последовательности Коши).


Аналогичный трюк работает и в теории вероятностей.

Последовательность с. в. Х П называется фундаментШlЬНОЙ


по вероятности, в среднем, почти наверное, - если

P(IXn - Xml > Е) -+ О, Е (Х П - X m)2 -+ О, P{IXt - X,I < Е; k, 1 ~ n) -+ 1,

при т, n ~ 00 и е > О.
4.1.1 Признак СХОДИМОСТИ Коши. для вероятностной сходимости
Х П -+ Х в любом указанном выше смысле необходима и достаточна
фундаментШlьность последовательности ХП в том же смысле. (?)

ВэаимOO11IОШения. Сходимость по вероятности из перечисленных

б И мпликаuия
П.Н. Р
разновидностей самая сла ая. «~. ~ «-+. очевид-

на, а неравенствоЧебышева 1) обеспечивает «~. ~ «~ •.


Обратное в обоих случаях неверно.
.. Последовательностьнезависимых с. В. Х П при условии

1 1
Р{Х П = О} = 1 - -, Р{Х п = n} =-
n n
сходится к нулю по вероятности 2), но не сходится ни в среднем, ни почти
наверное. Действительно, Е X~ =
n ....... О, а расходимость почти наверное следует
из леммы Бореля-l<aнтелли, поскольку

CIO CIO 1
L P{lXtl > Е} = L k = 00. ~

Стоящие за кадром общие причины достаточно очевидны. Ес­


ли сходимость по вероятности означает стремление к нулю меры

событий {IXnl > е}, то дЛЯ «П. Н .• -сходимости требуется - доста­


точно быстрое стремление к нулю этой меры. Понятно, что это
разные ситуаuии.

Для .с. К .• -сходимости само по себе стремление к нулю меры


собьпий {IXnl > е} вообще недостаточно, поскольку здесь вступает
8 игру другой фактор: значения ХП на .плохих траекториях •. Поэто­
МУ, кстати, .с. К •• -сходимостьне следуетдаже из "П. Н .• -СХОДИМОСТИ.

1) См. предметный указатель.


21 Поскольку РОХпl > Е) = I/n ~ О при малых Е.
86 Глава 4. СХОДИМОСТЬ

Пример:

I
Р{Х П = О} = I - -2
n '
Р{Х П = n} = 2"'
n
Для «П. н.»-сходимости стремление к нулю P{IXnl > Е} достаточно
быстрое 3), но Е X~ = I -++ О.
Наконеи, ХП ~ О В случае
I I
Р{ХП = О} = I - -, Р{ХП = I} = -,
n
n
но Х П не сходится к нулю почти наверное.

Итак, {I ::: I} ~ .~ . Дрyrих импликаuий иет


Заметим, что для последовательностей случайных векторов мо­
дуль заменяется нормой - без каких бы то ни было иных измене­
ний, как в определениях, так и в выводах.

Упражнення

• Если Х ,. - последовательность незавuсuмых случайных величин и Х,. !:t Х.


то Р{Х = Е Х} = 1.
• Для сходи!ltости Х,. ~ Х необходи!ltО и достаточно

lim p{sup IXII - XI > е} =а


t-+c<> n>t

при любом f > а.


• Если Х ,. !:t х. то существует подпоследовательность Xn~ ~ Х.
• Если Х ,. !:t х и X n • Х ограничены, то Х,. ~ Х.
• Пусть монотонная последовательность неотрицательных случайных величин.

а ~ х, ~ Х 2 ~ ••••

имеет равномерно ограниченные маТОJКидания Е {Xn } < m < 00. Тогда

Х,. ~ Х И E{Xn } -+ Е{Х} < 00.

OD Ж I
3) L P{IXtl > е} = L k2 < 00, ЧТО для обоснования _п. Н •• -СХОДИМОСТИ позволяет
задействоватьлемму Бореля-Кантелли.
4.2. СХОДИМОСТЬ по распределению 87

4.2. СХОДИМОСТЬ ПО распределению

Есть еще одна важная разновидность вероятностной сходимости,


которая слабее предыдущих, и потому - шире применима.

Последовательность случайных величин Х N сходится к с. в. Х


D
110 распределению, ХN --+ Х, если последовательность соответству-
ющих функций распределения Fn(x) слабо сходится к функции рас­
пределения F(x).

Слабая сходимость Fn(ж) ~ F(ж) 0значает


00 00

/ ф(ж) dF,,(ж) -+ / ф(ж) dF(ж),


-00 -00

Т.е.

Е {Ф(Хn )} -+ Е {ф(Х)} (4.1)

МИ любой непрерывной и ограниченной функции ф(ж). Это равносильно поточечной


cxoдuмocти Fn(ж) -+ F(ж) в точках непрерывности F(ж).

Последнее утверждение является, вообше говоря, теоремой, - справедливой


8 силу монотонности И ОJPаниченности функций распределения. Если F(ж) непре­

рывна и Fn(ж) ~ Р(х), то эта сходимость равномерная, - опять-таки по причине


-монотонности и ОJPаниченности •. По той же самоА причине множество 1т всех
функциА распределения слабо предкомпактно, т. е. из любоА последовательности
Fn(x) можно выделить слабо сходящуюся подпоследовательность, но не обяза­
тельно к функции И3 1т (за подробностями можно обратиться к \3,9]).

Р D
Импликация «4» =} «--+» очевидна. Обратное неверно. На-
пример, пусть речь идет о бросании симметричной монеты, и при
четном n с. В. Х N = 1, если выпадает герб, и Х N =О В против­
ном случае, а при нечетном n - ХN = О, если выпадает герб,
и ХN = 1 в противном случае. Сходимость по распределению есть,
по вероятности - нет.

Но I еслиХn ~ О, то хn ~ 01· (?)


D
4.2.1 Теорема. Сходимость по распределению Х N --+ Х равно-
сильна равномерной (на любом конечном промежутке) сходимости
epn(~) --7 If'(~) характеристических функций.
88 Глава 4. СХОДИМОСТЬ

~ Импликаuия

ХN ~ Х ~ 'Рn('\) -+ 'Р(А)
вытекает из (4.1), если положить ф(х) =е iЛz

Обратно, пусть 'Рn(А) -+ 'Р(А), - тогда

! ф(А)lpn(А)dА ! ф(А)Ip(А)dА = Е {ф(Х)}


00 00

Е {Ф(Хn )} = -+ ,
-00 -00

где ф(А) - преобразование Фурье функuии ф(А). ~

Конечно, это лишь набросок доказательства. Углубиться в де­


тали можно в любом курсе теории вероятностей [3,9,20,31]. Тео­
рема 4.2.1 часто используется, значительно облегчая суммирование
случайных величин.

4.3. Комментарии

Различные виды вероятностной сходимости задают игровое поле


для многочисленных постановок задач [19], большинство кото­
рых не имеют никакого прикладного значения, но это и не тре­

буется. Задачи способствуют всестороннему изучению предмета.


Тренировка, расширение кругозора, познание внутренних меха­
низмов, постановка новых вопросов, - вот, собственно, их глав­
ная роль.

Беда в том, как показывает опыт, что разновИдНОСТИ вероят­


ностной сходимости часто остаются .вещью в себе., устроенной
по формально понятным правилам, но при отсутствии удобных
мысленных образов. Путеводной нити в результате - нет, и зада­
чи приходится решать «наощупь •. В такого рода ситуациях, чтобы
уменьшить ощущение хаоса, полезно отталкиваться от примеров.

Вот вопрос, который значительную часть населения ставит в тупик. Су­


ществует ли последовательность событий A 1, А 2 , ... такая, что P{A t ) -+ 1 при
n -+ 00, но

Р{О At } = о при любом n?


Положительный ответ дает последовательность одинаково ориентированных
дуг At длины k/(k+ 1) на единичной окружности П, у которых начало следующей
(по номеру) дуги совмещается с KOHUOM предыдущей.
4.3. Комментарии 89

Другая проблема. Случайная величина Х n , определяемая соот­


ношениями

1
Р{Хn = О} = 1 - -,
n
Р{Хn = n 2 } = -nI
р

сходится к нулю по вероятности, хn ~ О, но Е {Хn } --+ 00.


Так ча~то бывает в некоторых типах игр, в том числе
биржевых. Ожидаемый выигрыш, как говорится, «выше крыши.,
на деле - почти гарантированный проигрыш.

Сходимость матожиданиЙ. Последняя «неприятность» подчеркива­


ет принципиальную роль утверждений, в которых к вероятностной
сходимости можно добавить сходимость матожиданий. Вот несколь­
ко полезных и достаточно простых (для обоснования) утверждений .

• Пусть ХN ~ Х и все IXnl < У, где с. в. У имеет конечное


матожидание. Тогда Х тоже имеет конечное матожидание и
Е {Х n } --+ Е {Х} .
• Пусть Х N ~ Х и все IXnl < 00. Тогда Е {IXI} < 00 и
Е {Хn } --+ Е {Х}.

Последовательность Х N называется равномерно интегрируемой, если

s~p !Ix l dFn(x) -+ О при М -+ 00,


Irl>M

где рn(х) - функция распределения Х N •

Условие равномерной интегрируемости часто выполняется, и это ликвидирует


массу возможных неприятностей. В условиRX равномерной интегрируемости Х n :

(i) sup Е {IXnl} < 00. (?)


n

(ii) Из ХN Е. Х следует существование Е {Х} и Е {Х n } -+ Е {Х}. (?)

Без равномерной интегрируемости ситуация менее благоприятна. Пусть,


например, Х имеет распределение Коши, а

ХN = { Х, если 'ХI ~ n,
О, если IXI > n.
D
Тогда Х N -+ Х, все матожидания Е {Хn } существуют, но Е {Х} = 00.
90 Глава 4. СХОДИМОСТЬ

Если же Х п = X/n+Z. где Е {Z} < 00, - получается другая .. неприятность ..:

X,,!!.tZ, E{Z}<oo,
но ни одно Е {Хп } не сушествует.

4.4. Закон «НУЛЯ или единицы»

Лемма Бореля-Кантелли служит простейшей иллюстраuией дей­


ствия механизма, исключаюшеro из рассмотрения все вероятности

за исключением крайних. Обзор сушественно расширяет колмого­


ровский закон [13] <.нуля или единиuы .. , утверждаюший следуюшее.

4.4.1Теорема. Если X 1, Х 2 , ••• - независимые случайные величины,


а событие А определяется поведением только бесконечно дШlекого
хвоста последовательности X 1, Х 2 , ••• и не зависит от значении
Х., ... ,х п при любом конечном n, - то

либо Р{А} = О, либо Р{А} = 1. (4.2)


События, зависяшие только от «хвоста .. , называют остаточ-
ос

ными. Таковы, например, события: сходимости ряда Xk либо L


самой последовательности Xk; ограниченности верхнего предела
IimХk<ООИТ.п.
k--+oo

.. Идея доказательства проста 4). Остаточное событие А - зто некоторое


множество А бесконечных траекторий{,. {2•... , которое может быть аппроксими­
ровано множеством А, конечных траекторий {;, ... , {~ ... Лппроксимировано"-
в смысле Р{А6А,} <! при задании подходящего т(!).
В силу остаточности, А не зависит от А" т. е.

Р{АПА,} =Р{А}·Р{А,}, (4.3)


а поскольку

IP{A} - Р{А,)1 ~ Р{А6А,} <!


и

IP{A n А,} - Р{А}I ~ Р{А6А,} < !,


то (4.3) при ! ~ О переходит в

что возможно лишь в случае (4.2). •

4) Но уточнение деталей, особенно с учетом приrотовлениЙ. обычно смазывает картину.


4.5. Случайное блуждание 91

4.5. Случайное блуждание

Пусть Х), Х2"" - независимые с. в., принимающие два значения


1 и -1,
P{Xk = 1} =р, P{Xk = -1} = 1-р.

Поведение суммы Sn = Х) + ... + ХП часто интерпретируют как


случайное блуждание, имея в виду движение частиuы по uелочислен­
ным точкам действительной прямой. Принимает Xk в k-й момент
времени значение 1 (-}) - частица сдвигается на единицу вправо
(влево) S).

Возврат частицы в начало координат равносилен, очевидно, со­


бытию {Sn = О}. Понятно, что возвраты возможны только в четные
моменты n = 2k. Интуитивно ясно, что в случае р = 1/2 типичные
траектории бесконечно много раз проходят через нуль, а в случае
р i= 1/2 уходят в бесконечность.
В точной формулировке:

{
О, если р i= 2'
P{Sn =о б. ч.р.} = 1
1, если р = -,
2
где б. Ч.р. означает «бесконечное число раз».

... Легко видеть (опираясь на формулу Стирлинга), что

t n n (4р(1 - р)]n
P{Su =О б. ч. р.} = СиР (1 - р) '" .;n .
00

Поэтому Е P{S2t = О} < 00 и P{Sn =О б. ч. р.} =О в случае р f. 1/2 следует


из леммы Бореля-Кантелли.
00

Что касается ситуаuии р = 1/2, то здесь Е P{Su = О} = 00, но лемма


Бореля-Кантелли не работает, поскольку события {Sn = О} не независимы,
I колмоroровский закон _нуля или единиuы" не применим, потому что собы­
тие {Sn =О б. ч. р.} не является остаточным. Но доказательство может быть
завершено с помоwью дополнительных ухиwрений \3, 31].
') с тем же успехом можно говорить о бросании монеты или о любой другой реализа­
uии схемы Бернулли. Определенную популярность имеют иrpoаые интерпретаuии (задачи
о разорении).
92 Глава 4. СХОДИМОСТЬ

Например, {S2t =О б. ч. р.} включает в себя остаточные события

_S" S" }
А = { Iim.;n = 00, lim.;n = -00 и

к которым применим закон -нуля или единиuы•. Альтернатива Р{А,,} =О ис­


ключена в силу теоремы 3.1.1. А поскольку А" -+ А при v -+ 00, то и Р{А} =I
и, как следствие, P{S2t =
О б. ч. р.} =
1. поскольку

А С {S:u.- = О б.ч.р.}. •

Другая, совсем простая, идея доказательства описана в разде­


ле 4.8. Еще одна принuипиальная идея может опираться на закон
«нуля или единиuы-. Хьюита-Сэвиджа 6):

Пусть Х., х 2 •... - независuмые, одинаК080 распределенные случайные величи­


ны. Тогда вероятность любого события. инвариантного относительно nерестаН080К
конечного числа lfЛенов X 1• Х2 •...• - равна нулю или единице 7).

Событие {Sn =О б. ч. р.} удовлетворяет такому условию <сне­


чувствительности к конечным перестановкам», поэтому его веро­

ятность равна или О, или 1, после чего выбор (когда нуль, когда
единица) осуществляется достаточно легко.

Многомерное блуждание. Пусть речь идет о блуждании частиuы


по двумерной uелочисленной решетке. Движения влево/вправо
и вверх/вниз независимы и происходят (каждое) с вероятностью 1/2.
Вероятность возвращения в нуль через 2n шагов равна, оче­
видно,

Поэтому
00

L P{S2k = О} = 00.
далее, с теми же ухищрениями,что и выше, вероятность бесконеч­
ного числа возвращений в начало координат получается равной 1,
что несколько неожиданно, поскольку обнуление координат теперь
должно происходить одновременно.

6) Hewin Е.• Savage L. J. 11 Trans. Amer. MBlh. Soc. 1955.80. Ni 2. Р. 470-501.


7) дОК8эвтеnьство можно нвАти в [3. 311.
4.6. СХОДИМОСТЬ рядов 93

При трехмерном блуждании

P{S2n = О} = [c~n (~yn] 3 '" n-3/2,


и тогда
00

L P{S2k = О} < 00,


что принципиально меняет картину асимптотического поведения.

Вероятность возврата становится дробной, а число возвращений


на типичных траекториях конечным.

Качественное отличие поведения случайных траектории в раз­


мерностях 2 и 3 часто служит поводом для удивления инекоторого
философствования. Циник бы, конечно, не nреминул заметить, что
с тем же успехом можно удивляться сходимости ряда L n -2 и рас-
ходимости L n- I . Возражать, по сути, было бы трудно, хотя
удивление - очень ценная вещь 8). Но проще, и продуктивнее, удив­
ляться существованию этого мира, добиваясь понимания по мелочам.
В то же время надо признать, что новые содержательные ин­
терпретации тривиальных фактов нередко обнаруживают пропасти.

4.6. СХОДИМОСТЬ РЯДОВ


00

в классическом анализе сходимость ряда L at означает варианты

р4вно как сходимость некоторой последовательностиА п равносильнасходимости


00

ряда L(A t - At - I ). Несмотря на эквивалентность языков - каждый имеет


свои преимушества и недостатки. При изучении случайных последовательностей
и рядов возникает аналогичная картина.

4.6.1 Теорема. Если Х 1, Х 2, ... - независимые случайные величины


00

с нулевыми матожидания.ми, то для сходимостиряда L Xk почти

8) Лев ТолстоА жаловался: .Пис4ть стало трудно - кончается энерrия заблYJКДения •.


94 Глава 4. СХОДИМОСТЬ

наверное достаточно сходимости числового ряда:

00

L D {Xk} < 00. (4.4)

А если все Xk ограничены, P{IXkl < М} = 1, то условие (4.4)


и необходимо.

.... Из неравенства Колмогорова следует

Р{ sup
n>t
18п - 8t l > е} = lim Р{ t<m<n
""00
max 18", - 8t l > е} ~ ~ L
е ",>t
D Xm -+ О
при k -+ 00. ЧТО В итоге обеспечивает достаточность. С необходимостью возни
несколько больше [21.31). •

Разумеется, если Xk в теореме 4.6.1 имеют ненулевые матожи­


дания тXt' то все остается в силе при дополнительном предполо­
00

жении о сходимости ряда L тXt' (?)

Специфика случайных рядов (в отличие от последовательностей


общего вида) проявляется в следующем полезном факте.

4.6.2 Теорема. EcJiu Х), Х2," о - независимые случайные величины,


00

то для ряда L Xk понятия сходимости почти наверное по вероят­


ности и по распределению - эквиВШlентны [29].
00 00 00

Если P{IXtl > et} < 6t и ряды Lek, L6t СХОдЯтся, то LXt сходится
п. н. (?)

4.7. Предельные распределения

При делении на n сумма

Sn = X 1 + 0.0 + Хn
сходится в том или ином смысле к матожиданию р, = Е {Xk}'
Специальная «нормировка»

S _ Sn - nр,
n - .;n
4.7. Предельные распределения 95

позволяет стабилизировать среднеквадратическое отклонение Вn,


И под этим «микроскопом~ детально изучать поведение Вn.

4.7.1 Теорема. Пусть Х 1, Х2, ••. - независимые случайные величи­


ны, имеющие одинаковое распределение со средним It = О и дисперси­
ей (12. Тогда с. в. Sn/.;n сходится по распределению к с. в. S, имеющей
нормальное распределение с нулевым матожиданием и дисперсией (12.
.. Пусть ср(Л) - характеристическая функция Xt . В силу (2.12)

Разложение х. ф. в ряд (2.13) дает

откуда при n -+ 00

т. е. характеристическая функция с. в. S./J'ii сходится к х. ф. нормальноro за­


кона N(O, 0'2), и по теореме 4.2.] сама с. в. S,,/J'ii сходится по распределению
к нормальному закону. ~

Результаты типа теоремы 4.7.1 называют центральными предель­


ными теоремами. В приведенном варианте безболезненно можно
отказаться от предположения об одинаковости распределения вели­
чин Xk. Дальнейшие обобшения связаны с некоторыми нюансами.

Пусть

mt = Е {Xt }, O'~ = D {Xt }, B~ = Е O'~.
t=1

Тогда слабую сходимость

.
11т Р
.-+IX>
- Е S"
{ S. tn?Г
V и "'п
< х} 1!
= у21Г
r-;=
z

е
_.1/2
ds = Ф ( х)
-00

обеспечиваетусловuе Ляпунова: для некоторого 6 >О


1 ~
2+'6 LJ Е IXt - mtl 2+6 -+ О при n -+ 00,
В. t=1
96 Глава 4. СХОДИМОСТЬ

а также более свободное условие Линдеберга: мя любого r

2
В"
f (х - т.)2 dF.(x) -+ О при n -+ 00,
Iz-m.l~тВ.

где F.(x) - функuия распределения Х•.


дополнительныерезультаты см. в (10).

4.8. Задачи и дополнения

• Ес"и с. в. Х распределена по Пуассону с параметром а, то случайная


величина (Х - a)/.,fO. имеет в пределе (при а -+ (0) стандартное нормальное
распределение. (?)

• Пусть в задаче о случайном блуждании Р" обозначает вероятность попадания


частиuы в начало координат из положения х = k. Если частиuа движется
вправо с вероятностью р, то

P 1 = РР2 + 1- р.

При этом, как легко сообразить, Р2 = 2


P1 • Поэтому P 1 = pPI2 + 1- р. Решение
квадратного уравнения дает два корня: 1 и (1 - р)/р. 8 случае р = 1/2 оба
корня равны 1, т. е. РI = 1, откуда вытекает Р. = 1 при любом k, что означает
бесконечное число возвратов частиuы в нуль (или любую другую точку).

В общем случае Р" = 1, если р ~ 1/2, и Р" = (1 - р). /р., если р > 1/2.
Это можно интерпретировать как решение зада"и о разорении, Р. - ве­
роятность проиrpыша игроком в сумме k партий при иrpе против казино
с неоrpаниченным ресурсом.

Если же речь идет об игре двух игроков А и В, первый из которых выиrpывает


отдельные партии с вероятностью р > 1/2 и располагает капиталом мя про­
игрыша m партий, а второй - n партий, то А разоряется 9) с вероятностью
1 - [(1 - p)/plm
РА = 1 _ [(\ _ р)/р]т+о' (?)
Вероятность разорения второго: рв = 1- РА.
При Р -+ 1/2
m
РА -+ --о
т+п

• Пусть не равные тождественно нулю с. в. X 1, Х2 , ... имеют нулевые маmожи­


дания, независu.мы и одинаК080распределены. Тогда суммы So = X + ... + Х"
1
обладают свойством

Р{lim sup So
R-t(Х)
= +оо} = P{lim inf So = -оо} = 1,
п-+оо
(?)

которое при неодинаковой распределенности Х" может нарушаться.

9) Первым проиrpыввет т паprиА.


4.8. Задачи и дополнения 97

• Устойчивые JaKOНbl. ИJучение сумм независимых с. в. привело к постановке


следующего типа вопросов. Если ВJвещенные суммы слабо сходятся, то что
можно скаJЗТЬ о предельном распределении F(x)? Одно из напра81lений
возможного ответа- устойчивость F(x).
Распределение F(x) наJывается устойчивым, если независимые с. в. Х. У,
распределенные по этому закону, - при сложении, после предварительной
подходящей -перенормировки., дают величину, распределенную по тому же
закону. Иными словами, найдутся константы, при которых

z = l,(аХ + ЬУ - 1-1)
имеет распределение F(x).
Точнее и проще говоря, распределение F(x) устойчиво, если при любых at
и bt >О существуют такие а и Ь > О, что
F (х ~I а, ) • F (Х ~2а 2 ) = F (х ~ а),
где звеЗдочка обозначает свертку.
Следующий результат принадлежит Леви: Если Х" Х 2 , ... - незавиСlL4fые
одинаково распределенные с. В., и при nодходRщих at и bt > О СУAfJIIЫ
X 1 + ... + X t - а"
bt
слабо сходятсн к невырождеННQAfУ распределению F(x), то F(x) - устойчиво .

• БеJrpаиичио делимые J8КОИЫ. Распределение F(x) называют безгранично де­


ЛIL4fЫМ, если при любом целом k существует такая функция распределения
F,,(x), что k-кратная свертка Ft(x) дает F(x),
F(x) = F,,(x) •...• F,,(x),
т. е. корень из характеристической функции F(x) любой k-й степени -
окаэывается тоже характеристической функцией некоторого закона.
Например, х. ф. У'(А) = е -01-'1 распределения Кощи после ИЗ81lечения корня
дает х. ф. того же распределения Кощи с параметром a/k. Поэтому распре­
деление Коши безгранично делимо. То же самое имеет место в отношении
нормального, пуассоновского, показательного и ряда других законов.

В общем случае х. ф. безграничноделимого эакона обязана быть представи­


мой в каноническом виде Леви-Хинчина:

( = {1" + х
У' А) ехр
I ( j-',.
2
~ е - I + х2
iAX)I dl-l(x) + аА{
-
.} ,
-""
при некотором вещественном ~ и неубывающей ограниченной функции I-I(x).
При соблюдении аккуратности терминологии можно сказать следующее.
Беэгранично делимые законы преДСТ3811ЯЮТ собой в точности совокупность
возможных предельных распределений при суммировании независимых с. в.
Тематика устойчивых и безгранично делимых законов становится интерес­
ной, когда на теории вероятностей свет начинает сходиться клином. до этого
момента обычно есть масса других точек концентрации внимания.
98 Глава 4. СХОДИМОСТЬ

• llентральная предельная теорема .. заслоняет свет-, и многие часто думают.


что .суммы всегда сходятся к нормальному закону •. Разумеется, это не так.
Вот простой пример.
Пусть n единичных масс равномерно распределены на [-n. n). На единичную
массу в начале координат действует гравитаuионная сила

в силу равномерного распределения Х••

Е [ ехр { i,л
sign(X.) }]
X~ =
Sign(ж)} dж
jn ехр {.,,л--z2 1 jn
2n = ;;
( ,л )
cos ж 2 dж.
-n о

в итоге (детали см. в 115)


Е {eiAf.} -+ е -сIЛI1/l при n -+ 00.

Соответствуюшее предельное распределение в элементарных функuиях не


выражается.

• Маpt'Ииraлы. При изучении сходимости особую роль играют последователь­


ности случайных величин Хn. удовлетворяюшие условию

и называемые мартиНlалQNи.

В случае

последовательность с. в. ХN называют nОЛ.l'мартиНlалом. Полумартингалы


для проиедур типа стохастической аппроксимаuии могут служить как раз
аналогами функuий Ляпунова (см. предыдуший р8311ел).
Теория мартингалов довольно обширна 18.
16). Ее эффективность определя­
ется простым фактом:

Теорема. МартиНlал ХN с равномерно Оlраниченнblltfи моментами Е {X~} схо­


дитсн почти наверное.
Глава 5

Марковские nроцессы

5.1. Цепи Маркова

в детерминированном случае широко распространены динамиче­


ские проuессы вида 1)

о которых можно было бы сказать так. Какова бы ни была после­


довательность XI,"" Х n , будушее развитие проuесса (при t > п)
зависит только от Х n '

Вероятностный аналог этого утверЖдения служит определением


nроцесса Маркова, каковым называют последовательность случай­
ных величин (векторов) XI .... , Хn ,"" в которой .будущее» Xt>n
оnределяеm.ся только величиной Х N и не зависит от предыстории
X1,···,Xn-l.
При этом подразумеваетсязависимостьраспределенийс. в. X n + 1 от X n (а так­
же от n - в нестационарном случае). и речь идет о динамике условных плотностей
распределения p(Xn + 1IXn ).
Orносительно конкретных траекторий XI,"" X n •••• можно говорить, что
:l:t+1 есть реализация случайной величины X t + 1, имеющей распределение
p(XH1IXt = :l:t).
Простейший при мер цепи Маркова:

51 •...• 5n •••• ,

где 5n = Y1+ .. '+Yn • а Yn - п-й член случайной "нуль-один.-последовательности


в схеме Бернулли. Очевидно,

5n + 1 = 5n + Yn ,
arкyдa ясно. что 5, при t >n зависит только от 5,=n и не зависит от предысто­
рии 5,<n.

1) Либо Zn+1 = f(zn. n) в нсавтоиомном варианте.


100 Глава 5. Марковекие процессы

UПирокий класс марковских процессов дают процедуры адаптивной под­


стройки параметров вида

СНI = 'Pt(Ct, ~t), (5.1)

где ~t - измеряемый шумящий, а Ct - настраиваемый параметр2).

Пример испытаний Бернулли порождает двойственное чувство.


С одной стороны - облегчение, поскольку выясняется, что речь
идет о простых вещах. С другой - непонятно, зачем городить
огород, когда со случайным блужданием и так можно разобраться.
Это принuипиальный момент. Общие схемы всегда связаны
с «головной болью». Скажем, механическую задачу часто проще ре­
шить, не переводя ее в гамильтонову форму. Стандарты порождают
дополнительные проблемы, вынуждая тратить силы на канониза­
uию. В то же время абстрактные модели приводят разнообраз­
ные объекты в соприкосновение, взаимно обогащая их. Сведения
о случайном блуждании становятся полезны совсем для других
содержательных задач, если те укладываются в прокрустово ложе

марковского проuесса. И постепенно - развитие общей теории


проливает свет на разнообразие частных случаев. Стоит убедиться,
что задача «укладыается>>,' как начинает работать весь арсенал уже
готовых методов и фактов.

Переходные вероятности. Марковский проuесс с дискретным вре­


менем и счетнЬLМ пространством состояний называют марковской
цепью. Как правило, подразумевается следующая модель. Состо­
яния пронумерованы. Система (частиuа), находясь в k-й момент
времени в j-M состоянии В (k + 1)-й момент попадает в i-e со­
стояние с вероятностью Pij , И тогда при распределении частиuы
k
по состояниям С вероятностями Pj в следующий момент получается
распределение

"+1 ~ k
Р; = L.- PijPj, (5.2)
j

или в векторном виде pk+1 = ppk, где Р = [Pij] называютматрицей


nереходных вероятностей.

2) Например, (., (2 •.•. в задаче обучения распознаваниюобразов может быть обучаюшеА


последовательностью.а Ct вектором решаюшеro правила (дискриминантноА функuии).
5.2. Стохастические матрицы 101

Модель (5.\) помешается в рамки данной схемы, если ПрйС11>анство пере­


менных Ck разбить на клетки (состояния) и на базе (5.\) вычислить переходные
вероятности.

Помимо описанной интерпретации (частица, .пребываюшая .. в j-M состо­


янии С вероятностью p~) речь может идти о множестве большого числа частиц.
Динамика каждой - определяется той же ма11>ицей переходных вероятностей Р,
а p~ обозначает долю частиц, находяшихся в j-M состоянии В k-й момент.

Данную модель (в которой матрица Р не зависитот k) называют


еше однородной цепью Маркова.
Понятно, что pk+m = pmpk, т. е. динамика распределений
pk определяется итерациями матрицы Р. При этом, очевидно,
рп+т = рп рт, что называют уравнением Колмогорова- Чеnмена.
В частности, стационарные распределения р. оказываются
собственными векторами матрицы Р, р. = Рр·, а сходимость
pk ~ р. _ одним из центральных вопросов.

в теории марковских процессов большое внимание уделяется классифика­


ции состояний. Состояние Х; называют достuжuмым из Xj, если ~ > о при
некотором k > О, т. е. сушествует ненулевая вероятность через некоторое число
шагов из j-ro состояния попасть в i-e. Состояния, достижимые друг из друга,
называют сообщающимuся.
Если Х :!lОСТИЖИМО из у, но не наоборот, то состояние у называют несуще­
ственным. Множество всех сушественных состояний разбивается на непересекаю­
шиеся классы соо6шаюшихся состояний. Если такой класс всего один, - система
называется нера3/l0ЖUМОЙ.
Состояние Х; называют возвратным, если вероятность возврашения в Х;
равна \.
Наконец, состояние Х; считается nерuодuческим, если наибольший обший
делитель (период состояния) чисел k, для которых P,~ > О, - равен d> \.

5.2. Стохастические матриц"\

Положительная матрица Р ~ о с единичными столбцовыми сум­


мами, ~ Pij = 1, называется стохастической.
i
Легко видеть, чтобы итерационная процедура (5.2) на каж-
дом следуюшем шаге порождала нормированное распределение,

~ p~+ I = 1, необходимо как раз ~ Pij = 1.


i
102 Глава 5. Марковекие процессы

Если иметь в виду системы с конеЧНЫJII ЧUСЛOJll состоянuй, то стохастические


матриuы изучаются в линсйной алгебре, и там, кстати, многие результаты в под­
ходяшем контексте воспринимаются достаточно легко и просто. Затевать сыр-бор
в рамках ТВ вряд ли имеет смысл, проше отослать к (5, т. 3). Здесь ограничимся пе­
речислением стержневых результатов с привязкой к вероятностной и нтерпретаuии.

• Собственный вектор р ~ О, отвечаюший собственному значению Л = 1,


у стохастической матриuы сушеСТВ~'ет всегда, т. е. всегда сушествует стаuио­
нарное распределение р = Рр·.
• Если матриuа Р строго положительна (все Pij > О) или же pk >О при
некотором k, то все стаuионарные вероятности р; > О, причем итераuии pk
сходятся К р' > О, а итераuии pk ~ Р"", где у Р"" все столбuы одинаковы
и равны р. Проuесс в этом случае называют эргодuческUJII.

• Условие.pk > о при некотором k. необходимои достаточноМЯ nриJllитивно­


сти стохастической матриuы, т. е. мя того, чтобы спектр Р, за исключением
ведушего собственного значения Л = 1, лежал строго внутри единично­
го круга. Примитивность Р означает отсутствие периодических состояний.
В случае UJIInрUJIIuтuвной Э) матриuы Р предел pk может не сушествовать.
Но предел имеют средневзвешенныесуммы,

1 N
lim - Е pk = Р"".
N-o"" N
k=1

НераэлшкиМOC'no. Матриuа Р называется раЗЛОЖUJIIОЙ (нераЗЛОЖUJIIОЙ), если оди­


наковой перестановкойстрок и столбuов она приводится (не приводится) к виду

где Р1I И Р22 КВ8lIратные матриuы.


Иными словами, Р неразложима, если не сушествует такого подмножества
индексов J, что Pik = О мя всех i Е J, k ~ J.
Система уравнений Рх = х с разложимой матриuей, по сути, имеет вид

т. е.

Р1I Х. + Р. 2 Хl = х.,
Р22Хl = Хl·
Наличие автономной подсистемы Р22Хl = Хl, которую можно решать неза­
висимо, - характеристическое свойство разложимой матриuы.

Э) Не примитивноlI.
5.3. Процессы с непрерывным временем 103

Нера1ЛОЖИМОСТЬ Р равносильна либо неравенству (1 + p)n-I > О, либо


существованию для любой пары индексов i. j такого k, что Pij) > О, где p;jl
обозначает (ij)-й элемент матриuы Р. НО отсюда не вытекает существование k,
при котором pk > О. Если же главная диагональ нера1ЛОЖИМОЙ матриuы Р строго
положительна, то p n - I > О.

5.2.1. Если матрица Р неразложима, то ,\(Р) = 1 является ведущим собственным


значением Р алгебраической кратности 1, которому отвечает строго положитель­
ный собственный вектор. Других положительных собственных значений и векторов
у р нет 41 •

5.3. Процессы с непрерывным временем

Марковские процессы с дискретным временем имеют свой круг


приложений,но гораздо более типичны системы, в которых переход
из состояния в состояние происходитв случайныемоменты времени
(поступления заявки, поломки прибора, окончания ремонта).
Ситуация во многом аналогична предыдущей. Система, нахо­
дясь в нулевой момент времени в j -м состоянии в момент D.t
попадает в i-e состояние с вероятностью Pij(t:.t), и тогда при на­
чальном распределении системы по состояниям с вероятностями

Pj(O) в следующий момент получается распределение

Pi(D.t) =L Pij(D.t)Pj(O), (5.3)


j

или в векторном видеp(t:.t) = P(D.t)p(O) , а уравнение Колмого­


рова-Чепмена переходит в S)

Pij(t + s) = L Pik(t)Pkj(S),
k

что является элементарным следствием формулы полной вероят­


ности.

Выбор фиксированного шага t = пА сразу возврашает ситуаuию в прежнее


русло (с дискретным временем).

4) Но Р может иметь другие собственные значения на единичной окружности - со всеми


8ытекаюшими отсюда -неприятностями-,

S) Речь идет о стаuионарном случае, 8 котором вероятности не меняются при изменении


точки отсчета.
104 Глава 5. Марковекие процессы

Переходы системы из состояния в со­


стояние удобно мыслить происходящи­
ми под воздействием потоков событий
(отказов, заявок, восстановлений, запро­
сов, регистрauиЙ). Пусть, например, )..ij
обозначает интенсивность пуассоновско­
го потока, под воздействием которого си­
стема переходит из j - го состояния в i-e
Рис. 5.1 с вероятностью )..ijt1t + o(t1t) за время
t1t. При этом часто модель сопровожда­
ется графом состояний (рис. 5.1), на котором ориентированные
дуги между узлами событий отвечают возможным переходам.

Вероятность Pi(t + L\t) складывается из двух чаетей: L Pt(t).\itL\t - вероят­


t;/=i
ности того, что за время L\t система ПрИдет в i-e состояние из других состояний,

и вероятностиPi(t) { \- L .\kiL\t} - того, что система не уйдет из i -го состояния,


k;/=i
Т.е.

Pi(t + L\t) = L Pk(t).\ikL\t + Pi(t){ \ - L .\kiL\t} + o(L\t). (5.4)


t;/=i t;/=i

Если положить

.\ii =- L '\ti,
t;/=i

то (5.4) - после пере носа Pi(t) алево, деления на L\t и предельного перехода
L\t -+ О - приводит К уравненшш KO/Uloгopoвa

Vi(t) = L )..ikPk(t), i = 1, ... ,П.

"
При более внимательном подходе к предмету здесь возникают
детали, на которых в случае беглой экскурсии лучше не оста­
навливаться, иначе создается впечатление о наличии сложностей,
которых на самом деле нет.

Уравнения Колмогорова в первую очередь используются для


определения стаuионарныхрешений, для чего приравниваютсяну­
лю правые части. Посмотрим, как это делается на примере популяр­
ной модели проuесса рождения и гибели. Соответствующийграф
5.4. Оприложениях 105

Рис. 5.2

состояний вьrтянуг В цепочку (рис. 5.2). Потоки рождений, перево­


дяшие систему из i-гo состояния в (i + I)-e, имеют интенсивности
-'i,i+l, а процессы mбели, связанные с переходами i + 1 ::} i, -
интенсивности -'i+l,i. В моделях массового обслуживания рожде­
нию сопоставляется обычно приход заявки (клиента) в систему,
mбели - уход обслуженного клиента из системы. В случае ра­
диоактивного распада речь может идти о нейтронах. Генетические
модели терминолоmческих пояснений даже не требуют.
Несложные выкладки показывают, что стационарное решение
определяется вероятностями:

-'k-l,k ... -'12-'01


Pk = РО, (5.5)
-'k,k-l ..• -'21-'10

-'01 -'n-l,n ... -'12-'01)-1


k = 1, ... ,n, РО=
( 1+-+ ... +---:....---:....----
-'1О -'n,n-l ... -'21-'10

Стандартный вариант в теории массового обслуживания: кли­


енты в систему поступают с интенсивностью -', т. е. все -'k,k+ 1 = -', но
прием заявок прекрашается при пере пол не нии системы, -'k,k+l =0
при k ~ а. Обслуженные клиенты покидают систему с интенсив­
ностью Il, т. е. все -'k,k-I = Il.
Q

Тогда (5.5) при условии нормировки Z: Pk = 1 дает


О

(1 - р)р" -'
Pk = 1 _ ра+l ' Р= -, k < а.
Il

5.4. Оприпожениях

Иллюстрации теории марковских цепей простейшими при мерами


типа бросания монеты укрепляют мнение большинства о беспо­
лезности предлагаемых моделей. Сложными примерами, с другой
106 Глава 5. Марковекие процессы

стороны, мало кто интересуется. В результате марковские процессы


попадают в нишу обширных, но скучных теорий. С этим, однако,
ничего не надо делать, потому что такова реаЛьность. Закономерная
скука возникает из-за при ведения всех задач к одной схеме. Воз­
можностей для заблуждений почти не остается, а рутина деталей,
когда «в принципе,) все ясно, - не воодушевляет.

В такой ситуации необходимо лишь признать факты и чест­


но расставить акценты. Область обширна и глубоко проработана,
но в общем курсе теории вероятностей для нее достаточно совсем
немного места. Чтобы ясно было, о чем речь, и где искать, если
потребуется.
Парадоксальный момент при этом заключается в том, что
проблематика ТВ более чем наполовину укладывается в теорию
марковских процессов. Разумеется, способ изложения случайного
блуждания - дело вкуса и доброй воли, но ряд областей типа
массового обслуживания без идеологии марковости много теряют.
Плюс к этому, есть масса совсем простых задач - абсолютно
гробовых до тех пор, пока не приходит мысль использовать схему
pk+1 = ppk. Представим, например, что игра в «орлянку') про­
исходит на четырех монетах, каждая из которых выпадает гербом
со своей вероятностью Pk, а какая монета бросается следующей -
определяется какой-нибудь схемой, типа изображенной на рис. 5.1,
в зависимости от выигрыша или проигрыша в текущей партии. Ре­
шение сопутствующих вероятностных вопросов здесь практически

невозможно без опоры на pk+l = ppk.


Конечно, такая задача представляетсянадуманной. Но, скажем,
в генетике есть масса проблем, которые почти без усилий ложат­
ся в готовые марковские схемы. Например, динамика популяций
по группам крови. Здесь, в принципе, все настолько прозрачно, что
грубые модели даже не требуют особых пояснений, ложась в рамки
k+1
Р = Ррk . Беда заключается в другом. Для серьезных ПРОДВJ.1же-
ний не хватает .. смычки». Математик не идет дальше иллюстраций,
не будучи готов посвятить часть своей жизни копанию в био­
логических тонкостях. А биолог ограничивается карикатурными
моделями, потому что не хватает математической квалификации.
Глава 6

Случайные ФУНКЦИИ

6.1. Определения и характеристики

Случайной функцией (с.ф.) называется функция X(t), которая при


любом значении apryMeHTa t является случайной величиной. Да­
лее предполагается, что t- время, но, в принципе, t может быть
и многомерным параметром. Случайную функцию времени называ­
ют также случайным процессом, хотя более естественно называть слу­
чайными проuессами механизмы порождения с. ф. - такие как мар­
ковские nроцессы, стохастические дифференциальные уравнения и т. п.

Видимая простота определения с. Ф обманчива. Неприятности, как правило,


выявляются, когда случайные величины X(t) и X(t + дt) приводятся в сопри­
косновение, т. е. дt устремляется к нулю. В случае непрерывности с. Ф возникают
трудности с 'независимостью X(t) и Х(8) при близких t 1: 8, что порождает
определенныйдискомфорт.
Избежать неприятностей помогает видоизменение точки зрения. Случайной
функцией называют функuию двух переменных X(t,I&I), где 1&1 - точка вероят­
ностного пространства П, на котором задана та или иная вероятностная мера.
Зависимость от случая реализуется при этом каждый раз наступлением исхода
1&10 Е П, при котором фактическое течение npouecca описывается траекторией
X(t,l&Io), которую называют также реШlUзацией nроцесса или выборочной функцией.
Функuию
X(t, 1&1) = о cos (211'vt + ер),
где 1&1 = {о, v, ер}, можно рассматривать как с. ф. Такая модель, конечно, узка -
все реализаuии (траектории) гармонические. Но

X(t, 1&1)
00
= 2" +L
"" ( n1l't . n1l't)
оп cos -,- + ЬП slП -,- ,
n=1

где точку вероятностного пространства 1&1 Е n


определяют последовательности
{Ot, bt }, ВК.JIючает в рассмотрение все интегрируемые на 1-',') функuии, -
И остается задать вероятностную меру на П.
108 Глава 6. Случайные функции

Плотность р(х, t) случайной функции 1) X(t) определяет


распределение значений X(t) в момент t. Разумеется, более пол­
ной характеристикой процесса является двумерная плотность
P(XI, Х2, t 1, t2), определяющая распределение значений

в разные моменты времени. Понятно, что еще более полную харак­


теристику дают т-мерные плотности.

Для с. Ф естественным образом определяются: .матожидание

Jхр(х,
00

тж(t) = Е {X(t)} = t) dx
-00

и корреляционнаяфункция 2)
Rжж(t, В) = Е ([X(t) - тж(t)][Х(s) - тж(s)]},
которая при t= s превращается в дисперсию

Dж(t) = Rжж(t, t) = Е ([X(t) - тж (t)]2}.

Упражнения

• Корреляционная функция с. ф.

щrt)
X(t) = L l аn cos -,-
n=1
N, R'/rt
+ Ь N sin -,- •

где случайные веЛИЧИНbI а n , Ь N не коррелированы,

Е{аn}=Е{Ьn}=О,

определяется равенством

N
а)
R:t:t(S, t) =" 2
L.J О'n cos
R1f(t -
,
.,
. (.)
n=1

• Пусть X(t) имеет нулевое среднее, принимает значения ± 1, число перемен


знака подчиняется закону Пуассона с постоянной А. Тогда

R:t:t(s, t) = e- 2A(I-.). (?)

1) Зависимость от fJJ подразумевается. но не упоминается. чтобы не эаrРОМОJК.!lать игровое


поле.

2) См. раздел 1.8 по поводу терминолаrии -ковариаuия ~ корреляuия •.


6.2. Эргодичноеть 109

6.2. Эргодичноеть

Стационарные функции. Случайный процесс X(t) стационарен,если


его характеристики не меняются при сдвиге по оси времени.

Уточнять сказанное можно различным образом. Требуя, напри­


мер, независимостьот сдвига по оси времени n-мерной плотности
распределения

P(XI,'" ,х n , t(, ... ,tn ).


В этом случае с. ф. X(t) называют стационарной 8 узком СМЫCllе.
Менее жесткий вариант: независимость от сдвига по оси вре­
мени условного матожидания и корреляционной функции. В этом
случае с. ф. X(t) называют стационарной 8 широком СМЫCIlе.
в том и другом случае, как легко ВИдеть, матожидание

Е {X(t)} = mж = const,
а корреляuия Rжr(t. 8) зависит только от разности t - 8, т. е.

Rжж(t, 8) = Rжж(t - 8) = Rжж(т).


Соответственно,
Dж(t) = Rжж(t - t) == Rжж(О).
Какого рода стаuионарность подразумевается, обычно ясно из контекста, -
и это позволяет обходиться без оговорок.

ЭрroдичностЬ с. ф. Случайная функция, будучи функцией двух пе­


ременных, представляет собой ансамбль траекторий X(t, С&1), ин­
дексируемых (с определенными весами) параметром с&1 Е П. Под
эргодичностью Х обычно понимают равенство среднего значе­
ния Х по ансамблю и - среднего по времени. Для стационарного
процесса это означает

(6.1)

где to - произвольный момент времени, а m ж = Е {X(t)}.


Таким образом, в варианте (6.1) речь идет о среднеквадратиче­
ской сходимости

to+T

Т ! X(t)dt ~ тж
1
при Т --+ 00.

to
110 Глава 6. Случайные функции

Понятно, что такого сорта сходимость представляет собой непре­


рывный аналог закона боЛЬШИХ чисел.

Об эргодичности можно говорить по отношению к любой


функции Y(t) = !p[X(t)] либо Y(t), ... ,t n ) = !p[X(t l ), ••• ,X(t n )].
В частности, - по отношению к корреляционной функции, оттал­
киваясь от

Y(t, а) = [X(t) - т,:I[X(s) - т:l:!-

Эргодическое свойство позволяет экспериментально опреде­


лять матожидание любой стационарной функuии Y(t) = !p[X(t)]
не по множеству реализаций, а по данным одной реализаuии на до­
статочно большом промежутке времени Т:

Разумеется, эргодичность ..даром не дается •. Требуются те или иные пред­


положения. В простеllших постановках задачи результат достигается довольно
просто. Например,

'о+Т 2 'о+Т 'О+Т

E{[i! x(t)dt-m r ] }=Е{;2! !Ix(t)-mrllx(s)-mr)dtds}=


'о 10 'о
'о+Т 'о+Т

=;2! !'о (о
Rrr(t - а) dt ds.

Поэтому эргодичность стаuионарной функuии по отношению к матожиданию


обеспечивает условие

'о+Т 'О+Т

lim
Т ...."" Т
~! ! Rrr(t - а) dt ds = О, (6.2)
'о 10

которое несложными преобраэованиями (см. ниже) сводится к

(6.3)
6.3. Спектральная плотность 111

... Переход от (6.2) к (6.3) осуществляется заменой т =t - в,

Io+Т Io+Т Io+Т Io+T-.


I=!

! Rжж(t-в)dtdв= ! [!
10 /0 /0-'
Rжж(Т)dТ] dB.
Обозначая далее
(

!
'1Ю = Rжж(т) dT
О

и интегрируя по частям, получаем

1 = {'1(t o + Т - В) - '1(to - а) }sl::H + /Т{Rжr(t о + Т - а) - Rжж(tо - а)}а ds.


/0

Окончательно.

! (Т
Т

1 =2 - т)Rжж(т) dT. ~
О

Более общие задачи в связи с эргодичностью [2) возникают,


когда речь заходит о происхождении случайного процесса X(t),
который может порождаться, например, стохастическим диффе­
ренциальным уравнением или иным механизмом. В этих случаях
характерист':tКИ X(t) приходится «вытаскивать» из других моделей.

6.3. Спектральная плотность

Преобразование Фурье корреляционной функции стационарного


процессаЗ) ,

- I!
R(c.J) = -
211'
00

R(t)e-'IUТ . dT R(T) = !
00

R(c.J)e
iIUT
dc.J,
-00 -00

называют спектральной плотностью сигнала X(t).

Обратим внимание. что традиционныеобозначения здесь вступают в проти­


воречие. Через ы принято обозначать как точку вероятностногопространства, так
и круговую частоту. Но для авральных мер все-таки нет оснований. Из контекста
ясно, что имеется в виду.

3) Нижний иидекс хх далее опушен.


112 Глава б. Случайные функции

Предположим, что X(t) является стационарнойс. ф., эрroдич­


ной по отношению к своей корреляционнойфункции. Torдa

(6.4)

rдe

Т/2
_ 1 jT/2 .
R'(III) = 2~ T
R'(r)e-"' dr, R'(r) =~ j IX(s) - т.,]IХ(э + Т) - т.,! ds.
-Т/2 -Т/2

Предельное сооmошение (6.4) справедливо в силу предполаrаемоА эрrодич­


ности:

lim Е {lR'(r) - R(r)!2}


Т"'оо
= О.

Перезапись H'(III) в ВИде


Т/2 Т/2

H'(III) = 2~T j {! (Х(э) - m.,]IX(t) - т.,!е ilol' ds }e-iIoIl dt =


-Т/2 -Т/2

Т/2 Т/2

= 2~T j (Х(э) -
i
m.,!e .., ds j IX(t) - т.,!е- iIoIl dt
-~2 -~2

указывает на справедливость следующеrо принципиальноrо сооmошения:

- 271" -
R(III) = Тliт
... оо Т
2
-Е {IAT(III)I }, (6.5)

rде lT(III) - преобразование Фурье сиrнала АтЩ хтщ - т." совпацающеrо =


с X(t) - т., на промежутке t Е I-T/2, Т/2! и paBHoro нулю вне этоrо промежутка.

Важная роль соотношения (6.5) заключается в фиксации вза­


имосвязи спектра корреляционной функции со спектром caмoro
сигнала X(t).

Простейшне свойства спектральной nлотнOC11l. Из четности Яжж (Т)


вытекает

!
00

Rzz(T) sin IUT dT = О.


-00
6.4. Белый шум 113

Поэтому

~
Rжж(~) = 21r 1/ ос

Rжж(т) cos ~T dT.


-00

Вещественность и положительность Rжж(~) вытекают из (6.5).


Шир<?кое распространение в теории распространения волн на­
ходит очевидное в данном контексте энергетическое соотношение:

увязывающее среднюю мощность случайного сигнала с его спек­


тральной плотностью.

Пример. Корреляционная функция Rrr(T) = 0';e- 7IT1 имеет спектральную плот­


ность

6.4. Белый шум

Стационарный случайный сигнал X(t) с постоянной спектральной


IUlотностью

во всем диапазоне частот от нуля до бесконечности - называют


белым шумом.
Обратное преобразование Фурье при водит в этом случае к дель­
таобразной корреляционной Функиии

00

Rжж(т) = G/ eit.lT dt.u = 21rGt5(T).


-00

Таким образом, корреляционнаяфункция белоrо шума Rrr(T) = О при лю­


бом т i: о, т. е. значения сиrnала в различные моменты времени X(t) и X(t+T) -
114 Глава 6. Случайные функции

всегда некоррелированы. Разумеется, это идеализация. О внутренней противоре­


чивости понятия белого шума свидетельствует также бесконечность дисперсии:

f
ею

Rжж(О) = 2G dl.J = 00.


о

Но противоречия здесь, вообше говоря, не страшнее несоизмеримостидиа­


гонали квадрата со стороной. Необходимо, конечно, принятие мер, связанных
с преодолением достаточно серьезных преnятствий, - однако бросать все и за­
ниматься сообша проблемой обоснования вовсе необязательно.

Это извечная проблема. Не только в ,Мате,Матике, но и в жизни. Как идти


своим nуте'м, чтобы не отвлекаться, и насколько все же nОглRдывать по сторонам,
чтобы не потерять гибкость и поддерживать гаР'монию?
В ,Мате,Матике, правда, черно-белые оттенки этой дШleмAlЫ горазда острее
и проще. В любой точке пути - развШlка. Обосновывать или идти дальше? Со­
ответственно, две группы исследователей со своими симпатиями и aHтиnaтиR.ми.
Они обычно друг над друго'м подтрунивают, не желая согласиться, что нужно и то
и другое, - хотя у каждою есть резон бежать за своим зайцем.

6.5. 6роуновское движение

Случайная функция X(t) называетсяnроцессом с незавиСUМblМиnри­


ращения.ми, если дЛя любых to < t l < ... < tn случайные величины
X(t l ) - X(tO), ... ,X(tn ) - X(t n - I ) независимы.
Процесс считается OдHOpoдHblМ, если распределение

X(t) - Х(а)

определяется только разностью t- а.


Однородный процесс X(t) снезависимыми прирашениями
называют броуновскuм движением, или виHepoвCKUМ процессом, ес­
ли все X(tk) - X(tk-I) распределены нормально4 ) со средним О
и дисперсией Itk - tk-II.

Описание Эйнштейном броуновского движения опиралось на естественные


физическиесоображения.Если X(t) - координата броуновской частицы в момент
времени t, то смешение X(t) - Х(О) (для определенности Х(О) = О) представляет
собой сумму большого числа «мелких. независимых слагаемых

X(t) = :E[X(lt) - X(tt_I)]'


t

4) Предполагается также X(O.CII) =О почти l1IIЯ всех CII.


6.5. Броуновское движение 115

и центральная предельная теорема дает основания рассчитывать на нормальное

распределение X(t).
ПЛотность распределения частиц р(ж, t) при этом подчиняется уравнению

!
00

р(ж, t + Т) = р(ж - у, t)V(T, у) dy, (6.6)


-00

rде V(T. у) обозначает долю частиц, переместившихся И:J ж в ж +у за время Т.


Раэложение (6.6),

!
00

р(ж, t) + ТРI(Ж, t) + О(Т) = {р(ж. t) - урz(ж, t) + ~y2рzz(ж, t) + ... }V(T, у) dy,


-00

в предположении симметрии V(T, у) по У и пропорциональности дисперсии


времени Т

!
00

y2V(T, у) dy = 2DT
-00

ПрИВОдИт к уравнениюДИФФУ3ИИ:

др = Dд2р (6.7)
дt дж 2 '

решением KOToporo при условии р(ж, О) = 6(ж - у) является

р( ж , t) = _1_
471'т
e -(Z-,)2/(4DI).

Винер придал физическим соображениям СТРОI)'ю форму, осно­


ванную на представлении функций X(t, "") с помощью счетного
множества коэффициентов Фурье 5):
I

X(t,l.J) = f
n=О
on(l.J)sin [( n+ ~)7I't]. On(l.J) = !
о
X(t,l.J)sin [(n+~)7I't] dt,
где подразумевается процесс на промежутке [О, 1].
Винеровский процесс занимает в теории случайных функций
центральное место по целому рЯду причин. В первую очередь
потому, что в предположениях

Х(О) = О, Е {X(t)} = О, D {X(t) - Х(8)} = t - 8 (8 ~ t)

S) Если коэффиuиенты Фурье распределены нормально, то их линеЙН8JI комбинаuия


тоже распределена нормально.
116 Глава 6. Случайные ФУНКЦИИ

это единственный непрерывный с вероятностью 1 процесс с неза­


висимыми приращениями.

Кроме того, винеровский процесс есть марковский процесс 6) -


С переходной IUlОтностью, удовлетворяющей уравнению диффу­
зии (6.7).

6.6. Дифференцированиеи интегрирование

Из-за недифференцируемости винеровскоrо процесса обычный аппарат мате­


матическоrо анализа в теории случайных функuий служит лишь ориентиром.
Соответствуюшие инструменты для изучения стохастических дифференциальных
уравнении строятся на базе понятия стохастическоi!Oинтеграла (18). На понятий­
ном уровне, однако, изложение вполне можно вести с помошью классических

понятий интеrpала и производной.

Дифференцирование случайной функции X(t),

Y(t) = Х' (t),

оказывается перестановочно с операцией математического ожида­


ния:
dX(t) } = dE {X(t)}
Е{ dt dt'

что сразу следует из перехода к пределу при Д --+ о в очевИдНОМ


равенстве

Е {X(t +~) - X(t)} = Е {X(t + д)} - Е {X(t)}


~ Д'

Формула для вычисления корреляционнойфункции производ­


ной Y(t) = X'(t) ,

(6.8)

получается предельным переходом почти так же просто.

6) Еше винеровский npouecc эквивалентно определяется как rауссовский npouecc с ну­


левым матожиданием и корреляuионной функuией R(t,') = (12 min{t. ,}.
6.6. Дифференцирование и интегрирование 117

в случае стаuионарного проuесса из (6.8) сразу следует

Легко видеть, что спектральная плотность производной сигнала


Y(t) = X'(t) равна

в случае интегрирования

Y(t) !
= 9(э, t)X(s) ds,
о

где функuию 9(э, t) наЗblвают ядром uнтегрШlьного оператора 7),


характеристики Y(t) определяются по формулам:

! 9(э,
т

Е {Y(t)} = t)E {Х(э)} ds,


о

тт

RyIl(t, а) = !! 9(0', t)9(T, s)Rжж(О', Т) ds.


о о

Упражнеиии

• Пусть Y(t) ::; a(t)X(t) + P(t)X'(t). Тогда


8Rжж (s. t)
Rv,(s, t) ::; а(t)а(s)Rжж(s. t) + a(t)p(s) 8а +

+ a(s)p(t) 8Rж~~S. t) + P(t)P(s) 82 ~;~:' t) . (?)

• Если случайный сигнал X(t) имеет корреляuионнуюфункuию

Rжж(s, t) ::; e-II-I I ,

7. В том ЧИCJ1е - Фун"цией Грина, см. 15. т.2).


118 Глава 6. Случайные функции

I
I

то корреляционная функция интеграла y(t) = Х(а) ds равна


о

R,,(s. t) = 2 min{s. t} + е-' + е- ' + e-II-,I - 1. (?)

6.7. Системы регулироваНИА

Понимание метаморфоз, которые происходят со случайными сиг­


налами при интегрированиии дифференцировании,играет важную
роль в изучении динамическихсистем типа

Х + P(t)X + ~(t)Х = y(t),


где параметры и внешние силы флуктуируют случайным образом.
В теории автоматическогорегулирования, например, рассмат­
ривается модель

Lx=My,
в которой L и М - дифференциальные операторы, у - вход
системы, х - выход.

Преобразование Лапласа Lx = Му дает 8 )


L(P)x(P) = М(р)у(р),
L(P) и М(р) - обычные характеристические полиномы.
В результате
х(р) = W(P)y(P),
где

М(р)
W(p) = L(P)

называют передаточной функцией системы.

При работе с устойчивыми системами 9) в качестве передаточной использу­


ется функция W(Ua1). которая по Фуры:-преобраэовзнию входного сигнала y(i(&1)
позволяет указзть Фуры:-преобра30взние выходного сигнала ж(i(&1) =
W(i(&1)Y(Ua1).

=
8) Например, Lz f + TI:i + ТОЖ ~ L(P) =,2
+ Т., + То.
9) Коrда борьба с раСХОдЯшимися иитеrpaлами ие подталкивает к использоваиию преоб­
разоваиия Лапласа вместо - Фурье.
6.8. Задачи и дополнения 119

в отличие от детерминированных систем, преобразование Фу­


рье выходного сигнала, равно как и сам сигнал, - ДЛЯ понимания
ситуации ничего особенно не дают. Здесь важны не беспорядочные
флуктуации, а вероятностные характеристики сигнала, определяе­
мые преобразованием спектра:

Rzz(UJ) = W(iUJ)W(-iUJ)Rуу(UJ),
Т.е.

(6.9)

Другими словами, при прохождении случайных сигналов через


линейные системы основную роль играет не сама передаточная
функuия W(iUJ), а ее модуль IW(iUJ)I.
в результате простого вычисления (6.9) по спектру входного
случайного сигнала определяется спектр выходного сигнала. Для
вероятностного анализа это практически вся информация, которая
требуется.

6.8. Задачи и дополнения

• Эрrодцчностъ с. Ф по отношению к корреляционной функции обеспечивается


условием

J~~ f j (1 - ~) [R;ж(О') + Rrж(О' + т)Rrж(О'


о
- Т)) dO' = О
при любом Т, а эрrодичность по отношению к llисперсии - условием

.
J~ т
1 jT( 1 - Т0') Rжж(О') dO' = О.
2

• Если Т, обозначает время в промежутке [О, t), ПРОВОllимое броуновской


частицей на положительной полуоси, то. как обнаружил П.Леви,

2
Р{т, < жt} = - аrсsiп..;ж,
11'

что называют распределением арксинуса. По ПОВОllУ llИСКретных аналоrов


см. раЗдел 7.3, а также [23,261.
Глава 7
ПриклаДНЬlе области

Многие из упоминавшихся ранее задач ЯВЛЯЮТСЯ прикладными, но некоторые


из них ФОРМИРУЮТСЯ в направления. об этом, собственно, идет речь. Не с целЬЮ
достичь горизонтов, а с намерением дать представление.

7.1. Управление запасами

Продажа скоропортящегося товара сопровождается постоянным


стрессом. Перезаказал - выбросил, недозаказал - упустил при­
быль. Вся жизнь, конечно, такая. Но в продуктовом магазине -
особенно.

допустим, торговое время разбито на периоды, с. в. Х обозна­


чает спрос на товар внутри периода, х - объем заказа. Непродан­
ный товар в течение «периода» приходит В негодность. Далее, >. -
розничная цена, р. - оптовая. Прибыль, без учета при входящих
факторов (накладные расходы, транспорт и т. д.), равна

(>' - р.)Х - р.(х - Х), Х ~ х;


П(х, Х) =
{ (>' - J-L)X, Х > Х.
Пусть F(x) = Р{Х < х} - непрерывная функция распределения
с. в. Х, тогда

дЕ {П(х, Х)}
дх = (>' - p.)F(x) - J-L + J-LF(х).

Приравнивая эту производную нулю, получаем, что максимум


условного матожидания прибыли достигается при заказе х, обес­
печивающем равенство
р.
F(x) = ~.
7.2. Страховое дело 121

Для определения оптимального заказа, разумеется, необходимо


знать F(x) в диапазоне, который имеет отношение к реальной
ситуаuии, - для чего требуется наблюдать и накапливать данные.
Постановка задачи, безусловно, игрушечная, но на готовый
каркас легко нанизывать дополнительные детали. Кроме того, игру­
шечная модель выводит мысль из состояния замешательства и дает

импульс в продуктивном направлении.

7.2. Страховое депо

Клиент страхует собственность на сумму Х. Страховой взнос 'УХ,


вероятность потери собственности р.
Матожидание суммы потерь равно рХ, - поэтому страхо­
вая компания будет «в плюсе» лишь при условии 'УХ > рХ, т. е.
а. Использование среднего в данном случае логично, по­
скольку компания имеет дело с массой клиентов, - и картина
в uелом определяется действием закона больших чисел. В против­
ном случае опора на матожидание бьmа бы сомнительной.
Для индивидуального клиента картина совершенно иная. Мас­
совость ситуации его не касается. Небеса подбрасывают «ero моне­
ту» один раз - и усреднять нечего.

Это одно из противоречий бытия. Судьба армии мало что rоворит об ин­
дивидуальном пути солдата. Матожипание не rарантирует отдельных результатов,
и выиI1>ыш в среднем иноrда равносилен ПРОИI1>ЫШУ наверияка, о чем уже не раз

заходила речь (см. раздел 4.1). Поэтому в TaKoro рода ситуациях оптимизация
матожидания далека от реальных потребностей. Адекватные постановки задачи
возможны лишь на базе содержательноrо понимания проблемы. Итоrом может
бьrrь, например, максимизаuия вероятностей тех или иных событий, которые
определяются факторами, лежашими за пределами исходноrо описания.

Выход из тупика «если страхование выгодно для компании,


то оно невыгодно для клиента» нередко преподносится как некое

таинство, опираюшееся на rpoмоздкие формулы. На самом деле


возможная целесообразность страхования для клиента, как правило,
опирается на очень простое соображение: субъективная ценность
страхуемой собственности может быть гораздо выше ее рыночной
стоимости Х.
Возьмем крайний случай. Пусть речь идет о страховании авто­
мобиля, субъективная ценность Koтoporo с точки зрения владельца
122 Глава 7. Прикладныв области

может бbIТЬ бесконечной в следующем СМbIсле. Потеря автомаши­


Нь! (из-за отсутствия денег на покупку новой) может бbIТЬ связана
с потерей рабоТbI, расположения любимой девушки и т. п. Таким
образом, «в случае чего» клиент теряет жизненно важнbIе точки
ОПОрbI. Поэтому для него uелесообразна любая nОСШlьная плата "УХ
за страховку.

в этом, собственно, и заключена суть - в раСХОЖдении стои­


мости и РbIНОЧНОЙ иены. БbIвает, например, недвижимость ничего
не дает кроме головной боли. И продать жалко, и толку - чуть.
Стоимость меньше иенЬ! - страховка неразумна ') .
Довольно много моделей опираются на страхование части ры­
ночной стоимости Х и подсчете средних потерь (для клиента!)
за несколько периодов. Там возникает много формул - и на гума­
нитариев это действует гипнотизирующе.

7.3. Закон арксинуса

Случайное блуждание или игра в «орлянку», связаННblе с изучением


сумм

ВN = Х, + ... + Хn ,
где Х k Е {-1, 1} (<<выирал - проиграл» либо «вверх - вниз»), -
имеет существенное каноническое значение, важное для понимания

раЗЛИЧНblХ содержатеЛЬНblХ задач.

Значения t = k удобно считать дискреТНbIМИ моментами вре­


мени, а поведение ВN представлять как график в плоскости (t, В),
на котором точки (k, Sk) соединеНbl прямолинеЙНbIМИ отрез­
ками.

7.3.1 Теорема. Пусть р(2n, 2k) обозначает вероятность того, что


в интервШlе времени (О,2n) сумма Sj npиHuмaeт неотрицательное
значение (выигрыш ~ О) при 2k значениях j. Тогда

(7.1)

1) Криминальные вариаНТbI -застраховать и ПОJlJl(ечь. здесь не обсуждаются.


7.3. Закон арксинуса 123

НеслоJКНое, но несколько переrpуженное петалями показательство см. у Фел­


лера (26). В основе показательства лежит механизм, который в наиболее про]рач­
ном виде пействует в классической задаче о баллотировке:

На выорахх кандидат А собрал а голосов, кандидат В - Ь zoлосов (а > Ь).


а-Ь
Вероятность, что в течение всего времени А был впереди в, равна --Ь.
а+
эту зanачу обычно сопровожnают различные трактовки, вывоnяшие на по­
вольно широк~й спектр ПРИЛОJКениЙ.

Чтобы рассмотреть сугь за фасадом формулы (7.1), надо перейти


к асимптотике, что одновременно полезно с вычислительной точки
зрения. Кроме тою, интерес представляет доля времени, когда
выигрыш неотриuателен, т. е. вероятность

kn
P{kn < хn} = L р(2n, 2k),
k=1

где 2k n равно числу значений j Е (О,2n), при которых сумма Sj


неотриuательна.

После некоторой технической эквилибристики получается, что


при n -t 00

P{k n < хn} -t -2 агсslП


.
,fX.

Это и есть закон арксинуса. Вот несколько .uитат. из Феллера [26],


компенсируюших сухость формулы.

При 20 бросаниях симметричной монеты в .орлянке.. опин из игроков


с вероятностъю 0,35 никогпа не бупет впереnн, и с вероятностью 0,54 - бупет
вперепи не более onиoro раза.
Интуиция попсказывает, что поля времени "n/п, коrnа суммы Sj неотрица­
тельны, полжна быть бли]ка к 1/2. Но это как раз наименеевероятно. Наибольшую
вероятность имеют крайние ]начения "n/п = О и "n/п = 1.
Выгляnит абсурпно, но тем не менее вероятностъ тoro, что при 10 000
бросаний монеты опин из иrpоков нахопнтся в выигрыше более чем 9 930 раз,
а прутой - менее чем 70, больше 10 %.

Если говорить простым языком, то причина разобранного явле­


ния заключается в том, что суммы Sj обнуляются все реже и реже.
Подсознательно думается, что число ничьих (обнулений Sj) про­
порuиональнодлине игры n. На самом деле их число пропорuио-
124 Глава 7. Прикладные области

нально .;n. Если построить rpафик 5 = 51, то это будет колебание


со все увеличиваюшейся длиной волны и растушей амплитудой.

7.4. Задача о разорении

Иrpы, связанные с бросанием монеты, кажутся наивными, но в них


иrpают все экономическиесубъекты. от крупныхбанков до физиче­
ских лиu. Поэтому сопутствуюшаятематика важна не столько даже
для: максимизаuии прибыли, сколько для: понимания окружаюшей
среды и собственной роли в будничном коловрашении.

Суть дела чаше всего проста, но некоторые явления имеют


источником не вполне очевидные математические факты. Первое
впечатление о тривиальности поведения случайных «Оl~-последо­
вательностей не совсем верно. Среднее, конечно, - нуль, дис­
персия - одна четвертая. Но даже «нормальная.) асимптотика,
позволяюшая легко оuенивать доверительные интервалы и другие

нюансы, оставляет кое-что вне поля зрения.

Вопрос заключается в том, как ведут себя индивидуальные


траектории

5п = X t + '" + хп , Xk Е {О, l}.

Дипломатичный ответ «когда KaK~ не отражает всю правду. В пове­


дении случайных сумм 5п есть обшие закономерности. Некоторые
естественные ожидания рушатся под давлением закона арксинуса,

показываюшего, что при иrpe в «орлянку. нет, например, никакой


тенденuии к выравниванию периодов лидерства.

Кроме того, закон больших чисел и предельные теоремы остав­


ляют без внимания многие естественные вопросы, иrpовой аспект
которых может быть первоочередным.

Вероятность разорения. Допустим, при игре в «орлянку~ ставка каж­


дой партии равна 1 юаню, начШlЬНЫЙ каnитШl игрока N юаней.
Игра nрекращается в случае разорения (обнуления каnитШlа) либо
по достижению каnитШlОМ игрока величины А. Какова вероятность
разорения p(N)?
~ Пусть событие R обозначает ра.зорение игрока, У+ - выиrpыш В первой
партии, у_ - проиrpыш. Torдa

p(N) = P{R} = P{RIV+}P{V+} + P{RIV_}P{V_}.


7.4. Задача о разорении 125

и в силу

Р{У+} = Р{У_} = 2'1 P{RIV+} =p(N + 1), P{RIV_} = p(N - 1),


получается

1
p(N) = 2[P(N + 1) + p(N - 1»), т. е. p(N + 1) = 2p(N) - p(N - 1).

Решая последнее рекуррентное уравнение при очевидных краевых условиях


,(0) = 1, р(А) = О, приходим К

I ~H)= 1- ~ I•
Разумеется, вероятность достижения капиталом игрока суммы А равна

N
1- p(N) = А'

Упражнении

• При иrpe в ту же игру, но с вероятностью выигрыша в каждой партии, равной


v < 1/2, В03НИкает рекуррентноеуравнение

p(N) = vp(N + 1) + (1 - v)p(N - 1),


решением Koтoporo служит

еА _ еН

(N) .. .. (?) (7.2)


р = 1А=Т'
rBe ~ = (1 - v)/v.
• АкалИ3 показывает, что вероятность разорения 3IIвисит таюке от величины
ставки в отдельной партии. Извлекая на свет Э1У 3IIвисимость, можно полу­
чить ответы на некоторые неочевидиые вопросы. BblroBHee ставить по юаню
или по ДОJVIару? Сразу все или .по чуть-чуть.?
Например, при иrpe в рулетку р = 18/38 :::: 0,47 - и едИНИЧНая ставка
в каждой отдельной партии - в соответствии с (7.2) - удваивает капитал
N = 20 с вероятностью
1 - (20/18)20
1- р(20) = 1_ (20/18)40:::: 0,11.
Вероятность же удвоения капитала при одноразовой ставке N = 20 в четыре
ра3а больше, р = 0,47.
• И3 преды.аушеrо примера напрашивается вроде бы философский вывод:
.. чем
меньше партий играешь в проигрышную иrру2), тем лучше •. Удивительно,
но даже это не вcerBa так.

2) В данном случае иrpa проиrpышна, поскольку р = 0,47 < 0,5.


126 Глава 7. Прикладные области

Допустим, игрок выигрывает (проигрывает) серию из 2п >О партий в ру­


летку, если его суммарный выигрыш больше (~) нуля. При наличии права
выбора числа 2п (заранее) - верояmость выигрыша серии максимизирует
2п = 24, а не 2п = 2, как подсказывает внутренний голос J ) •
• Если двое, А иВ, с начальными капиталами а и Ь, играют в «орлянку_,
то средняя продолжительность игры 4) до разорения одного из игроков -
равна аЬ. (?) Таким образом, если капитал первого - доллар, а второго -
миллион, то ОЖИдаемая продолжительность игры - миллион партий (хотя А,
казалось бы, может очень быстро проиграть). Но здесь умесmо вспомнить
р

о скryациях, когда Х" -+ О, но Е {Х,,} -+ 00.

7.5. Игра на бирже и смешанные стратегии

Скрытность вероятностных процессов вкупе с человеческой стра­


стью к загадочности покрываютбиржевые игры мистическимтума­
ном. Свой вклад вносит также тенденцияпрофессионаловморочить
головы заказчикам. Рекомендациямпокупать убыточные акции да­
ются такие заумные толкования, что клиенты платят за консульта­

ции, как загипнотизированные.

Суть дела, между тем, достаточно проста, но не настолько три­


виальна, как в обыкновенныхзадачах оптимизации.Игрок на бирже
действительносталкиваетсяс ситуациями, к которым человеческая
психика не была подготовленаохотой на мамонтов.

в фОРМШlизованном виде задача может выглядеть так. Игрок


имеет n различных стратегий (nокуnки разных акций, например)
в условиях неоnределенности состояния экономической среды, ха­
рактеризуемого т вариантами. Каждой комбинации возможностей
отвечает свой выигрыш aij, где первый индекс указывает номер
стратегии игрока, второй - состояния среды.
Таким образом, игрок в матрице выигрышей

_ [a.11 .:. a~m]


А-
.. .. ..
a,,1 ... a"m
выбирает строку, а «природа. (или злой рок) - столбец.

J) См. Dubins L., Savage L. How 10 gaJПЫе ifyou must. New York: McGraw-НiU. 1965.
4) В случае единичной ставки при кaжJlом отдельном бросании.
7.5. Игра на бирже и смешанные стратегии 127

Типичная игровая ситуаuия, когда нет возможности собствен­


ными действиями определить исход. Результат зависит еше от дей­
ствий противной стороны - другого игрока или случая.
Вариантов понимания целесообразного принятия решения -
есть много. Остановимся на главном и наиболее принципиальном.

Пусть, на~ример,

А=
72 9] О
[929 11 .
О

Выбор первой строки (стратегии) гарантирует выигрыш не меньше 2. Удивительно,


но если игра повторяется, то можно обеспечить средний выигрыш не меньше 5. Для
этого надо при менять, как говорят, смешанную стратегию: каждый раз выбирать
не определенную, а i-ю строку с вероятностью Pi' Оптимальныйв данном случае
набор вероятностей:

{Р'I,PZ,PJ
, '} {I I l}
= 4' 2' 4 .

к идее вероятностных стратегий многие уже npUBbllUlU, но в nрин­


циnе - это революционный шаг, прорыв в nOHuмaHии окружающей
действительности, обнаруживающий новые возможности.

В обшем.виде ситуauия выглядит следуюшим образом. Имеется


два игрока. Первый - выбирает строки матрицы А с вероятностями
{Р1, , Рn},второй игрок - выбирает столбцы с вероятностями
{q1, ,qm}. Матожидание первого тогда равно

W(p, q) = L aijPiqj,
i.j
и он его, так или иначе, пытается максимизировать.

Если игра антагонистическая(выигрыш одного есть проигрыш


другого), появляется естественнаялогика решения. Первый так вы­
бирает {Р1, ... , Рn}, чтобы добиться максимума W при наихудшем
для себя {q1"", qm}, второй - наоборот. В результате решением
игры оказываются наборы вероятностей

Р
•= {р.
1,'" ,Рn
.} , .
ql' ... ,qm } ,
q = {. .
обеспечиваюшие равенство

тах min ~ aijPiQj = min тах ~ aijPiQj' (7.3)


р q .. q р ..
IJ IJ
128 Глава 7. Прикладныв области

Решением (7.3) является седловая точка W(p, q), которая всеrда сушеству­
ет, что является теоремой, но это уже друтая территория, и здесь нет резона
останавливаться на доказательстве.

Если второй игрок - отклоняется от стратегии q* , то выигрыш


первого - возрастает. Следовательно, р* raрантирует средний вы­
игрыш не менее W(p·, q*). Если второй игрок, однако, «изошрен,
но не злонамерен», - как считал Эйнштейн, - то «логика седловой
точки» становится менее убедительной, ибо можно добиться боль­
шего, располагая прогнозом действий противной стороны. Но это
уже бесконечный путь оговорок и уточнений.

На фоне сказанного учет специфики именно биржевой игры


достаточно очевиден, включая замену вероятностей пропорциями
покупки различных акций. Реальность, конечно, намного сложнее
рассмотренной модели. Но эта модель улавливает сам качественный
механизм влияния неопределенности на целесообразность покупки
или продажи акций. Разговоры о разумности приобретения убы­
точных акций - это всегда не вся правда. Покупка может быть
целесообразной лишь в том случае, когда, пусть с малой вероятно­
стью, но есть надежда на доход. Конкретно - надо взвешивать.
Еше один принципиальный момент - ориентация на средний
выигрыш. Здесь опять надо учитывать возможность

р
но ХN -+ О,

что уже не раз обсуждалось.

7.6. Процессы восстановления

Процессом восстановленияназывают параметрическизаданную слу­


чайную величину

1J(t) = max{k : Sk ~ t},


k
где Sk = L Xj, а случайные величины Xj независимы и положи­
j=l
тельны.

Терминолоrия проистекает из малопривлекательной, но удобной модели:


х. - время исправной работы системы (прибора). После выхода системы из строя
7.7. Стохастичвское агрвгированив 129

она так или иначе восстанавливается (заменяется), время бесперебойной работы


восстановленной системы - Х 2 , И так далее.
В таком сuенарии St - время #с-го восстановления, а '1(t) - ",исло восста­
новлении до момента времени t.

Иногда под процессом восстановления подразумевают саму


последовательность Sk, и тогда ясно, что можно говорить о свое­
образном случайном блУЖдании «с перемеННblМ шаroм все время
вправо •. Снятие ограничений соблазнительно, но оно ликвидирует
всякую специфику, и задача растворяется в общем изучении сумм
независимых с. в.

Тематика .восстановления. упоминается здесь с единственной


целью. Это емкая и достаточно развитая область ТВ. Поэтому в слу­
чае возникновения определенноro типа потребностей - полезно
знать, что такая область есть, и знать ключеВblе слова, по которым
можно найти зацепки. Само же «общевероятностное» образование
вполне может обойтись без решения рутинных задач .восстановле­
ния», чтобbl освободить roлову для ПРОСТblХ вещей. В общем курсе
тв ВОЗМОЖНbl, конечно, и другие акценты, если - не через край.

7.7. Стохастическое агрегирование

Упрощение задачи при увеличении размерности связано обblЧ­


но с возможностью перехода на укрупненное описание систеМbI.

Классический образец TaKoro перехода дает статистическая физи­


ка, но гипнотизирующая роль этого примера настолько велика, что

за пределами термодинамики возможности агрегирования в значи­

тельной мере остаются СКРblТblМИ.

Допустим, имеется сложная сеть транспортных перевозок, или


Вblчислительная сеть с мноroчислеННblМИ буФеРНblМИ устройства­
ми, или система почтовой связи с большим количеством маршрутов
и СОРТИРОВОЧНblХ узлов, или телефонная связь. Во всех этих случаях
детальное описание функционирования объектов практически не­
возможно, но оно, безусловно, влияет на укрупнеННblе показатели.
Сколько требуется, например, автомобилей для удовлетворительной
перевозки грузов по сети? Для точноro ответа нужен подроБНblЙ
анализ: распределение автомобилей по маршрутам, расписание,
130 Глава 7. Прикладные области

пропускная способность узлов и т. п. Но часто оказыв<'I.ется, что


ответить можно приближенно, причем этот ответ довольно точен
и практически не зависит от детальной информаuии. для обоснова­
ния такой независимости в каждом отдельном случае, разумеется,
необходимо самостоятельное исследование.

Можно ли, например, сказать .. не ГЛЯДЯ-, чему равен максимальный поток


в l1'афе, если известна лишь суммарная пропускная способность дуг? Точнее, пусть
l1'аф Г n с n вершинами генерируется следующим образом. Дуга, соединяюшая
вершины i и j, появляется в Г n С верояrnостью

р Е [е, 1] (е> О),

а ее вес Gij - реализация случайной величины, распределенной равномерно


на [0,2].
Легко видеть, что среднее значение максимального потока s(rn) будет
асимптотически стремиться к пр, но само по себе это мало что дает. Аккуратные
вычисления показывают, что

р
s(r n)/np -+ 1 (п -+ 00)
и это уже говорит о возможности в данном случае асимптотического агрегирова­

ния, т. е. о возможности игнорирования детальной информации.

Задачи подобного рода на регулярной основе почти не изу­


чались, и здесь имеется обширное поле для исследований. Идео­
логическую опору асимптотического агрегирования по-прежнему

составляют результаты типа нелинейного закона больших чисел,


но это - подоплека. На поверхности лежат совсем другие вопросы.
Например,

(7.4)

причем известны только агрегаты Х = ~ х" иУ = ~ у", по ко-


торым необходимо вычислять L(X, У). " "
Понятно, что до обоснованияагрегирования- необходимо ре­
шить вопрос о подходяшем выборе функuии L(X, У), если таковая
сушествует5) .

5) Поиск ВИlIa L(X. У) В зависимостиот тех или ииых предположеиийо распределении


:1:", 1/" можно использовать В качестве упражнеиия.
7.7. Стохастическое агрегирование 131

Задача вида (7.4) может возникать в СИl)'ациях следуюшего типа. В городе


имеется n почтовых отделений, ж" обозначает поток за день клиентов в k-e
отделение, 1/" - пропускная способность k-ro отделения. Тогда суммарный
проходяший через отделения поток равен nL.
Специфика почтовой связи, разумеется, ни при чем. Пусть ж" - спрос
на рынке k-ro покупателя, 1/" - предложение k-ro продавца. Каждый покупатель
случайно выбирает продавца, и тогда суммарный объем продаж оказывается
равен nL. КQнечно, механизм взаимодействия влияет на конечный результат,
но в определенных предположениях сушественны лишь среднестатистические

характеристики этого механизма.

в некоторых прикладных задачах нелинейные функции боль­


шого числа переменных настолько завуалированы, что непосред­

ственное применение результатов главы 3 выглядит проблематич­


ным, и более естественными оказываются специфические пути.
При изучении, например, динамических систем большой раз­
мерности довольно естественной представляется попытка судить
об устойчивости на основе неких усредненных показателей, ха­
рактеризуюших систему. С увеличением размерности подобные
«макрокритерии» становятся все более надежными. Если си­
стема ('устойчива в среднем» и размерность достаточно вели­
ка, то вероятность устойчивости системы сколь уroднn близка
к единице.

Уточнять сказанное можно различным образом. Пусть речь


идет об асимптотической устойчивости равновесия дискретноro
процесса

или непрерывноro

dx
-dt = Ax-х+Ь '
где А = (aij] - матрица размера n х n; векторы х, Ь Е R •
П

Тогда при достаточно больших n и справедливости условия

(t > О) (7.5)

с большой вероятностью можно рассчитывать на положительный


ответ в обоих случаях. Точнее roворя, если элементы aij равномерно
132 Глава 7. Прикладные области

распределены на множестве (7.5), то вероятность того, что матрица


А - 1 ryрвицева, - стремится к 1 при n ~ 00 6) .

Феномен стабилизации функuий при больших размерностях довольно суще­


ственно влияет на понимание и трактовку задач оптимизации. Упрошенно говоря,
cyrь дела заключается в следуюшем. Функuия ~(ЖI, .•• , жн) «почти постоянна. -
и окрестность максимума, в которой ~(ж) ошутимо превышает среднее значение,
весьма мала. Поэтому ошибки исходных данных могут сводить на нет усилия,
направленные на точное решение задачи. Задание, например, сотни параметров
с окрутлением до второго знака, может в принципе менять значение целевой
функции в несколько раз. Кроме того, из-за неточностей моделирования сами
постановки оптимизационных задач при больших размерностях становятся непо­
хожи на реальность. Возникает парадокс: чем больше учтено факторов, тем хуже
становится модель. Тем не менее это обычно так. Использование небольшого
числа переменных для описания системы свидетельствует, как правило, о том,

что в задаче поймано и вьшелено главное, а большое число переменных -


об обратном, о попытке вычислять температуру по движению отдельных молекул.
Поэтому постановки задач большой размерности нередко имеют условную
ценность, и оптимизация там по сути осуществляется не с целью поиска наи­

лучшего решения, а с тем, чтобы не попасть в чересчур невыгодный режим.


В этом смысле теоремы о стабилизации дают необходимую гарантию, попасть
в минимум - так же трудно, как и в максимум, и почти все выбранные Hayraд
решения примерно одинаковы по качеству.

Это, конечно, декларация - для обострения разговора. Более логичны могут


быть друтие схемы. Скажем, вьшеление в

двух-трех агрегатов с последуюшей заменой исходной максимизации - близкой


задачей: t/J(U, У) ~ тах. Либо замена детальных ограничений усредненными.
Либо даже качественное переосмысливание исходной постановки.

Феномен стабилизации может играть определенную роль и в


дискретной оптимизации. Там уже сложилась традиция для не­
которых типов задач доказывать, что те или иные эвристические

алгоритмы дают решение «не хуже среднего». Было бы полезно при


этом еще доказывать, что почти все допустимые решения находятся

в районе среднего. Это бы позволило в «непробиваемых> ситуациях


ориентировать эвристику просто на поиск допустимого решения.

Вот маленькая иллюстрация 7).

6) Оnойцев В. И. Устойчивые системы большой размерности 11 А и Т. 1986. М6. С.43-49.


7) ПереnелUЦQ В. А. Асимптотический ПОllXод к решению некоторых экстремальных зanaч
на графах 11 Проблемы кибернетики. 1973.16. С. 291-314.
7.8. Агрвгированив и емо 1ЗЗ

Дуга у n -вершинного графа rn появляется с вероятностью

(Jnn
Р" ~ V2-;;-,
ее длина riJ - реалuзoцUR слу"айной вели"ины, равномерно распределенной на [O,2r).
Тогда при достато"но больших n почти все графы rn имеют хотя бы один
гамШlьmонов контур и длина nо"ти всех гамильтоновых контуров стабилизируется
около nr.

в оптимизации мож.ет представлять интерес и другой «асимп­


тотический ракурс». Дело в том, что эвристические алгоритмы,
оцениваемые в категориях правдоподобия и здравого смысла, мо­
гут при увеличении размерности давать асимптотически точные

решения.

Вот тривиальный пример, даюший представление, о чем речь.


Пусть в классической задаче о ранце имеется n предметов, Vj -
стоимость i-гo предмета, Wj - его вес. Надо выбрать группу пред­
метов с максимальной суммарной стоимостью при ограниченном
суммарном весе, т. е. решить задачу

Lj
VjXj -+ mах, LWjXj
j
~ W,

где Xj мож.еТ принимать значение 1 или О (<<брать» или «не брать»).


Эффективные способы точного решения задачи отсутству­
ют. Естественный, но не оптимальный, алгоритм решения со­
стоит в том, чтобы упорядочить предметы по удельной стоимости
ci = Vj/Wj, а потом поочередноскладывать их в трюм корабля, пока
соблюдаетсяограничение по весу. Легко видеть, что такой алгоритм
будет при n -+ 00 асимптотическиоптимален, если все Wj/W -+ О.

7.8. Агрегирование и емо

Системы массового обслуживания (СМО) заслуживают отдельно­


го упоминания, ибо представляют собой обширную область, где
идеология асимптотического агрегирования, по сушеству, занимает

центральное место. В целом теория СМО развивается по аналогии


со статистической физикой. В Фокусе внимания находятся мак­
ропараметры типа средней длины очереди или среднего времени
134 Глава 7. Прикладные области

обслуживания, - зависяшие от архитектуры системы и микроско­


пической организации ее работы, касающейся, в основном, выбора
дисциплины обслуживания заявок.
Ориентация на статистические методы здесь естественна и эф­
фективна. Несколько странно лишь отсyrствие «термодинамиче­
ского противовеса», который в физических приложениях играет
полезную роль, смешая фокус внимания в иную плоскость. По­
этому было бы разумно ожидать развития «термодинамики емо»,
что изменило бы акценты и расширило охват задач. Большой про­
цент приложений из предьшушего раздела, например, вполне бы
мог быть отнесен к емо, - разумеется, при направлении мысли
в другое русло.

Тормозом на этом пyrи, безусловно, является большое разнооб­


разие описаний емо на микроуровне. В физике - ле~е. Уравне­
ния Гамильтона или Шрёдингера - в некотором роде исчерпывают
варианты микроповедения изучаемых систем. А в массовом обслу­
живании каждый новый диссертант придумывает свою дисциплину
обслуживания, не считая мелких «винтиков», - И все приходится
начинать сначала. Понятно, что в такой ситуации до «термодина­
мики» руки не доходят.

в данном контексте представляют интерес «Термодинамические закономер­


ности., нечувствительные к микроописанию емо. Например, формула Литmла:

N = >'Т, (7.6)
где >. - интенсивность потока заявок, N - среднее число заявок в системе
(или в очереди), а Т - среднее время пребывания заявки в системе (или в оче­
реди), - при установивШeAfСЯ стационарном режиме.
Факт (7.6), вообше говоря, тривиален, но интересно, что он нередко пре­
подносится как крупное достижение, потому что формула оказывается верной
независимо от характеристик П01uка и обслуживания заявок. Причина .неожи­
данности., разумеется, в привычке. Чувствительность макропараметров емо
к деталям мик('ЮОписания настолько характерна, что ее отсутствие, конечно,

воспринимается как открьrrие.

7.9. Принцип максимума энтропии

Переход на укрупненное описание системы почти всегда может


опираться на nрuнцun.максиму.манеоnределенносmu,который хорошо
7.9. Принцип максимума энтропии 135

известен в термодинамике, но диапазон его применимости гораздо

шире. Рассмотрим простой пример.

Пусть в roроде имеется n районов, Lj - число жителей i-ro района, Wj -


число работаюших в j-M районе, Жjj - число живуших i-M районе и работаюших
в j-M.
Очевидно,

LЖjj =L j , (7.7)
j

Величины Lj , W j известны, необходимо оценить пассажиропотоки Жjj'

Для определения n 2 неизвестных в системе (7.7) имеется всего


лишь 2n уравнений, Ситуация представляется неопределенноЙ. Тем
не менее соображения о «случайном» характере происхождения
величин Xij позволяют решить задачу практически однозначно.

Для фиксированных значений Xij число способов расселения


жителей равно
N!
S(Х)=-п ..• '
X'J'
i,j

где N = L Li = L Wj.
С учетом формулы Стирлинга lп k! '" k lп k,

lп В(Х) '" N lп N - L Xij lп Xij'


i.j

Поэтому максимум в(х) достигается на той же матрице

х* = [xij],

что и максимум «энтропии» 8)

Н= - L Xij lп Xij,
i,j

в то же время ясно, что если набору {xij} отвечает макси­


MaлbHoe число способов расселения В(Х*), то это и есть наиболее
вероятное решение задачи. А если внекоторой g-окрестности

8) В таком ракурсе завача рассматривалась в книrе А. Вильсона .ЭнтропиЙные методы


моделироваНИЯ сложных систем. (М.: Наука, 1978).
136 Глава 7. Прикладные области

решения {xjj} сосредоточены почти все возможные способы рас­


селения, то это уже будет решением - с вероятностью, близкой к 1
(и стремящейся к 1 при N --+ 00). Именно такова рассматриваемая
ситуация.

до пояснения этого факта остановимся на самом решении задачи

-L Ж;} ln Ж;} -+ тах, LЖ;j =L;,


;,} j

Метод множителей Лаграюка легко приводит к Жij = e-1-A;-1'j , откуда ясно,


что все Жi} представимы в ВИде произведения Ж;j = U;Vj' Подстановка в ограни­
чения дает систему уравнений

LU;Vj = L;, LU;Vj = Wj •


j

решая которую, окончательно имеем

что можно интерпретировать как наличие у районов .потенциалов притяжения_,


~
~ и
~
~' произведение которых дает пассажиропоток ж;}.
.
Пониманию свойств решения xjj Mor бы способствовать какой­
нибудь вероятностный сценарий. Вот один из возможных вариан­
тов. Каждого жителя охарактеризуем распределением Pij по n 2
состояниям (i, j) (жить в i-M районе, работать - в j-M). Если
на прицеле держится задача «разбросать~ N жителей по этим n 2
состояниям так, чтобы по матожиданию бьulO соответствие с мак­
роограничениями (7.7), то Pij должны удовлетворять системе

L' w·
LPij =...2., LPij = _J.
, N I
. N
J

А если добавить максимум неопределенности 9):

- L Pij ln Pij --+ mах,


i,j

9) См. следуюшую главу.


7.10. 8етвящиеся процессы 137

то по виду получается та ж.е задача, и те ж.е окончательные

формулы:

Xij = N·
Pij'

Но теперь Xij = L (ij, где случайные величины (ij равны 1 с ве­


роятностью Pij, и О - с вероятностью 1 - Pij. Большое число сла­
гаемых гарантирует, в силу закона больших чисел, концентрацию
почти всех вариантов в районе матож.идания X:j = NP:j с убывани­
ем флуктуаций пропорционально1/.fN. Другими словами, в малой
е-окрестности максимума S(X·) оказываютсясосредоточеныпочти
все возможные способы расселения, о чем и шла речь выше.

7.10. ВеТВАщиеСА процессы

Каноническаямодель простейшеговетвящеroсяnроцесса ГШlьтона­


Ватсона рассматриваетчастицу, производящуюсебе подобные в ко­
личестве k штук с вероятностью р". Предмет изучения - динами­
ка х п , где с. В. ХП - количество частиц в n-й момент времени.

Процессы такого рода довольно широко распространены в ра3JIИЧНЫХ обла­


СТЯХ. динамика численности нейтронов при делении урана, распространенность
того или иного гена (наследственного признака), возникновение эпи.nемиЙ и т. п.
Первоначальным источником интереса к модели была проблема ВЫрОЖдения
фамилий - обнуления траектории {Xn }, начиная с не которого "о, если подра­
зумевается, что каждый мужчина фамильного рода с вероятиостью Pt имеет k
сыновей 10).

Пусть G(z) обозначает производящую функцию распределения


{Ро,Рl," .}, Т.е.
00

G(z) = L P"Z", (7.8)


"=0
а пп(z) = Е {zx n } - п.ф. хп .
В случае Х П = k с. В. Хп + 1 - есть сумма k независимых с. в.
с распределением {Po,PI," .}, - поэтому

Е {zxn+IIXn } = [G(z)Jxn,
10) Как всегда. речь идет об определенной идеалнзацнн, преДПQl1аrаюшей в данном случае
*синхронизацию ПОКQI1ениЙ. и дрyrие нюансы.
138 Глава 7. Прикладные области

что после усреднения по Х n приводит К итераuионной проuедуре

(7.9)
описывающей динамику Х П В терминах производящих функuий.

Решением (7.9) в случае ХО = 1 служит п п (%) = G(n)(%), rде G(n)(%) обозна­


чает п-ю итерацию G(%).
Дифференuируя (7.9) и полаrая % = 1, имеем, в силу (2.15),
00

11 = G'(I) = L: kpt·
t=o
Так что сходимость проuесса по маТОЖИданиям определяет значение 11. При 11 ~ 1
проuесс сходится, в случае 11 >1 - расходится. Из Toro же peкyppeHTHoro соот­
ношения (7.9) леrко извлекаются более тонкие результаты о поведении случайной
последовательности Х" - см. [28).

Вероятность вырождения. Интуитивно достаточно очевидно, что ХП


может сходиться либо к нулю, либо к бесконечности, и не может
оставаться ненулевой ограниченной с ненулевой вероятностью, -
разумеется, это теорема. Причем даже при больших v вероятность
обнуления Х П строго положительна.
Последовательность

очевидно, монотонно растет, и потому имеет предел, qn -+ q при

n -+ 00. Величина q естественно интерпретируется как вероятность


вырождения ХП •
В случае исходного положения ХО = 1

откуда ясно, что q является корнем уравнения

I z = G(Z). I (7.10)

Из записи (7.8) легко видеть, что Функuия G(z) выпукла,


и уравнение (7.10) имеет дв:'\ корня: один в любом случае равен 1,
другой q :::;; 1. Если v > 1, то q < 1. Если v :::;; 1, то q = 1, т. е.
проuесс выр()ждается почти наверное. Пробелы рассуждения легко
восполняются.
7.11. Стохастическая аппроксимация 139

7. 11. Стохастическая аппроксимация

На практике широко распространены оптимизационные задачи


вида

Е {Q(c, х)} --+ min, (7.11)


с

где усреднение идет по х, а минимизация - по с.

Taкoro сорта проблемы возникают в ситуациях, Korдa по случайному сиr­


налу ж надо делать те или иные выводы У = Q(c, ж), настраивая модель Q(c, ж)
(вектором с) оптимально в среднем.
Эro может быть задача идентификации: и, v - случайные вход и 8Ь1ХОд
объекта, требуется построить модель У = Р(с, и), оптимальную по критерию
минимума среднеквадратической ошибки

E •.• {[v - Р(с, и»)2} -+ min.


е

Ту же абстрактную форму имеет задача расnозна8анШI (классификации). Допу­


стим, модель" = Р(с, ж) предсказывает, к какому классу ПрИНадЛежит объект ж.
Скажем, .У = 1-, если к первому, и _У = -1-, если ко второму. Естественный
критерий в данном случае - минUJllУМ ошибки расnозна8ания,

I {р.(ж)В(-F(с, ж») + Р2(ж)В(F(с, ж»} dж -+ ~п,


rде Р., Р2 - IVIотности распределения объектов nepвoro и BТOPOro класса, а В -
функuия ХэвисаАда, равная 1 при положительном apryмeнтe и О - при отриuа­
тельном.

К подобному классу orносятся также залачи фил ьтрauии , проrноза, мини­


мизauии рисков, потерь И т. п.

При известных плотностях распределения после интегриро­


вания от вероятностной природы рассматриваемых задач ничего
не остается. Однако плотности часто неизвестны, а если извест­
ны, то либо интегрирование непосильно, либо после усреднения
возникают такие «монстры., что приходится искать другой выход,
который обычно находят в nроцедурах адаптации - подстройки
параметров в процессе наблюдения за объектом.

Итерационные детерминированные процедуры

(7.12)
сходятся, если сушествует «функция Ляпунова. V(z), убывающая
на траекториях (7.12).
140 Глава 7. Прикладные области

Нечто подобное имеет место и для стохастических процессов


вида

(7.13)
Сходимость (7.13) - по вероятности или почти наверное -
к решению уравнения IEz{rp(c, ХН = О I обеспечивается при су­
ществовании аналога «функции Ляпунова,. У(с), которая убывает
на траекториях (7.13), но убывания теперь достаточно всего лишь
в среднем:

При этом коэффициенты 'Yk > О, регулирующие величину шагов,


полагаются удовлетворяющими условиям

00

L: 'Yk = 00, (7.14)


k

Первое из условий (7.14) не дает процедуре (7.13) остановиться


раньше времени, а второе - предотвращает уход в бесконечность
на маловероятных траекториях 11) •
Процедуры стохастической аппроксимации типа (7.13) принято
называть nроцедурамu Роббuнса- Монро 12). В случае
rp(c, х) = V'Q(c, х)
процедура (7.13) решает задачу (7.11), а Ez{Q(c, х)} служит «функ­
цией Ляпунова,..

11) Подобные меры необходимы и в детерминированном случае (7.12).


12) Robbins Н., Моnro S. А stochastic approximation method /1 Anп. Math. 5tat. 1951. 11.
Р.400-407.
ГЛава 8
Теория информации

При И1Ложении теории информации естественная попытка ограничиться одной


канонической моделью многое оставляет за бортом. Возникает дилемма: либо
не смотреть по сторонам, либо мириться с переплетением обстоятельств, согла­
шаясь на определенную неуклюжесть.

8.1. Энтропия

Энтропия, как мера неопределенности, вещь довольно простая.


Но как ахиллесова пята абстрактного мышления, она мистифици­
рует род людской не хуже Гарри Гудини, благодаря чему служит
хорошей отдушиной для философских страстей.
В то :>!Се время надо признать, что налет загадочности у эн­
тропии имеет основания. Термодинамическаясущность, не данная
в ощущениях 1), - как говорится, не фунт изюму. Что касает­
ся сугубо информационного аспекта энтропии, то здесь, помимо
неосведомленности о дробях и логарифмах, большую роль играет

впечатление, что .Н =- L Pk 'П Pk. обеспечивает вход в вир­


туальный мир, подтверждая его реальность. Однако - обо всем
по порядку.

Неопределенность (энтропия) Н при бросании т-гранной кости характери­


зуется наличием т возможностей. Интуитивно хотелось бы, чтобы при бросании
двух костей 2) неопределенность была Вдвое больше, т. е.

либо Н(тп) = Н(т) + Н(п), если кости имеют разное число граней.
1) В отличие от темпера1УРЫ и даВllеиия.
2) При котором число возможностей равно т 2 .
142 Глава 8. Теория информации

Ясно, что такие предположения вeдyr к

I Н(m)=Кlпm,
что можно интерпретировать как Н(р, ... ,р) = к In m при m равновероятиых
исходах, р = 11т.
Следуюший вопрос, как определить Н (Pl' ... ,Рn) в случае не равноверо­
ятиых исходов. Будем опалкива1ЪСЯ пока от следуюшей модели. Имеется не­
сколько т;-гранных костей. Число всевозможныхграней равно Е т;, поэтому
Н = К In (Е m j ), С дрyrой стороны, выбор может быть осушествлен в два
приема. Сначала выбирается кость - ясно, что вероятности выбора числа граней

при этом равны Р; = т; / Е mj, - затем грань. Неопределенность первоrо


шаrа - Н (Pl' ... ,Рn), BToporo - средневзвешенная энтропия 3) К Е Р; ln т;.
Если потребовать аддитивность, т. е.

Kln (Ет;) = H(PI,'" ,Рn) +кЕр; Inm;,


то

H(PI' 000 ,Рn) = K{ln (Е т;) - Ер; lnт;} =


" Р;ЕInт;
= -к 'LJ т; = -к 'LJP;
"
Inp;,

что при непрерывной зависимости Н от apryмeHToB будет справедливо и для


ирраuиональных Pi'

от выбора константы К зависитлишь единица измеренияэнтропии. В случае


1
К=-
In 2

(8.1)

I
Здесь и далее действует соrлашение о· 10& О = О 1. двойка в основании ло­
raрифмов обычно опускается, а единица измерения называется битомо Таким
образом, бит соответствует неопределенности выбора из двух равновероятиых
возможностей (то ли нуль, то ли единиuа).

(!) КомментарнЙ. Вернемся" использованиюсредневзвешеннойэнтропии


KEp;lnm;

3) Потому что выбор на втором ware зависнт от реализаuии - nepвoro. См. далее
.КомментариЙ •.
8.1. Энтропия 143

г описанной выше модели. Если выбор кости на первом шаге уже состоялся, - выбра­
на, скажем, 7-я кость, и речь идет об одноразовом опыте, - то неоnределенность
гторого шага равна К In т7, и задача вырождается.
О неоnределенности обоих шаZ08 естественно говорить в двух CIIучаях:

• либо задача решается до nроведенuя опыта с оценкой тою, что получится


в среднем 4) ;
• либо опыт двукратною выбора повторяется много раз, и тогда матожидания
типа к"Е Р; In т; возникают из-за частотной устойчивости эксперимента.

Образно характеризуя ситуацию, можно сказать так. Гроссмей­


стер лучше новичка в шахматах понимает, что такое конь. Оба оди­
наково знают «как ходит., но у первого это вызывает ассоциации,

у второго - ощушениедискомфорта. С энтропией такая же история.


Приведенный вывод (8.1) в рафинированном виде воспроизво­
дит рассуждения Шеннона (30], наиболее просто выражающие суть
дела. Но при первом знакомстве все же чувствуется определенная
натяжка, избавиться от которой можно лишь расширив базу исход­
ных примеров и ситуаций. Это - если говорить об индуктивном
подходе. В другом варианте (8.1) принимается за определение эн­
тропии, постулируются некие дополнительные свойства, - но далее
все равно надо смотреть на примерах, как это работает.

Само по себе определение (8.1) мало что дает, поскольку


при столкновении с действительностью возникает масса вопросов,
не попавших в кадр. Положение облегчает следующая формаль­
ная схема, которая, если вдуматься, ничего принципиально нового

не добавляет к бросанию костей, но все-таки увеличивает угол


обзора.
Пусть {XJ,"" Х п } И {YJ,.'" Уп} - возможные состояния
случайных величин Х и У. Состояния вектора {Х, У} представляют
собой комбинации пар Xi и Yi. Энтропия {Х, У} по определению
равна

Н(Х, У) = - LPij 1пРij,


ij

где Pij = P(Xi' Yj) = Р{Х = Xi, У = Yj}.


4) Собственно, Apyroro варианта даже нст, поскольку исходы выбора MOryr ветвиться.
144 Глава 8. Теория информации

в описанной СИ1)'ации часто говорят, что имеется две системы Х и У


с возможными состояниями {ж 1, •••• ж,,} И {YI, ... , У.. }. По сушесmу ничего
не меияется, но терминология иногда подталкивает мысль в новых направлениях.

Если системы Х и У независимы, то pjj = PjPj и

Н(Х, У) = Н(Х) + Н(У), (8.2)


что элементарно проверяется.

Если ж.е системы зависимы, то Р(Жj, Yj) = Р(Жj)Р(УjIЖj) S), и


Н(Х, У) = Н(Х) + H(YIX), (8.3)
где

называют полной условной энтропией, а

H(YIXj) = - L: Р(УjIЖj) 1082 p(YjIXj)


j

условной энтропией У при условии Х = Xj.


В обоих случаях, (8.2) и (8.3), говорят об аддитивности ЭН­
тропии. При независимости подсистем H(YIX) = Н(У) и (8.3)
переходит в (8.2).
Некоторая чехарда при использовании (полнойjнеполной) условной энтро­
пии связана с теми же обстоятельствами, которые обсуждались в .. Комментарии­
выше.

8.2. Простейшие свойства

• Энтропия всегда неотрицательна и достигает .максимума в слу­


чае равновероятных возможностей.

Заметим, что решение любой задачи вида

L CP(Pt) -+ тах,
t
определяется решением системы уравнений

cp'(Pt) = .л, k = 1' ... ,n,

S) Имеется в ВИДУ p(Zj) = Р(Х = Zj). P(YjIZj) = Р(У = YjlX = Жj).


8.З. Информационная точка зрения 145

откуда ясно, что максимум достигается при равновероЯ1НЫХ возможностях в очень

свободных предположениях - не только в случае !р(р) = р logp.


8.2.1 Лемма. Пусть L: Pk = L: qk = 1, т. е. Pk и qk - два рас­
пределения, причем все qk > О. Тогда 6)

L:Pk lnPk ~ L:Pk lnQk' (8.4)


k k

... Введем в рассмотрение случайную величину Х, принимающую значения

q"/p,, с вероятностями р". ОчевИдНО. Е Х = "" q" = 1. Применяя к с. ф. 1п Х


LJ р,,-
Р"
неравенство Иенсена (1.19), получаем (8.4). •

• Условная энтропия всегда меньше или равна безусловной

H(YIX) ~ Н(У),
причем при добавлении условий энтропия не увеличивается.

... Лемма 8.2.1 гарантирует

ЕР(УjIЖj) lnР(УjIЖj) ~ ЕР(Уj/Жj) Inp(Yj)·


j j

Матожидание этого неравенства по Х дает

Е Р(Жj,Уj) 1ПР(УjIЖj) ~ Е p(Yj) 1np(Yj).


i,j j

что означает H(YIX) ~ Н(У) (знак минус перед суммами переворачивает нера­
венство).
Аналоrичноустанавливаетсясправедливостьоговоркиоб убывании энтропии
при добавлении условий. •

8.3. Информационная точка зрения

Пусть Н(А) - энтропия исхода некоторого опыта А. Если опыт


В содержит какие-то сведения относительно А, то после прове­
дения В неопределенность А уменьшается до условной энтропии

6) Понятно, что в (8.4) 10 можно 38менlПЬ лоraрифмами по любому другому основанию.


146 Глава В. Теория информации

H(AIB). Разность

[(А, В) = Н(А) - H(AIB),

по определению, есть количество информации, содержашееся в В


относительно А. Равенство

I [(А, В) = [(В, А) I
вытекает из симметрии предполагаемого свойства (8.3).

ЭlПропия источиика. На ~микроуровне. это выглядит так. Если


источник информации потенциально может передать i-й символ
(алфавита) с вероятностью Pi, то величину информации при по­
ступлении этого символа естественно принять за - 1082 Pi. Мато­
жидание информации, либо ее среднее значение (на один символ)
при длительной работе источника, будет равно

[= - LPi log Pi,


2

т. е. - энтропии источника.

Здесь имеет смысл продумать старую схему в новых терминах. Если источник
сообшает один из n равновероятных символов, то ... 1 = К Iп n, и далее - по уже
готовой колее.

в итоге становится ясно, что информаuия и энтропия - это две стороны


одного явления. Сколько поступает инФОрмаuии - настолько убывает энтропия
(неопределенность). Чем больше энтропия источника 7), тем больше информаuии
при получении его сигналов. Источник, способный генерировать единственный
сигнал, никакой инФОрмаuии не производит. Источник, передаюший только два
сигнала «нуль/один.., имеет единичную интенсивность (один бит на сигнал).
Но при большой частоте способен производить много бит в единиuу времени.

Пропускиая способность канала. Канал связи в обшей схеме

I источник I~ I канал связи I~ I приемник 1,


7) об энтропии источника естественно roворить до nостУflllения информации, после -
логичнее говорить о ПРОИЗВОJlСТве информации.
8.4. Частотная интерпретация 147

так или иначе, ограничивает скорость передачи информации. В про­


стейшем и широко распространенном случае, когда символов (сиг­
налов) всего два и их длительности одинаковы, nроnускная способ­
ность С измеряется числом символов, способных пройти по каналу
в единицу времени.

В общем случае С - это максимальная информация, которая


может бы!ь передана по каналу за одну секунду. Если, например,
алфавит состоит из n букв и канал способен пропускать N букв
в секунду (в точности или в среднем), то С = N 10g2 N.

ПРИРОllа ограничений может бытъ различная. Скорость света. полоса про­


пускания частот, тактовая частота генератора 8). Все это нахОllИТСЯ за рамками
теории информации, но иногда понимание среды, в которой решаются задачи,
играет важную ролЬ.

8.4. Частотная интерпретация.

Пусть источник генерирует i-й символ с вероятностью Pi, И симво­


лы в сообщении длины N независимы. При достаточно большом N
количество символов i-ro вида в сообщении с большой точностью
равно N Pi. Это дает вероятность сообщения

Npl Npn
Р = Pt ···Рn ,
Т.е.

10gp = N I: Pi 10g2 Pi :::} IР= г NН 1· (8.5)

Иными словами, вероятности всех достаточно длинных сооб­


щений равны Р =г NН
, а поскольку эти сообщения еще и незави­
симы, то их количество К = 1/р, т. е.

(8.6)

Таким образом, энтропия по правилу (8.6) определяет, напри­


мер, количество текстов, в KOmOPblX буквы встречаются с «nра­
вШlЬНОЙ. частотой. Если в определении энтропии вместо двоич-

8) Упоминание в даином контексте reHepaTopa показывает. что оrpaничения ur:mO'lHU"a


MOryr быть -списаны- на оrpaничения канапа связи.
148 Глава 8. Теория информации

ных используются натуральные логарифмы, то (8.6) заменяется


нн
на К = е .
Если все Р; одинаковы. то Н = log n, и (8.6) приводит к максимально
возможному числу сообшений: К =n Н

Разумеется, количество текстов, в которых соблюдается заданная частотность
букв, определяется формулой (8.6) с точностью до очевидных .E-ПОПравок". При
чисто вероятностной (не частотной) трактовке требуются уточнения несколько
иноrо рода. С какими бы вероятностями Р; источник ни reнерировал символы -
принципиально возможны все n Н сообшений Q длины N, но их вероятности
p(Q) различны.

Тогда при любом Е >О


lim '"
н ..."" !P(Q)-1-
L..JN В 1>_
p(Q) = О,
т. е. сумма вероятностей всех сообщений, вероятности которых отличаются
от г НН более чем на Е, - стремится к нулю (сколь угодНО МQЛа при большом N).

Соответственно, вероятности сообшений

p(Q) Е (г
НН
- Е, г НН + Е)
В сумме стремятся к 1. Поэтому при больших N можно считать, что .наблю­
даемых" сообшений (последовательностей, текстов) имеется как бы ровно 2 НВ .
Остальными можно пренебречь - их суммарная вероятность близка к нулю.

Описанная схема служит первым приближением к действи­


тельности, которым нередко и ограничиваются. Но более сложные
методы вычисления энтропии заслуживают упоминания. Не столько
по причине их практической значимости, сколько по теоретиче­
ским соображениям. Очевидно, например, что осмысленные тексты
далеки от принятых выше предположений. Буквы в словах далеко
не независимы - после гласной чаше следует согласная, а шестая
буква шестибуквенного слова определяется по пяти предыдушим
едва ли не однозначно.

Принципы определения энтропии в TaKoro рода ситуациях идейно прозрач­


ны. Допустим, имеет место .. взаимодействие,. соседних символов: j-й символ
после i-ro - может появиться с вероятностью Pij' Энтропия следующею состо-
яния в результате зависит от i и равна Н; = - ~ Pij IOg1 Pij. Если при этом р;
j
обозначают вероятности i-x состояний9), то Н = ~ PiHi.
i

9) Стационарные вероятности MapKoВCKoro процесса.


8.5. Кодирование при отсутствии помех 149

8.5. Кодирование при отсутствии помех

Допустим, источник генерирует буквы из некоторого алфавита,


и его энтропия равна Н (бит на символ), а канал связи пропускает С
(бит в секунду). Утверждать, что по каналу в среднем проходит с/н
символов в секунду, конечно, нельзя - потому что результат зависит

от качеств~ кодирования. Но скорость I С/Н I асимптотически


достижима 10) при оптимальном кодировании.
Если появление n символов (букв) равновероятно, то в секунду,
очевидно, может проходить максимальное количество информации

IтaJI. = с 10g n.
При использовании алфавита из двух символов {О, 1}, соответ­
ственно, lmaJI. = С 10g 2 = С бит/с.
Коэффициент избыточности сообщения определяется как

lmaJI. - 1
lmaJI.
где 1 - количество информации в сообшении, а IтaJI. - макси­
мально возможное количество информации в сообшении той же
длины.

Если символы не равновероятны, то на один символ в среднем


приходится количество информации - L Pi 10g Pi < 10g n, и в ре­
зультате 1 < lmaJI., Подобное явление характерно для обычного
текста - буквы (символы) появляются с различными частотами.
В то же время системы передачи информации, как правило,
используют специальные символы, независимо от того, какого сорта

информация передается (аудио, видео, текстовая). Обшепринятый


стандарт в цифровой технике «ОI»-последовательности.

Идея кодирования хорошо известна. Буквам, командам, операuиям - сопо­


ставляются различные последовательности вида 01 ... 101. Иначе rоворя, все описы­
вается в двоичном коде - ~ОI.-алфавите. В обшем случае кодирование представляет
собой запись исходной информаuии в любом дрyrом алфавите по избранным
правилам соответствия между rpуппами символов.

10) Кодирование способно обеспечить скорость ~ СI н - € при любом € > О.


150 Глава В. Теория информации

Для конкретности, будем roворить о двоичном кодировании. Широко рас­


пространены: восьмибитовый 11) код EBCDIC 12) и семибитовый - ASCII ). Для
13

pYCCKoro текста семибитовой кодировки недостаточно - значительная часть дво­


ичных комбинаиий занята под латинские буквы и друтие _надобности.. Это
было причиной появления восьмибитовой кодировки КОИ-8, а потом Windows-
кода 1251.
Обшепринято
8 бит (двоичных единии) информаиии принимать за новую
единииу измерения количества информаиии - один байт. Более крупная единииа
измерения - килобайт (1 Кбайт = 210 байт = 1024 байта) 141.

Оптимальное кодирование. Одно и то же сообшение можно закоди­


ровать различным образом. Поэтому возникает вопрос о наиболее
выгодном способе кодирования.
Естественное соображение: часто встречаюшимся символам
и словам исходного сообшения ставить в соответствие короткие
(lOl»-комбинации, редко встречаюшимся - длинные. Если удастся
так закодировать сообшение, что символы О и 1 будут встречаться
одинаково часто, - это будет оптимальным кодом.

Посмотрим, как это работает при кодировании PYCCKOro алфавита. Среднеста­


тистическая частота появления букв в текстах различна, - колеблется от "'" 1/500
для буквы _ф. до "'" 1/ 10 для буквы -о •.
Оптимальную -ИJ1>У. на длине кодовых комбинаиий реализует код ШеННОНQ­
Фано. Буквы алфавита упорядочиваются по убыванию частоты (вероятносm) р,
появления в тексте, после чего разбиваются на две группы. К первой - относят
первые k букв - так, чтобы

после чего первой J1>уппе символов ставится в соответствие О, второй - 1.


и это определяет первый разряд кодового числа. Далее каждая J1>уппа снова
делится на две приблизительно равновероятные ПОдJ1>УППЫ; первой ПОдJ1>уппе
ставится в соответствие О, второй - 1 и т. д. Группы С малым количеством букв
быстро исчерпываются - и эти буквы в результате получают короткие коды.
Легко убедиться, что в итоге кодовая запись достаточно длинного сообwения
будет содержать приблизительно одинаковое количество нулей и единии, т. е. при

11) Буквы и KOMaН.IIЫ кодируютс:я вос:ьмизначным дВОичным числом - последовательио-


стью из 8 символов О или 1.
Щ Аббревиатура от Extended Binary Coded Decimal Interchange Code.
13) Атепсап Standards Committee for Information Interchange.
14) СтаН.llартная шутка: начинающий проrpaммист думает, что в килобайте 1000 байт.
опьrrный - что в километре 1024 метра.
8.5. Кодирование при отсутствии помех 151

любой частотности исходных символов частоты нулей и единиц двоичных кодов


оказываются ::::: равны друт дрyry.

Обратим внимание, что и3ll0жение в главе, да и в книге, ведется


в основном «С точностью до Е и других реверансов». за дeтQl/1lМи
можно обратиться к иным источникам, но гораздо важнее следо­
вать иерарJШческим nринциnам изучения предмета, когда, скажем,
идея -nредельноzo nерехода не только перестает требовать расшиф­
ровки. но даже упоминания. В этом случае внимание не отвлекается
на второстепенные nодробности и концентрируется на главном.

Информационная сторона оптимального кодирования очень


проста, даже в самом общем виде. Вернемся к формуле (8.6).
Равновероятные сообщения в количестве К = 2 Н N
MOryr быть
пронумерованы в двоичной записи, для чего потребуется мини­
мальное число разрядов 15) 10g2 К = N Н. Это и будет оптимальным
двоичным кодом.

Минимум разрядов (символов в «Оl»-алфавите, электрических


импульсов), необходимых для указания и передачи сообщения,
означает наиболее эффективное использование канала связи (пе­
редачу максимума информации в единицу времени).
В paM~ax вероятностной модели возможны все n N сообщений
длины N (а не только К = 2NH ), но при больших N можно
считать (см. предЫдУЩИЙ раздел), что (,наблюдаемых. сообщений
имеется как бы ровно 2 н. Остальными можно пренебречь - их
N

суммарная вероятность близка к нулю. Поэтому маловероятные


сообщения можно кодировать достаточно длинными «Оl.-после­
довательностями. Из-за их маловероятности это в среднем почти
не будет сказываться на скорости передачи информации.

Когда речь идет о минимуме числа разрядов в оптимальном коде, nод­


разумевается, конечно, что алфавит задан. В алфавите из миллиона
символов можно oдHItJII сltJllfЮAOJII записать любое из миллиона сооб­
щений. Но тozдo надо иметь систему сизи, способную генерировать
и передавать миллион разных символов.

щ в т -ичноА :JaПИСИ потребуется 1ОВт К == N Н р3ЗРЯJIов.


152 Глава В. Теория информации

Упражнеиии

• При энтропии источника Н (бит на бу"ву) и независимой генерации букв -


оптимальное кодирование в среднем приводит к Н двоичным знакам на
букву. (?)
Например, при бесхитростной нумерации букв русского алфавита в двоичной
записи потребовалось бы 5 разрядов (2' = 32). С учетом частотности букв
Н =- Е Р; log2 Р; ::::: 4,4. Поэтому в среднем достаточно 4,4 знака на букву,
что обеспечивает "од Шеннона-Фано.
• В задачах оптимального кодирования чаше всего идет речь оперекодировании
одних .. Ol,,-последовательностеЙ в другие. Пусть энтропия источника .0\.-
сообшений равна Н (бит на символ). Тогда длина n таких сообшений может
быть уменьшена (за счет кодирования) до nв. (?)

8.6. Проблема нетривиал"ных кодов

Из предыдущего раздела следует, что при оnmuмШlЬНОМ кодировании


необходимо опалкиваться от кодирования дЛинных сообщений.
Не букв и даже не слов, а достаточно больших кусков текста. Тогда
есть возможность достичь теоретического предела. Но технически
удобнее, разумеется, посимвольноекодированиебез дополнителЬНblХ
хлопот.

Поначалу кажется, что посимвольным кодированием можно


обойтись, когда источник генерирует буквы независимо друг от
друга. Это неверно.

Рассмотрим, например, источник, генерируюшийдве буквы, А - с вероятно­


стью р, и Б - с вероятностью \ - р. Если Р очень мало, то любое посимвольное
кодирование далеко от оптимального. Асимптотически оптимален RLЕ-код 16) ,
суть которого состоит в сообшении длин серий 171 повторяюшейся буквы Б.

Элементарные примеры типа RLЕ-кода создают иллюзию, что


проблема кодирования тривиальна. На самом деле ВblСОКОэффек­
ТИВНblе КОдЬ! являются часто результатом КРУПНblХ достижений,
с которыми все имеют дело, работая на компьютере, и не подо­
зревая о наукоемкости раЗЛИЧНblХ архиваторов (ZIP, ARJ и др.).
Элементом многих архивирирующих программ является знамени-

161 Аббревиатура от Run Lenglh Encoding. МеТОll широко используется при перепаче
растровых юображениЙ.

17) Мы не вникаем в техиические ПОllробности КОllИРОваиия. связаниые, например.


с синхроиизаuиеЙ. неоБХОllИ~IОЙ пля ОТlIеления КОllОВ ОllНИХ символов от lIРУГИХ.
8.7. Канал с шумом 153

тый алгоритм Ле",nеля-Зива, осушествляюший ",ногостуnенчатое


кодирование. Идея вчерне выглядит примерно так. Сообшение про­
сматривается с помошью скользяшего словаря, если в тексте появ­

ляется последовательность из двух ранее уже встречавшихся сим­

волов, то ей приписывается свой код, затем текст «прочесывается»


на предмет повторяюшихся комбинаций из большею количества
символов, и так - до исчерпания текста.

Конечно, доведение идеи «до ума- СОПРlUКено с преодолением массы слож­


ностей, но здесь не место вдаваться в подробносm, поскольку это территория
другой научной дисциплины. Однако декорации при взгляде через приэму теории
информации играют вдохновляюшую роль.
Очень интересны, например, методы МРЕа (Moving Pictures Experts Group),
которые при кодировании используют прогноз динамики изображений (переда­
ются только меняюшиеся пиксели). В результате достигается сжаmе в несколько
десятков раз.

для сжатия данных неподвижныхизображений широко используются методы


JPEG (Joint Photographic Ехреn Group), исключаюшие малосушественную инфор­
мацию (не различимые для глаза опенки) за счет виртуозного использования
преобразования Фурье.

Чтобы оценить возможные трудности оптимального кодирова­


ния, имеет смысл обратиться к простой на вид задаче о взвешивании
монет (см. последний раздел главы), которая, по сути, есть задача
оптимального кодирования 18). Запутанность ее решения дает повод
задуматься о трудое.мкости кодирования, которая является суше­
ственным фактором, но остается за рамками информационного
аспекта.

Оптимальный код - это совсем не то, к чему надо стремиться


во что бы то ни стало 19). Это лишь границы возможного, знание
которых дает понимание ситуации.

8.7. Канаn с шумом

При наличии шума в канале связи,

I вход Х I=> I каналJJ{связи I => I выход У = f(X,~) 1,


18) СВОJUlWВЯСЯ К указанию номера фальшивой монеты в троичноlI :JaПИСИ.
19) То же самое можно скаэать о любых ОПТИМИ:JaUИОННЫХ решениях.
154 Глава 8. Теория информации

выходной сигнал

У = J(X,{)

зависит от входа Х и шума {.

Если шум искажает в среднем 1 % символов, то о любом принитом СИМВQ/lе


нельэя сказать наверняка, правилен он или нет. Максимум возможноrо - при
независимой rенерации букв - yrверждать их правильность с вероятностью 0,99.
Но если речь идет о передаче осмысленноrо текста, то сообшение при 1 % ошибок
можно восстановить (по словарю) с высокой степенью надежности. Понятно, что
это возможно блаrодаря избыточносm языка.
В обшем случае проблема заключается в том, чтобы подобную избьrrочность
использовать наиболее эффективно. Вернее даже - не использовать, а изобре­
сти. Друrими словами, бороться с шумом сnециальнЫAI кодированием. Разумеется.
вероятность ошибки можно понизить за счет MHoroKpaTHoro повторения каждоrо
символа, но это слишком неэкономно.

Для поиска рациональных путей необходимо понять снача­


ла присущие задаче ограничения. Какова полезная информация,
проходящая по шумящему каналу? Легко видеть, что это разность

1 = Н(Х) - H(XIY)

между уровнями неопределенности источника до и после приема

сигнала У. В нешумящемканале H(XIY) = о, т. е. принятый сигнал


однозначно определяет переданный. В общем случае условная эн­
тpoпия H(XIY) служит показателем того, насколько шумит канал.

При вероятностиошибки 0,01 в случае равновероятной передачи источником


двоичных символов

1 1 99 99
H(XIY) =- 100 1о! 100 - 1О0 1о! 100 ::::: 0,08 бит на сuмвол.

Поэтому при передаче по каналу 100 СИМВQ/lОВ в секунду скорость передачи


информаuии равна 100 - 8 = 92 бита в секунду 201. Ошибочно принимается лишь
один бит из ста, но "потери. равны 8 битам из-за Toro, что неясно, какой символ
принят неверно .

• Чему равна условная эtЩЮпия H(XIY) при том же уровне 0,01 ошибок,
если источник rенерирует О и 1 с вероятностями р и 1 - р?

• В каких ситуаuиях H(XIY) Н(Х)? =


20) При р = 1/2, очевидно, H(XIY) = Н(Х), и скорость переда'!и информации нулевая,
поскольку выходной снrнал не по)воляет судить о BXOJIНOM.
8.7. Канал с шумом 155

Пропускная способность канала с шумом. по определению Шенно­


на, - это максимальная скорость прохождения информации

11 с = maxIH(X) - H(XIY)J (бит секунду),


11 8

где максимум берется по всем возможным источникам информа­


ции, а энтропия Н измеряется в битах 8 секунду.

На первый взrляд, это сильно отличается от канала бе] шума, rBe под С
обычно мыслится максимально во]можное число проходяших импульсов. Но это
не совсем так. Во-первых, система передачи может быть не двоичной. Во-вторых,
сама передача символов по каналу бывает малоэффекmвна - символов MHoro,
информauии мало. Поэтому аккуратное определение пропускной способности
канала бе] шума в точности совпадает с данным выше определением, при условии

H(XIY) = О.
При этом ясно, что в ситуаuии Н >С передача информаuии бе] потерь
нево]можна 21). в этом случае, кстати, на задачу можно смотреть как на передачу
инФОрмаuии по спеuифическишумяшему каналу.

в примере с искажением 1 % двоичных символов, если канал


физически способен пропускать 100 бит/с, - его пропускная спо­
собность равна 92 бит/с. Информационные потери 8 бит приходятся
на H(XIY), т. е. на шум.

Теоремы Шеинона. Допустим, что помимо основного - есть допол­


нительный корректирующий канал.

8.7.1. Если корректирующий канШl имеет nроnускную способность


не меньше Н(Х IY), то при надлежащей кодировке возможен практи­
чески безошибочный прием сообщений 22) (с точностью до сколь угодно
мШlОЙ доли ошибок).

.. На философскомуровне yrверждениесамоочевИдНО.На приемном коние


недостает H(XIY) бит/с инФОрмаuии - ее и надо передать по дополнительному
каналу.

Если спуститься с небес на ]емлю, то рассуждать можно так. Любому


принятому сообшению достаточно большой длительности в t с - отвечает 23)

21) Источник rеиерирует больше информации Н (бит, секунду). чем пропускает канм.
22) Имеется В ВИIIУ. что информация Н(Х) - H(XIY) проходит по ОСНОВНОМУ каНВЛУ.
23) См. (8.6).
156 Глава 8. Теория информации

к = 2'H (XIY) возможных равновероятных сообшений источника. Чтобы указать


среди них правильное, нужна инФОрмаuия tH(XIY) 6ит, т. е. H(XIY) 6ит/с. •

Конечно, доказательство отдает метафизикой, но такова приро­


да yrверждения. Это теорема существования: хорошо закодировать
можно, но как - это уже другой вопрос, не представляющий боль­
шого интереса (как показывает жизнь) 24).

8.7.2 Теорема. Пусть Н бит/с - энтропия источника, а С -


nроnускная способность канала с шумом. Если Н ~ С, то при
надлежащем кодировании возможен практически безошибочный прием
сообщений (с точностью до сколь угодно МШlOй доли ошибок).

~ Теорема 8.7.2 обычно позиuионируется как в высшей степени интуитивно


неожиnанный результат. Однако неожиданность здесь проистекает из за6ывчи­
вости интуииии, которая не помнит определения С в случае шумяшего канала.
На самом деле теорема 8.7.2 не что иное как переформулировка утверждения 8.7.1
при естественном допущении, что корректируюший канал с основным - могут
6ыть объединены в один.
Посмотрим, что происходит в примере с искажением 1 % двоичных симво­
лов. Если канал физически способен пропускать 100 6ит/с, - его проnyскная
способность равна 92 6ит/с (см. выше). Тогда при Н ~ С, т. е. при Н ~ 92 6ит/с
остается 8 6ит/с, которых как раз хватает для коррекuии. •

Теорема 8.7.2 обычно дополняется yrверждением, что в случае


Н > С по любому f > О можно указать способ кодирования, при
котором информационные потери будут не больше чем Н - С +Е
бит/с. В данном контексте - это легкое упражнение.

Коды Хэмминга. Жизнь обычно протекает вдали от фундаменталь­


ных ограничений типа абсолютного температурноro нуля. Тако­
вы же ограничения, устанааливаемые теоремами 8.7.1, 8.7.2. Ре­
альное кодирование больше ориентируется на удобство и простоту.
Широкое распространение получили несколько стандартных схем
кодирования, в том числе кодирование по Хэммингу.
Расстояние по Хэммингу h(A, В) между двоичными последова­
тельностями одинаковой дЛины определяется как число разрядов.
в которых А и В не совпадают. Например, h(OOI, 100) = 2.

24) Оптимально кодировать обычно в голову не приходит, потому что достижение оnти·
мума слишком трудоемко. Не говори о том, что еше и декодировать приходитси.
8.8. Укрупнение состояний 157

Если ДВОИЧНblе последовательности ДЛИНbI n интерпретировать


как верШИНbI куба n-мерного пространства, то h(A, В) представляет
собой минимальное число ребер, по которым можно перейти из А
вВ.
В случае, когда все расстояния между ВОЗМОЖНblМИ сообщени­
ями h(A, В) ~ 2, - любая одиночная ошибка (в двоичном разряде)
будет обнаружена, а в случае h(A, В) ~ 3 - не только обнаружена,
но и испра~ена 25).
Идеологическая ясность не устраняет практическую задачу та­
кого кодирования полеЗНblХ сигналов, чтобbl они бьu1И разнесеНbI
на заданное расстояние. «Зазор .. h(A, В) = 2 легко обеспечивается
введением дополнительного двоичного разряда, в КОТОРblЙ заПИСbl­
вается О (или 1), в зависимости от четности (или нечетности) числа
единиц в кодируемой двоичной последовательности. Б6льшие «за­
зорЬ1 .. обеспечиваются ИНЬ1ми ухишрениями, но это уже другая
история.

8.8. Укрупнение СОСТОЯНИЙ

Имея дело с тем или ИНblМ понятием, полезно располагать удобной


для интуиции моделью. Что касается энтропии, то от содержа­
тельной ИН1:ерпретации состояний систеМbI всегда можно отвлечь­
ся и говорить только о номерах этих состояний, подразумевая
случайную величину Х, которая принимает некоторые значения,
например, Х = k с вероятностями Pk.
Если состояния равновеРОЯТНbI, то Н = log 2 n представляет
собой количество ДВОИЧНblХ разрядов, необходимЬ1Х для записи всех
чисел от 1 до n, а Н = Ig n - количество десятичнЬ1Х разрядов,
необходимЬ1Х для той же цели.
Если состояния не равновероятнЬ1, то

Н =- L Pk log 2 Pk < log 2 n


равно средне-му количеству двоичнblX разрядов, необходимЬ1Х для
записи чисел от 1 до n, но - возможно - при их nерену-мерации
(оnmuмшzьно-м "одировании).

2$)для испрааления ошибочной последовательностн С = 0100 ... 10 надо найти ближай­


шую к С ра]решенную последовательность А =
0101 ... 10. которая. в силу одиночности
ошибки, находится на расстоянии h(A. С) 1. =
158 Глава 8. Теория информации

Число состояний может бblТЬ даже бесконечно, равно как и число разрядов,
00

неоБХОДИМblХ для их записи. Но при условии L Pt = I среднее число разрядов


t=1
будет равно как раз Н.

Так или иначе, но для энтропии важны только вероятности


состояний. Если с. в. Х принимаетзначения 1 и 10 с вероятностями
Р и 1- Р, а с. в. У с теми же вероятностями равна либо 1, либо
1 + 10-99, - то Н(Х) = Н(У).
Другими словами, энтропия не ощущает неопределенности
значений случайной величины. В то же время ясно, что 4Iблизкис»
состояния системы иногда можно считать одинаковыми, объединяя
их в одно состояние. Укрупнение возможно и по другим причинам.

При этом энтропия - L Pk 1082 Pk переходит в

ii = - LPG IО82Ра,
G

причем энтропия укрупненной (агрегированной) системы всегда мень­


ше или равна исходной. (?) В случае разукрупнения системы эн­
тропия, наоборот, увеличивается.

8.9. Энтропия HenpepblBHblX распределений

Энтропия случайной величины Х, распределенной с плотностью


р(х), определяется как

! р(х)
00

н =- 108 р(х) dx. (8.7)


-00

Если Х - случайный вектор, энтропия вычисляется по той же


формуле с той лишь разниuей, что интегрирование ведется по всему
пространству.

Аналогия с дискретным случаем легко просматривается, но пре­


дельный переход к (8.7) невозможен, - по крайней мере, в обще­
принятом смысле.
8.9. Энтропия непрерывных распределений 159

Естественная аппроксимация (8.7) при разбиении оси Х на про­


межyrки AXk записывается в виде суммы
00

Ht,. =- L P(Xk)AXk 10g P(Xk), (8.8)


k=-oo
где Xk - некоторым образом выбранные точки на промежутках
AXk. Функция Р(Х) заменяется в результате ступенчатой аппрокси­
мацией, а Pk = P(Xk)AXk становится приближенной вероятностью
попадания с. в. Х на промежуток AXk. При этом (8.8) можно
переписать в виде
00 00

Ht,. = - L Pk 10gpk + L PkAxk· (8.9)


k=-oo k=-oo

Фиксация AXk =с преврашает второе слагаемое (8.9) в константу


с(с). А поскольку не так важно, каков нулевой уровень неопре­
делен ности, то (8.7) с разницей в константу приближенно равно
энтропии - L Pk 108 Pk. Поэтому, если договориться, что энтропия
измеряется с точностью, скажем, до третьего знака, то формулой
(8.7) можно пользоваться как хорошим приближением (8.8).
Безболезненному оправданию предельного перехода мешает
расходимость с(с) --+ 00 при с --+ О. Но из сказанного ясно, что
большой беды в этом нет. Определение (8.7) вполне мотивированно,
хотя и не совсем стандартным способом.

Свойства энтропии непрерывных распределений в основном аналогичны


свойствам энтропии дискретных распределений. В частносm, имеет место адди­
mвность вида (8.2) и (8.3) при естественной записи условной энтропии с помоwью
условной плотности, а также аналоги неравенств из раздела 8.2. Максимум энтро­
пии на ограниченной области достигается при равномерной плотности. (?)
Максимум (8.7) при ограничениях

f
01)

p(z)dz = 1,
-01)

обеспечивает нормальный закон распределения26)

р(ж) = _1_ e- z2/(211 2).


V'Fiu
При этом Н(Х) = log V2Uu.
26) См. раздел 2.7.
160 Глава 8. Теория информации

Если случайные векторы Х, У функuионально связаны линейным невы­


рожденным преобра30ванием У = АХ, ro
Н(У) = Н(Х) + log det А, (?)
'По леrко проверяется, но заслуживает внимания, ибо эдесь выявляются roнкости
перехода к энтропии непрерывных распределений, о KOropыx юворилось в начале
ра:шела.

Наличие невырожденной Функuиональной связи У = АХ в случае дискрет­


ною распределения к изменению энтропии не ведет, поскольку число cocroяний
И их вероятности не меняются. В непрерывном случае аппроксимация (8.7) с по­
мощью ра3биения пространства на ячейки ("промежyrки. 6z.) претерпевает
изменения при линейном преобразовании переменных. Объемы ячеек, а зна­
чит, и соответствующие вероятности - меняются. детерминант А дает как раз
коэффициент искажения объема.

8.10. Передача непрерывных сигналов

Шеннон, создавший теорию информации [30], начинает - см.


изучение непрерывных сигналов с теоремы отсчетов 27), которая
сразу переводит задачу в плоскость дискретного времени.

Речь идет о следующем. Информационная емкость непрерывною сиrнала


z(t) упирается в барьер roчности. Важный ориентир в переплетенииобстоятельств
задает неи3бежная 28) оrpаниченность спектра z(t). В представлении Фурье 29)

I I
00 00

z(t) = i(v)e- 2 "iИ dv <:> i(v) = z(t)е 2 "iИ dt


-00 -00

в условиях оrpаниченности спектра: i(v) i- о только при Ivl < w, - сиrнал z(t)
представим в виде
w
z(t) = I i(v)e- "iИ 2 dv. (8.10)
-w
Но i(v), как функuия, заданная на конечном промежутке (-W, W), может быть
разложена в ряд Фурье с периодом 2W:
00

i(v) = Е onein""/W, (8.11 )


n=-CI'

21) У нас ее принято называть mеоре.моЙ КomелЬНUКotlQ - см.: Коmельнuкotl В. А. О про­


nyскноll способности .эфира. и проволоки в элеJcrPOCВЯЗИ // Материалы к I Веес. CbllllY
по вопросам реконструкции дела СВRЗИ. Иlll. Упр-и связи РККА. 1933.
28) Из-за конечности по.~осы проnyсканИR частот любоrо канала связи.
29) Обычно В преобразовании Фурье вместо частоты 11 используетСR круrоваи частота
UJ = 211"11, И TorDa в первом интеrрале поRВЛИеУеR МНОJlCИТель 1/(211").
8.10. Передача непрерывных сигналов 161

где, с учетом (8.10),


w
а
n
= _1_
2W
! Ж(II)е-inWIJIW dll = _I_
2W
ж (~).
2W
(8.12)
-w
Теперь подстановка (8.12) ~ (8.11) ~ (8.10) приводит к

ж(t) = _1_ ~ ж (~)


2W LJ
со

"=-СО
2W
! e~(n-2WI)
-w
W
dll
'

что после несложных преобразованийможет быть переписано в виде

~
ж(t) = LJ ж 2W
(n) sin1l'(2Wt -n)n) .
1I'(2Wt - (8.13)
n=-IXI

Формула (8.13) показывает, что любой сигнал x(t) с ограни­


ченным спектром определяется значениями x(t) в дискретном ряде
6.t = 1/(2W), ко­
точек, расположенных с интервалом времени
торый Шеннон называет интервалом Найквиста 30). Факт может
показаться удивительным, поскольку речь идет не о приближен­
ном, а о точном воспроизведении сигнала по дискретным замерам.

Но это удивление философского характера. На практике, понятно,


вопрос точного воспроизведения никогда не стоит. В условиях оши­
бок измерения и других погрешностей говорить имеет смысл только
об аппроксимациях x(t), например кусочно-линейных, определя­
емых точно так же значениями сигнала в дискретном ряде точек.

Особая роль соотношения (8.13) заключается в указании связи


необходимого интервала замеров с шириной спектра сигнала 31).

в принципе, можно было бы ориентироваться на какую-нибудь аппрокси­


мацию ж(t) типа полиномов Бернштейна,

равномерно аппроксимируюших ж(t) с любой наперед зanанной точностью:


Iж(t) - Pn(t)1 < е. И тогда бы речь шла о передаче конечного числа коэффициен­
тов Pn(t), а теория - раэвивалась на прежней идеологической базе дискретных

30) Nyquis/ Н. Cenain lopics in telegI1lph transmission theo'Y // AIEE Trans. Аре. 1928.
31) Эта СВJI:JЬ в какой-то степени метафи:sична, поскольку коренным обра:soм :saвисит
от требований к точности воспрои:sведения сиенала.
162 Глава 8. ТеОРИR информации

сообшениЙ. Конечно, в поле зрения оказался бы включенным факroр точности,


но в определенных условиях это было бы даже хорошо.

Вернемся, однако, к точке зрения Шеннона. Если функuия x(t)


ограничена BpeMeHHbIM промежyrком Т, а замеры отстоят друг

от друга на 1/(2W), то в промежyrке Т всего будет 12TW от­ I


счетов 32), которые всегда можно мыслить как координаты точки
в пространстве 2ТW измерений, причем из (8.13) легко следует

!
2TW
2
x (t) dt = 2~ L х 2 (2~ ), (8.14)
о п=о

что в электросвязи, например, естественно интерпретируется как

энергетическое соотношение.

)
Квадрат евклидова расстояния Е ж 2 (2~ оказывается равным 2W Е, rдe
Е - энергия, выделяемая на единичном сопротимении при прохождении тока
ж(t) на промежутке т. Поскольку Е = тр, где Р = Dx - средняя мошность
сигнала, то в силу (8.14) все сиmалы с мошностью, меньшей Р, будуг расположены
в шаре радиуса

r = v'2TWP
либо r = v'2W Р, если рассматривать промежуток Т = 1 с.
с точки зрения помехоустойчивocrи точки (сиmалы) в этом шаре надо рас­
пределять равномерно, чтобы при заданном их количестве они были расположены
как можно дальше друт от друта. Например, при аддитивной помехе:

Y(t) = X(t) + N(t),


где X(t) - передаваемый сигнал, Y(t) - принимаемый, N(t) - белый шум
мошности DN . В силу независимости X(t) и N(t), мошность (дисперсия) сиmanа
на выходе равна

D y =Dx +DN·
Объем _шумяшеro шарика .., в силу r = .j2TWDN, оценивается
2TW
.... ( .j2TWDN ) ,

Щ Это очевидно JWl(e без тсоремы Котсльникова. НаАквист, например, paccYJКДaJI так.
Разложение ж(t) в рм Фурье на промежутке Т содержит TW синусов и (ТW 1) косину­ +
сов - вплоть до частоты W. для определенИII (2ТW +
1) соответствуюших коэффиuиентов
достаточно :::: 2TW замеров.
8.11. Оптимизация и термодинамика 163

а объем шара выходных сигналов мошности ~ Dy -

Деление показывает, что маленьких шариков в большом помешается приблизи­


тельно:

т. е. в шар помешается приблизительно такое количество точек (сигналов), раз­


несенных на расстояiiие, не покрываемое шумом. для записи этого количества
требуется порядка

TW 10g2 ( 1 + ~: ) разрядов,
ЧТО определяет число бum/с, которое можно передать по такому каналу за время Т.
При Т = 1 с получается пропускная способность канала:
С = W 10g2 ( 1 + ~; ) , (8.15)

зависяшая от полосы пропускания W и отношения сuгнал/шум, Dz / D N •

Несколько -.лихой .. вывод формулы Шеннона (8.15) имеет два оправдания.


Во-первых, он в чистом ВИде отражает Идею. Во-вторых, на точности соот­
ношения (8.15) не имеет смысла особо настаивать, поскольку, строго говоря,
здесь нейбкодима масса orOBOPOK. Но сам характер зависимости может служить
путеводной нитью.

8.11. Оптимизация и термодинамика

При описании идеального газа (трехмерного бильярда) задания


энергии не хватает для фиксации термодинамическогосостояния.
Соображение максимизациинеопределенностираспределенияско­
ростей молекул - решает проблему, определяя полный комплект
макропараметров. И такое соображение работает во многих дру­
гих СИl)'ациях, где речь идет о статистическом описании сложных

систем.

На формальном уровне это выглядит примерно так. Решается


задача максимизации энтропии

-L z
р(х) lп р(х) ~ mах
р(ж)
164 Глава 8. Теория информации

при ограничении 33)

L r(x)p(x) = R
z

и, разумеется, L р(х) = 1.
z

Стандартный переход к лаrpанжиану

L =- L [р(ж) Inр(ж) + Лр(ж) + рr(ж)р(ж)]

с последуюшим варьированием р(ж) в конечном итоге дает

р(ж) = e-1-A-pr(z),

что с учетом нормировки, L р(ж) = 1, при водит к


z
e-pr(z)

р(ж) = Е e-pr(z)' (8.16)


z
где параметр р определяется энергетическим оrpаннчением.

Легко видеть, что вместо рассмотренной можно было бы решать


дрyryю задачу:

L z
r(x)p(x) ~ mio,
р(ж)
-L р(х) 10 р(х) = Н.
z

Ответ, с точностью до параметра /J (<<температуры. т


= 1/р),
был бы тот же самый, а при определенном соотношении R и Н
ответы бы совпали в точности.
Такая «взаимозаменяемость. задач широко используется в ста­
тистической физике, позволяя переходить, скажем, от максими­
зauии энтропии к эквивалентной задаче минимизации энергии.
Несмотря на физическую абсурдность второй задачи (энергия стро­
[о постоянна), ее рассмотрение математически оправдано и часто

33) Cтporoe сохранение энергии обычно :J8МСНЯСТСЯ сохранснисм в среднсм,

L r(z)p(z) = Я,
:t

по принципиальноне меияет решения, но упрошает ВЫК1lадКИ.


8.11. Оптимизация и термодинамика 165

более удобно. Подобная .взаимозаменяемость» широко использует­


ся также в математическом программировании, где каждая задача,

как правило, рассматривается в паре со своей двойственной.

в стаrnсrnческой физике для получения взаимосвязей между макропарамет­


рами разработана удобная техника, опирающаяся на введение серии вспомоrа­
тельных функционалов.
Сначала вводится стаrnсrnческая сумма

z = Ee'(Z)/T
Z

и свободная энерrия F(T) = -ТlnZ, с помощью которой (8.16) записывается


в виде (распределение Гuббса)
p-;(~)
р(ж) =е .

Вычисление энтропии

н = _" F - r(ж) е р-;и = _F - r(ж)


LJ Т Т
Z

дает зависимость

F=R-TH.

ДифференцированиеF(T) = -Т ln Z по температуре,

dF = _ In Z _ TZ- 1 dZ = - In Z - т- 1 R
dT dT '

с учетом Z = Е er(z)/T и F = R - ТН приводит К Н = - dF


dT и, в итоrе,
Z

dF
R=F-T-.
dT
А дифференциал

= d(F + ТН) = dF + Н dT + Т dH,


dR

в силу Н = -dF/dТо оказывается равным dR = Т dH. т. е.

I =Т I
dR
dH '

откуда следует, что .энерrия- при возрастании энтропии Н возрастает, если Т > О,
и убывает, если Т < О.
1бб Глава 8. Теория информации

8.12. Задачи и дополнения

• При наличии функциональной связи Z = j(X, У) величины Х и У дают


полную информациюо Z. Возможно ли, что Х и У по отдельности не дают
никакой информации о Z? Вопреки естественномуожиданию - возможно.
Пусть Х, У, Z представляют собой n-разрядные числа в 10-тичной системе.
Тоrда число (функция) Z, определяемое поразрядным сложением по мо­
дулю 10,

обладает нужными свойствами.


Например,
Х = 123, У = 948 => Z = 061.

Понятно, что задание Х никак не уменьшает число возможных вариантов Z.


• Если все числа равновероятны, то деление rpynnbI n подряд идуших чисел
на две равные подrpуппы с последуюшим выделением одной из подrpynп
(приписыванием, например, нуля или единицы) дает информацию 108 2 = 1,
уменьшая исходную неопределенность 108 n до 108 n -108 2. После k анало­
rичнbIX шаrов неопределенность уменьшится до 'ов n - k 108 2 и станет ~ О
при условии
logn
k~ - - =I08n.
108 2
Вот, собственно, и вся премудрость. Некоторые детали приходится уточнить,
если n не является степенью двойки. Тоrда rpYnnbl чисел не делятся ровно
пополам, и это уменьшает информацию некоторых шаrов. Но леrко прове­
рить, что итоr не меняется - из-за тoro, что k ~ 108 n выбирается целое.
Задача становится совсем прозрачной при увеличении с caMoro начала n
до ближайшеrо числа вида 2т.
За кадром описанной схемы MOryr стоять разные интерпретации. от решения
проблемы о числе вопросов ..да - нет.., необходимых для
при ответах
- до указания числа разрядов для записи
определения заrаданноro числа,

номера любоrо из n чисел в двоичной системе}4). Двоичная запись чисел


в последнем случае и будет оптимальным кодированием.

• Toro же поля яrода простейшая задача о взвешивании монет. Среди n монет


есть одна фальшиваR, более ле2каR. Наити минuмальное число взвешивании
на чашечных весах Щ, необходимое для оnределениR фальшивои монеты в самом
небла20nриRтном случае.

Любая из монет может равновероятно оказаться фальшивой, поэтому не­


определенность равна lов n. Пусть пока n = зт. Разобьем монеты на три
равные кучки, и любые две из них сравним по весу. Взвешивание (опьrr B 1)
может иметь три очевидных исхода. Любой - позволяет исключить две

34) Либо
самих чисел, если это числа от I до п.
Щ ПО3ВОЛIIЮWИX сравнивать два веса.
8.12. Задачи и дополнеНИR 167

Рис. 8.1

f1)уППЫ монет. Неопределенность Н(В.) =


log 3. Энтропия (информаuия)
k последовательных взвешиваний равна k log 3. Для исчерпан ия исходной
неопределенности log n необходимо k 101 3 ~ log n, отхуда k ~ 101з n. Легко
убедиться, что ответ остается верным и в том случае, когда n не является
степенью тройки.

• Если в предыдушей задаче неизвестно, легче или тяжелее фальшивая монета,


то исх~дная неопределенность возрастает до log 2n. Но естественный ответ
k ~ lоgз 2n уже не верен. Правильный ответ

однако это довольно сложная задача, что свидетельствуето трудностях опти­

мального кодирования36). Реuепт взвешиваний (кодирование) дЛЯ 12 монет


изображен 37) на рис. 8.1. Левая (правая) стрелка обозначает ситуаuию, когда
перетянула левая (правая) чаша весов, средняя стрелка отвечает равновесию.
Все монеты перенумерованы, буквы Л, Т означают: «легче_, -тяжелее_ .

• В Р разрядах r-ичной системы можно записать r1' чисел. При этом каждая
uифра может потребоваться в Р экземплярах (скажем, три девятки в 999).
Всего заготовленных uифр - вырезанных, например, из картона, - надо
иметь N = р . r. С помошью этих заготовок можно _записать_ rN/r чисел.
Функuия rN/r достигает максимума при r = е :::: 2,7. Среди uелых чисел
максимум обеспечивает r = 3. Поэтому иногда говорят, что троичная система
счисления - самая экономичная. Двоичная - ей несколько уступает.

36) При желаиии оБА3аУелЬНО доБИТЬСII строго максимanьного pc3YJlbтaтa.


э7) Схема 3аимствована из статьи Г. Шестопanа .Как обнаружить фальшивую монету.
(Квант. 1970. 10).
168 Глава 8. Теория информации

• Парадокс Пlббс:а. Термодинамика для энтропии идеальноro raза дает следу­


юшую формулу:
S = c(T)N ln V + Nso, (8.17)
rде N - число молекул, V - объем, с(Т) - коэффициент, зависяший
от температуры Т.
Из (8.17) следует, что при смешении двух raзoв (находяшихся в различных
объемах V1 и v2 при одинаковой темпера1УРе) суммарная энтропия возрастает
на величину, пропорциональную

V,+V2 N 21 0
N I ln ---+ Vi+V2 О (8.18)
--->.
У. У2

для различных raзoв неравенство (8.18) подтверждается опытом.


Но вывод (8.18) никак не опирается на предположения о сортах смешиваемых
raэов. Поэтому при смешении одинаковых raэов было бы также естественно
ожидать возрастания суммарной энтропии. Но для термодинамики это ка­
тастрофа, потому что TOrдa энтропия становится функцией истории raза 38) ,
а не ero термодинамическоro состояния.

Гиббс разрешил противоречие волевым путем, постулировав, что из (8.17)


надо вычесть ln N! .... N 10 Н. Тоrда энтропия смешения действительно ока­
зывается положительной только для различных rаэов, и парадокс снимается.
Но за введением добавки 10 N!, по существу, стоит необходимостьотождеств­
лять состояния, получаюшиеся перестановками молекул, что интуитивно

не вполне естественно. ОпределеннымсвидетельствомTOro, что здесь не все


так просто, может служить список исследователей парадокса: Эйнштейн,
Шрёдинreр, ПЛанк, Лоренц, Нернст.

:18) Любое состоянне raзa 140ан0 считатъ полученным в результате устранення ряда
переropoдок.
Глава 9

Статистика

Статистика - та же теория вероятностей, но - с другого кониа.


Из ста миллионов человек опросили тысячу - 777 избирателей за демокра­
тию. Какой результат голосования можно прогнозировать, и с какой надежностью?
Если выводы малоубедительны, сколько человек надо (было бы) опросить, чтобы
прогноз был точным? Или - как контролировать качество продукuии, проверяя
небольwую часть И3llелий? Это естественный дЛЯ статистики круг вопросов.
Orв:tекаясь от СОдержательных интерпретаuий, можно сказать так. Стати­
стика - это анализ результатов опыта и определения по ним вероятностных

характеристик случайных величин. Такие задачи, безусловно, - в духе ТВ. Поэто­


му статистика дЛЯ завоевания суверенитета часто настаивает на малосущественных

тонкостях и множит количество плохо мотивированных задач, ПblТаясь СО1дать

еармию И поrpаничные войска •. В результате ТВ, действующая с меньшей нату­


гой, выглядит привлекательнее. Тем не менее rpуппировка задач вокруг анализа
данных опыта заслуживает вьшеления в самостоятельный ра3llел. А если при этом
соблюдать меру, статистика превращается в симпатичную и полезную ветвь теории
вероятностей.
В главе рассматривается Идеологическая база статистики в варианте, близком
к тезисному. С тяжеловесной частью можно ознакомиться по любому стандартному
курсу (см. например, [9,20)).

9.1. Оценки и характеристики

Основной изучаемой моделью статистики служит многократная ре­


ализация случайной величины Х. При этом набор независимых
случайных величин Х I , ... , Хn, каждая из которых распределена
так же, как иХ, - называют случайной выборкой 1) объема n.
Любую функцию 8 n = 8 n (X 1, ••• ,Хn ) называют статистической
характеристикой (с. х.), или статистикой. Определению обычно
подлежат вероятности тех или иных событий, матожидания, дис­
персии, корреляции и другие характеристики с. в. на базе с. х.

1) Иногда выборкоlI называют реanиэаuию X 1, •••• Х".


170 Глава 9. Статистика

Например, oueHкy матожидания mх можно получить по реализаuии случай­


ной величины 8n = (Х, + ... + Xn)/n, которая в данном случае является одной
из возможных с. Х. для определения mх.

Если rоворить точнее, то статистика как наука каждый раз вводит rипоте­
зу о вероятностной природе наблюдаемых npoueccoB. Бросается ли монета или
берется, скажем, 100 знаков в двоичном ра1Ложении числа "', - теория пред­
полаrает, что это есть 100-кратная реализация с. в. Х, принимающей значения
ноль/один. Или, скажем, доля леворуких людей равна р. тв подменяет реальность
совсем дрyrой моделью, считая lL'IЯ каждоrо человека вероятность бьпь леворухим
равной р. Эрrодичность (среднее по вероятности равно среднему по реализаuии)
как раз служит основанием адекватности такой модели.

Первое впечатление, что с. х. тривиальны до скуки, отчасти


справедливо, - но они далеко не всегда сводятся к примитивному

усреднению, как в случае тх (см. далее). Конечно, статистической


характеристикой можно объявить любую функцию 8 n (Х" ... , Хn ),
однако вопрос в том, насколько она удовлетворительна.

Если, например, речь идет об оценке неизвестного параметра (},


характеризуюшего с. в. Х, то оценка (} на основе 8n называется

состоятельной, если 8 n !.t (} при n -+ 00. Из закона больших чисел


вытекает состоятельность среднеарифметическойоценки матожи­
дания.

В оценках есть также другой сушественный аспект. Оценка (J


на основе 8n называется смещенной/несмещенной, если матожидание
Е {8 n } при любом n равно/не равно (J.

Состоятельная оценка не обязана быть несмещенноЙ. (?)

Доверительные интервалы. Промежуток, которому принадлежит


оцениваемый параметр (J с вероятностью ~ 6, называют дове­
рительным интервалом, 6 - коэффициентом доверия, а 1- 6 -
уровнем значимости.

О справедливости условия

P{I(J - 8 n l < g} ~ 6,

означаюшеro (J Е (8 n - g, 8 n + g) с вероятностью ~ 6, можно


судить с помошью неравенства Чебышева, но это даст, конечно,
9.1. Оценки и характеристики 171

только грубую оиенку. Соответствуюший реиепт очевиден. Если 8


матожидание Х, а 8 п его несмешенная оиенка, то

D (8 п )
P{18 - 8 n l < Е} ~ 1 - 2'
Е

Практический способ действий на этой основе заключается в сле­


дуюшем. Задается коэффиuиентдоверия б = 1 - D (8 п ) / Е 2 , отку-
да Е = 'VD (8 п )/(1 - б), что определяет доверительный интервал
(8 п - Е, 8 п + Е).
в некотором роде зnесь :sаложено противоречие. поскольку на практике
обычно имеется реали:sauия выборки и более - ничего, Поэтому в получаемых
неравенствах -неи:sвестиое. оuенивается череэ _неизвестиое_. Дисперсию D (8 n )
приходится определять по той же самой выборке. Однако противоречие снимается,
если оuенки состоятельны. Тогда D (8 n ) определяется с небольшой ошибкой ~. и

t = V~
i>(Ei;J + O(~).
т. е. влиянием ошибки при определении дисперсии можно пренебречь.

Если речь идет о достаточно длинных выборках, то можно


опираться на предельные теоремы о нормальности распределения

ошибок при усреднении, что дает более точные оuенки.


Пусть, например, оuенивается вероятность р некоторого собы­
тия А по выборке Х 1, .•• , Хп, где Хk принимает значения ноль/один
в k-M опыте, Х/С = 1 отвечает «успеху.., т. е. наступлению А. Если
для оuенки используется среднее

Х 1 +".+ХП
РП = n
то, очевидно,

При больших n, в силу предельных теорем,

(9.1)

откуда получается необходимая связь между крайними точками


доверительного интервала и уровнем значимости.
172 Глава 9. Статистика

Понятно, что строгое решение (9.1) занимает много места,


и приходится кстати, если дЛЯ диссертации не хватает материа­

ла. На самом деле доверительный интервал приближенно равен


(рп - Е(1, РП + Е(1), где (1 = VD {Рп}.
Но все это хорошо работает, когда выборка достаточно вели­
ка (практически, n '" 102). При малых n приходится -танцевать»
от биномиального распределения, что в отсугствие возможности
воспользоваться формулой Стирлинга приводит к весьма громозд­
ким построениям, подталкивающим к графическим методам реше­
ния [20].
Оценки матожидвния и дисперсии. В случае существования у с. в. Х первых двух
моментов выборочное среднее

-
Хn
X'+"'+X
= ---'------.;;. n

n
в силу Е {X n } = m z , является несмешенной оценкой. ПЛюс к тому.
- Dz
D{Xn } =-.
n
- с k - Р
что обеспечивает X n ...:....+ Х, и тем более, X n -+ Х.

Возникает впечатление, что оценка дисперсии

-
D n
= (Х. - Xn )2 + '" + (Xn - Xn )2
.:..-.:.-_:..:..:-_-_..:......:...._~ (9.2)
n
обладает теми же свойствами. но это не так. Очевидно, после раскрьпия в (9.2)
получается

откуда

- 1 Dz 1
Е {D n } = -nD z -
ппп
- = -n -- D z•

что свидетельствует о с.мещенносmu оценки (9.2). Нес.мещенная оценка:

-,
Dn = (Х. - Xn )2 + ... + (Xn - Xn )2
..:.....:.-_:..:..:-_-_..:......:...._~ (9.3)
n-l
Аккуратный подсчет (20] показывает:

D {D } = 1J4 - IJ~ + 2(1J4 - 21J~) + 1J4 - 31J~ , (9.4)


n
n n2 n]
откуда ясно, что при существовании центральноrо четвертоrо момента 1J4 обе
- р -, р
оценки (9.2) и (9.3) состоятельны: D n D z • равно как и D n -+
Dz • -+
9.2. Теория и практика 173

Вопрос о том, какая из оценок (9.2), (9.3) лучше, - однозначного ответа


не имеет. Несмешенная оценка точна по маТОЖИ.llанию, но хуже по дисперсии
ошибки.

СлучаАные векторы. В задачах со случайными векторами выборки рассматрива­


ются покоординатно. Новое обстоятельство заключается в появлении смешанных
моментов. Но рецетурно все остается по-прежнему.
Например. оценка ковариации

кж .= .!.
n
t(X
k=)
t - Хn)Щ - yn)

случайного вектора Z = {Х. У} - в естественных предположениях состоятельна,


но смешена. Несмешенную оценку дает замена в знаменателе n на n - 1, как
и в случае дисперсии.

9.2. Теория и практика

При необходимости проведения, скажем, опроса населения - чи­


стый математик оказывается неподготовленным к решению задачи,
поскольку на практике сушественную роль играют «невероятност­

ные» обстоятельства.
Идет ли речь об опросе избирателей, о соuиологическом ан­
кетировании или о медиuинском обследовании, - из генеральной
совокупности 2) необходимо выбрать некоторую долю элементов.
Как это 'сделать? Простейший, казалось бы, вопрос, но на пути его
решения очень много препятствиЙ.

Теоретически ситуация 8ЫгJlJlllИТ элементарно. Берется полный список, ска­


жем, людей, - и из него равновероятно выбирается какая-то часть населения.
Конечно, сама организация случайного выбора - непростая штука, но основные
трудности - в другом. даже обший список с адресами и телефонами может быть
проблемоЙ. Список надо достать, завести 8 память компьютера миллион адресов,
обработать.
Проблемы на этом не заканчиваются. После получения в результате слу­
чайного отбора списка фамилий приходится ~бегать. за каждым реСПОfШентом
и добиваться от него согласия ответить на вопросы. География случайного вы­
бора оказывается крайне неудачноЙ. В результате - повышенные временные
и материальные затраты, проблема неоmвеmuвшuх и т. п.

Поэтому на практике предпочтение в большинстве случаев


отдается более изобретательным технологиям. Можно упомянуть,

2) Генеральной совокупностью называют множество всех рассматриваемых злементов.


Население города, например.
174 Глава 9. Статистика

например, стратифицированную выборку с предварительным разби­


ением rенеральной совокупности на rpуппы (страты) по какому­
либо признаку и последуюшим случайным отбором внyrри rpупп.
Определенный интерес представляют гнездовые технологии, в кото­
рых случайно выбирается несколько rpупп с поrоловным опросом
внyrри каждой. Но все это, дрейфуя в сторону эвристики, выходит
за рамки статистики как математической науки 3).

Разумеется, практическая статистика сильно себя скомпроме­


тировала в экономике и социолоrии. Но даже в этих «скользких~
областях она остается единственным средством решения опреде­
ленноro Kpyra задач. В то же время, на фоне иноrда анекдотических
реалий, математические изыскания «о-малых~ выrлядят схоласти­
ческими. Нельзя, однако, забывать, что есть задачи, rде статистика
иrpает совсем друryю роль. Оценка физических констант и па­
раметров (на основе MHoroKpaTHЫX измерений), статистическая
оптимизация моделей технолоrических процессов и кое-что еше,
rде измерения объективны и есть понимание изучаемых процессов.
При этом извлечение максимума возможноro во мноrих ситуа­
циях оказывается принципиальным. Ошибка статистической оцен­
ки доли поrлошаемых нейтронов приводит к атомному взрыву,
а плохая обработка химических анализов поверхностных проб поч­
вы влечет за собой холостое бурение километровых скважин.

9.3. Большие отклонения

Пусть

rде Х 1 , ••• , Х П - независимые, одинаково распределенные слу­


чайные величины.
Функuия распределения УП леrко определяется,
n n
Р{УП ::;; х} = Р П{Х; ::;; х} = П Р{Х; ::;; х} = Fn(x),
;=1 ;=1

J) Признать статистику матсмаmкой MOJКНO. конечно. лишь с той же долей натlIJКXИ - ЧТО
И физику. Статистика начинаетСR там, где теории вероитн,)СтеЙ. независимВR от устройства
Вселенной, начинает УВА]ываТЬСА с пракmкоЙ.
9.3. большие отклонения 175

где Fn(x) - обшая для всех Xj функция распределения. Понятно,


что распределение с. в. Уn определяет поведение .правого хвоста.
F(x).

Например, при условии

Iiт [1 - F(z»)zO = Ь, а, Ь > О,


""'"
.нормированная. с. В. (n = Yn/(bn)I/O при n -+ 00 сходится по распределению
к с. В. (,

Р{(~Z}={е-z-., z>O; ')


О, z ~ О. (.)

Статистика успехов в схеме БеРНУJIJIИ. При изучении суммы

где .успех. Х N = 1 достигается с вероятностью р, соответствен­


но Х N = О - с вероятностью 1- р. - удобно рассматривать
нормированную сумму

- Sk - kp
Sk = IL' (12 = р(1 - р).
(1vk
Теорема Муавра-Лапласа гарантирует сходимость Sk к нор­
мальному ,распределению .Лf(О, 1), что означает

Нт Р{а :::; Sk :::; Р} = Ф(Р) - Ф(а). (9.5)


n-+оо

На практике, естественно, возникает вопрос о соотношении k


и граниu доверительного интервала, при котором из (9.5) Нт
k-+oo
можно убрать, не слишком нарушая равенство.
х3
Критерием здесь может служить величина IL < €. При боль­
(1vk
ших х и k, но малых €,

_ е- ж2 / 2
Р{х:::; Sk} ~ 1- Ф(х) ~ r:t='
xv21r
что подтверждается несложными выкладками [26].
При малом объеме выборки приходится пользоваться для оиен­
ки Sk точным биномиальным распределением, но тогда возникают
неудобства счета, снова ведущие к огрубленным оиенкам.
176 Глава 9. Статистика

Закон nOBTopHoro логарнфма. Идеологически другая задача возни­


кает при попытке оuенить поведение возможных траекторий 5k
в uелом. Несмотря на нулевое матожидание и единичную диспер­
сию с. в. 5k (при любом k), - в любой типичной реализauии
последовательности 5" 52, ... будут встречатьсясколь угодно боль­
шие значения. Из этого раСIUIывчатогосоображенияможно извлечь
точную закономерность:верхний предел

lim 5k = ..(i (9.6)


k--too v'ln ln k
с вероятностью единица.
Это так называемый закон повторного логарифма Хинчина.
Если вернуться непосредственно к сумме Sk' то (9.6) означает,
что при достаточно больших k типичные траектории не выходят
за пределы Sk ~ kp + uv'2k ln ln k.

9.4. От «хм-квадрат. до Стьюдента

Хи-квадрат распределение имеет мотность р(х) = О при х ~ О и

р(х) = 1 xn/2-le-z/2 при х > О,


2n / 2r(nj2)
где Г - гамма-функция 4), а uелочисленныйпараметр n называют
числом степеней свободы.
Так распределен квадрат вектора Х = {X 1, ••• , х п },

2
Х =X 1
2
+· .. + х2п,
с нормальными координатами Xk, имеюшими нулевые матожида­
ния и единичные дисперсии.

При n = 2 i -распределение совпадает с показательным.

Распределение Стьюдента (t-распределение) имеет случайная


величина
';nX
t=--
Н'

4) Г(II) = I"" Z"-Ie-:r dz.


о
9.5. Максимальное nравдоnодо6ие 177

где n - число степеней свободы, с. в. Х имеет нормальное распре­


деление N(O, 1), а i распределена по закону «хн-квадрат•.
Распределение '.

Г«п + 1)/2) /% ( 82) -(n+I)/2


Р{' < ж} = ,J'Fi 1+ - d8,
2,.. Г(п/2) n
-Qo

не очень подходит для запоминания. Но по таблицам - при необходимости -


считается, а при больших n мало отличается от N(O. 1), и слабо сходится к N(O, 1)
при n ~ 00.

На практике распределениеСтьюдента широко применяется') в следующей


стандартной схеме. Для независимых X 1, .... Хn • распределенных по закону
N(m. 0'2), лучшие несмешенныеоценки m и 0'2 дают статистики
- X 1 + ... + ХN - (Х 1 - Хn )2 + ... + (Хn - Хn )2
ХN = И Dn = ..:.----'-----'-.;.;....-~
n п-l

При этом (Хn - т)/О' подчиняется закону N(O.I). с. в. (п - I)D n /O' 2 =х 2

закону .хн-квадрат., а отношение

(Хn - т)/О' = V'R=1 ХN - m

JD /O' n
2
R
оказывается распределенным по Стьюденту. что позволяет более точно 6) оцени­
вать доверительные интервалы по заданному уровню значимости (см. [20,21).
Некоторые '[онкости. оставшиеся здесь за кадром, требуют ГРОМ03llких выкладок
при незначительном«идеолоrическомэффекте...

9.5. Максимальное правдоподобие

Главная беда статистики в расхождении слова и дела. Громоздкие


формулы сопровождаются приговариванием о необходимости вы­
сокой точности, тогда как всем ясно, что неучтенные факторы
перекрывают любые математические усилия. Поэтому оправдывать
изыскания более естественно красотой самих задач.

Случайные величины X 1, •••• Х N независимы и одинаковораспределены с плот­


ностью рв(ж), Heo6xoдuмo изобрести наилучшую оценку

8n = 8 n (Х ••... , Хn )
параметра В.

') ПО крайней мере, так roВОpIП.


6) ПО сравнению с rpyбыми оuенками, ба]ИРУЮШИМИСR на неравенстве Чебышева.
178 Глава 9. Статистика

Вполне нормальная математическая проблема, способная ини­


циировать поток диссертаций и разговоры о практической значимо­
сти, необходимые ДЛЯ защиты территории. Червоточинка заключена
в большой неоднозначночности понятия «наилучшая», не говоря
о том, что разногласия начинаются уже на этапе «приемлемости».

О противоречивости несмещенности и состоятельности уже гово­


рилось. Но на эту мельницу воду можно лить и лить.

Метод максuмалЬН020 nравдоnодобuя Фишера заключается в максимизаuии


совместной плотности 7)
n

Ре(:I:' ... • ,:l:n ) = П Ре(:I:.)


.=1
распределения Х ••...• Х" при полученных реализаuиях :1:), ••• , :l:n • Функuия
е" = en(:I:, •..•• :l:n), обеспечиваюшая такой максимум, называется оценкой мак­
симального nравдоnодобuя.
Идея вполне изяшная, и в простых ситуаuиях В) хорошо работает. Но кру­
rOM .. мины,.. о которых легко догадаться, поскольку распределения и установки

оптимизаuии MOryт быть другими. Естественно, например, минимизировать дис­


персию Е {(е" - 8)2}. что в обшем случае будет приводить к иным решениям.
Обнаруживается. правда. интересный факт - неравенство Рао-Крамера:
2 1
Е {(е" - 8) } ~ l n (8)' (9.7)

где

l n (8) = Е {:8 In Ре(Х) •••• ,Xn ) }


- количество информации по Фишеру.
При обрашении (9.7) в равенство оиенку называют эффективной. Но это
бывает, как roворят. после дождичка в четверг - что чаше вcero соответствует
одномерному нормальному распределению.

Достаточные статИС'ПIКИ - другая идея Фишера. В случае, напри­


мер, нормального распределения ре(х) со средним (J вся информа­
ция о (J содержится в оценке

Х'+'''+Х п
8п = ,
n
что вытекает из независимости распределения

7) Которая в случае зависимых Х" ... , Х" не обязательно равна проювсдению Pe(Z.).

В) Типа оценки вероятности в схеме Бернуми либо параметра распределения Пуассоиа.


9.6. Парадоксы 179

это означает, что после подсчета среднего арифметического вы­


борки - сама выборка перестает быть нужной, из нее уже ничего
дополнительно не выжмешь. При этом ясно, что при наличии обра­
тимой функциональной связи 'In = rp(8 n ) статистика 'In остается
достаточной, поскольку 8 п можно восстановить. Это замечание
подчеркивает тот факт, что в «достаточности,. определяющую роль
играет присутствие в оценке всей информации. Как конкретно оце­
нивать .-: другой вопрос.

в обшем случае набор функuий

считается достаточной статистикой относительно 8, если совместное распределе­


ние X 1, ••• , Х N при фиксированных 8.' ... ' 8k не зависит от 8.
Определять, конечно, леrxо - пользоваться трудно.

Парuокс: Фишера. Для двумерноrо нормальноrо распределения снезависимыми


координатами, имеюшими единичные дисперсии и неизвестные маТОЖИдания

81,82, - обычное среднее {8 1,8 2} двумерной выборки является достаточной


статистнкой для пары {8., 82 }.
Вектор {8,,82} можно описывать в полярных координатах (r, 8), оuенивая
8 по тaHreHcy tg (82/81). а r по величине J8~ + 8~.
В силу взаимной однозначности декартовых и полярных координат оба

варианта статистики достаточны. Но распределение J8~ + 8~ из-за сферической


симметрии относительно точки {8 1,82} не зависит от 8. Отсюда (вроде бы)
следует, что информаuия об r ничеrо не добавляет к информаuии о 8. В то же
время ясно, что Е {(8 - 8)2Ir} зависит от r (тем сильнее, чем меньше r), и это
леrxо ПОдТВерждается вычислением.

Главная причина ВИдимоrо противоречия заключена в определении доста­


точности. Информаuия не потеряна, но отсюда вовсе не слелует, что

- хорошая оиенка. Почему бы, например, оuенивая 8, не танцевать от синуса

отношения 82/ J8~ + 8~ ?

9.6. Парадоксы

Парадоксы - ценная вещь в том смысле, что без них нет гра­
ниц. Нож теории идет как в масло, и создается впечатление, что
Вселенная - изотропно-масляная во всех направлениях.
180 Глава 9. Статистика

Оазисы противоречий разнообразят движение и способствуют


прозрению. В статистике, правда, слишком много парадоксов не­
большого калибра, да еше основанных на искусственных понятиях.

Парадокс СтеАиа'). Оценка матоЖlшаний тpexмepHoro нормальноrо закона по


обычному среднему трехмерной выборки - не доnустUAlа.

Звучит торжественно. Примерно как нарушение закона сохранения энер­


rии. И даже жалко ра:n.яснять, что недопустимые статистики вполне приемлемы.
доnустUAlaJI статистика е· происходит из катеrории минимаксных оценок и ми­
нимизирует .потери. при наихудшем 8, т. е.

sup Е {(е· - 8)2}


8
= infsup
е
8
Е {(е - 8)2}.

Конечно, это имеет смысл, но беда статистики в том, что в ней имеют смысл
МИJL'Iион понятий, которые не очень хорошо соrласуются друт с друтом. Мно­
roe из придуманноrо Идеально подходит только для нормально распределенных
величин 10). А тут Стейн - С неприятным сюрпризом. Оказывается, в -нормаль­
ном. случае тоже не все нормально. Штуковина, безусловно, калибра -о-малоrо»,
но как Идеолоrическая диверсия - весома. -Разбор полетов. см. у Секея (22).

С практической точки зрения б6льшую ценность имеют про­


тиворечия, демонстрирующие слабые звенья интуиции. Скажем,
ловушку из раздела 1.2 вполне можно включать в школьную про­
грамму. Ничего сложного, но обман приходится как раз на ахилле­
сову пяту здравого смысла, - что обеспечивает лечебный эффект.
Главное ведь не в толщине маскирующего слоя из формул, а в точ­
ности попадания в незащищенные места подсознания. Поэтому,
если на парадоксы смотреть как на таблетки от хронической бес­
печности, то заботиться надо о соответствии диагнозу.
Распространенная причина заблуждений - перенос старого
опыта на новые понятия. В ядре многих статистических казусов
лежат противоестественные свойства вероятностных неравенств.

Сравнивая случайные величины Х и У, пишут Х <У и rоворят _Х меньше


У по вероятности», подразумевая

< У} > Р{Х ~ У},


Р{Х (9.8)
т. е. вероятность неравенства собьrrия {Х < У} больше 1/2.

') Stein С. // Рroc. Third Вевеlеу 5уmр.оп Malh. 51al. & Prob. 1956.1. Р.197-206.
10) даже среднее Д1UI оценки матожид8НИЯ в _не нормальном. случае - не такая уж
хорошая оценка.
9.6. Парадоксы 181

Это совсем непохоже на 7 > З, но возникаюшие ассоuиаuии путают карты,


порождая неприятности типа nарадокса транзuтuвностu (раздел 1.5). Свойства
отношения (9.8) настолько сильно отличаются от обычного неравенства, что
знак < имело бы смысл эаменить каким-либо иным.
Неразбериху уcyryбляют .nрyrие понятия больше/меньше для с. в. Говорят,
например, .Х меньше У стохасти'lески_, если

Р{Х < Т} ~ Р{У < Т}, причем Р{Х < То} > Р{У < То}
для некоторого То.

Оба понятия, вро.nе бы, естественным образом мотивированы, но MOryr


сильно отличаться .nруг от .прута. Например, если У равномерно распре.nелена
на[О,l),а
Х _ { &2У, С вероятностью &,
- У + &2(1 - У), с вероятностью 1 - &,

то при малых & >О


Х >У с вероятностью 1 - &, но Х <У стохасти'lески.

к сказанному можно многое добавить, но это больше подходит


для самостоятельной тренировки, потому что дело не в отдельных
парадоксах. Вероятностные неравенства - это главный механизм
всех неприятностей в ТВ. Главный и постоянно действующий,
ибо события как подмножества 11 описываются неравенствами, -
и ни одна задача не обходится без анализа .равно-больше-меньше».
Поэтому без привычки к двойственному характеру неравенств, огра­
ничивающих множества и сравнивающих меры, ориентироваться

в тв трудно. И что хуже всего, требуется умение держать внима­


ние на двух факторах одновременно, для чего надо быть Юлием
Цезарем.
Неравенства в задачах ТВ иногда лежат на поверхности, но ча­
ще - за кадром. Вот классический пример.

Парадокс Эджворта (XlX в.) - изюминка из разрЯда «чем боль­


ше данных, тем хуже результат». Практического значения, можно
сказать, не имеет, но факт - ПРИНllИПИальныЙ.
Речь Идет о возможности неравенства

рж(О) > Рж(О). (9.9)


Здесь рж плотность С. в. Х, а pz плотность Х = (Х. + Х2 )/2, где
Х. и Х 2 независимы и одинаково распределены с Х.
182 Глава 9. Статистика

Неприятность (9.9) обеспечивает плотность

3
рж(z) = 2(1 + Izl)4'
В результате P{IXI < Е} > P{IXI < Е} при малых Il) Е > О, что
как раз означает ухудшение оценки нулевого матожидания Х при
увеличении объема выборки с 1 до 2.

11) На самом деле rодитси любое € > о.


Глава 10

Сводка основных определений и результатов

10.1. Основные понятия

./ Вероятностнымnространствомназывается непустое множество n с .уза­


коненным- семейством А его подмножеств и неотрицательной функцией (ме­
рой) Р, определенной на А и удовлетворяюшей условию Р(n) ::::: 1, а также

Р( UАn )
n=1
::::: fP(A n )
n=1

для любой последовательности A1, А 2 , ••• Е А взаимно непересекаюшихся мно­


жеств А;. Другими словами, вероятностное пространство определяет тройка
(П,А, Р) .

./ На роль А годится не любое семейство, поскольку сумма и пересечение


событий не д03lжны выводить за рамки дозволенного. Но тогда приходится тре­
бовать
А, В С А ~ А U В с А, А nв с А,

дополнительно оговаривая n Е А, и принадлежность А любого А вместе с допол­


нением. Такая совокупность множеств называется алгеброй подмножеств П, и -
(f-алгеброй, в более обшем случае, когда в А ВХОдЯт любые суммы и пересечения
ClfemHbVt совокупностей At С А:

./ Множество n с заданной на нем (f-алгеброй А называют и3/flерuмым


nростронством. В случае, когда n представляет собой вешественную прямую, -
6орелевскOR (f-алгебра В порождается 1) системой непересекаюшихся полуинтер­
валов (о, Р). Элементы В называют борелевскuмu множествамu.
n
В случае п::::: R борелевские множества определяются аналогично (как пря­
мые проиэведения одномерных).

1) ВЭllтмем всевоэможных объедннениll и пересечениll.


184 Глава 10. Сводка основных определений и результатов

./ Вешественная функция J(II) называется измерuмой относительно а-ал­


rебры А, если прообраз лю60rо боpenевскоrо множества принадлежит А. Если
А = В, roворят, что функция 1(11) - борелеВСКaJI .

./ Любое подмножество А Е А называют событием А, а ero меру Р(А) -


вероятностью события А.
ОбъединениeJlf или СУJrfAfОЙ событий А и В называют событие, состояшее
в наступлении хотя бы одноro из событий А, В, и обозначаемое как А UВ или
А + В. Первое обозначение прямо указывает, какое множество в n отвечает сумме
событий.
ПересечениeJlf или nроизгедением событий А и В называют событие, состоящее
в совместном наступлении А, В, и обозначаемое как А nВ или АВ.

I Р(А + В) = Р(А) + Р(В) - Р(АВ). I


./ Событию «не А. отвечает дополнение А множества А в П, а разность
А \ В, или А - В, интерпретируется как наступление А, но не В. Наконеи,
СUJrfAfетрическая разность

А t:. В =(AUB)\(AnB)
обозначает событие, состоящее в наступленииодноro из А, В, но не двух вместе.
Пустое множество 0, считается, принадлежит n и символизирует невозмож­
ное событие. При этом Р(0) =о.
./ Вероятность P(BIA) наступления В при условии наступления А -
называют условной,

Р(АВ)
Р(ВIA) = Р(А) ,

откуда

Р(АВ) = P(A)P(BIA),
что именуют формулой умножения вероятностей•

./ Разбиение n на полную группу HeCOвмeCтuмЬ/X (неnересекающuxcя) Собы­


тий А" ... ,А n позволяет любое событие В записать в виде

В = ВА. + ... + ВА n ,
откуда Р(В) = Р(ВА,)+ ... +Р(ВАn ), что приводит К формулеполной вероятности:
I Р(В) = P(BIA.)P(A,) + ... + P(BIAn)P(A n).

Формула Байеса,
10.1. Основные понятия 185

интерпретируется как правило определения апостериорных вероятностей P(AjIB)


по априорным Р(А.) .

.( Случайнойвеличинойназываетсялюбая вешественнаяА-измеримаяфунк­
uия Х(III), заданная на (П, .4) .

.( Среднее значение т~ = Е (Х),


Е (Х) = Е Х(III)Р(III)
..еа

называют маmожиданиeAI Х(III).


Математическое ОЖИдание функции-индикатора ХА(III) множества А,

( 111) = {1, если 111 Е А;


ХА О, если 111 'i А,
равно вероятности Р(А).

Е (аХ + РУ) = аЕ (Х) + рЕ (у) .


.( в континуальном случае, Korдa точки в n распределены с плотностью

Р(III) , причем !Р(III) dI.J = 1, - вероятность события 111 Е А определяется как


а

Р(А) = !IJ(III) dI.J,


А

а если на n задана случайная величина Х(III), в том числе векторная Х(III) =


{Х.(III), ... ,Xn (III)}, ТО матож:идание равно

Е (Х) = !Х(III)Р(III) dI.J.


а

.( Случайные величины Х часто описываютс помощью функциирасnреде-


ления:

I F(ж) = Р(Х < ж). I


При этом отказ от рассмотрения исходного пространства элементарных событий
носит условный характер. Просто одно пространство заменяется дрyrим. Новым
Прос1ранством n случайной величины Х становится вешественная прямая или
ее подмножество.

Функuня F(ж) монотонно возрастает (не убывает) и

lim
~"'CIO
F(ж) = 1, а
lim
.... -QI)
F(ж) = о.
186 Глава 10. Сводка основных определений и результатов

./ Наряду с F(ж) используется также плотность распределения р(ж), свя­


занная с F(ж) условием:
z

f
F(ж) = р(u) du,
-00

откуда

р(ж) = F'(ж) .
./ Нeэuисимос:ть.События А и В называют неза8иСUAflJUfи,если P(BIA) =
Р(В) (равносильно P(AIB) =
Р(А)), Т.е. формула умножения вероятностей пере­
ходит в Р(АВ) = Р(А)Р(В).
Определение n независимых событий имеет вид

В применении к случайному вектору с независимыми компонентами Х =


{Х"Х 2 } это дает

Р(Х, < Ж" Х2 < Ж2) = Р(Х, < Ж')Р(Х2 < Ж2)'
что влечет за собой

Н, как следствие,

./ Скаляр

I (Х) = Е (Х - тж )2 I
D

называется дисперсией случайной величины Х, а (1ж = JD (Х) - среднеК8адра­


ти'lескШf отклонением Х от своего среднего значения т ж ,

./ для двух случайных величин Х, У рассматривают смешанные моменты


Е (Xnym). Важную роль во многих ситуациях играют К08ариацuя

I соу (ХУ) = Е (Х - тж)(У - т.)]


н коэффициент корреляции

./ Неравенство Коwи-БуиикоIlCКОro:
10.2. Распределения 187

.( Нерueнс:по Чебышева:

D(X)
P(IX - mжl ;>, о) ~ -2-'
О

.{ Hepaaeнcno Колмоroрова.Пусть nоследовательность независимых слу"ай­


ных вели"ин Х; имеет нулевые матожиданUJI Е {X j } = о и D {Xj } < 00. Тогда
1 "
Р{тах
t,,, IX 1 + ... +Xtl;>' е} ~ "2
f
Е.
D {X j }.
,=1

.{ HepaaeнcТlO Иевсеиа. Пусть ~(ж) - вогнутая функцUJI (выпуклая вверх),


и матожидание Е (Х) существует. Тогда

I Е {~(X)} ~ ~(E {Х}). I


10.2. Распределения

.{ Ра8НОМерноераспределение в промежутке (о, Ь) имеет плотность

р(ж) = -Ь1- ,

которой соответствуетфункuия распределения

ж ж

F(ж) = fp(U)dU = _1_ fdU


Ь-о
=~.
Ь-о
-~ Q

.{ Биномиальное распределение

I Pt = C:pt q"-t
имеет сумма

S" = X 1 + ... +Х",


где все с. в. Xt независимы и принимают два возможных значения 1 или О с веро­
ятностями р и q = 1- р. Сумма принимает значение S" = k с вероятностью Pt.
Легко проверяется:

E{S,,} = пр, D {S,,} = nр(1 - р), Е {(S" - пр))} = nр(1 - р)(1 - 2р).

.{ Вероятность появления k нулей перед первым появлением единиuы

равна I Pt = pqt 1. Совокупность этих вероятностей (при k = О, 1, 2, ... ) называют


188 Глава 10. Сводка основных определений и результатов

reометрическим распределеиием. Геометрическое распределение имеет случайная


величина, равная числу испытаний до первого успеха .

./ Распределение Пуассона, как и биномиальное, является дискреmым,


и характеризуется верояmостями

t
Р(Х = k) = !...е- а (А: = 0,1, ...).
k!

Вычисление показывает, что


00

а = Е kP(X = k),
t=O

т. е. параме1J) а есть матожидание с. в. Х, распределенной по закону Пуассона.


Дисперсия Х тоже равна а .

./ Нормальный закон распределения, обозначаемый обычно как N(m",I7;)


имеет плотность
1 _ (0_",),)2
р(х) = --е 20. ,
17"../2i
однозначно определяемую матожиданием т" и дисперсией 17;.
Функuия распределения N(O, 1) имеет вид

./ Функции случайных величин. Если У = f(X), rде / обычная детермини­


рованная функuия, а Х случайная величина с плоmостью р(х), то

т~ = Е (У) = ! /(х)р(х) dx.

Аналоrично,

17~ = D (У) = ! I/(x) - ffl~12р(х) dx.


Если У = /(Х) вектор, подобным образом определяются и ковариаuии:
!
соу (У;У;) = l/i(X) - т~; II/;(Х) - ffl~j Jp(x) dx .

./ Если /(х) обратима, то

F(y) !~

= Р{У < у} = р(гl(у)1 [гl(у)]'1 dy,


-00
10.2. Распределения 189

а IШОТНОСТЬ

р,(у) = рz(гl(у»1 [Г1(у)]'I,


rде ИlШексы ж, у показывают, какие lШотности подразумеваются.

С той же целью может быть использована формула

!
р,(у) = рz(ж)6[у - f(ж») dж.
Если Х и У - векторы, имеющие одинаковую размерность, и

х = гl(у) = h(Y),
то

F(y) = Р{У < у} = !'1'"


...!
-00 -(1)
pz(h(y» det
8
[8;;] dy,

rде

pz(h(y» det 8у; [8h"] = р,(у) .


.( При известной совместной функции распределения

Р(и, и) = Р{и < и, V < и}


случайноrо вектора Х = {и, и}, имеем
Р.(и) = Р(и, 00), Р.(и) = F(oo, и).
Соответственно,

'"
!
р.(и) = р(и, и) dv, !
'"
р.(и) = р(и, и) du.
-'" -'"

.( Формула для условной lШоткости распределения:

р(ж, у)
р (у 1)
ж = р(ж) ,

откуда р(ж, у) = Р(Уlж)Р(ж) .


.( Через условную lШотность определяются любые условные моменты,
в том числе условное матожидание:

!
Е (Уlж) = УР(УIЖ) dy.
190 Глава 10. Сводка основных определений и результатов

.{ Функция Ip(Л) = Е (eiU') называется хорактеристической функцией


с. в. Х. При записи

Ip(Л) = ! р(ж)еiJ.z dж.


-00
00

;2 = -1, -00 < Л < 00

это в несушественныхдеталях отличается от стандартного nреобразованиR Фурье


плотности р(ж) .

.{ При условии абсолютной интеrpируемости

! IIp(Л)1 dЛ < 00,

соответствуюшаяплотность однозначновосстанавливается.обратным преобразо­


ванием Фурье.

! Ip(Л)е-iJ.z dЛ.
00

р(ж) = ~
211'
-00

Если с. в. Х., ... • Х" не зависимы, то х. ф. Ip(Л) суммы Х. + ... + Х" равна
произведению х. ф. слагаемых:

Это обстоятельство и определяет заметную роль харакrеристических функций


в теории вероятностей .

.{ Вот харакrеристические функции стандартных распределений.

распределение плотность х.ф. Ip(Л)

1 - !.-'2,)2
еi .... ).-i·фl
нормальное р(ж) = --е
(1z..tfi
20.

1 ei » _ eiAa
равномерное р(ж) =Ь _ а на [а. Ь]
ЩЬ-а)

а
e-ol).1
Коши
р(ж) = 1I'(ж 2 + а 2 )
а
показательное р(ж) = ae- OZ
, ж~О - -
а -;Л

показательное-2 р(ж) = !e- 1z1 1


2 1 + Л2
10.3. Законы больших чисел 191

,f Если случайная величина Х принимает дискретные значения Х =k


с вероятностями Pt, то

называют nроизводящейфункцией с. в. Х. в общем случае целочисленнойслучай­


ной величины Х производящая функция

д-распределение д-плотность х. ф. 'P(~) n.ф. п(z)

биномиальное Pt = C:pt qn-t (рiЛ + q)n (pz + q)n


Р Р
геометрическое Pt = pqt 1- qе iЛ l-qz

at -о eO(tiA-I) e-о(I-.)
Пуассоtlовское
Pt = k! е
с характеРllстической функцией 'P(~) ее связывает соотношение

rpЩ = П(е iЛ
).

10.3. Законы больших чисел

,f Пусть некоррелир08анные случайные величины Х; имеют одно и то же


матожидание JJ и одну и ту же дисперсию (12. Тогда при любом t >О

Р {IXI + ...n + X n
- JJ
I> t } ~ nе 2 -+ О
(12
при n -+ 00.

Это один из вариантов слабого закона больших чисел, в котором речь идет
Sn
о стабилизации с. в. -
n
= X1 +",+Xn
n
.
Предположения о том, что величины Xj имеют одинаковые матожидания
и дисперсии - необязательны.

,f Усиленный закон болыuих чнсел. Один из вариантов: Пусть независимые


OD 2
величины X n имеют матожидания JJn и дисперсии (1~. При условии L (1;
n
< 00
n=1

Х1 + ... + X N JJI + ... + JJn


~---~- -+0 (n -+ 00)
n n
с вероятностью единица.
192 Глава 10. Сводка основных определений и результатов

./ Последовательность функциtt fn(ж) асимnтотически постоянна, если


существует такая числовая последовательность Pn, что

Р{lfn(ж) - Pnl > Е} ~ О при n~ 00

для любого наперед заданного Е > О. Либо, в более жестком варианте.

D un(ж)} ~ О при n ~ 00 .

./ Теорема. Пусть независимыес. в. Х; распределенына [О, 1] с nлотностJUlи


Рi(Ж;). причем все р;(ж;) > Е > О, а nоследовательность функций fn(ЖI •...• ж n )
удовлетворяетнеравенствам

Тогда при 1" <1 < 00 дисперсия D Un} ограничена некоторой константой,
не зависящей от n. Если же 1" стремится к нулю с ростом n. то

DUn}~O при n~oo.

т. е. nоследовательность функций fn(ж) асимnтотически постоянна на СП'

./ 8 общем случае для оuенки дисперсий нелинейных функuий оказыва­


ется эффективен следующий результат. опирающийся на понятие сопряженной
плотности:

z z
р·(ж) = р(оо) / p(t) dt - р(ж), р(ж) = / tp(t) dt.
-ОС> -ОС>

Лемма. Пусть независимые с. в. Х; распределены независимо с nлотНОСmRМи


Рi(Жi). каждая из которых имеет сопряженную р;(ж;). Тогда для любой непрерывно
дифференцируемой функции f(жl ••.•• ж n ) справедливо неравенство


D (f) ~
n(дf )2.
д- Р;(Жi) П Рi(Жj) dЖI •.. dж n •
.=
R"
"1 ж, " "
1 •
при условии существованШI UHmezpQJIa как повторною.

10.4. СХОДИМОСТЬ

./ Последовательностьслучайных величин Х" сходится к с. в. Х по eepoJUn-


р
ноети. Х" ~ Х, если для любого Е >О

I P(IX n - XI > Е) ~ О при n ~ 00. I


./ Последовательностьслучайных величин Х" сходится к с. в. Х в средне­
квtlдрtlт."еском. Х" ~ Х. если

I Е (Х" - х)2 ~ О. I
10.4. СХОДИМОСТЬ 193

./ Последовательность случайнЫJC величин X n сходитCJI к С. в. Х 1IO'fm1l


наверное (синоним: -с вероятностью 1.), X n ~ Х, если

I P{IXk - XI < €, k ~ n} -+ 1 при n -+ 00.

Поскольку X n ecrь функция X n (lII) , то X n ~ Х, если X n (lII) СХОДИТСII


К Х(III) _В обычном смысле почти для всех 111, за исключением III-множества
нулевой меры .

./ Последовательностьс. в. X N называется фундаментальной - по вероят­


ности, в среднем, почти наверное, - если, соответственно,
P(lXn - Хтl > е) -+ О, P{IXk - X,I < €; k,l ~ n} -+ 1,
при т, n -+ 00 и € > О .

./ Приэнак СХОДИМОС11l КОШИ. для сходимости X n -+ Х В любом указанном


выше смысле необходима и достаточна фундаментальноcrь последовательности X N
В том же смысле .

./ Сходимocrь по вероятности из перечисленных разновидностей сам811

слабая. ИмlVIИкauия .. ~. ~ .. ~. очевидна, а неравенство Чебышева обеспечи-


C.~. р О ба
вает .. ~. ~ .-+.. братное в о их случаях неверно.

В иmи { I: I} ~ .~ . ~- ИММИdЦИ. И~ .

./ Сходимос'n.по распределению.ПоследовательностьслучайнЫJCвеличин Х.
D
сходится к с. в. Х по распределению, X N -+ Х, если nоследовательность соот-
ветствующux функций распределения Fn(ж) слабо сходится к функции распределе­
ния F(ж).

Слабая сходимость Fn(ж) ~ F(ж) означает


Е {Ф(Х n )} -+ Е {ф(Х)}

для любой непрерывной и ограниченной функции ф(ж). Это равносильно поточечной


сходимости Fn(ж) -+ F(ж) в точкQX непрерывности F(ж).

./ ИмlVIИкаuия .-+.
Р
~
D
.-+. очевидна. Обратное неверно.

./ Теорема. Сходимость по распределению X N !4 Х равносильна равномерной


(на любом конечном промежутке) сходимости СРn(.Л) -+ ср(..\) характеристическux
функций.
194 Глава 10. Сводка основных определений и результатов

./ Сходимос1'1t матожиданиА. Пусть ХN ~ Х и все IXnl < У, где с. в. У


имеет конечное матожидание. Тогда Х тоже имеет конечное матожидание
и Е {Х n } -+ Е {Х}.

Пусть ХN ~ Х и все IXnl < 00. Тогда Е {IXI} < 00 и Е {Хn } -+ Е {Х} .

./ ПоследовательностьХ N называется равномерно интегрируемой, если

s~p f
Iжl>М
Izl dFn(z) -+ О при М -+ 00,

где Fn(z) функuия распределения Х n '

./ В условияхравномерной интегрируемостих n :

(i) sup Е {IXnl} < 00;


n

(ii) из ХN ~ Х следует существование Е {Х} и Е {Хn } -+ Е {Х} .

./ Закон -нуля илн единнцы•. Если X 1, Х2 , .,. - независимые случайные


величины, а событие А определяется nоведением только бесконечно далекою хвоста
nоследовательности X 1• Х2 , ••• и не зависит от значений X 1, ••• , Х N при любом
конечном n, - то

либо Р{А} = О, либо Р{А} = 1.


./ События, зависяшиетолько от -хвоста., называютостаточны.ми.Таковы,
""
например, события: сходимости ряда Е X t либо самой nоследовательности X t ;

ограниченности верхнею предела 11mXt < 00 и т. п.


t ....""

./ Теорема. Если Х., Х 2 , ••• - независимые случайные величины с нулевы.ми

матожиданиями, то для сходимости ряда L"" X t почти наверное достаточно


сходимости числовою ряда:

(10.1)

А если все Xt ограничены, P{IXtl < М} = 1, то условие (10.1) и необходимо .

./ Спеuифика случайных рядов (в отличие от последовательностейобшего


вида) проявляется в следуюшем полезном факте.
Теорема. Если X 1, Х 2 , ••• - независимые случайные величины. то для ряда

L"" X t понятия сходимости почти наверное, по вероятности и по распределению -


эквивалентны.
10.5. Марковские процессы 195

,f ЦенТРIJlЫl8JI предельная теорема. Слабую СХОДИМОC'IЪ

Sn - Е Sn 1 jЖ -,1/2
liт Р {
n-+oo
~
D n
< ж} = у211'
r-o= е ds = Ф(ж)
-00

обеспечиваетусловие Ляпунова: для некоторого 6 >О


1
2+1
~ Е IXk - mkl 2+' -+ О
LJ при n -+ 00.
Bn k=1

а также более свободное условие Линдеберzа: для любого т

B~ j (ж - mk)2 dFk(Ж) -+ О при n -+ 00,


Iж-m.l~тВ.

где Fk(ж) - функция распределения X k.

10.5. Марковекие процессы

,f Марковским nроцессом называют nоследовательностьслучайных величин


(векторов) Х\ •... ,Xn•... , в которой «будущее.. X'>n определяется только величи­
ной XN и не зависит от предыстории Х 1 , ••• , X n- I'

,f Марковский процесс с дискретным временем и счетным пространством


состояний назывaюrJIIарковской цепью. Как правило, подразумеваетсяследуюwая
модель. Состояния пронумерованы. Система (частица), находясь в k-й момент
времени B'j-M состоянии в (k + l)-й момент попадает в i-e состояние с вероятно­
стью p i ;. и тогда при распределениичастицы по СОСТОIIНИЯМ с вероятностямиР1
в следуюwий момент получаеТСII распределение

Р;Н' " Р.i;P;,


= 'LJ k
;

или в векторном виде рНI = ppk, где Р = [1';;/ называют матрицей nереходных
вероятностей.
динамика распределений pk определяется итерациями матрицы Р:
рнт = pmpk.
Стационарные распределения р оказываются собственными векторами мат­
рицы Р,
р=Рр,

а сходимостъ pk -+ Р - одним из центральных вопросов.

,f Orличительнойособенностьюматриц переходныхвеРОSП1юстейявляеТСII
условие L Pi ; = 1. т. е. все столбцовые суммы единичны. Такие матрицы Р ~ о
i
называют стохастическими.
196 Глава 10. Сводка основных определений и результатов

• Собственный вектор р ~ О, отвечающий собственному значению л = 1,


у стохастической матрицы существует всеrда, т. е. всеrда существует стационарное
распределение р' = Рр·.
• Если матрица Р cтporo положительна (все Pjj > О) или же p > О
k

при некотором 1с, то все стационарные вероятности pj > О, причем итерации pk


сходятся к р' > О, а итерации pk -. роо, rде у роо все столбцы одинаковы
и равны р'. Процесс в этом случае называют эргодическим.

• Условие .pk >О


при некотором 1с. необходимо и достаточно для nрими­
тивности стохастической матрицы, т. е. для
Toro, чтобы спектр Р, за исключением
ведущеrо собственноrо значения л =
1, лежал cтporo внутри единичноrо кру­
ra. В случае имnримитивной (не примитивной) матрицы р предел pk может
не существовать. Но предел имеют средневзвещенные суммы,

1 N
Iiт - ' " pk = роо.
Н-+оо N L..J
k=1

,f Матрица Р называется разложимой (неразложимой), если одинаковой


перестановкой строк и столбцов она приводится (не приводится) к вИдУ

POII P12]
[ Р22 '
rде PI. И Р22 квадратные матрицы.

,f Если матрица Р неразложима, то л(Р) = 1 является ведущим соб­


ственным значением Р алгебраической кратности 1, которому отвечает строго
положительный собственный вектор. Других положительных собственных значений
и векторов у Р нет.

10.6. Случайные ФУНКЦИИ И процессы


,f Случайной функцией называют функцию двух переменных X(t,I&I), rде
1&1 - точка вероятностноrо пространства П, на котором задана та или иная
вероятностная мера. Зависимость от случая реализуется при этом каждый раз
наступлением исхода 1&10 Е П, при котором фактическое течение процесса опи­
сывается траекторией X(t), которую называют также реализацией nроцесса или
выборочной функцией.

,f ПЛотность р(х, t) случайной функции X(t) определяет распределение


значений X(t) в момент t.

для с. Ф естественным образом определяются:матожидание

!
00

m.,(t) =Е {X(t)} = хр(ж, t) dж


-00
10.6. Случайные ФУНКЦИИ И процессы 197

и "ОррeлRционнаR фун"циR

Rжж(t, 8) = Е ([X(t) - m ж (t»)[Х(8) - m ж (8)]},


которая при t =8 превращается в дисперсию

Dж(t) = Rжж(t, t) = Е ([X(t) - m ж (t»)2}.

'" Случайный процесс X(t) стационарен, если ero характеристики не ме­


няются ори сдвиrе по оси времени.

При независимости от сдвиrа по оси времени п-мерной плотности распре­


деления с. ф. Х (t) называют стационарной 8 уз"ом смысле.
Менее жесткий вариант: независимость от сдвиrа по оси времени условноrо
матожидания и корреляционной функиии. 8 этом случае с. ф. X(t) называют
стационарной8 широ"ом смысле.
8 том и дрyrом случае матожидание и дисперсия не зависят от времени,
а корреляция Rжж(t, 8) зависит только от разности t - 8.

'" С. ф. X(t) называют эргодичной (по отношению к матожиданию) при


равенстве среднеrо значения Х по ансамблю и - среднеrо по времени. для
стационарноrо процесса это означает

Io+Т

I
2

J~~ Е {[~ X(t) dt - mж] } = О,


10
rде to - произвольный момент времени, а m ж = Е {X(t)}.
об эрrодичности можно rоворить по отношению к любоЙ функиии

у = ~[X(tl)' ... , Х(Ц).


8 частности, - по отношению к корреляционной функции, отталкиваясь от

y(t, 8) = [X(t) - m ж )[Х(8) - m ж ).

Эрrодическое свойство позволяет экспериментально определять матожида­


ние любой стационарной функиии Y(t) = ~[X(t») не по множеству реализаций,
а по данным одной реализации на достаточно большом промежупс:е времени Т.
Эрrодичность стационарной функиии по отнощению к матожиданию обес­
печивает условие
т

I
J~ ~ (1- ~)Rжж(r)dr = О.
о

'" Преобразование Фурье В(III) корреляционнойфункиии стационарноrо


процесса,

,.,
-
R(III) = -2,..1 I00

R(r)e-....• dr . R(r) = I R(III)ei<.l· duJ,


-00 -,.,
называют сnе"трШlЬНОЙ N/отностью сиrнала X(t).
198 Глава 10. Сводка основных определений и результатов

Взаимосвязь спектра корреляuионной Функuии со спектром самого сигнала


X(t) дает соотношение

- 211' -
R(",,) = Т"'оо 2
liт -Е {IAT(",,)I },
Т

где lт (",,) - преобразование Фурье сигнала AT(t) = XT(t) - ffl:r. совпапаюшего


с X(t) - т,. на промежутке t Е [-Т/2, Т/2] и равного нулю вне зтого промежутка.
Широкое распространение имеет энергетическое соотношение

увязываюшее среднюю мошностъ случайного сигнала с его спектральной плот­


ностью .

.( Стаuионарныйслучайный сигнал Х (t) с постояннойспектральной плот-


ностью

во всем диапазоне частот от нуля до бесконечносги - называют белым шумом.


Обратное преобразование Фурье приводит в этом случае к делыаобразной
корреляuионной функuии

I
ос

R:r:r(T) = G e"JТ dUJ = 211'G6(T).


-00

.( Случайная функuия X(t) называется nроцессом с неЗО8исuмыми nри­


рощениRМи, если для любых to < tl < о •• < tn случайные величины x(t l )-
х(to), ... X(t n ) - X(t n _ l ) независимы.
Проuесс считается однородным, если распределение

X(t) - Х(а)

определяется только разностью t- в.


Однородный проuесс X(t) снезависимыми прирашениями называют бро­
УН08ским д8ижением, или 8инеРО8скимпроцессом, если все X(tt) - X(tt_l) распре­
делены нормально со средним О и дисперсией Itt - tt-II .

.( Дифференuированиеслучайной Функuии перестановочно с операuией


математическогоОЖИдания. Формула .nля вычисления корреляuионнойфункции
производной Y(t) = X'(t),

легко получается предельным переходом.


10.7. Теория информации 199

Спектральная плотность производной сигнала Y(t) = X'(t) равна

.r Понимание метаморфоз. которые происходят со случайными сиrналами


при их интеrpировании и дифференцировании, иrpает важную роль в изучении
динамичееких систем, описываемых дифференциальными уравнениями.
В отличие от детерминированных систем. преобразование Фурье выходноro
сигнала. равно как и сам сигнал, - для понимания ситуации ничеrо особенно
не дают. Здесь важны не беспорядочные флуктуации. а вероятностные характери­
стики сигнала, определяемые преобраэованием спектра:

rде W - передаточная функция линейной системы.

10.7. Теория информации


.r Энтропия (неоnределенность) случайной величины, принимаюшей n раз­
личных значений с вероятностями PI , ...• Pn. определяется как

При этом действует соrлашение I о· log О = О 1. Двойка в основании лоrарифмов


обычно опускается, а единица измерения называется битом. Таким образом, бит
соответствует неопределенности выбора из двух равновероятных возможностей
(то ли нуль, то ли единица - например) .

.r Важную роль иrpают свойства энтропии при рассмотрении объединен­


ных систем. Пусть {ZI .... ,Zn} И {lfl"" ,lfn} - ВОЗМОJКНые состояния случайных
величин Х и У либо двух систем Х и У. Состояния вектора {Х. У} представляют
собой комбинации пар Ж; и Ifi' Энтропия {Х. У} по определению равна

Н(Х. У) = - ЕР;; lnpij,


;.;
rде Pij = P(Zi.lfj) = Р{Х = Ж;, У = Ifj}·
Если системы Х и У незовисимы, то Р;; = PiPj, И
Н(Х. У) = Н(Х) + Н(У).
Если же системы зовисимы, то Р(Ж;, Ifj) = p(Zj)p(lfjIZj), и
Н(Х. У) = Н(Х) + H(YIX),
200 Глава 10. Сводка основных определений и результатов

rдe

H(YIX) = ЕР(ж;)Н(УIЖj)
называют полной УCIIовной энтропией, а

Н(УIЖj) = - Е Р(lIjIЖj) ]Og2 Р(lIjIЖj)


j

УCIIовной энтропией У при условии Х = Жj.


В обоих случаях rоворят об аддитивности энтропии .

./ Простейшие свойства энтропии;

• Энтропия всегда неотрицательна и достигает максимума в CIIучае равноверо­


ятных возможностей.

• Пусть Е Pt = Е qt = 1, т. е. Pt и qt - два распределения, причем все


qt > О. Тогда

Ept logpt ~ Ept logqt.


t t

• УCllовная энтропия всегда меньше или равна беЗУCllовной

H(YIX) ~ Н(У),

причем при добавлениuyCllOВUU энтропия не увеличuвается.

./ Пусть Н(А) - энтропия исхода HeKoToporo опыта А. Если опыт В


содержит какие-то сведения относительно А, то после проведения В неопреде­
ленность А уменьшается до условной энтропии H(AIB). Разность

I I(А, В) = Н(А) - H(AIB), I


по определению, есть количество информации, содержашееся в В относительно А .

./ ЭIf11ЮDИА источника. Если источник информации потенциально может


передать i-й символ (алфавнта) с веРОJПlfостью Pi, то маТОJКИд3ние передавае­
мой информации (на один символ) при дЛительной работе источника - равно
энтропии источника:

1= - Epj 10g2Pi'
В итоrе ясно, что информация и энтропия - это две стороны одноrо явления.
Сколько поступает информации - настолько убывает энтропия (неопределен­
ность). Чем больше энтропия источника, тем больше информации при получении
ero сиrналов. Источник, способный rенерировать единственный сиrнал, ника­
кой информации не производит. Источник, передаюший только два сиrнала
.. ноль/один., имеет единичную интенсивность (один бит на сиrнал). Но при
большой частоте способен производить MHoro бит в единицу времени.
10.7. Теория информации 201

,f Проnyскнu способнос,",канала. Канал связи в схеме

I источник I~ I канал связи I~ I приемник 1,


так или иначе, оrpаничивает скорость передачи информации. В простейшем
и широко распространенном случае, когда символов (сигналов) всего два и их
длительности одинаковы, nроnускная способность С измеряется числом символов,
способных пройти по каналу за одну секунду.
В обшем случае С - это максимальная информация, которая может быть
передана по каналу за одну секунду. Если, например, алфавит состоит из n букв
и канал способен пропуска1Ъ N букв в секунду (в точнОС1И или В среднем), то
С = N )082 П.
,f Частотнаll интерпретаЦИII. Пусть источник генерирует i-й символ с ве­
роятнос1ЪЮ Р; И символы В сообшении длины N независимы. При достаточно
большом N количество символов i-ro вида в сообшении с большой точнос1ъю
равно N Pi. Это дает вероятность сообшения

Р = p~PI .. . p:Pn,
Т.е.

Иными словами, вероятности всех достаточно длинных сообшений равны


Р =г NН
, а поскольку эти сообшения еше и независимы, то их количество
К = l/р, Т.е.

Таким образом, энтропия по правилу К = 2NH определяет, например,


количество текстов, в которых буквы встречаются с «nравшrьноЙ. частотой.

При вероятностной(не частотной) трактовке это означает следуюшее. С ка­


кими бы вероятностямиР; источник ни генерировал символы - принципиально
возмоJКНЫ все n
N
сообшений Q длины N, но их вероятности p(Q) различны.

Тогда при любом t >О


Iiт
N ... ex>
~
L..J
p(Q) = О,
IP<Q)-2-JI' В I>t

т. е. cy/tf/tfa вероятностей всех сообщений, вероятности которых отличаются


от г NН более чем на (, - стремится к нулю (сколь угодно мала при большом N).

Соответственно, вероятности сообшений

p(Q) Е (г NН - (, г NВ + ()
202 Глава 10. Сводка основных определений и результатов

в сумме стремятся к 1. Поэтому при больших N можно считать, что .наблю­


даемых" сообшений (последовательностей, текстов) имеется как бы ровно 2 НН .
Остальными можно пренебречь - их суммарная вероятность близка к нулю .

.{ Оптимальиое кодирование. Естественное соображение при кодировании:


часто встречаюшимся символам и словам исходного сообшения ставить в со­
ответствие короткие .01,,-комбинаuии, редко встречаюшимся - длинные. Если
в результате символы О и 1 будут встречаться одинаково часто, - это будет
оптимальным кодом.

Оптимальную .игру,. на длине кодовых комбинаuий реализует код Шеннона­


Фана. Буквы алфавита упорядочиваются по убыванию частоты (верояmости) Pi
появления в тексте, после чего разбиваются на две flJупПЫ. К первой - оmосят
первые k букв - так, чтобы

после чего первой группе символов ставится в соответствие О, второй - 1,


и это определяет первый разряд кодового числа. далее каждая группа снова
делится на две приблизительно равноверояmые подгруппы; первой подгруппе
ставится в соответствие О, второй - 1и т. д. Группы С малым количеством букв
быстро исчерпываются - и эти буквы в результате получают короткие коды.
Легко убедиться, что в итоге кодовая запись достаточно длинного сообшения
будет содержать приблизительно одинаковое количество нулей и единиu, т. е. при
любой частотности исходных символов частоты нулей и единиu двоичных кодов
оказываются ::::: равны друг друту.

ИнФОрмаuионная сторона оптимального кодирования в обшем виде выгля­


дит так. Равноверояmые сообшения в количестве К =2 НН
могут быть прону­
мерованы в двоичной записи, для чего потребуется минимальное число разрядов
IOg2 К = N Н. Это и будет оптимальным двоичным кодом.
В рамках верояmостной модели возможны все nН сообшений длины N
(а не только К =
2 НН ), но при больших N можно считать, что «наблюдаемых,.
сообшений имеется как бы ровно 2 НН . Остальными можно пренебречь - их сум­
марная вероятность близка к нулю. Поэтому маловерояmые сообшения можно ко­
дировать достаточно длинными .0 I-последовательностями".Из-за их маловероят­
ности это в среднем почти не будет сказыватьсяна скорости передачи инФОрмаuии.

./ Канал с шумом. При наличии шума в канале связи,

I вход Х I~ I кана:связu I ~ I выход У = '(Х, {)


выходной сигнал У = f(X, {) зависит от входа Х и шума {.

Если шум искажает в среднем I % символов, то о любом принятом символе


нельзя сказать наверняка, правилен он или нет. Максимум возможного - при
10.7. Теория информации 203

независимой генерации букв - утверждатъ их правильностъ с веРОЯПlостью 0,99.


Но если речь мет о передаче осмысленноrо текста, то сообщение при 1 % ощибок
можно восстановить (по словарю) с высокой степенью нanежности. Понятно,
что ЭТО возможно блаroдаря избыточности языка. В общем случае проблема
заключается в том, чтобы подобную и3быточность обеспечитъ при кодировании.

В нещумящем канале H(XIY) = о, т. е. принятый сиrнал однозначно опреде­


ляет переданный. В общем случае условная энтропияH(XIY) служит покаэателем
Toro, насколько шумит канал. При веРОЯПlости ощибки 0,01 в случае равноверо­
ЯПlой передачи источником двоичных символов

1 1 99 99
H(XIY) = --Iog
100
-
100
- -108 -::::: О 08
100 100 '
бит на символ.

Поэтому при передаче по каналу 100 символов в секунду скорость передачи


информации равна 100 - 8 = 92 бита в секунду. Ощибочно принимается лищь
один бит из ста, но «потери .. равны 8 битам из-за Toro, что неясно, какой символ
принят неверно.

Пропускнаll способность канала с ШУМОМ, по определению Шеннона, - это


максимальная скорость прохождения информации

I с = mах[Н(Х) - H(XIY)] I (бит в секунду),


rдe максимум берется по всем возможным источникам информации, а энтропия Н
измеряется в 611тц IJ секунду.

На первый взrлЯll, это сильно отличается от ситуации канала без шума, rne
под С обычно мыслится максимально возможное число проходящих импульсов.
Но это не совсем так. Во-первых, система передачи может бытъ не двоичной.
Во-вторых, сама передача символов по каналу бывает малоэффеКПlвна - сим­
волов MHoro, информации мало. Поэтому аккуратное определение пропускной
спосоБНОСПl канала без шума в ТОЧНОСПl совпanает с данным выше определением,
при условии H(XIY) = О. При этом ясно, что в ситуации Н >С передача
информации без потерь невозможна.

В при мере с искажением 1 % двоичных символов, если канал физически


способен пропускатъ 100 бит/с, - ero пропускная способность равна 92 бит/с.
Информационные потери 8 бит приходятся на H(XIY), Т.е. на шум.

Теоремы Шеннона.Допустим, что помимо OCHoBHoro - есть дополнительный


корреКПlрующий канал.
Если корректирующий канал имеет nроnускную способность не меньше Н(Х IY),
то при надлежащейкодировке возможен практически безошибочныйприем сообщений
(с точностью до сколь уюдно малой доли ошибок).
204 Глава 10. Сводка основных определений и результатов

Пусть Н бит/с - энтропия источника, а С - nроnускная способность канала


с шумом. Если Н ~ С, то при надлежащем кодировании возможен практически
безошибочный прием сообщений (с точностью да сколь угодно малой дали ошибок) .

./ Энтропия непрерывноrо распределения р(ж) определяется как

! р(ж)
00

н =- log р(ж) dж.


-00

Если Х - случайный вектор, энтропия вычисляется аналоrично с той лишь


разницей, что интеrpирование ведется по всему пространству.
Свойства энтропии непрерывных распределений в основном подобны свой­
ствам энтропии дискретных распределений. Максимум Н на оrpаниченной обла­
сти достиrается при равномерной Wlотности, а максимум при заданной диспер­
сии - приводит К нормальному закону .

./ Любой непрерывный сиrнал с оrpаниченным спектром, в силу теоремы


отсчетов (теоремы Котельникова), может быть представлен в виде

= ~ (~) siП7l'(2Wt - п)
ж ()
t L..J ж 2W 71'(2Wt - п) ,
"=-а,)

т. е. определяется значениями ж(t) в дискретном ряде точек, расположенных


с интервалом времени ~t =
1/(2W~ rде W - полоса пропускания частот
(ширина спектра). Это позволяет свести изучение передачи непрерывных сиrналов
к дискретному случаю.

Пусть
y(t) = X(t) + N(t),
rде X(t) - передаваемый сиrнал, Y(t) - принимаемый, N(t) - белый шум
мошности DN • В силу независимости X(t) и N(t), мошность (дисперсия) сиrнала
на выходе равна Dy D x D N • = +
Вычисление показывает, что пропускная способность канала в данном случае,

с = W log2 (1 + ~:),
определяется полосой пропускания W и отношением сигнал/шум, Dx/DN .

10.8. Статистика

./ Набор независимых случайных величин Х" ... , Хn • каждая из которых


распределена так же, как изучаемая с. в. Х, - называют случайной выборкой
объема п, а любую функцию 8n = 8 n(X 1•••• ,Хn ) - статистической характери­
стикой (с. х.), или статистикой. Определению обычно подлежат вероятности тех
10.8. Статистика 205

или иных событий, матожиnания, дисперсии, корреляции и дрyrие характеристики


с. в. на базе с. х .

., При оценке неизвесmоrопараметра 8, характеризуюшеrос. в. }{, оцен­

ка 8 на основе 8 n называется - состоятельной, если 8 n ~ 8 при n ~ 00, и-


смещенной/несмещенной, если матожидание Е {8 n } при любом n равно/не равно 8.

., Промежуток, которому принадлежитоцениваемыйпараметр 8 с вероят­


ностью ~ 6, называют доверительным интервалом, 6 - коэффициентом доверия,
а 1- 6 - уравнем знаЧUAfости .

., 8 случае сушествования у с. в. }{ первых двух моментов выборочное


среднее

- Х. + ... +}{n
}{n = ---'-------'-
n
в силу Е {X n } = mz , является несмешенной оценкой. ПЛюс к тому,
- Dz
D{}{n} = - ,
n
- с. - Р
что обеспечивает }{n ...:.....+ }{, и тем более, }{n ~ }{.

Однако несмешенной оценкой дисперсии является

-, (Х. - Xn )2 + ... + (}{n - Xn )2


Dn = п-
1 '

rде в знам,енателе стоит n - 1 вместо интуитивно ожидаемоrо п .

., Хи-квадрат распределениеимеет плоmос1Ъ р(х) = О при х ~ О и


_ 1 n/2-1 -z/2
р (Х ) - 2n /2r(n/2) х е при х > О,
rде Г - rамма-функция 2), а целочисленный параметр n называют числом степеней
свободы.
Так распределен квадрат вектора Х = {Х" ... , }{n},
х
2
= X~ + ... + }{~,
с нормальными координатами Х." имеюшими нулевые матожиnания и единичные
дисперсии.

Распределение Стьюдента (t-распределение) имеет случайная величина

t = vn}{
н'
OQ

2) r(v) =/ z... -Ie-z dz ,


о
206 Глава 10. Сводка основных определений и результатов

где n число степеней св06оды, с. в. Х имеет нормальное распределение /1/(0,1),


а х 2 распределена по закону -хи-квадрат•.

./ для не зависимых и одинаково распределенных с. в. Х 1••••• Хn С плот­


ностью рв(ж) метод максuмольного nравдоnодо6ия Фишера заключается в макси­
мизации совместной плотности

n
РВ(ЖI • •••• Ж n ) = П Рв(Жt)
t=1

распределения X 1••••• ХN при полученных реализациях Жа ••••• Ж n ' Функция


8n = 8 n (ж ••...• Ж n ). обеспечиваюшаятакой максимум, называется оценкой мак­
сиМОЛЬН(llО nровдоnодо6ия.
Неравенство Роо-Кромера:

где

- количество информоции по Фишеру.


СокращеНИII и обозначеНИII

тв - теория вероятностей

С. в. - случайная величина

с. ф. - случайная функция

с. Х. - статистическая характеристика

С. к. - среднеквадратический(ая, ос)

п. ф. - ПРОИ3ВОДАшая Функция

Х. ф. - характеристическая функция

п. н. - почти наверное

б. ч. р. - ,бесконечное число раз

.. и ~ - начало и конец рассуждения, темы, доказательства

(?) - предЛагает проверить или доказать утверждение в качестве упражнения,


либо довести рассуждение до «Логической точки.

(!) - предЛагает обратить внимание

I - обозначает интегрирование по области определения ФУНКЦИИ, стояшей под


интегралом, чаше всего: I
о<>

-О<>

Р(А) - вероятность события А

Е (Х) - математическое ожидание случайной величины Х

D (Х) ;;;; Е (Х - Е (х)]2 - дисперсия случайной величины Х


208 Сокращения и обозначения

IJr = Е [Х - Е (х)]' - uентральный момент r-ro порядка

0'; = JD (Х) - среднеквanратическая ошибка

N(m."0';) - нормальное распределение с матожиданием т., и дисперсией 0';

n- пространство элементарных событий

А ~ в - из А следует В

ж Е Х - ж ПрИНадЛежlП Х

Х U У, Х n У, Х\У - объединение, пересечение и разность множеств Х и У

Х ~Y = (Х\У) U (У\Х) - симметрическая разность множеств Х и У

Х с У - Х подмножество У, в том числе имеется в виду возможность Х ~ У,


т. е. между Х С У и Х ~ У различия не делается

(21 - пустое множество

; - мнимая единиuа, ;2 = -1
z = ж +;у - комплексное число, z = r(cos rp +; sin 'р) - ero триrонометрическая
запись, ж = Re z - действительная часть, у = = =
1т z - мнимая; z z· ж -;у -
комплексно сопряженное число

(ж, у) либо (ж, у) - скалярное произведение векторов ж и у; в обшем случае


комплексных векторов

для скалярноrо произведения используются также эквивалентные обозначения


ж· у и жу

IAI = det А - определитель (детерминант) матриuы А

р(А) - спектральный радиус матриuы А

df(t) ,
d.i:" = f (t) - производная f(t)

ди
дж - частная производная функuии u по переменной ж; эквивалентное обозна-
,
чение и.,

vf(ж) - rрадиент функuии f(ж)


Литература

1. Беккенбах Э., Бetl/lМан Р. Неравенства. М., 2004.


2. БШ/ингслей П. Эргодическая теория и информация. М.: Мир, 1969.
3. БОР08К08 А. А. Теория вероятностей. М.: УРСС, 2003.
4. Босс В. Интуиция и математика. М., 2003.
5. Босс В. Лекции по математике. М.: УРСС, 2004-2005.
6. ГuxмaH И. И., Скороход А. В. Введение в теорию случайных процессов.
М.: Наука, 1965.
7. Данцер Л., Грюнбаум Б., Кли В. Теорема Хелли и ее применения. М.:
Мир, 1968.
8. дуб Д. Вероятностные процессы. М.: ИЛ, 1956.
9. Дюге Д. Теоретическая и прикладная статистика. М.: Наука, 1972.
10. Золотарев В. М. Современная теория суммирования независимых слу­
чайных величин. М.: Наука, 1986.
11. Кац М. Статистическая независимость в теории вероятностей, анализе
и теории чисел. М.: ИЛ, 1963.
12. Кац М. Вероятность и смежные вопросы в физике. М.: УРСС, 2003.
13. Колмогоров А. Н. Основные понятия теории вероятностей. М.: Наука,
1974.
14. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функцио-
нального анализа. М.: Наука, 1972.
15. Ламnерти дж. Вероятность. М.: Наука, 1973.
16. Лиnцер Р. Ш, Ширяев А. Н. Теория мартингалов. М.: Наука, 1986.
17. Неве Ж. Математические основы теории вероятностей. М.: Мир, 1969.
18. Прохоров Ю. В., Розанов Ю. А. Теория вероятностей. СМБ. М.: Наука,
1973.
19. Прохоров Ю. В., УшаК08 В. Г., УшаК08 Н. Г. Задачи по теории вероят­
ностей. М.: Наука, 1986.
20. Пугачев В. С. Теория вероятностей и математическая статистика. М.:
Наука, 1979.
21. РозаН08 Ю. А. Теория вероятностей, случайные процессы и математи­
ческая статистика. М.: Наука, 1985.
210 Литература

22. Секеu Т. Парадоксы в теории вероятностей и математической стати-


стике. М.: Мир, 1990.
23. Сnицер Ф. Принципы случайноrо блуждания. М.: Мир, 1969.
24. Стэнли Р. Перечислительная комбинаторика. М.: Мир, 1990.
25. Уитmл П. Вероятность. М.: Наука, 1982.
26. Феллер В. Введение в теорию вероятностей и ее прилож:ения. М.: Мир,
1967.
27. Халмош П. Теория меры. М.: ИЛ, 1953.
28. Харрис Т. Теория ветвяшихся случайных процессов. М.: Мир, 1966.
29. Хида Т. Броуновское движение. М.: Наука, 1987.
30. Шеннон К. Работы по теории информации и кибернетике. М.: ИЛ,
1963.
31. Ширяев А. Н. Вероятность. М.: Наука, 1980.
Предметный указатель

Аддитивность энтропии 144, 200 - повторного логарифма 176


асимптотическое постоянство 75, - Рэлея 69
192
Игра в 4IОрЛЯНКУ" 44
Байт 150 избыточность сообщения 149
белый шум 113, 198 интервал Найквиста 161
биномиальное распределение 44, информации количество 146, 200
187 информация по Фишеру 178, 206
бит 142, 199
блуждание многомерное 92 Ковариационная матрица 34
больше по вероятности 20 ковариация 30, 186
борелевская и-алгебра 39, 183 код RLE 152
борелевское множество 39, 183 - двоичный 149
броуновское движение 114, 198 - Хэмминга 156
- Шеннона-Фано 150,202
Вероятности перехода 100, 195 кодирование 149
вероятность разорения 124 корреляционная матрица 34
- функция 108, 197
Геометрическое распределение 44, коэффициент корреляции 30, 186
188
Лемма Бореля-Кантелли 73
Дисперсия 29, 186
доверительный интервал 170, 205 Мартингал 98
допустимая статистика 180 матожидание 20, 185
матрица нера31l0жимая 102, 196
Задача Банаха 41 - ра31l0жимая
102, 196
- Бюффона 23 - стохастическая 101, 195
- идентификации 36, 139 меньше по вероятности 180
- о баллотировке123 - стохастически 181
- о выборе невесты 41 метод максимального правдопо-

- о разорении 96 добия 178, 206


закон арксинуса 122 - наименьших квадратов 34
- больших чисел 71 модель Изинга 70
- 4IНУЛЯ или единицы .. 90 момент n-го порядка 30
212 Предметный указатель

Независимые события 28, 186 производная обобщенной функ­


неравенство Иенсена 34, 187 ции 48
- Колмогорова 33, 187 производящая функция 191
- Коши-Буняковского 31, 186 пропускная способность канала
- Маркова 32 147, 201
- Рао-Крамера 178,206 процедура Роббинса-Монро 140
- Чебышева 32, 187 процесс винеровский 114, 198
- - двумерное 40 - восстановления 128
нормальное распределение 46 - Гальтона-Ватсона 137
нормальный закон 46, 188 - Маркова 99, 195
- однородный 114, 198
Объединение событий 16, 184 - снезависимыми приращения-

оценка максимального правдопо­ ми 114, 198


добия 178, 206
- смещенная/несмещенная 170, Равномерная интегрируемость 89,
205 194
- состоятельная 170, 205 равномерное распределение 26
- эффективная 178 размещения 15
распределение арксинуса 119
Парадокс Бернштейна 28 - безгранично делимое 97
- Бертрана 23 - Кощи 27,68
- Гиббса 168 - показательное55, 190
- де Мере 40 - простых чисел 66
- Кардано 11 - Стьюдента 176, 205
- ожидания серии 21 - устойчивое 97
- Петербургский 22 - хи-квадрат 176, 205
- раздела ставки 41 - экспоненциальное 64
- Стейна 180 регрессия 53
- транзитивности 20
- Фишера 179 Семиинварианты 56
- Эджворта 181 система агрегированная 158
передаточная функция 118 - укрупненная 158
пере сечение событий 17, 184 случайная величина 19
перестановки 15 - выборка 169,204
- с повторениями 15 - функция 107
плотность распределения 25, 186 случайное блуждание 91
- - совместная 29 случайный процесс 107
поток событий 62 смешанная стратегия 127
принцип максимума энтропии 134 событие остаточное 90, 194
произведение событий 17, 184 сопряженная плотность 17
Предметный указатель 213

состояние возвратное 101 уровень значимости 170, 205


- достижимое 101 условие Линдеберга 96, 195
- несущественное 101 - Ляпунова 95, 195
- периодическое 101 условная вероятность 18, 184
состояния сообщающиеся 10 1 - плотность вероятности 52
сочетания 15 условное матожидание 53, 189
спектральная плотность 111, 112,
197" Финитная функция 48
среднее значение 20, 185 формула Байеса 19, 184
среднеквanратическое отклонение - Липла 134
29, 186 - полной вероятности 19, 184
статистика Бозе-Эйнштейна 66 - Стирлинга 15
- достаточная 178 функция борелевская 39, 184
- Максвеnла-Больцмана 65 - измеримая39, 184
- Ферми-Дирака 66 - распределения 24, 185
статистическая характеристика - ХэвисаЙда 49
169, 204 функция-индикатор 20, 185
стационарный процесс 109
сумма событий 16, 184 Характеристическая функция 54,
схема Бернупли 43 190
сходимость в среднеквадратиче-

ском 84, 192 Центральный момент 30


- по вероятности 84, 192 центрированная величина 30
- по рас·пределению 87, 193 цепь Маркова100, 195
- почти наверное 84, 193 - - однородная 10 1
- с вероятностью 1 84, 193
- слабая 87, 193 Элементарное событие 1О
энтропия 141, 158
Теорема Котельникова 160 - источника146,200
- отсчетов 160 - полная условная 144, 200
- центральная предельная 95 - условная 144,200
эргодичность 102, 109, 196
Уравнение Колмогорова-Чеп­
мена 101
урновые модели 45 и-алгебра 38, 183