Вы находитесь на странице: 1из 49

Московский физико-технический институт

факультет инноваций и высоких технологий

Математическая статистика

Лектор: М.Е. Жуковский

КОНСПЕКТ ЛЕКЦИЙ
автор: Александр Марков

26 мая 2017 г.
Содержание
1 Сходимость случайных векторов 3

2 Вероятностно-статистическая модель 6

3 Статистики. Непараметрические статистики 8


3.1 Определение статистики. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Непараметрические статистики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Ядерные оценки плотности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 Параметические распределения. Оценки параметров 11


4.1 Определение и свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2 Методы нахождения оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5 Способы сравнения статистик 16


5.1 Сравнения произвольных оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.2 Поиск наилучшей оценки в классе несмещенных оценок . . . . . . . . . . . . . . . . . . . . 17

6 Оценка максимального правдоподобия 20

7 Условное математическое ожидание 23


7.1 Определение и свойства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7.2 Поиск УМО в абсолютно непрерывном случае . . . . . . . . . . . . . . . . . . . . . . . . . 26
7.3 Поиск наилучшей оценки в классе несмещенных оценок . . . . . . . . . . . . . . . . . . . . 27

8 Доверительные интервалы 31
8.1 Построение доверительных интервалов методом центральной статистики . . . . . . . . . 31
8.2 Асимптотические доверительные интервалы . . . . . . . . . . . . . . . . . . . . . . . . . . 32

9 Байесовские методы 33
9.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
9.2 Математическое описание байесовских методов. Сравнение подходов . . . . . . . . . . . . 33

10 Линейная регрессия 37
10.1 Линейная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
10.2 Гауссовская линейная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

11 Проверка гипотез 41
11.1 Построение критериев . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
11.2 Гипотезы в линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

1
11.3 Критерии согласия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
11.4 Байесовские критерии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2
1 Сходимость случайных векторов
Определение 1.1. Пусть 𝜉, 𝜉1 , . . . , 𝜉𝑛 — 𝑘-мерные случайные вектора. Как и в случае случайных
величин, существуют следующие виды сходимости:

п.н.
1. 𝜉𝑛 −−−→ 𝜉 если P(𝜉𝑛 → 𝜉) = 1 (сходимость почти наверное)
√︃
𝑘
P
|𝑥𝑖 |𝑡 для 𝑥 = (𝑥1 , . . . , 𝑥𝑘 ) ∈ R𝑘
𝑡
∑︀
2. 𝜉𝑛 −
→ 𝜉 если ∀𝜀 > 0 : P(||𝜉𝑛 − 𝜉||2 > 𝜀) → 0, где ||𝑥||𝑡 =
𝑖=1
(сходимость по вероятности)

𝑑
→ 𝜉 если для любой непрерывной ограниченной функции 𝑓 : R𝑘 → R верно E𝑓 (𝜉𝑛 ) → E𝑓 (𝜉)
3. 𝜉𝑛 −
(сходимость по распределению, слабая сходимость)
𝐿𝑝 𝑝
4. 𝜉𝑛 −−→ 𝜉 если E (||𝜉𝑛 − 𝜉||𝑝 ) → 0 (сходимость в 𝐿𝑝 )

Утверждение 1.0.1. Пусть 𝜉, 𝜉1 , . . . — случайные 𝑘-мерные вектора. Тогда верны следующие взаимо-
связи между сходимостью векторов и их компонент:
⎫ ⎧
п.н. (𝑖) п.н.
𝜉𝑛 −−−→ 𝜉 ⎪




⎪ 𝜉𝑛 −−−→ 𝜉 (𝑖)

⎬ ⎪

P P
𝜉𝑛 −
→𝜉 ⇐⇒ ∀𝑖 ∈ {1, . . . , 𝑘} 𝜉𝑛(𝑖) −
→ 𝜉 (𝑖)

⎪ ⎪

𝐿𝑝 ⎪ ⎪ 𝐿𝑝
⎩𝜉 (𝑖) −
𝜉𝑛 −−→ 𝜉 ⎭ −→ 𝜉 (𝑖)
⎪ ⎪
𝑛

(𝑖)
Доказательство. 1. сходимость почти наверное. ⇒: {𝜉𝑛 → 𝜉 (𝑖) } ⊃ {𝜉𝑛 → 𝜉} и вероятность собы-
тия справа равна 1.
𝑘
(𝑗)
{𝜉𝑛 → 𝜉 (𝑗) } (известно из матана) и вероятность справа просто равна 1.
⋂︀
⇐: {𝜉𝑛 → 𝜉} =
𝑗=1

(𝑖)
2. сходимость по вероятности. ⇒: {|𝜉𝑛 − 𝜉 (𝑖) | > 𝜀} ⊂ {||𝜉𝑛 − 𝜉||2 > 𝜀}
𝑘
(𝑖)
{|𝜉𝑛 − 𝜉 (𝑖) | > 𝑘𝜀 } ⊃ {||𝜉𝑛 − 𝜉|| > 𝜀}
⋃︀
⇐:
𝑖=1

3. сходимость в 𝐿𝑝 . Очевидна цепочка неравенств


⃒ ⃒𝑝 ⃒ ⃒𝑝 ⃒ ⃒𝑝
0 6 ⃒𝜉𝑛(𝑖) − 𝜉 (𝑖) ⃒ 6 ⃒𝜉𝑛(1) − 𝜉 (1) ⃒ + . . . + ⃒𝜉𝑛(𝑘) − 𝜉 (𝑘) ⃒
⃒ ⃒ ⃒ ⃒ ⃒ ⃒

Тогда ⇐ следует из линейности мат.ожидания, а ⇒ из свойства мат.ожидания 𝑓 6 𝑔 ⇒ E𝑓 6 E𝑔.

Напоминание: критерием сходимости по распределению может служить теорема Александрова:


𝑑
→ 𝜉 ⇐⇒ 𝐹𝜉𝑛 (𝑥) → 𝐹𝜉 (𝑥) для любого 𝑥 ∈ R𝑘 .
если 𝐹𝜉 непрерывна, то 𝜉𝑛 −

Теорема 1.1. (теорема о наследовании сходимостей)

1. Пусть 𝜉𝑛 → 𝜉 почти наверное или по вероятности, а ℎ : R𝑘 → R𝑚 , такая что P(ℎ непрерывна) =


1. Тогда ℎ(𝜉𝑛 ) → ℎ(𝜉) почти наверное или по вероятности.

3
𝑑
→ 𝜉, ℎ : R𝑘 → R𝑚 и непрерывна (Замечание: это не тоже самое, что и первом
2. Пусть 𝜉𝑛 −
𝑑
пункте). Тогда ℎ(𝜉𝑛 ) −
→ ℎ(𝜉).

Доказательство. Для доказательства теоремы воспользуемся следующей леммой:

Лемма 1.1. Если последовательность случайных векторов сходится по вероятности, то из нее


можно извлечь подпоследовательность, сходящуюся почти наверное.

которая является прямым следствием одномерного случая (Выделим подпоследовательность для 1


координаты, из нее подпоследовательность для 2 координаты и так далее. В итоге получим сходимость
почти наверное всех координат). Приступим к доказательству теоремы:

п.н.
1. 𝜉𝑛 −−−→ 𝜉:
P(ℎ(𝜉𝑛 ) → ℎ(𝜉)) > P(ℎ(𝜉𝑛 ) → ℎ(𝜉), 𝜉 ∈ 𝐵) > P(𝜉𝑛 → 𝜉, 𝜉 ∈ 𝐵) = 1

где 𝐵 = {ℎ непрерывна}, P(𝜉 ∈ 𝐵) = 1.

P P
2. 𝜉𝑛 −
→ 𝜉: Предположим, что ℎ(𝜉𝑛 ) −
̸ → ℎ(𝜉). Это означает, что
∃𝜀 > 0∃𝛿 > 0 : P(||ℎ(𝜉𝑛 ) − ℎ(𝜉)|| > 𝜀) > 𝛿 — (1)
для бесконечно многих 𝑛. Пусть {𝑛𝑗 } это те номера, при которых верно неравенство выше. Из
P п.н.
условия 𝜉𝑛𝑗 −
→ 𝜉. По лемме можно выделить подпоследовательность 𝜉𝑛𝑗𝑘 −−−→ 𝜉. По доказанному
п.н.
ранее, ℎ(𝜉𝑛𝑗𝑘 −−−→ ℎ(𝜉), что противоречит (1).

𝑑
→ 𝜉: Рассмотрим непрерывную ограниченную функцию 𝑓 : R𝑚 → R. Тогда 𝑓 (ℎ) = 𝑓 ∘ℎ : R𝑘 → R
3. 𝜉𝑛 −
— непрерывная и ограниченная функция, а значит

E𝑓 (ℎ(𝜉𝑛 )) = E(𝑓 ∘ ℎ)(𝜉𝑛 ) → E(𝑓 ∘ ℎ)(𝜉) = E𝑓 (ℎ(𝜉))

𝑑
и ℎ(𝜉𝑛 ) −
→ ℎ(𝜉).

Теорема 1.2. (лемма Слуцкого)

𝑑 𝑑 𝑑 𝑑
1. Если 𝜉𝑛 −
→ 𝜉, a 𝜂𝑛 −
→ 𝜂 = 𝑐 = 𝑐𝑜𝑛𝑠𝑡 — случайные величины. Тогда 𝜉𝑛 + 𝜂𝑛 −
→ 𝜉 + 𝑐, 𝜉𝑛 𝜂𝑛 −
→ 𝑐𝜉

𝑑 P
2. Если 𝜉𝑛 −
→ 𝜉 = 𝑐𝑜𝑛𝑠𝑡 — случайные вектора, то 𝜉𝑛 −
→ 𝜉.

Доказательство. Докажем только второе утверждение.


𝑑
Поскольку функция проектор непрерывна, то, по теореме о наследовании сходимости 𝜉𝑛 −
→ 𝜉 ⇒
(𝑖) 𝑑
→ 𝜉 (𝑖) , откуда
𝜉𝑛 −
𝑑 P P
𝜉𝑛(𝑖) −
→ 𝐶 (𝑖) ⇒ 𝜉𝑛(𝑖) −
→ 𝐶 (𝑖) ⇒ 𝜉𝑛 −
→𝜉

поскольку в одномерном случае сходимость к константе по распределению эквивалентна сходимости


по вероятности (тем, кто забыл: теорема Александрова).

4
𝑑
→ 𝜉 — случайные вектора размерности 𝑚 > 1, ℎ : R𝑚 → R — функция,
Утверждение 1.0.2. Пусть 𝜉𝑛 −
дифференцируемая в точке 𝑎 ∈ R𝑚 . Пусть 𝑏𝑛 → 0, 𝑏𝑛 ̸= 0. Тогда

ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) 𝑑

→ ⟨𝜉, ∇ℎ|𝑎 ⟩
𝑏𝑛
P
Доказательство. 𝑏𝑛 → 0 ⇒ 𝑏𝑛 𝜉𝑛 −
→ 0 по лемме Слуцкого. По формуле Тейлора справедливо представ-
ление
ℎ(𝑎 + 𝑥) = ℎ(𝑎) + ⟨∇ℎ|𝑎 , 𝑥⟩ + 𝜙(𝑥)
𝜙(𝑥)
где 𝜙(𝑥) = 𝑜(||𝑥||) и непрерывна в 0. Поскольку ||𝑥|| → 0, то по теореме о наследовании сходимости
𝜙(𝜉𝑛 𝑏𝑛 ) P
||𝑏𝑛 𝜉𝑛 || −
→ 0.
Подставим в формулу Тейлора 𝑥 = 𝜉𝑛 𝑏𝑛 :

ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) ⟨∇ℎ|𝑎 , 𝜉𝑛 𝑏𝑛 ⟩ 𝜙(𝜉𝑛 𝑏𝑛 )


= +
𝑏𝑛 𝑏𝑛 𝑏𝑛
𝑑 𝜙(𝜉𝑛 𝑏𝑛 ) 𝜙(𝜉𝑛 𝑏𝑛 ) P
По теореме о наследовании сходимостей ||𝜉𝑛 || −
→ ||𝜉||. Тогда по лемме Слуцкого 𝑏𝑛 = 𝑏𝑛 ||𝜉𝑛 || ·||𝜉𝑛 || −

⟨∇ℎ|𝑎 ,𝜉𝑛 𝑏𝑛 ⟩ 𝑑
0, а 𝑏𝑛 = ⟨∇ℎ|𝑎 , 𝜉𝑛 ⟩ −
→ ⟨∇ℎ|𝑎 , 𝜉⟩ по теореме о наследовании сходимостей.
Объединяя все вышесказанное, имеем

ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) 𝑑

→ ⟨𝜉, ∇ℎ|𝑎 ⟩
𝑏𝑛

5
2 Вероятностно-статистическая модель
Предположим, что мы наблюдаем некоторый эксперимент. Пусть X — множество всех возможных
значений эксперимента.

Определение 2.1. Множество X называется выборочным пространством.

Обозначим за B(X ) некоторую 𝜎-алгебру на X (в случае, когда X = R𝑘 — борелевскую). 𝒫 —


семество некоторыех вероятностных мер (распределений) на измеримом пространстве (X , B(X )) (на-
пример все абсолютно непрерывные распределения) и пусть P ∈ 𝒫 — некоторое заданное распределение
вероятностей на (X , B(X )).

Определение 2.2. Наблюдением называется функция 𝑋 : X → X , такая что ∀𝑥 ∈ X : 𝑋(𝑥) = 𝑥 —


случайная величина.

Мотивировка: заметим, что P(𝑋 ∈ 𝐵) = P𝑋 (𝐵) ⇒ P𝑋 (𝑥) = P(𝑥), где P — заданное распределение
на (X , B(X )).
Рассмотрим теперь X 𝑛 . Зададим на нем B(X 𝑛 ) = 𝜎(𝐵1 × . . . × 𝐵𝑛 , 𝐵𝑖 ∈ B(X )). Зададим распреде-
ление вероятностней P𝑛 на (X 𝑛 , B(X 𝑛 )) по правилу P𝑛 (𝐵1 × . . . × 𝐵𝑛 ) = P(𝐵1 ) . . . P(𝐵𝑛 ) ∀𝐵𝑖 ∈ B(X ).

Утверждение 2.0.1. (б/д, следствие теоремы о продолжении меры). Существует единственная веро-
ятностная мера P* , заданная на всем (X 𝑛 , B(X 𝑛 )), такая что ∀𝐵𝑖 ∈ B(X ) : P* (𝐵1 × . . . × 𝐵𝑛 ) =
P𝑛 (𝐵1 × . . . × 𝐵𝑛 ). Будем обозначать P* тем же символом P𝑛 .

Определение 2.3. Функция 𝑋 : X 𝑛 → X 𝑛 ; 𝑋(𝑥) = 𝑥 называется наблюдением. Аналогично одно-


мерному случаю, P𝑋 = P𝑛 .

Утверждение 2.0.2. 𝑋 — вектор из независимых одинаково распределенных случайных величин, такой


что любая его координата имеет распределение P.

Доказательство. Сначала покажем, что каждая координата 𝑋 имеет распределение P:


∏︁
P(𝑋𝑖 ∈ 𝐵) = P𝑛 (X𝑗̸=𝑖 ∈ X , 𝑋𝑖 ∈ 𝐵) = P(𝐵) · P(X ) = P(𝐵)
𝑗̸=𝑖

Теперь установим независимость:

P𝑛 (𝑋1 ∈ 𝐵1 , 𝑋2 ∈ 𝐵2 , 𝑋𝑖>2 ∈ X ) = P𝑛 (𝐵1 × 𝐵2 × X × . . . × X ) = P(𝐵1 )P(𝐵2 ) = P𝑛 (𝑋1 ∈ 𝐵1 )P(𝑋2 ∈ 𝐵2 )

Определение 2.4. 𝑋 = (𝑋1 , . . . , 𝑋𝑛 ) — выборка из X размера 𝑛.

Поскольку многие из рассматирваемых в будущем свойств статистик и распределений ассимптоти-


ческие, необходимо уметь получать выборку любого конечного размера 𝑛. Для этого введем следующие
определения:

6
Определение 2.5. X ∞ = X × X × . . . = (𝑥1 , 𝑥2 , . . .), ∀𝑖 𝑥𝑖 ∈ X — множество бесконечных последо-
вательностей элементов из X .
B(X ∞ ) = 𝜎({(𝑥1 , . . . , 𝑥𝑛 , . . .)| (𝑥1 , . . . , 𝑥𝑛 ) ∈ 𝐵, 𝐵 ∈ B(X 𝑛 )}, ∀𝑛 ∈ N) — цилиндрическая 𝜎-
алгебра. Под знаком 𝜎 рассматриваются все множества из X ∞ , такие что для некоторого 𝑛, первые 𝑛
их координат являются координатами множества из B(X 𝑛 ).

Определение 2.6. Обозначим P∞ распределение на (X ∞ , B(X ∞ )), заданное по следующему пра-


вилу: пусть 𝐵 ∈ B(X 𝑛 ). Тогда P∞ (𝐵) = P∞ (𝐵 × X × . . .) = P𝑛 (𝐵).

Утверждение 2.0.3. Существует единственная вероятностная мера P* , заданная на всем (X ∞ , B(X ∞ )),
совпадающая на элементах B(X 𝑛 ) с P𝑛 . — аналогично 𝑛-мерному случаю, будем обозначать P* так
же P∞ .

Определение 2.7. Функция 𝑋 : X ∞ → 𝑋 ∞ такая что 𝑋(𝑥) = 𝑥, как и прежде, называется наблюде-
нием.

Утверждение 2.0.4. (б/д, аналогично конечномерному случаю)Пусть 𝑋 = (𝑋1 , 𝑋2 , . . .). Тогда {𝑋𝑖 }∞
𝑖=1

это независимые одинаково распределенные случайные величины с распределением P каждая.

Будем в дальнешем для простоты обозначений писать (X , B(X ), P) вместо (X ∞ , B(X ∞ ), P∞ ) и


называть выборку наблюдением и наоборот.

Определение 2.8. Тройка


(X , B(X ), 𝒫)

где

a) X — выборочное пространство,

b) B(X ) — 𝜎-алгебра на X ,

c) 𝒫 — множество вероятностых мер на измеримом простанстве (X , B(X ))

называется вероятностно-статистической моделью.

7
3 Статистики. Непараметрические статистики

3.1 Определение статистики. Примеры


Определение 3.1. Пусть дано измеримое пространство (𝐸, E ) и (B(X )|E )-измеримая функция 𝑆 :
X → 𝐸. Тогда композиция функций 𝑆 ∘ 𝑋 = 𝑆(𝑋) называется статистикой.

𝑋1 +...+𝑋𝑛
Пример 3.1. 𝑋 = 𝑛 — выборочное среднее.

Пример 3.2. Пусть 𝑔 — некоторая (B(X )|E )-измеримая функция. Тогда статистикой является 𝑔(𝑋) =
𝑔(𝑋1 )+...+𝑔(𝑋𝑛 )
𝑛 . Такая статистика называется выборочной характеристикой.

Пример 3.3. Различные функции от выборочных характеристик тоже являются статистиками. Для
2
примера рассмотрим ℎ(𝑥, 𝑦) = 𝑥 − 𝑦 2 , ℎ : R2 → R, X = R. Тогда ℎ(𝑋 2 , 𝑋) = 𝑋 2 − 𝑋 является
статистикой, называется выборочной дисперсией и обозначается 𝑠2 .
𝑛
1
Утверждение 3.1.1. 𝑠2 = (𝑋𝑖 − 𝑋)2
∑︀
𝑛
𝑖=1

Доказательство. Рассмотрим числа 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ∈ R и случайную величину 𝜉 ∼ 𝑈 ({𝑥1 , . . . , 𝑥𝑛 }).


Посчитаем дисперсию 𝜉 двумя способами:

1 ∑︁
D𝜉 = E(𝜉 − E𝜉)2 = E(𝜉 − 𝑥)2 = (𝑥𝑖 − 𝑥)2
𝑛
2 2
= E𝜉 2 − (E𝜉) = 𝑥2 − (𝑥)

Пример 3.4. Порядоквые статистики. Рассмотрим случай X = R. Тогда

𝑋(1) = min{𝑋1 , . . . , 𝑋𝑛 }

𝑋(2) = min{{𝑋1 , . . . , 𝑋𝑛 } ∖ {𝑋(1) }}

...

𝑋(𝑛) = max{𝑋1 , . . . , 𝑋𝑛 }

Эти 𝑛 статистик называются порядковыми статистиками, 𝑋(𝑘) — 𝑘-ая порядковая статистика, а


(𝑋(1) , . . . , 𝑋(𝑛) ) — вариационный ряд.

3.2 Непараметрические статистики


Пусть 𝑋1 , . . . , 𝑋𝑛 выборка из неизвестного распределения P, а 𝐵 ∈ B(X ) и перед нами стоит задача
восстановить P(𝐵).

8
Определение 3.2. Вероятностная мера P*𝑛 , заданная по правилу
𝑛
1 ∑︁
P*𝑛 (𝐵) = 𝐼(𝑋𝑖 ∈ 𝐵)
𝑛 𝑖=1

называется эмпирическим распределением, построенным по выборке 𝑋1 , . . . , 𝑋𝑛 .

𝑛=1 — выборка неограниченного размера на (Ω, F , P). Тогда


Утверждение 3.2.1. Пусть {𝑋𝑛 }∞

∀𝐵 ∈ B(X ) : P*𝑛 (𝐵) → P𝑋 (𝐵) при 𝑛 → ∞


𝑛
п.н.
Доказательство. Зафиксируем множество 𝐵. Тогда P*𝑛 (𝐵) = 1
𝐼(𝑋𝑖 ∈ 𝐵). По УЗБЧ, P*𝑛 −−−→
∑︀
𝑛
𝑖=1
п.н.
E𝐼(𝑋𝑖 ∈ 𝐵), но поскольку 𝑋𝑖 имеют распределение 𝑃𝑋 , то 𝑃𝑛* (𝐵) −−−→ E𝐼(𝑋 ∈ 𝐵) = P(𝑋 ∈ 𝐵) =
P𝑋 (𝐵)

Рассмотрим случай (X , B(X )) = (R, B(R))


𝑛
Определение 3.3. Функия 𝐹𝑛* (𝑥) = P*𝑛 ((−∞, 𝑥]) = 1
∑︀
𝑛 𝐼(𝑋𝑖 6 𝑥) называется эмпирической функцией
𝑖=1
распределения, построенной по выборке 𝑋1 , . . . , 𝑋𝑛 .

Теорема 3.1. (Гливенко-Кантелли)


Пусть {𝑋𝑛 }∞
𝑛=1 — выборка из неизвестного распределения P с функцией распределения 𝐹 . Тогда

п.н.
𝐷𝑛 = sup |𝐹𝑛* (𝑥) − 𝐹 (𝑥)| −−−→ 0
𝑥∈R

Доказательство. Поскольку 𝐹𝑛*равна константе на каждом из отрезков [𝑋(𝑘) , 𝑋(𝑘+1) ], то


{︂⃒ ⃒ ⃒ ⃒}︂
⃒ 𝑘⃒ ⃒ 𝑘⃒
𝐷𝑛 = sup ⃒⃒𝐹 (𝑋(𝑘) − ⃒⃒ , ⃒⃒𝐹( 𝑋(𝑘+1) ) − ⃒⃒ ,
06𝑘6𝑛 𝑛 𝑛
где 𝑋(0) = −∞, 𝑋(𝑛+1) = +∞, а значит 𝐷𝑛 — действительно случайная величина.
𝑘
Зафиксируем 𝑁 ∈ N. Определим число 𝑥𝑘,𝑁 := min{𝑥 ∈ R| 𝐹 (𝑥) > 𝑁} (определение корректно,
поскольку 𝐹 непрервына справа) для 𝑘 ∈ {1, . . . , 𝑁 − 1}, 𝑥0,𝑁 := −∞, 𝑥𝑁,𝑁 := +∞.
Пусть 𝑥 ∈ [𝑥𝑘,𝑁 , 𝑥𝑘+1,𝑁 ). Тогда

𝐹𝑛* (𝑥) − 𝐹 (𝑥) 6 𝐹𝑛* (𝑥𝑘+1,𝑁 − 0) − 𝐹 (𝑥𝑘,𝑁 ) =

= 𝐹𝑛* (𝑥𝑘+1,𝑁 − 0) + 𝐹 (𝑥𝑘+1,𝑁 − 0) − 𝐹 (𝑥𝑘,𝑁 ) −𝐹 (𝑥𝑘+1,𝑁 )


⏟ ⏞ ⏟ ⏞
6(𝑘+1)/𝑁 >𝑘/𝑁
1
6 𝐹𝑛* (𝑥𝑘+1,𝑁 − 0) − 𝐹 (𝑥𝑘+1,𝑁 − 0) +
𝑁
Аналогично 𝐹𝑛* (𝑥) − 𝐹 (𝑥) > 𝐹𝑛* (𝑥𝑘,𝑁 ) − 𝐹 (𝑥𝑘,𝑁 ) − 1
𝑁, откуда ∀𝑥 ∈ R :
1
|𝐹𝑛* (𝑥) − 𝐹 (𝑥)| 6 max {|𝐹𝑛* (𝑥𝑘+1,𝑁 − 0) − 𝐹 (𝑥𝑘+1,𝑁 − 0)|, |𝐹𝑛* (𝑥𝑙,𝑁 ) − 𝐹 (𝑥𝑙,𝑁 )|} +
06𝑘,𝑙6𝑁 𝑁
п.н. п.н.
однако, по УЗБЧ, 𝐹𝑛* (𝑥𝑘,𝑁 ) −−−→ 𝐹 (𝑥𝑘,𝑁 ), 𝐹𝑛* (𝑥𝑘+1,𝑁 − 0) −−−→ 𝐹 (𝑥𝑘+1,𝑁 − 0) откуда
1
lim 𝐷𝑛 = lim sup |𝐹𝑛* (𝑥) − 𝐹 (𝑥)| 6 почти наверное
𝑥∈R 𝑁
п.н.
В силу произвольности 𝑁 получаем, что 𝐷𝑛 −−−→ 0.

9
Теорема 3.2. (б/д, Колмогорова-Смирнова)
Пусть {𝑋𝑛 }∞
𝑛=1 — выборка неограниченного размера из распределения с непрерывной функцией рас-

пределения 𝐹 . Тогда
√ 𝑑
𝑛 sup |𝐹𝑛* (𝑥) − 𝐹 (𝑥)| −
→𝜉
𝑥∈R

где 𝜉 имеет распределение Колмогорова, т.е.


+∞
2
𝑥2
∑︁
𝐹𝜉 (𝑥) = (−1)𝑘 𝑒−2𝑘 , 𝑥>0
𝑘=−∞

3.3 Ядерные оценки плотности


В данном разделе будем считать, что 𝒫 это все абсолютно-непрерывные распределения, 𝑃 ∈ 𝒫 —
неизвестное распределение, имеющее плотность 𝑝.
Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из распределения 𝑃

Определение 3.4. Пусть 𝑄 — некоторое распределение вероятностей с плотностью 𝑞(𝑥). Тогда если
𝑞(𝑥) симметрична относительно 0, то 𝑞(𝑥) называется ядром.
2
Пример 3.5. 𝑞(𝑥) = √1 𝑒−𝑥 /2 — гауссово ядро.
2𝜋

Пример 3.6. 𝑞(𝑥) = 12 𝐼(|𝑥| 6 1) — прямоугольное ядро.

Пример 3.7. 𝑞(𝑥) = (1 − |𝑥|)𝐼(|𝑥| 6 1) — треугольное ядро.

Пример 3.8. 𝑞(𝑥) = 34 (1 − 𝑥2 )𝐼(|𝑥| 6 1) — ядро Епанечникова.

Определение 3.5. Рассмотрим выборку 𝑋1 , . . . , 𝑋𝑛 из неизвестного распределения P. Вероятностная


мера P˜𝑛 , заданная по правилу
𝑛 (︂ )︂
1 ∑︁ 𝐵 − 𝑋𝑖
𝑃˜𝑛 (𝐵) = 𝑄
𝑛 𝑖=1 ℎ𝑛
𝐵−𝑋𝑖
= { 𝑥−𝑋

где ℎ𝑛 ℎ𝑛
𝑖 ⃒
𝑥 ∈ 𝐵} и ℎ𝑛 → 0, ℎ𝑛 > 0 называется сглаженным эмпирическим распределением.

Сглаженное эмпирическое распределение обладает следующим набором свойств:


𝑛 (︁ )︁
1. P˜𝑛 имеет плотность 𝑝˜𝑛 (𝑥) = 𝑛ℎ1 𝑛 𝑞 𝑥−𝑥
∑︀ 𝑖
ℎ𝑛
𝑖=1

2. P˜𝑛 — свертка распределений P*𝑛 и 𝑄( ℎ𝐵𝑛 )

𝑞 2 (𝑥)𝑑𝑥 < +∞, ℎ𝑛 → 0, 𝑛ℎ𝑛 → +∞ и 𝑝(𝑥) — непрерывна и ограничена. Тогда


∫︀
3. Пусть 𝛼 =
R
∫︀ (︁ )︁
𝑑
𝑝˜𝑛 (𝑥) = 𝑝𝑛 (𝑥) + √𝜉𝑛ℎ𝑛
, где 𝑝𝑛 (𝑥) = E𝑝˜𝑛 (𝑥) = ℎ1𝑛 𝑞 𝑥−𝑦ℎ𝑛 𝑝(𝑦)𝑑𝑦 и 𝜉𝑛 (𝑥) −
→ 𝒩 (0, 𝛼𝑝(𝑥))
𝑛
R

10
4 Параметические распределения. Оценки параметров

4.1 Определение и свойства оценок


Рассмотрим (X , B(X ), 𝒫), где 𝒫 = {P𝜃 , 𝜃 ∈ Θ} — все параметризованные распределения (например,
все нормальные распределения или экспоненциальные распределения).

Определение 4.1. Пусть 𝑆 : X → Θ — измеримая функция, такая что 𝑆(𝑋) — статистика. Тогда
𝑆(𝑋) называется оценкой параметра 𝜃.
Если 𝑆 : X → 𝜏 (Θ) — измеримая функция, такая что 𝑆(𝑋) — статистика, то 𝑆(𝑋) — оценка
параметра 𝜏 (𝜃).

Определение 4.2. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из неизвестного распределения P𝜃 . Оценка 𝜃* = 𝑆(𝑋)


называется несмещенной, если ∀𝜃 ∈ Θ
E𝜃 𝜃 * = 𝜃

где запись E𝜃 подразумевает, что математическое ожидание зависит от параметра 𝜃.

1
∑︀
Пример 4.1. Рассмотрим оценку 𝑋. E𝜃 𝑋 = 𝑛 E𝜃 𝑋𝑖 = E𝜃 𝑋1 , а значит 𝑋 это несмещенная оценка
параметра 𝜏 (𝜃) = E𝜃 𝑋1 .

Определение 4.3. Очевидно, что при различных 𝑛 (размерах выборки) оценка 𝜃𝑛* = 𝜃* (𝑋1 , . . . , 𝑋𝑛 )
принимает различные значения. Рассмотрим последовательность оценок {𝜃𝑛* }∞ *
𝑛=1 . Оценка 𝜃 называется

состоятельной (сильно состоятельной) если

P P п.н.
∀𝜃 ∈ Θ : 𝜃𝑛* →𝜃 𝜃 (𝜃𝑛* −−
𝜃
−−→ 𝜃 )

где символ P𝜃 означает, что вероятность событий зависит от конкретного значения 𝜃.

Пример 4.2. Оценка 𝑋 является состоятельной оценкой по ЗБЧ для E𝜃 𝑋1 , и даже сильно состоятель-
ной оценкой для E𝜃 𝑋1 по УЗБЧ

Факт. Сильно состоятельные оценки являются состоятельными.

Определение 4.4. Оценка 𝜃* является асимптотически нормальной оценкой 𝜃, если

√ 𝑑
𝑛 (𝜃𝑛* (𝑋1 , . . . , 𝑋𝑛 ) − 𝜃) −→
𝜃
𝒩 (0, 𝜎 2 (𝜃))

Функция 𝜎 2 (𝜃) называется асимптотической дисперсией.


Верно и аналогичное определение в многомерном случае, с той лишь разницей, что случайный век-
тор слева сходиться к случайному вектору 𝜉 ∼ 𝒩 (0, Σ(𝜃)), но в данном курсе мы будем рассматривать
лишь одномерный случай.
√ (︀ )︀ 𝑑𝜃
Пример 4.3. 𝑛 𝑋 − E𝜃 𝑋1 −→ 𝒩 (0, D𝜃 𝑋1 ) по ЦПТ

11
Утверждение 4.1.1. Пусть оценка 𝜃* является асипмтотически нормальной оценкой параметра 𝜃. Тогда
оценка 𝜃* — состоятельная.

Доказательство.
√ 𝑑𝜃

𝑛 (𝜃* − 𝜃) −→ 𝜉 ∼ 𝒩 (0, 𝜎 2 (𝜃))⎬ 𝑑 P
⇒ по лемме Слуцкого 𝜃* − 𝜃 −→
𝜃
0 ⇒ 𝜃* − 𝜃 →𝜃 0
√1 →0

𝑛

Утверждение 4.1.2. Пусть 𝜃* — (сильно) состоятельная оценка параметра 𝜃, 𝜏 : Θ → 𝐸 — непрерывная


функция. Тогда 𝜏 (𝜃* ) — (сильно) состоятельная оценка параматера 𝜏 (𝜃).

Доказательство. Прямое следствие теоремы о наследовании сходимости.

Утверждение 4.1.3. Пусть 𝜃* — асимптотически нормальная оценка 𝜃 c асимптотической дисперсией


𝜎 2 (𝜃), а 𝜏 : Θ → 𝐸 — дифференцируемая функция (мы считаем, что Θ ⊂ R). Тогда 𝜏 (𝜃* ) — асимптоти-
]︀2
чески нормальная оценка 𝜏 (𝜃) с асимптотической дисперсией 𝜎 2 (𝜃) 𝜏 ′ (𝜃)
[︀

√ 𝑑
Доказательство. Применим утверждение 1.0.2 для ℎ = 𝜏, 𝑏𝑛 = √1 , 𝜉𝑛
𝑛
= 𝑛 (𝜃* − 𝜃) −→
𝜃
𝜂 ∼ 𝒩 (0, 𝜎 2 (𝜃))
и 𝑎 = 𝜃. Имеем:
ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) √ 𝑑𝜃
(︁ ]︀2 )︁
= 𝑛 (𝜏 (𝜃* ) − 𝜏 (𝜃)) −→ 𝒩 0, 𝜎 2 (𝜃) 𝜏 ′ (𝜃)
[︀
𝑏𝑛

Пример 4.4. 𝑋1 , . . . , 𝑋𝑛 — выборка из экспоненциального распределения с неизвестным параметром


𝜃 > 0. По ЦПТ выполнена сходимость


(︂ )︂ (︂ )︂
1 𝑑𝜃 1
𝑛 𝑋− −→ 𝒩 0, 2
𝜃 𝜃
1
Рассмотрим функцию 𝜏 (𝑥) = 𝑥, дифференцируемую на (0, +∞) = Θ. Применяя утверждение 4.1.3,
получаем ⎛ ⃒ ⎞

(︂ )︂ ]︁2 ⃒
1 𝑑𝜃 1 [︁ 1
𝑛 −𝜃 −→ 𝒩 ⎝0, 2 − 2 ⃒ ⎠ = 𝒩 (0, 𝜃2 )

𝑋 𝜃 𝑥 ⃒1
𝜃

1
что означает, что оценка 𝑋
является асимптотически нормальной оценкой параметра 𝜃 с дисперсией
𝜃2 .

4.2 Методы нахождения оценок


1) Метод подстановки
Рассмотрим функцию 𝐺, такую что 𝐺(P𝜃 ) = 𝜃. Предположим, что мы знаем такую функцию 𝐺 в
явном виде. Тогда сделаем оценку 𝜃* = 𝐺𝑛 (P𝑛𝜃 ). Такой метод называется методом подстановки.

12
Пример 4.5. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из 𝒩 (𝜃, 1). Плотность такого распределения

1 [︀ (𝑥 − 𝜃)2 ]︀
𝑝𝜃 = exp −
2𝜋 2

Тогда (𝑥 − 𝜃)2 = −2 ln( 2𝜋𝑝𝜃 ) и значение 𝜃 явно выражается.

Однако, зачастую такой метод непременим в виду сложности функции 𝐺, поэтмоу рассмотрим дру-
гие методы.

2) Метод моментов
Будем считать, что Θ ⊂ R𝑘 . Рассмотрим борелевские функции 𝑔1 , . . . , 𝑔𝑘 , действующие из R в R,
такие что функция 𝑚(𝜃), заданная по правилу

𝑚(𝜃) = (E𝜃 𝑔1 (𝑋1 ), . . . , E𝜃 𝑔𝑘 (𝑋1 ))

является биекцией
⎛ с обратной
⎞ функцией 𝑚−1 .
𝑔 (𝑋)
⎜ 1 ⎟
Найдем 𝑚−1 ⎜ . . . ⎟ = 𝜃* — это и будет оценкой для 𝜃, полученной методом моментов
⎜ ⎟
⎝ ⎠
𝑔𝑘 (𝑋)
Замечание. Часто 𝑔𝑘 (𝑥) = 𝑥𝑘 — стандартные пробные функции. Иногда стоит рассматривать в каче-
стве функций 𝑔𝑖 индикаторы.

Пример 4.6. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из гамма распределения с параметрами (𝛼, 𝜆), 𝑔1 (𝑥) =
𝑥, 𝑔2 (𝑥) = 𝑥2 . В таком случае
+∞ +∞
𝛼𝜆 𝑒−𝛼𝑥 𝑥𝜆 𝛼𝜆+1 𝑒−𝛼𝑥
∫︁ ∫︁
Γ(𝜆 + 1) 𝜆
E𝜃 𝑋1 = 𝑥 𝑑𝑥 = 𝑑𝑥 =
Γ(𝜆) Γ(𝜆)𝛼 Γ(𝜆) 𝛼
0 0
+∞
𝛼𝜆 𝑒−𝛼𝑥
∫︁
2 Γ(𝜆 + 2) 1 𝜆(𝜆 + 1)
E𝜃 𝑋1 = 𝑥2 𝑑𝑥 = =
Γ(𝜆) Γ(𝜆) 𝛼2 𝛼2
0
⎛ ⎞
𝜆/𝛼
Тогда 𝑚(𝜃) = ⎝ ⎠ и 𝜃 = (𝛼, 𝜆). Решим систему
𝜆(𝜆 + 1)/𝛼2
⎧ ⎧
*
⎨ 𝜆* = 𝑋
⎪ ⎨𝛼* = 𝑋2

𝛼 ⇒ 𝑠
2
⎩ 𝜆(𝜆 + 1)
⎪ ⎩𝜆* = (𝑋)

𝛼*2 𝑠2

Установим несколько важных свойств оценки, полученной методом моментов

Утверждение 4.2.1. Пусть 𝑚−1 непрерывна на 𝑚(Θ). Тогда оценка, полученная методом моментов,
является сильно состоятельной.

13
⎛ ⎞
𝑔1 (𝑋)
⎜ ⎟
P𝜃 п.н. ⎟ P𝜃 п.н.
Доказательство. По УЗБЧ 𝑔𝑖 (𝑋) −− −−→ E𝜃 𝑔𝑖 (𝑋), откуда ⎜ . . . ⎟ −−−−→ 𝑚(𝜃), а значит, по теореме

⎝ ⎠
𝑔𝑘 (𝑋)
⎛ ⎞
𝑔 (𝑋)
⎜ 1 ⎟
−1 ⎜ ⎟ P𝜃 п.н.
о наследовании сходимости 𝑚 ⎜ . . . ⎟ −− −−→ 𝜃.
⎝ ⎠
𝑔𝑘 (𝑋)
2 ]︀
Утверждение 4.2.2. (б/д) Пусть Θ ⊂ R, 𝑚−1 дифференцируема на 𝑚(Θ) и существует E𝜃 (𝑔1 (𝑋1 )) .
[︀

Тогда оценка 𝜃* , полученная по методу моментов, является а.н.о. параметра 𝜃.

Замечание. Оценка по методу моментов не обязательно является несмещенной.

3) Метод выборочных квантилей

Определение 4.5. Рассмотрим распределение вероятностей P на R с функцией распределения 𝐹 и


число 𝑝 ∈ (0, 1). Тогда квантилем уровня 𝑝 называется число

𝑧𝑝 := min{𝑥, 𝐹 (𝑥) > 𝑝}

В случае, если 𝐹 непрерывна, 𝑧𝑝 = 𝐹 −1 (𝑝). Если 𝐹 разрывна, то либо 𝑧𝑝 = 𝐹 −1 (𝑝), либо, если 𝐹 −1 (𝑝)
не существует, то существует точка 𝑧, в которой у 𝐹 разрыв, такая что 𝐹 (𝑧 − 0) < 𝑝, 𝐹 (𝑧 + 0) > 𝑝. В
таком случае 𝑧𝑝 = 𝑧.

Определение 4.6. Рассмотрим выборку 𝑋1 , . . . , 𝑋𝑛 из распределения P. Выборочным квантилем


уровня 𝑝 называется число ⎧
⎨𝑋(𝑛𝑝) 𝑛𝑝 ∈ Z

𝑧𝑝* :=
⎩𝑋(⌊𝑛𝑝⌋+1) 𝑛𝑝 ̸∈ Z

Теорема 4.1. (б/д)


Пусть 𝑓 — плотность распределения P, причем 𝑓 — непрерывно дифференцируема на R, 𝑝 ∈
(0, 1), 𝑓 (𝑧𝑝 ) > 0. Тогда 𝑧𝑝* — асимптотически нормальная оценка 𝑧𝑝 с асимптотической дисперси-
𝑝(1−𝑝)
ей 𝑓 2 (𝑧𝑝 )

Определение 4.7. Медианой называется число 𝜇 = 𝑧 21 . Для выборки 𝑋1 , . . . , 𝑋𝑛 выборочной медиа-


𝑋(𝑘) +𝑋(𝑘+1)
ной называется число 𝜇* , равное 𝑋(𝑘+1) , если 𝑛 = 2𝑘 + 1 и равное 2 для 𝑛 = 2𝑘.

Теорема 4.2. Пусть 𝑓 — плотность распределения P, причем 𝑓 — непрерывно дифференцируема на


R 𝑓 (𝜇) > 0. Тогда 𝜇* — асимптотически нормальная оценка 𝜇 с асимптотической дисперсией 1
4𝑓 2 (𝜇)

1
Пример 4.7. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из распределения Коши со сдвигом 𝜃, 𝑓 (𝑥) = 𝜋(1+(𝑥−𝜃)2 ) .
1
Нетрудно заметить, что плотность симметрична относительно 𝜃, а значит 𝐹 (𝜃) = 2 и 𝜃 является меди-
аной 𝜇 = 𝜃.
𝜋2
Тогда 𝜇* это а.н.о. 𝜃 с а.д. 4

14
Пример 4.8. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из 𝒩 (𝜃, 3). Найдем оценки для 𝜃 по методу моментов и
методу квантилей: по методу моментов это 𝑋, а по методу квантилей: 𝜇* . Для 𝜃* = 𝑋 а.д. равна 3.
𝑝(𝜃) = √1 ,
6𝜋
а значит а.д. 𝜃* = 𝜇* равна 3𝜋
2 .

15
5 Способы сравнения статистик

5.1 Сравнения произвольных оценок


Определение 5.1. Пусть 𝜃 ∈ Θ — оцениваемый параметр, а 𝜃* — его оценка. Тогда функция 𝑔 : Θ2 →
R+ называется функцией потерь, а E𝜃 𝑔(𝜃* , 𝜃) — функцией риска для функции потерь 𝑔.

Замечание. Как правило, 𝑔(𝑥, 𝑦) = |𝑥 − 𝑦| или 𝑔(𝑥, 𝑦) = (𝑥 − 𝑦)2 . В многомерном случае часто 𝑔(𝑥, 𝑦) =
⟨𝐴(𝑥 − 𝑦), (𝑥 − 𝑦)⟩, где 𝐴 — некоторая неотрицательно определенная матрица.

Определение 5.2. Пусть 𝒦 — некоторый класс оценок. Оценка 𝜃* ∈ 𝒦 называется наилучшей в классе
𝒦, если она лучше всех других оценок из 𝒦.

Существует несколько подходов определения какая из двух оценок является лучшей. Приведем
здесь их.
1) Равномерный подход

Определение 5.3. Оценка 𝜃* лучше оценки 𝜃,


̂︀ если ∀𝜃 ∈ Θ : E𝜃 𝑔(𝜃* , 𝜃) 6 E𝜃 𝑔(𝜃,
̂︀ 𝜃) и хотя бы для

одного 𝜃 ∈ Θ неравенство строгое.

Утверждение 5.1.1. В классе всевозможных оценок 𝒦 нет наилучшей в равномерном подходе. (считаем
𝑔(𝑥, 𝑦) = (𝑥 − 𝑦)2 или |𝑥 − 𝑦|)

Доказательство. Поскольку класс 𝒦 содержит константы, то достаточно рассмотреть их. Действи-


тельно, зафиксируем 𝜃0 ∈ Θ и рассмотрим оценку 𝜃* = 𝜃0 . Любая другая оценка либо совпадает с 𝜃*
на 𝜃, либо хуже нее на 𝜃0 , а любая другая оценка-константа 𝜃1* лучше оценки 𝜃* на 𝜃1 ̸= 𝜃0 .

2) Байесовский подход

Определение 5.4. Пусть 𝑄 — некоторое распределение вероятностей на Θ. Тогда оценка 𝜃* лучше


оценки 𝜃̂︀ в байесовском подходе, если для любого 𝜃 ∈ Θ выполнено неравенство E𝑄 𝑔(𝜃* , 𝜃) 6 E𝑄 𝑔(𝜃,
̂︀ 𝜃).

Очевидно, что если оценка является наилучшей в равномерном подходе, то она является лучшей и
в байесовском. Обратное же неверно.

3) Минимаксный подход

Определение 5.5. Оценка 𝜃* лучше оценки 𝜃,


̂︀ если sup 𝑔(𝜃* , 𝜃) < sup 𝑔(𝜃,
̂︀ 𝜃)
𝜃∈Θ 𝜃∈Θ

4) Асимптотический подход

Определение 5.6. Пусть 𝒦 — класс всех асимптотически нормальных оценок. Тогда оценка 𝜃* лучше
оценки 𝜃̂︀ в асимптотическом подходе, если ∀𝜃 ∈ Θ :

𝜎 2 (𝜃* , 𝜃) 6 𝜎 2 (𝜃,
̂︀ 𝜃),

и хотя бы для одного 𝜃 неравенство строгое.

16
5.2 Поиск наилучшей оценки в классе несмещенных оценок
В этом разделе используется равномерный подход с функцией потерь 𝑔(𝑥, 𝑦) = (𝑥 − 𝑦)2 .
Рассмотрим сначала некоторое дискретное распределение 𝑃 (будем считать б.о.о, что 𝑃 определено
на Z+ ).
∑︀ ∑︀ ∫︀
Определение 5.7. Положим P(𝐵) = P({𝑘}) = 𝑝(𝑘) =: 𝑝(𝑥)𝜇(𝑑𝑥), где 𝜇(𝑑𝑥) — счита-
𝑘∈𝐵∩Z+ 𝑘∈𝐵∩Z+ 𝐵
ющая мера, т.е. 𝜇 : B(R) → Z+ ∪ {+∞} и 𝜇(𝐵) = |𝐵 ∩ Z|.

Определение 5.8. Семейство распределений 𝒫 доминируемо относительно меры 𝜇, если

1. либо все распределения абсолютно непрерывные и 𝜇 — мера Лебега,

2. либо все распределения дискретные и 𝜇 — считающая мера.


∫︀
Будем считать для таких семейств, что P(𝐵) = 𝑝(𝑥)𝜇(𝑑𝑥).
𝐵

Далее считаем, что имеющееся семество распределений 𝒫 — доминируемо относительно некоторой


меры 𝜇 и 𝑋1 , . . . , 𝑋𝑛 = 𝑋 — выборка из исследуемого распределения P𝜃 ∈ 𝒫 с плотностью 𝑝𝜃 (𝑥).

𝜕
Определение 5.9. Функция 𝑢𝜃 (𝑥) = 𝜕𝜃 ln 𝑝𝜃 (𝑥) называется вкладом наблюдения 𝑥, а функция 𝐼𝑋 (𝜃) =
2
E𝜃 [𝑢𝜃 (𝑋)] — информацией Фишера

Введем условия регулярности

R1: Θ — открытый интервал (возможно, бесконечный) в R.

R2: Множество 𝐴 = {𝑥 ∈ R | 𝑝𝜃 (𝑥) > 0} не зависит от 𝜃 ∈ Θ.

R3: 𝜃 ∈ Θ и для любой статистики 𝑆(𝑋) с конечным вторым моментом справедливо дифференциро-
вание под знаком интеграла, т.е. верно равенство:
[︂ ]︂
𝜕 𝜕
E𝜃 𝑆(𝑥) = E𝜃 𝑆(𝑥) ln 𝑝𝜃 (𝑥)
𝜕𝜃 𝜕𝜃
обосновать которое можно так:
∫︁ ∫︁
𝜕 𝜕 1
𝑆(𝑥)𝑝𝜃 (𝑥)𝜇(𝑑𝑥) = 𝑆(𝑥) 𝑝𝜃 (𝑥) · 𝑝𝜃 (𝑥)𝑑𝑥 =
𝜕𝜃 𝜕𝜃 𝑝𝜃 (𝑥)
R 𝐴
∫︁ [︂ ]︂ [︂ ]︂
𝜕 𝜕
= 𝑆(𝑥) ln 𝑝𝜃 (𝑥) 𝑝𝜃 (𝑥)𝑑𝑥 = E𝜃 𝑆(𝑥) ln 𝑝𝜃 (𝑥)
𝜕𝜃 𝜕𝜃
R

R4: 0 < 𝐼𝑋 (𝜃) < +∞ — информация Фишера существует, конечна и отлична от 0.

Теорема 5.1. (неравенство Рао-Крамера)


Пусть выполнены условия регулярности R1-R4, 𝜏 — дифференцируемая на Θ функция и 𝜃̂︀ —
несмещенная оценка параметра 𝜏 (𝜃). Тогда выполнено неравенство
2
[𝜏 ′ (𝜃)]
D𝜃 𝜃̂︀ > ∀𝜃 ∈ Θ
𝐼𝑋 (𝜃)

17
Доказательство. Рассмотрим статистику 𝑆(𝑋) = 1. Используя R3, имеем

𝜕 𝜕
0= E𝜃 1 = E𝜃 ln 𝑝𝜃 (𝑥) ⇒ E𝜃 𝑢𝜃 (𝑋) = 0 (1)
𝜕𝜃 𝜕𝜃

Применим теперь R3 для статистики 𝑆(𝑋) = 𝜃.


̂︀ Помня, что эта оценка несмещенная, имеем:

𝜏 ′ (𝜃) = E𝜃 𝜃𝑢
̂︀ 𝜃 (𝑋) (2)

Вычтем из второго равенства первое, домноженное на 𝜏 (𝜃):


[︁ ]︁
𝜏 ′ (𝜃) = E𝜃 𝜃̂︀ − 𝜏 (𝜃) 𝑢𝜃 (𝑋)

возведем в квадрат и воспользуемся неравенством Коши-Буняковского:


(︁ [︁ ]︁ )︁2 [︁ ]︁2
2
(𝜏 ′ (𝜃)) = E𝜃 𝜃̂︀ − 𝜏 (𝜃) 𝑢𝜃 (𝑋) 6 E𝜃 𝜃̂︀ − 𝜏 (𝜃) E𝜃 𝑢𝜃 (𝑋)2 = D𝜃 𝜃𝐼
̂︀ 𝑋 (𝜃)

откуда следует требуемое неравенство.

Следствие 5.1.1. Наилучшей оценкой является та, для которой достигается равенство.

Определение 5.10. Если ∀𝜃 ∈ Θ для несмещенной оценки 𝜃̂︀ параметра 𝜏 (𝜃) в неравенстве Рао-Крамера
достигается равенство, то оценка 𝜃̂︀ называется эффективной.

Теорема 5.2. (критерий эффективности)


В условиях неравенства Рао-Крамера оценка 𝜃* является эффективной оценкой параметра 𝜏 (𝜃) ⇐⇒
𝜏 ′ (𝜃)
𝜃* − 𝜏 (𝜃) = 𝑐(𝜃) · 𝑢𝜃 (𝑋) ⇐⇒ 𝑐(𝜃) = 𝐼𝑋 (𝜃)

Доказательство. Заметим, что равенство в Рао-Крамере ⇐⇒ равенство в КБШ ⇐⇒ случайные


величины для которых применяется КБШ — линейно зависимы, т.е. 𝜃* − 𝜃 = 𝑐(𝜃)𝑢(𝜃) + 𝑎(𝜃). Используя
несмещенность 𝜃* , получаем ∀𝜃 ∈ Θ : 0 = E𝜃 𝑎(𝜃) = 𝑎(𝜃) = 0.
Имеем теперь
2
𝑢𝜃 (𝑋) [𝜃* − 𝜏 (𝜃)] = 𝑐(𝜃) (𝑢𝜃 (𝑋))

Посчитав мат.ожидание обеих частей равенства, справа имеем 𝜏 ′ (𝜃) аналогично док-ву неравенства
𝜏 ′ (𝜃)
Рао-Крамера, а слева 𝑐(𝜃)𝐼𝑋 (𝜃), а значит равенство возможно только при 𝑐(𝜃) = 𝐼𝑋 (𝜃)

Следствие 5.2.1. Если есть оценка 𝜃̂︀ не хуже 𝜃* , то к ней можно применить те же рассуждения
и получить, что 𝜃* = 𝜃.
̂︀

Следствие 5.2.2. Эффективная оценка является наилучшей в классе несмещенных оценок в равно-
мерном подходе с квадратичной функцией потерь.

Исследуем D𝜃 на сходимость.

18
Пусть 𝑋 = (𝑋1 , . . . , 𝑋𝑛 ). Тогда

𝐼(𝑋1 , . . . , 𝑋𝑛 ) (𝜃) = E𝜃 𝑢𝜃 (𝑋1 , . . . , 𝑋𝑛 )2 = D𝜃 𝑢𝜃 (𝑋1 , . . . , 𝑋𝑛 ) =


𝑛
∑︁ 𝑛
∑︁
= D𝜃 𝑢𝜃 (𝑋𝑖 ) = D𝜃 𝑢𝜃 (𝑋𝑖 ) = 𝑛D𝜃 𝑢𝜃 (𝑋1 ) = 𝑛𝐼𝑋1 (𝜃) = 𝑛𝑖(𝜃)
𝑖=1 𝑖=1

где 𝑖(𝜃) — информация Фишера одного элемента выборки. Взяв 𝜏 (𝜃) = 𝜃, имеем D𝜃 𝜃* > 1
𝐼𝑋 (𝜃) = 1
𝑛𝑖(𝜃) , а
значит D𝜃 𝜃* → 0 как 1
𝑛

19
6 Оценка максимального правдоподобия
Рассмотрим семейство параметрических распределений 𝒫 = {P𝜃 , 𝜃 ∈ Θ}, доминируемое относительно
меры 𝜇, и 𝑝𝜃 — плотность P𝜃 .

Определение 6.1. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из P𝜃 . Тогда правдоподобием называется функция


𝑛
∏︀
𝑓𝜃 (𝑋) = 𝑝𝜃 (𝑋𝑖 )
𝑖=1

Определение 6.2. Оценка 𝜃* = arg max 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 ) называется оценкой максимального правдопо-
добия.

Пример 6.1. Рассмотрим Θ = N и P𝜃 = 𝑈 {1, . . . , 𝜃}. Тогда функция правдоподобия равна

𝐼(𝑋 ∈ {1, . . . , 𝜃}𝑛 )


𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 ) =
𝜃𝑛

Откуда 𝜃* = 𝑋(𝑛) .

Пример 6.2. Θ = R × (0, +∞) и 𝑋1 , . . . , 𝑋𝑛 — выборка из 𝒩 (𝑎, 𝜎 2 ). Функция правдоподобия


)︂𝑛 [︃ ∑︁ 2
]︃
(𝑋 − 𝑎)
(︂
𝑖
𝑓𝜃 = √ 1 exp − . Как видно, функция правдоподобия устроена довольно труд-
2𝜋𝜎 2 2𝜎 2
но, поэтому часто имеет смысл рассматривать логарифмическую функцию правдоподобия 𝐿𝜃 = ln 𝑓𝜃 .
Тогда
(𝑋𝑖 − 𝑎)2
∑︀
𝑛
𝐿𝜃 = − ln 2𝜋𝜎 2 −
2 2𝜎 2
Найдем производные
∑︀
𝜕 ln 𝑓𝜃 (𝑋𝑖 − 𝑎) 𝑋 −𝑎
= =𝑛 (3)
𝜕𝑎 𝜎2 ∑︀ 𝜎
2

(𝑋𝑖 − 𝑎)2 (𝑋𝑖 − 𝑎)2 − 𝑛𝜎 2


∑︀
𝜕 ln 𝑓𝜃 𝑛 2𝜋
= − + = (4)
𝜕𝜎 2 2 2𝜋𝜎 2 2𝜎 4 2𝜎 4
∑︁
(𝑋𝑖 − 𝑎)2
(︃ )︃
* * 2*
откуда о.м.п. 𝜃 = (𝑎 , 𝜎 ) = 𝑋, 𝑛

С этого момента считаем, что 𝒫 = {P𝜃 , 𝜃 ∈ Θ} — произвольное семейство распределений, доми-


нируемое относительно меры 𝜇, плотность P𝜃 равна 𝑝𝜃 и если 𝜃1 ̸= 𝜃2 то P𝜃1 ̸= P𝜃2 . Введем условия
регулярности

R1: Множество 𝐴 = {𝑥 ∈ R | 𝑝𝜃 (𝑥) > 0} не зависит от 𝜃.

R2: Будем считать, что 𝑋1 , . . . , 𝑋𝑛 — выборка из P ∈ P.

R3: Θ — открытый интервал в R (возможно, бесконечный).

R4: Функция 𝑝𝜃 (𝑥) дифференцируема по 𝜃 на множестве 𝐴.

R5: Функция 𝑝𝜃 (𝑥) трижды непрерывно дифференцируема по 𝜃 ∀𝑥 ∈ 𝐴.

20
∫︀
R6: Интеграл 𝑝𝜃 (𝑥)𝜇(𝑑𝑥) трижды дифференцируемый по 𝜃 под знаком интеграла.
𝐴
[︀ 𝜕
]︀2
R7: E𝜃 𝜕𝜃 ln 𝑝𝜃 (𝑋1 ) = 𝑖(𝜃) ∈ (0, +∞).
⃒ 3 ⃒
⃒𝜕
R8: ∀𝜃0 ∈ Θ ∃𝑐 > 0 ∃𝐻(𝑥) : ∀𝜃 ∈ (𝜃0 − 𝑐, 𝜃0 + 𝑐) : ⃒ 𝜕𝜃 3 ln 𝑝𝜃 (𝑥)⃒ < 𝐻(𝑥) и E𝜃 𝐻(𝑋1 ) < +∞

Теорема 6.1. Пусть выполнены условия регулярности R1-R2. Тогда ∀𝜃0 ̸= 𝜃 ∈ Θ :

𝑛→∞
P𝜃0 (𝑓𝜃0 (𝑋1 , . . . , 𝑋𝑛 ) > 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )) −−−−→ 1

Доказательство.
{︂ }︂
𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )
{𝑓𝜃0 (𝑋1 , . . . , 𝑋𝑛 ) > 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )} = <1
𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )
⎧ 0 ∏︁ ⎫
⎨ 𝑝𝜃 (𝑋1 , . . . , 𝑋𝑛 ) ⎬
= ln ∏︁ <0
⎩ 𝑝𝜃0 (𝑋1 , . . . , 𝑋𝑛 ) ⎭
{︂ ∑︁ }︂
1 𝑝𝜃 (𝑋𝑖 )
= ln <0
𝑛 𝑝𝜃0 (𝑋𝑖 )

1 ∑︀ ln 𝑝𝜃 (𝑋𝑖 ) −
По УЗБЧ, 𝑛
P𝜃 п.н.
−−−→ EP𝜃0 ln 𝜃 1
𝑝 (𝑋 )
𝑝𝜃0 (𝑋𝑖 ) 𝑝𝜃0 (𝑋1 )
∫︁
𝑝𝜃 (𝑥) 𝑝𝜃 (𝑥)
E𝜃0 ln = ln 𝑝𝜃0 (𝑥)𝜇(𝑑𝑥)
𝑝𝜃0 (𝑥) 𝑝𝜃0
𝐴
∫︁ (︂ )︂
𝑝𝜃 (𝑥)
6 − 1 𝑝𝜃0 𝜇(𝑑𝑥)
𝑝𝜃0 (𝑥)
𝐴
∫︁
= (𝑝𝜃 (𝑥) − 𝑝𝜃0 (𝑥)) 𝜇(𝑑𝑥) = 1 − 1 = 0
𝐴

𝑝𝜃 (𝑥)
где мы воспользовались неравенством ln(1+𝑥) 6 𝑥. Равенство в оценке достигается при 𝑝𝜃0 (𝑥) −1 =0⇒
𝑝𝜃 (𝑥) = 𝑝𝜃0 (𝑥) равенство при всех 𝑥 или при 𝑥 из множества меры 0, очевидно, противоречит условию
P𝜃 ̸= P𝜃0 , а значит E𝜃0 ln 𝑝𝑝𝜃𝜃 (𝑥)
(𝑥) < 0 — если оно существует.
0

Рассмотрим 𝑓 = ln 𝑝𝑝𝜃𝜃 (𝑥)


(𝑥) · 𝑝𝜃0 (𝑥); 𝑔 = 𝑝𝜃 (𝑥) − 𝑝𝜃0 (𝑥). В доказательстве мы показали, что 𝑓 6 𝑔 ⇒
0

𝑓 + 6 𝑔 + , 𝑓 − > 𝑔 − , причем E𝑔 = 0 ⇒ E𝑓 = E𝑓 + − E𝑓 − 6 E𝑔 + − E𝑔 − = 0, а значит рассматриваемое


мат.ожидание действительно существует и либо конечно, либо равно −∞. В конечном случае применяем
УЗБЧ, а случай, когда мат.ожидание равно −∞, примем без доказательства.

Теорема 6.2. Пусть выполнены R1-R4 и ∀𝑛 ∀𝑥1 , . . . , 𝑥𝑛 существует единственное решение 𝜃*


уравнения 𝜕
𝜕𝜃 ln 𝑓𝜃 (𝑥1 , . . . , 𝑥𝑛 ) = 0. Тогда 𝜃* это состоятельная оценка параметра 𝜃 и ∀𝜃 ∈ Θ :
P𝜃 (𝜃* – О.М.П.) → 1 при 𝑛 → ∞.

Утверждение 6.0.1. Если |Θ| < ∞ и при фиксированных 𝑋1 , . . . , 𝑋𝑛 найдется arg max 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )
𝜃∈Θ
то существует оценка максимального правдоподобия 𝜃* .

21
Доказательство. Предположим, что 𝜃* не является состоятельной. Тогда ∃𝜀 > 0∃𝛿 > 0∃𝜃 ∈ Θ такие,
что ⎧
⎨P𝜃 (|𝜃* − 𝜃| > 𝜀) > 𝛿

∀𝑛 ∈ N
⇒ противоречие.
⎩∀𝜃0 ∈ Θ : P𝜃 (𝑓𝜃 > 𝑓𝜃 ) → 1

0 0

Теорема 6.3. (б/д)


Пусть выполнены R1-R8 и ∀𝑛 ∀𝑥1 , . . . , 𝑥𝑛 существует единственное решение 𝜃* уравнения
𝜕
𝜕𝜃 ln 𝑓𝜃 (𝑥1 , . . . , 𝑥𝑛 ) = 0. Тогда 𝜃* является асимптотически нормальной оценкой 𝜃 с асимптотической
1
дисперсией 𝑖(𝜃) — непрерывной в силу R5 и R7.
Более того, если 𝜃̂︀ — асимптотически нормальная оценка 𝜃 с асимптотической дисперсией 𝜎 2 (𝜃)
1
и 𝜎 2 непрерывна на Θ, то 𝜎 2 (𝜃) > 𝑖(𝜃) — непрерывной в силу R5 и R7.

Определение 6.3. Оценка 𝜃* называется асимптотически эффективной, если она является наилуч-
шей в асимптотическом подходе в классе асимптотически нормальных оценок с непрерывной асимпто-
тической дисперсией.

Теорема 6.4. Пусть выполнены условия из неравенства Рао-Крамера. Тогда эффективная оценка
является оценкой максимального правдоподобия.

Доказательство. Пусть 𝜃* — эффективная оценка ⇒ 𝜃* − 𝜃 = 1 𝜕


𝑖(𝜃) 𝜕𝜃 ln 𝑓𝜃 . Поскольку 𝑖(𝜃) > 0 по
определнию, имеем

𝜕
ln 𝑓𝜃 > 0 ⇐⇒ 𝜃* > 𝜃
𝜕𝜃
𝜕
ln 𝑓𝜃 < 0 ⇐⇒ 𝜃* < 𝜃
𝜕𝜃

что и означает, что 𝜃* это о.м.п.

22
7 Условное математическое ожидание

7.1 Определение и свойства


Пусть 𝜉 — случайная величина на (Ω, F , P), а 𝒢 ⊂ F — некоторая 𝜎-алгебра.

Определение 7.1. Условным математическим ожиданием 𝜉 при условии 𝒢 называется случайная


величина E(𝜉|𝒢) = 𝜂, для которой выполнены следующие свойства:

1. (измеримость) 𝜂 является 𝒢 измеримой случайной величиной.

2. (интегральное условие) ∀𝐴 ∈ 𝒢 E𝜉𝐼𝐴 = E𝜂𝐼𝐴

Определение 7.2. Функция 𝜈 называется зарядом на (Ω, F , P), если 𝜈 : F → R — счетно-аддитивная


функция и ∀𝐴 ∈ F : |𝜈(𝐴)| < +∞.

Определение 7.3. Заряд 𝜈 называется абсолютно непрерывным относительно меры P, если

P(𝐴) = 0 ⇒ 𝜈(𝐴) = 0

Замечание. Понятие абсолютной непрерывности как свойства функции или меры носит гораздо более
общий характер. Например, распределение вероятностей в абсолютно непрерывном случае является
∫︀
абсолютно непрерывным относительно меры Лебега, поскольку P(𝐵) = 𝑔(𝑥)𝑑𝑥, где 𝑔 — это плотность
𝐵
распределения P.

Теорема 7.1. (б/д, Радона-Никодима)


Если 𝜈 — заряд, абсолютно непрерывный относительно меры P, то существует единственная
P-п.н. случайная величина 𝜂 на (Ω, F , P), такая что
∫︁
∀𝐴 ∈ F : 𝜈(𝐴) = E𝜂𝐼𝐴 = 𝜂(𝜔)P(𝑑𝜔)
𝐴

Теорема 7.2. Если 𝜉 — случайная величина на (Ω, F , P), такая что E|𝜉| < +∞, а 𝒢 ⊂ F — некоторая
𝜎-алгебра, то существует E(𝜉|𝒢) единственное P-п.н.

Доказательство. Рассмотрим функцию 𝜈(𝐴) = E𝜉𝐼𝐴 для любого множества 𝐴 ∈ 𝒢. По определению


это заряд, абсолютно непрерывный относительно меры P, а значит, по теореме Радона-Никодима, ∃!
случайная величина 𝜂 на (Ω, 𝒢), такая что 𝜈(𝐴) = E𝜂𝐼𝐴 .
Осталось заметить, что 𝜂 является 𝒢-измеримой случайной величиной, поскольку задана на (Ω, 𝒢),
а это значит, что 𝜂 — искомое условное математическое ожидание.
+∞
⨆︀
Утверждение 7.1.1. Пусть 𝒢 = 𝜎(𝐷1 , . . . , 𝐷𝑛 , . . .), 𝐷𝑖 = Ω и ∀𝑖 P(𝐷𝑖 ) > 0. Тогда верна формула
𝑖=1

+∞
∑︁ E𝜉𝐼𝐷𝑖
E(𝜉|𝒢) = 𝐼𝐷
𝑖=1
P(𝐷𝑖 ) 𝑖

23
Доказательство. Обозначим 𝜂 := E(𝜉|𝒢). Покажем сначала, что на любом множестве из разбиения 𝜂
равна константе.
Предположим противное. Тогда, без ограничения общности, ∃𝜔1 , 𝜔2 ∈ 𝐷1 : 𝜂(𝜔1 ) = 𝑐1 ̸= 𝑐2 = 𝜂(𝜔2 ).
Рассмотрим множество 𝜂 −1 ({𝑐1 }) ∩ 𝐷1 = 𝐴. Оно лежит в 𝒢 поскольку 𝜂 — 𝒢-измеримая величина, и
оно отлично от 𝐷1 и ∅ поскольку в нем лежит 𝜔1 и не лежит 𝜔2 . Однако, так как 𝒢 = 𝜎(𝐷1 , . . .) —
объединение конечного и бесконечного числа множеств 𝐷𝑖 , то 𝐴 не может лежать в 𝒢 — противоречие,

∑︀
т.е. E(𝜉|𝒢) = 𝑐𝑖 𝐼𝐷𝑖 .
𝑖=1
Воспользуемся интегральным свойством у.м.о. для 𝐴 = 𝐷𝑖 . Имеем
⎛ ⎞

∑︁
E𝜉𝐼𝐴 = E𝜂𝐼𝐴 = E ⎝ 𝑐𝑗 𝐼𝐷𝑗 ⎠ 𝐼𝐷𝑖 = E𝑐𝑖 𝐼𝐷𝑖 = 𝑐𝑖 P(𝐷𝑖 )
𝑗=1

откуда следует требуемое утверждение.

Пример 7.1. Предположим, что мы бросаем кубик и 𝜉 — количество очков, выпавшее на кубике. Пусть
E𝜉𝐼𝐷1 E𝜉𝐼𝐷2
𝐷1 = {1, 3, 5} и 𝐷2 = {2, 4, 6} — разбиение Ω. Тогда E(𝜉|𝜎(𝐷1 , 𝐷2 )) = P(𝐷1 ) 𝐼𝐷1 + P(𝐷2 ) 𝐼𝐷2 = 32 𝐼𝐷1 + 24 𝐼𝐷2 .

Докажем некоторые свойства условных математических ожиданий.

Утверждение 7.1.2. E(E(𝜉|𝒢)) = E𝜉


(︀ )︀
Доказательство. Воспользуемся интегральным свойством для 𝐴 = Ω: E𝜉 = E𝜉𝐼𝐴 = E E(𝜉|𝒢)𝐼𝐴 =
E (E(𝜉|𝒢))

Утверждение 7.1.3. Если 𝜉 — 𝒢-измеримая, то E(𝜉|𝒢) = 𝜉 почти наверное — очевидно из определения.

Утверждение 7.1.4. Если F𝜉 ⊥


⊥ 𝒢, то E(𝜉|𝒢) = E𝜉 п.н.

Доказательство. Пусть 𝐴 ∈ 𝒢. Тогда 𝐼𝐴 ⊥


⊥𝜉 ⇒ E𝜉𝐼𝐴 = P(𝐴)E𝜉. Поскольку E𝜉 — число, то оно измеримо
относительно любой 𝜎-алгебры. Тогда, по интегральному свойству для 𝜂 = E𝜉 имеем

E𝜂𝐼𝐴 = P(𝐴)E𝜉 = E𝜉𝐼𝐴

Утверждение 7.1.5. E(𝑎𝜉 + 𝑏𝜂|𝒢) = 𝑎E(𝜉|𝒢) + 𝑏E(𝜂|𝒢) п.н.

Доказательство. Пусть 𝜁 := 𝑎E(𝜉|𝒢) + 𝑏E(𝜂|𝒢) — 𝒢-измеримая случайная величина. Проверим для нее
интегральное свойство для 𝐴 ∈ 𝒢:

E𝜁𝐼𝐴 = 𝑎E (E(𝜉|𝒢)𝐼𝐴 ) + 𝑏E (E(𝜂|𝒢)𝐼𝐴 ) = 𝑎E𝜉𝐼𝐴 + 𝑏E𝜉𝐼𝐴 = E(𝑎𝜉 + 𝑏𝜂)𝐼𝐴

Утверждение 7.1.6. Если 𝜉 6 𝜂, то E(𝜉|𝒢) 6 E(𝜂|𝒢) п.н.

24
Доказательство. Пусть 𝐴 ∈ 𝒢. По интегральному свойству имеем:

E (E(𝜂 − 𝜉|𝒢)) = E(𝜂 − 𝜉)𝐼𝐴 > 0

откуда, поскольку это верно для любого 𝐴 ∈ 𝒢, из курса теории вероятностей, следует, что E(𝜂−𝜉|𝒢) > 0
п.н.

Утверждение 7.1.7. (Телескопическое свойство)


Пусть 𝒢1 ⊂ 𝒢2 ⊂ F . Тогда

E (E(𝜉|𝒢1 )|𝒢2 ) = E(𝜉|𝒢1 ) п.н. (1)

E (E(𝜉|𝒢2 )|𝒢1 ) = E(𝜉|𝒢1 ) п.н. (2)

Доказательство. Поскольку E(𝜉|𝒢1 ) является 𝒢2 -измеримой, то равенство один выполнено по утвер-


ждению 7.1.3.
Пусть 𝜂 := E(𝜉|𝒢1 ) — 𝒢1 -измерима по определнию. По интегральному свойству, для любого 𝐴 ∈ 𝒢1 ⊂
𝒢2 выполнено равенство
E𝜂𝐼𝐴 = E𝜉𝐼𝐴 = E (E(𝜉|𝒢2 )𝐼𝐴 )

откуда 𝜂 = E (E(𝜉|𝒢2 )|𝒢1 ) п.н. по определению.

Утверждение 7.1.8. (б/д, аналог теоремы Лебега)


п.н.
Пусть 𝜉𝑛 −−−→ 𝜉 — случайные величины на (Ω, F , P) и |𝜉𝑛 | 6 𝜂 для любого 𝑛 ∈ N и E𝜂 < +∞. Тогда
п.н.
для любой 𝜎-алгебры 𝒢 ⊂ F выполнена сходимость E(𝜉𝑛 |𝒢) −−−→ E(𝜉|𝒢).

Утверждение 7.1.9. Пусть 𝜉, 𝜂 — случайные величины, такие что E|𝜉𝜂| < +∞, E|𝜂| < +∞ и 𝜂 является
𝒢-измеримой. Тогда E(𝜉𝜂|𝒢) = 𝜂E(𝜉|𝒢).

Доказательство. Пусть сначала 𝜂 = 𝐼𝐴 , 𝐴 ∈ 𝒢. Тогда для любого 𝐵 ∈ 𝒢 по интегральному свойству


выполнено:
E𝜂E(𝜉|𝒢)𝐼𝐵 = E (E(𝜉|𝒢)𝐼𝐴∩𝐵 ) = E𝜉𝐼𝐴∩𝐵 = E𝜉𝐼𝐴 𝐼𝐵 = E𝜉𝜂𝐼𝐵

откуда по линейности получаем требоемое равенство для простых случайных величин.


п.н.
Пусть 𝜂 — произвольная случайная величина, и 𝜂𝑛 −−−→ 𝜂 — последовательность простых, такая
п.н.
что |𝜂𝑛 | < |𝜂|. Тогда 𝜉𝜂𝑛 −−−→ 𝜉𝜂, |𝜉𝜂𝑛 | < |𝜉𝜂| и E|𝜉𝜂| < +∞. По свойству 7.1.8 имеем
п.н.
E(𝜉𝜂𝑛 |𝒢) −−−→ E(𝜉𝜂|𝒢)
п.н.
E(𝜉𝜂𝑛 |𝒢) = 𝜂𝑛 E(𝜉|𝒢) −−−→ 𝜂E(𝜉|𝒢)

Теорема 7.3. (б/д, о наилучшем среднеквадратичном прогнозе)


Пусть 𝒢 ⊂ F и 𝜉 — случайная величина на (Ω, F , P), ℒ = {𝒢-измеримые с.в. с конечным мат. ожиданием }.
Тогда выполнено равенство:
arg min E(𝜉 − 𝜂)2 = E(𝜉|𝒢) п.н.
𝜂∈ℒ

25
7.2 Поиск УМО в абсолютно непрерывном случае
Обозначим

E(𝜉|𝜂) = E (𝜉 | F𝜂 )

P(𝐴|𝒢) = E(𝐼𝐴 |𝒢)

P(𝐴|𝜂) = E(𝐼𝐴 |F𝜂 )

Определение 7.4. E(𝜉|𝜂 = 𝑦) = 𝜙(𝑦), где 𝜙 — борелевская функця, такая что ∀𝐵 ∈ B(R) :
∫︁ ∫︁
E𝜉𝐼(𝜂 ∈ 𝐵) = 𝜙(𝑦)P𝜂 (𝑑𝑦) = E𝜙(𝜂)𝐼(𝜂 ∈ 𝐵) = 𝜙(𝜂(𝜔))P(𝑑𝜔).
𝐵 𝜔:𝜂(𝜔)∈𝐵

Лемма 7.1. (б/д)


E(𝜉|𝜂 = 𝑦) = 𝜙(𝑦) тогда и только тогда, когда E(𝜉|𝜂) = 𝜙(𝜂).

Из теоремы Радона-Никодима следует, что E(𝜉|𝜂 = 𝑦) существует и единственно почти наверное.


В случае, когда 𝜉 и 𝜂 обе дискретные и P(𝜂 = 𝑦) ̸= 0, имеем
∑︁ ∫︁
E(𝜉 | 𝜂 = 𝑦) = 𝑥P(𝜉 = 𝑥|𝜂 = 𝑦) = 𝑥𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥.

Определение 7.5. Условным распределением 𝜉 при условии 𝜂 называется P𝜉 (𝐵 | 𝜂) = E(𝐼(𝜉 ∈ 𝐵) | 𝜂).

Определение 7.6. Функция 𝑝(𝜉|𝜂) (𝑥 | 𝑦) > 0 называется условной плотностью 𝜉 при условии 𝜂, если
для любых 𝐵 ∈ B(R), 𝑦 ∈ R выполнено равенство
∫︁
P𝜉 (𝐵|𝜂 = 𝑦) = 𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥.
𝐵

Утверждение 7.2.1. Пусть 𝑔 — борелевская функция, 𝜉, 𝜂 — случайные величины на (Ω, F , P), E|𝑔(𝜉)| <
∫︀
∞ и 𝑝(𝜉|𝜂) (𝑥 | 𝑦) — условная плотность. Тогда E(𝑔(𝜉) | 𝜂 = 𝑦) = 𝑔(𝑥)𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥
R

Доказательство. Достаточно доказать, что


⎛ ⎞
∫︁ ∫︁
∀𝐵 ∈ B(R) : E𝑔(𝜉)𝐼(𝜂 = 𝐵) = ⎝ 𝑔(𝑥)𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥⎠ P𝜂 (𝑑𝑦).
𝐵 R

Пусть 𝑔 = 𝐼𝐴 и 𝐴 ∈ B(R).
E𝐼(𝜉 ∈ 𝐴)𝐼(𝜂 ∈ 𝐵) = P(𝜉 ∈ 𝐴, 𝜂 ∈ 𝐵). Перепишем интеграл
⎛ ⎞ ⎛ ⎞
∫︁ ∫︁ ∫︁ ∫︁
⎝ 𝐼(𝑥 ∈ 𝐴)𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥⎠ P𝜂 (𝑑𝑦) = ⎝ 𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥⎠ P𝜂 (𝑑𝑦)
𝐵 R 𝐵 𝐴
∫︁
= P𝜉 (𝐴 | 𝜂 = 𝑦)P𝜂 (𝑑𝑦)
𝐵
∫︁
= E (𝐼(𝜉 ∈ 𝐴) | 𝜂 = 𝑦) P𝜂 (𝑑𝑦)
𝐵

= E𝐼(𝜉 ∈ 𝐴)𝐼(𝜂 ∈ 𝐵)

26
Для простых случайных величин утверждение следует из линейности мат.ожидания. Произвольную
случайную величину можно приблизить простыми и воспользоваться теоремой Лебега о мажорируемой
сходимости.

Теорема 7.4. Если существует плотность 𝑝(𝜉,𝜂) (𝑥, 𝑦), то существует и условная плотность

⎨ 𝑝(𝜉,𝜂) (𝑥,𝑦)

𝑝𝜂 (𝑦) ̸= 0,
𝑝𝜂 (𝑦)
𝑝(𝜉|𝜂) (𝑥 | 𝑦) = .
⎩0

𝑝𝜂 (𝑦) = 0

Доказательство. Достаточно доказать, что ∀𝐵 ∈ B(R) :

𝑝(𝜉,𝜂) (𝑥, 𝑦)
∫︁
P𝜉 (𝐵 | 𝜂 = 𝑦) = 𝐼(𝑝𝜂 (𝑦) ̸= 0)𝑑𝑥
𝑝𝜂 (𝑦)
𝐵

Рассмотрим 𝐴, 𝐵 ∈ B(R). С одной стороны

P(𝜉 ∈ 𝐵, 𝜂 ∈ 𝐴) = E𝐼(𝜉 ∈ 𝐵, 𝜂 ∈ 𝐴) = E𝐼(𝜉 ∈ 𝐵)𝐼(𝜂 ∈ 𝐴) =


∫︁ ∫︁
= P𝜉 (𝐵 | 𝜂 = 𝑦)P𝜂 (𝑑𝑦) = P𝜉 (𝐵 | 𝜂 = 𝐴)𝑝𝜂 (𝑦)𝑑𝑦
𝐴 𝐴

А с другой
∫︁
P(𝜉 ∈ 𝐵, 𝜂 ∈ 𝐴) = 𝑝(𝜉,𝜂) (𝑥, 𝑦)𝑑𝑥𝑑𝑦 =
𝐵×𝐴
⎡ ⎤ ⎡ ⎤
𝑝(𝜉,𝜂) (𝑥, 𝑦)
∫︁ ∫︁ ∫︁ ∫︁
= ⎣ 𝑝(𝜉,𝜂) (𝑥, 𝑦)𝑑𝑥⎦ 𝑑𝑦 = ⎣ 𝐼(𝑝𝜂 (𝑦) ̸= 0)𝑑𝑥⎦ 𝑝𝜂 (𝑦)𝑑𝑦,
𝑝𝜂 (𝑦)
𝐴 𝐵 𝐴 𝐵

откуда следует утверждение теоремы.

Алгоритм вычисления УМО в абсолютно непрерывном случае.


Пусть даны случайные величины 𝜉, 𝜂 с совместной плотностью 𝑝(𝜉,𝜂) (𝑥, 𝑦). Мы хотим найти значение
E(𝑔(𝜉) | 𝜂).

1. Считаем условную плотность 𝑝(𝜉|𝜂) (𝑥 | 𝑦).


∫︀
2. Находим функцию 𝜙, для которой 𝜙(𝑦) = E (𝑔(𝜉) | 𝜂 = 𝑦) = 𝑔(𝑥)𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥.
R

3. E(𝑔(𝜉) | 𝜂) = 𝜙(𝜂).

7.3 Поиск наилучшей оценки в классе несмещенных оценок


Определение 7.7. Пусть зафиксирован класс распределений 𝒫 = {P𝜃 | 𝜃 ∈ Θ} на (Ω, F , P). Тогда
𝜎-алгебра 𝒢 ⊂ F называется достаточной 𝜎-алгеброй, если ∀𝐴 ∈ F величина P𝜃 (𝐴 | 𝒢) не зависит от
𝜃.

27
Определение 7.8. Пусть 𝑋 — наблюдение из распределения P ∈ 𝒫 = {P𝜃 }. Тогда статистика 𝑆(𝑋)
называется достаточной, если ∀𝐵 ∈ B(R𝑛 ) величина P𝜃 (𝑋 ∈ 𝐵 | 𝑆(𝑋)) не зависит от 𝜃.

Теорема 7.5. (Критерий факторизации Неймана-Фишера)


Пусть 𝒫 = {P𝜃 | 𝜃 ∈ Θ} — класс распределений, доминируемых относительно 𝜇 с плотностью 𝑓𝜃 .
Тогда 𝑆(𝑋) является достаточной статистикой тогда и только тогда, когда 𝑓𝜃 (𝑥) = ℎ(𝑥)𝑔𝜃 (𝑆(𝑋))
для некоторый функций ℎ и 𝑔.

Доказательство. Рассмотрим только дискретный случай.


Пусть статистика 𝑆(𝑋) — достаточная. Тогда

𝑓𝜃 (𝑥) = 𝑝𝜃 (𝑋 = 𝑥) = P𝜃 (𝑋 = 𝑥, 𝑆(𝑋) = 𝑆(𝑥)) = P𝜃 (𝑋 = 𝑥 | 𝑆(𝑋) = 𝑆(𝑥) P𝜃 (𝑆(𝑋) = 𝑆(𝑥)) .


⏟ ⏞ ⏟ ⏞
ℎ(𝑥) 𝑔(𝜃,𝑆(𝑋))

Пусть наоборот, P𝜃 (𝑋 = 𝑥) = ℎ(𝑥)𝑔𝜃 (𝑆(𝑥)). Тогда



⎨0 𝑆(𝑥) ̸= 1,

P𝜃 (𝑋 = 𝑥 | 𝑆(𝑋) = 1) = ,
⎩P𝜃 (𝑋 = 𝑥 | 𝑆(𝑋) = 𝑆(𝑥)) 𝑆(𝑋) = 1

откуда

P𝜃 (𝑋 = 𝑥, 𝑆(𝑋) = 𝑆(𝑥)) P (𝑋 = 𝑥, 𝑆(𝑋) = 𝑆(𝑥))


P𝜃 (𝑋 =𝑥 | 𝑆(𝑋) = 𝑆(𝑥)) = = ∑︀ 𝜃 =
P(𝑆(𝑋) = 𝑆(𝑥)) P𝜃 (𝑆(𝑋) = 𝑆(𝑥), 𝑋 = 𝑦)
𝑦:𝑆(𝑦)=𝑆(𝑥)

P (𝑋 = 𝑥) ℎ(𝑥)𝑔𝜃 (𝑆(𝑥)) ℎ(𝑥)


= ∑︀𝜃 = ∑︀ = ∑︀
P𝜃 (𝑥 = 𝑦) ℎ(𝑦)𝑔𝜃 (𝑆(𝑥)) ℎ(𝑦)
𝑦:𝑆(𝑦)=𝑆(𝑥) 𝑦:𝑆(𝑦)=𝑆(𝑥) 𝑦:𝑆(𝑦)=𝑆(𝑥)

Теорема 7.6. (Рао-Блэквелла-Колмогорова)


Пусть 𝜃̂︀ — несмещенная оценка 𝜃 и ∀𝜃 : D𝜃 𝜃̂︀ < +∞, а 𝑆(𝑋) — достаточная статистика. Тогда
(︁ )︁
для оценки 𝜃* = E 𝜃|𝑆(𝑋)
̂︀ верно:

1. 𝜃* не зависит от 𝜃 (как функция)

2. 𝜃* — несмещенная оценка 𝜃

3. D𝜃 𝜃* 6 D𝜃 𝜃,
̂︀ причем равенство ∀𝜃 ∈ Θ ⇐⇒ 𝜃* = 𝜃̂︀ P𝜃 почти наверное

Доказательство. 1. Следствие из определения достаточной статистики.


(︁ (︁ )︁)︁
2. E𝜃 𝜃* = E𝜃 E𝜃 𝜃|𝑆(𝑋)
̂︀ = E𝜃 𝜃̂︀ = 𝜃

3.
[︁ ]︁
2 ̂︀ * )+(𝜃* −𝜃) 2 = E𝜃 (𝜃−𝜃
̂︀ * )2 +D𝜃 𝜃* +2E𝜃 (𝜃−𝜃
̂︀ * )(𝜃* −𝜃) = D𝜃 𝜃* +E𝜃 (𝜃̂︀ − 𝜃* )2
[︀ ]︀
D𝜃 (𝜃)
̂︀ = E𝜃 (𝜃−𝜃)
̂︀ = E𝜃 (𝜃−𝜃
⏟ ⏞
>0

28
поскольку
[︃ ]︃
[︁ ]︁ (︁ )︁ [︁ (︁ )︁ ]︁
* * * *
E𝜃 (𝜃 − 𝜃 )(𝜃 − 𝜃) = E𝜃 E (𝜃 − 𝜃 )(𝜃 − 𝜃) | 𝑆(𝑋)
̂︀ ̂︀ = E𝜃 (𝜃* − 𝜃)E 𝜃̂︀ − 𝜃* | 𝑆(𝑋) =0

причем D𝜃 𝜃̂︀ = D𝜃 𝜃* ⇔ E𝜃 (𝜃̂︀ − 𝜃* )2 = 0 ⇔ 𝜃̂︀ = 𝜃* P𝜃 п.н.

Определение 7.9. Статистика 𝑆(𝑋) называется полной, если для любой борелевской функции 𝑓 из
условия, что ∀𝜃 ∈ Θ : E𝜃 𝑓 (𝑆(𝑋)) = 0 следует, что 𝑓 (𝑆(𝑋)) = 0 P𝜃 п.н. ∀𝜃 ∈ Θ.

Лемма 7.2. Если 𝑆(𝑋) — полная достаточная статистика и для некоторой функции 𝜙 верно ра-
венство E𝜃 𝜙(𝑆(𝑋)) = 𝜃 ∀𝜃 ∈ Θ, то тогда 𝜙(𝑆(𝑋)) — оптимальная оценка 𝜃.

Доказательство. В силу теоремы БКР достаточно доказать, что 𝜙(𝑆(𝑋)) — единственная 𝑆(𝑋)-измеримая
несмещенная оценка 𝜃.
Пусть существует другая 𝑆(𝑋)-измеримая несмещенная оценка 𝜓(𝑆(𝑋)). Тогда ∀𝜃 ∈ Θ :

E𝜃 𝜙(𝑆(𝑋)) = E𝜃 𝜓(𝑆(𝑋)) = 𝜃

E𝜃 (𝜙(𝑆(𝑋)) − 𝜓(𝑆(𝑋))) = 0

E𝜃 (𝜙 − 𝜓)(𝑆(𝑋)) = 0

откуда, из определения полноты статистики, следует, что 𝜙 − 𝜓 = 0 почти наверное.

Алгоритм нахождения оптимальной оценки

1. Находим достаточную оценку 𝑆(𝑋)

2. Проверяем ее на полноту

3. Если статистика полная, то решаем для 𝜙 уравнение E𝜃 𝜙(𝑆(𝑋)) = 𝜃 ∀𝜃 ∈ Θ

Определение 7.10. Пусть 𝜃 ∈ Θ ⊆ R𝑘 , 𝑋 — наблюдение с плотностью 𝑝𝜃 из распределения P ∈ 𝒫,


доминируемого относительно некоторой меры. Пусть 𝑝𝜃 (𝑋) имеет вид
(︃ 𝑘 )︃
∑︁
𝑝𝜃 (𝑥) = ℎ(𝑥) exp 𝑎𝑖 (𝜃)𝑢𝑖 (𝑋) + 𝑏(𝜃)
𝑖=1

где 𝑢1 , . . . , 𝑢𝑘 — борелевские функции. Тогда семейство распределений 𝒫 принадлежит экспоненци-


альному классу распределений.

Теорема 7.7. (б/д)


Пусть 𝑋 — наблюдение из P ∈ {𝑃𝜃 | 𝜃 ∈ Θ}, принадлежащего экспоненциальному классу распреде-
лений. Пусть кроме того множество {(𝑎1 (𝜃), . . . , 𝑎𝑘 (𝜃))} содержит 𝑘-мерный параллелепипед. Тогда
статистика (𝑢1 (𝑋), . . . , 𝑢𝑘 (𝑋)) — полная достаточная статистика.

Замечание. Зачастую достаточно проверить, чтобы функции 𝑎1 , . . . 𝑎𝑘 были л.н.з. и Θ содержало в себе
открытое множество.

29
Пример 7.2. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝑎, 𝜎 2 ). Найдем оптимальную оценку для 𝑎2 + 𝜎 2 .
Статистика 𝑆(𝑋) = ( 𝑋𝑖2 , 𝑋𝑖 ) является достаточной, причем E𝜃 𝑋𝑖2 = 𝑛(𝑎2 + 𝜎 2 ), откуда
∑︀ ∑︀ ∑︀

получаем, что 𝑋 2 — оптимальная оценка для 𝑎2 + 𝜎 2 .

30
8 Доверительные интервалы

8.1 Построение доверительных интервалов методом централь-


ной статистики
Определение 8.1. Пусть 𝑋 — наблюдение из P ∈ {P𝜃 | 𝜃 ∈ Θ} и Θ ⊂ R. Доверительным интервалом
уровня 𝛾 ∈ (0, 1) называется такая пара статистик (𝑇1 (𝑋), 𝑇2 (𝑋)), что

∀𝜃 ∈ Θ P𝜃 (𝜃 ∈ (𝑇1 (𝑋), 𝑇2 (𝑋))) > 𝛾

если ∀𝜃 достигается равенство, то интервал называется точным.

Замечание. Обычно рассматриваются д.и. уровня 𝛾 = 0.9, 0.95, 0.98, 0.99.

Приведем один из методов построения доверительных интервалов: метод центральной статисти-


ки.

Определение 8.2. Пусть 𝑋 — наблюдение из P. Случайная величина 𝐺(𝑋, 𝜃), распределение которой
не зависит от 𝜃, называется центральной статистикой.

Зафиксируем числа 1 > 𝛾2 > 𝛾1 > 0 и 𝛾2 − 𝛾1 = 𝛾. Пусть 𝑧𝛾1 , 𝑧𝛾2 — квантили уровней 𝛾1 и 𝛾2
распределения 𝐺(𝑋, 𝜃) соответственно. Тогда выполнено неравенство

P𝜃 (𝑧𝛾1 6 𝐺(𝑋, 𝜃) 6 𝑧𝛾2 ) > 𝛾2 − 𝛾1 = 𝛾

причем равенство достигается в случае, когда для функции распределения 𝐺 существуют две точки
непрерывности 𝑥1 , 𝑥2 , такие что 𝐹𝐺 (𝑥1 ) = 𝛾1 , 𝐹𝐺 (𝑥2 ) = 𝛾2 .
Пусть 𝑇𝑖 (𝑋) — решения уравнений 𝐺(𝑋, 𝑇𝑖 (𝑋)) = 𝑧𝛾𝑖 для 𝑖 = 1, 2. Тогда

P𝜃 (𝑇1 (𝑋) < 𝜃 < 𝑇2 (𝑋)) = P𝜃 (𝑧𝛾1 < 𝐺(𝑋, 𝜃) < 𝑧𝛾2 ) > 𝛾

𝑋1 −𝑏 √1
∑︀ 𝑋𝑖 −𝑏
Пример 8.1. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝑏, 𝜎 2 ). Тогда 𝜎 ∼ 𝒩 (0, 1) и 𝑛 𝜎 ∼ 𝒩 (0, 1).
1−𝛾 1+𝛾
Пусть 𝑧 1−𝛾 , 𝑧 1+𝛾 — квантили уровней 2 , 2 распределения 𝒩 (0, 1). Тогда
2 2

√ 𝑋 −𝑏
(︂ )︂
P 𝑧 1−𝛾 6 𝑛 6 𝑧 1+𝛾 = 𝛾
2 𝜎 2

Выражая отсюда 𝑏 или 𝜎, получаем доверительный интервал для этих параметров уровня 𝛾.

Лемма 8.1. Пусть у случайной величины 𝑋 непрерывная функция распределения 𝐹 и 𝑋1 , . . . , 𝑋𝑛 —


н.о.р. случайные величины. Тогда
∑︁
− ln 𝐹 (𝑋𝑖 ) ∼ Γ(1, 𝑛)

Доказательство. P(𝐹 (𝑋1 ) 6 𝑦) = P(𝑋1 6 𝐹 −1 (𝑦)) = 𝐹 (𝐹 −1 (𝑦)) ⇒ 𝐹 (𝑋𝑖 ) ∼ 𝑈 [0, 1]. Тогда − ln 𝐹 (𝑋𝑖 ) ∼
∑︀
𝐸𝑥𝑝(1) ⇒ − ln 𝐹 (𝑋𝑖 ) ∼ Γ(1, 𝑛)

31
Следствие 8.0.1. Пусть 𝒫 = {P𝜃 | 𝜃 ∈ Θ} такое семейство распределений, что ∀𝜃 P𝜃 имеет непре-
∑︀
рывную функцию распределения. Тогда − ln 𝐹 (𝑋𝑖 ) — центральная статистика с распределением
Γ(1, 𝑛)

8.2 Асимптотические доверительные интервалы


Определение 8.3. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из распределения P ∈ {P𝜃 | 𝜃 ∈ Θ ⊂ R}. Тогда
(︁ )︁
последовательность пар статистик 𝑇1𝑛 (𝑋), 𝑇2𝑛 (𝑋) называется асимптотическим доверительным ин-
тервалом уровня 𝛾, если
lim P𝜃 𝜃 ∈ 𝑇1𝑛 (𝑋), 𝑇2𝑛 (𝑋) > 𝛾
(︀ [︀ ]︀)︀
𝑛→+∞

Асимптотический доверительным интервал называется точным, если равенство обращается в равен-


ство, а lim превращается в lim.

Пример 8.2. Пусть 𝑋1 , . . . , 𝑋𝑛 имеет распределение P𝜃 с E𝜃 𝑋 = 𝜃, D𝜃 𝑋 = 𝜎 2 (Θ) > 0 — непрерывная


функция. По ЦПТ выполнена сходимость

√ 𝑋 − 𝜃 𝑑𝜃
𝑛 −→ 𝒩 (0, 1) ∀𝜃
𝜎(𝜃)

𝜃 P п.н. 𝜃 P п.н.
По ЗБЧ 𝑋 −−−−→ 𝜃 откуда, по теореме о наследовании сходимости, 𝜎(𝑋) −−−−→ 𝜎(𝜃) Тогда

√ 𝑋 −𝜃 𝑛(𝑋 − 𝜃) 𝜎(𝜃) 𝑑𝜃
𝑛 = · −→ 𝒩 (0, 1) по л. Слуцкого
𝜎(𝑋) 𝜎(𝜃) 𝜎(𝑋)
⏟ ⏞ ⏟ ⏞
→𝒩 (0,1) →1

1+𝛾
Тогда для 𝑧 1+𝛾 — квантиль 𝒩 (0, 1) уровня 2 верно
2

⎛ ⎞

√ 𝑋 −𝜃
(︂ )︂ ⎜ 𝜎(𝑋) 𝜎(𝑋) ⎟
P𝜃 −𝑧 1+𝛾 6 𝑛 6 𝑧 1+𝛾 = P𝜃 ⎜𝑋 − 𝑧 1+𝛾 √ 6 𝜃 6 𝑋 + 𝑧 1+𝛾 √ ⎟ → 𝛾 ∀𝜃
⎜ ⎟
2 𝜎(𝑋) 2 ⎝ 2 𝑛 2 𝑛 ⎠
⏟ ⏞ ⏟ ⏞
𝑇1 𝑇2

Замечание. 𝑇2 − 𝑇1 → 0

32
9 Байесовские методы

9.1 Введение
Напоминание: Пусть (Ω, F , P) — вероятностное пространство, {𝐷𝑛 } — разбиение Ω, 𝐴 ∈ F . Тогда
формула Байеса имеет вид

P(𝐴 | 𝐷𝑛 )P(𝐷𝑛 )
P(𝐷𝑛 | 𝐴) = ∑︀
∞ (3)
P(𝐴 | 𝐷𝑖 )P(𝐷𝑖 )
𝑖=0

Определение 9.1. Назовем 𝐴 — результатом эксперимента, P(𝐷𝑛 ) — априорная вероятность —


известная до эксперимента. 𝑃 (𝐷𝑛 | 𝐴) — апостериорная вероятность — после эксперимента.

Пусть 𝜉, 𝜂 — случайные величины на (Ω, F , P). Тогда формула Байеса в общем виде:
𝑝𝜉|𝜂 (𝑥 | 𝑦)𝑝𝜂 (𝑦)
𝑝𝜂|𝜉 (𝑦 | 𝑥) = ∫︀ (4)
𝑝𝜉|𝜂 (𝑥 | 𝑦)𝑝𝜂 (𝑦)
R𝑛

История становления Байесовских методов в статистике:

1763: опубликована работа Байеса с формулой 3.

1812: получена современная формула Байеса 4.

1920: Фишер нашел оптимальную оценку ОМП, после чего байесовские методы оказались забыты.

1990: Возраждение байесовских методов.

2010: Начало активного использования баесовских методов в BigData.

2017: Лекция по байесовскиим методам на ПМИ ФИВТ.

Замечание. Баесовские методы в BigData используются, например, в задаче распознования лиц на


фотографии или работе со словами, имеющими несколько смысловых значений, в word2vec.

9.2 Математическое описание байесовских методов. Сравнение


подходов
Пусть 𝜃 — случайный вектор, имеющий распределение 𝑄, доминируемое относительно некоторой меры,
с плотностью 𝑞(𝑡) и 𝜃 ∈ Θ ⊂ R𝑑 . Пусть 𝑋 — наблюдение из распределения P ∈ 𝒫 = {P𝑡 : 𝑡 ∈ Θ}, где 𝑡
— значение случайного вектора 𝜃 и P𝑡 имеет плотность 𝑝𝑡 (𝑥). Тогда функция

𝑓 (𝑡, 𝑥) = 𝑞(𝑡)𝑝𝑡 (𝑥)

есть плотность вектора (𝜃, 𝑋).

33
Определение 9.2. Плотность 𝑞(𝑡) называется априорной плотностью, а 𝑞(𝑡 | 𝑥), определяемая по
формуле
𝑞(𝑡)𝑝𝑡 (𝑥)
𝑞(𝑡 | 𝑥) = ∫︀ ,
𝑞(𝑠)𝑝𝑠 (𝑥)𝑑𝑥
Θ

называется апостериорной плотностью.

Способы оценивания 𝜃.

1. Апостреорное распределение — это оценивания 𝜃 целым распределением вероятностей, откуда


получаются последующие оценки.

2. Интервальные оценки: пусть 𝑢𝑝 — квантиль апостериорного распределения. Тогда доверительный


интервал для 𝜃 есть (𝑢(1−𝛼)/2 , 𝑢(1+𝛼)/2 ).

3. Точечные оценки:

(a) E(𝜃 | 𝑋) — математическое ожидание по апостериорному распределению.

(b) arg max 𝑞(𝑡 | 𝑥) — мода априорного распределения.


𝑡∈Θ

Подходы Частотный Байесовский


Интерпритация случайности Никакая случайная величина Любая случайная величина —
никем не прогнозируема (объ- детерминированный процесс,
ективная неопределенность) но часть фактов скрыта от нас
(субъективное незнание)
Величины Четкое деление на случайные Все случайно (в понимании вы-
величины и параметры ше)
Основной метод вывода Оценка максимального правдо- Формула Байеса
подобия
Типы оценок Точечные и интервальные Апостериорное распределение
Корректность методов Верны при 𝑛 → +∞ Верны при 𝑛 > 0.

Теорема 9.1. Оценка E(𝜃|𝑋) — наилучшая оценка параметра 𝜃 в баесовским подходе с квадратичной
функцией потерь.

Доказательство. Нам необходимо найти оценку 𝜃,̂︀ для которой


∫︁
̂︀ 𝑡)𝑞(𝑡)𝑑𝑡 → max .
𝑅(𝜃,
Θ

Перепишем интеграл
∫︁ (︁ )︁2 ∫︁ ∫︁ (︁ )︁2 (︁ )︁2
E𝑡 𝜃 − 𝑡 𝑞(𝑡)𝑑𝑡 =
̂︀ ̂︀ − 𝑡 𝑓 (𝑡, 𝑥)𝑑𝑥𝑑𝑡 = E 𝜃(𝑥)
𝜃(𝑥) ̂︀ − 𝜃 → max .
𝜃̂︀
Θ Θ 𝒳

34
Применяя теорему о наилучшем приближении

𝜃̂︀ = E(𝜃|𝑋).

У байесовсокго метода в статистике имеются свои недостатки. Вот самые существенные из них:

1. Предполагается, что распределение 𝑞(𝑡) задано, поскольку иначе не существует конструктивных


способов выбрать его.

2. Большые вычислительные затраты.

Пример 9.1. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝜃, 1), 𝜃 ∼ 𝐶𝑎𝑢𝑐ℎ𝑦. Тогда


∫︁ ∫︁ [︂ ]︂
1 1 ∑︁ 2 1
𝑞(𝑡)𝑝𝑡 (𝑥)𝑑𝑡 = exp − (𝑥 𝑖 − 𝑡) 𝑑𝑡.
(2𝜋)𝑛/2 2 𝜋(1 + 𝑡2 )
R R

Такой интеграл достаточно тяжело посчитать аналитически, а значит нет знаменателя в формуле Бай-
еса, что означает, что из оценок байесовским методом можно посчитать только моду.

Определение 9.3. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из распределения P ∈ 𝒫 = {P𝑡 | 𝑡 ∈ Θ} — некоторый


класс распределений. Пусть на Θ задан класс распределений 𝒬 = {𝑄𝛼 | 𝛼 ∈ 𝒜}. Класс 𝒬 называется
сопряженным к классу 𝒫, если при взятии априорного распределения из класса 𝒬 соответствующее
ему апостериорное распределение тоже лежит в классе 𝒬.

Пример 9.2. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝐸𝑥𝑝(𝜃). Найдем сопряженный класс распределений и байесовскую


оценку. Плотность выборки 𝑝𝑡 (𝑋) равна
∑︀
𝑝𝑡 (𝑥) = 𝑡𝑛 𝑒−𝑡 𝑋𝑖
.

Возьмем 𝑞(𝑡) пропорциональную выражению выше, где коэффицент пропорциональности не зависит


от 𝜃.
𝛼𝛽 𝛽−1 −𝛼𝑡
𝑞(𝑡) ∝ 𝑡𝛽−1 𝑒−𝛼𝑡 ⇒ 𝑞(𝑡) = 𝑡 𝑒 .
Γ(𝛽)
Покажем, что гамма распределение действительно сопряжено экспоненциальному:
∑︀ ∑︁
𝑞(𝜃|𝑥) ∝ 𝑞(𝑡)𝑝𝑡 (𝑥) ∝ 𝑡𝛽+𝑛−1 𝑒−𝑡(𝛼+ 𝑋𝑖 )
⇒ 𝑞(𝜃|𝑥) ∼ Γ(𝛼 + 𝑋𝑖 , 𝛽 + 𝑛).

Тогда точечная байесовская оценка есть


𝛽+𝑛
E(𝜃 | 𝑋) = ∑︀ .
𝛼 + 𝑋𝑖
Пример 9.3. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝜃, 1). Тогда

𝑝𝑡 (𝑥) ∝ exp(−𝑝𝑜𝑙𝑦2 (𝑡)) ⇒ 𝑞(𝑡) ∝ exp(−𝑝𝑜𝑙𝑦2 (𝑡)) ⇒ 𝑞(𝑡) ∼ 𝒩 (𝑎, 𝜎 2 ).

В качестве упражнения можно доказать, что


𝑋𝑖 + 𝜎𝑎2
(︂ ∑︀ )︂
1
𝑞(𝑡 | 𝑋) = 𝒩 ; .
𝑛 + 𝜎12 𝑛 + 𝜎12

35
Пример 9.4. Найдем класс распределений, сопряженный экспоненциальному классу, т.е. 𝑝𝑡 (𝑥) =
𝑔(𝑥) −𝑡𝑇 𝑢(𝑥)
ℎ(𝑥) 𝑒 . Для выборки имеем

1 −𝑡𝑇
∑︀
𝑢(𝑋𝑖 ) −𝛽 −𝑡𝛼 ℎ−𝛽 (𝑡) −𝑡𝑇 𝛼
𝑝𝑡 (𝑋) ∝ 𝑒 ⇒ 𝑞(𝑡) ∝ ℎ (𝑡)𝑒 = 𝑒
ℎ𝑛 (𝑥) 𝑓 (𝛼, 𝛽)

и
1 [︁ ∑︁ ]︁
𝑞(𝑡 | 𝑋) ∝ 𝑞(𝑡)𝑝𝑡 (𝑋) ∝ exp −𝑡𝑇 (𝛼 + 𝑋𝑖 .
ℎ𝛽+𝑛
То есть экспоненциальный класс распределений сопряжен сам себе.

36
10 Линейная регрессия

10.1 Линейная модель


Начнем с некоторых примеров.

Пример 10.1. Рассмотрим следующую задачу. Пусть имеется 2 груза неизвестной массы и весы. Мы
взвешиваем грузы с целью узнать их массу. Пусть мы три раза взвесили первый груз и получили веса
{𝑥1 , 𝑥2 , 𝑥3 }, пять раз взвесили второй груз с показаниями весов {𝑦1 , . . . , 𝑦5 } и десять раз оба груза
вместе с весами {𝑧1 , . . . , 𝑧10 }. Причем из-за погрешности измерений все числа 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 различны.
Условие задачи можно представить следующим образом:
⎛ ⎞ ⎛ ⎞
𝑥1 1 0
⎜ ⎟ ⎜ ⎟
⎜ 𝑥 ⎟ ⎜1 0⎟
⎜ 2⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑥 ⎟ ⎜1 0⎟
⎜ 3⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑦 ⎟ ⎜0 1⎟
⎜ 1⎟ ⎜ ⎟⎛ ⎞
⎜ . ⎟ ⎜ .. ⎟ 𝑎
⎜ . ⎟ ⎜
⎜ . ⎟=⎜ + ⃗𝜀,
⎟⎝ ⎠
. ⎟
⎜ ⎟ ⎜ ⎟ 𝑏
⎜ ⎟ ⎜ ⎟
⎜ 𝑦5 ⎟ ⎜0 1⎟
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑧1 ⎟ ⎜1 1⎟
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ ..
⎜ .. ⎟ ⎜

⎝ ⎠ ⎝ . ⎟

𝑧10 1 1

где 𝑎, 𝑏 — неизвестные веса грузов, а ⃗𝜀 — вектор ошибок измерений.

Пример 10.2. Пусть случайная величина 𝑋 зависит от времени по закону 𝑎3 𝑡3 + 𝑎2 𝑡2 + 𝑎1 𝑡 + 𝑎0 , где 𝑎𝑖


неизвестны и необходимо найти их оценку. В разные моменты времени 𝑡𝑖 были проведены измерения
величины 𝑋 и получены результаты 𝑋𝑖 = 𝑎3 𝑡3𝑖 +𝑎2 𝑡2𝑖 +𝑎1 𝑡𝑖 +𝑎0 +𝜀𝑖 . Тогда задачу можно сформулировать
так: ⎛ ⎞
⎛ ⎞ ⎛ ⎞ 𝑎3
𝑋1 𝑡3 𝑡21 𝑡1 1 ⎜ ⎟
⎜ ⎟ ⎜ 1 ⎟⎜ 𝑎

⎜ .. ⎟ ⎜ .. ⎟ ⎜ 2⎟

⎜ . ⎟=⎜ . ⎟⎜ ⎟ + ⃗𝜀.
⎝ ⎠ ⎝ ⎠ ⎜𝑎1 ⎟

𝑋𝑛 𝑡3𝑛 𝑡2𝑛 𝑡𝑛 1 ⎝ ⎠
𝑎0

Поставим задачу линейной регрессии.


Пусть 𝑋 ∈ R𝑛 — случайный вектор. Известно, что 𝑋 = 𝑙 + 𝜀, где 𝑙 ∈ R𝑛 — не случайный вектор, а
𝜀 ∈ R𝑛 — случайный, причем 𝑙 ∈ 𝐿 ⊂ R𝑛 , где 𝐿 = ⟨𝑧1 , . . . , 𝑧𝑘 ⟩ — 𝑘-мерное подпространство в R𝑛 . Пусть
𝑍 = (𝑧1 , . . . , 𝑧𝑘 ) — известная матрица и 𝑙 = 𝑍𝜃, 𝜃 ∈ Θ ⊂ R𝑘 — неизвестный вектор-параметр. При
этом 𝜀 — это вектор-столбец из независимых одинаково распределенных случайных величин с E𝜀𝑖 = 0
и D𝜀𝑖 = 𝜎 2 > 0, где 𝜎 2 неизвестно. Задача линейной регрессии заключается в нахождении оценок 𝜃 и
𝜎2 .

37
Определение 10.1. Оценка вектора 𝑙 значением ̂︀
𝑙 = proj𝐿 𝑋 называется оценкой методом наименьших
квадратов.
𝑙 = arg min ||𝑋 − 𝑙||2 .
̂︀
𝑙∈𝐿

Попробуем найти оценку для 𝜃. Для этого преобразуем выражение выше.

||𝑋 − 𝑙||2 =||𝑋 − 𝑍𝜃||2 = (𝑋 − 𝑍𝜃)𝑇 (𝑋 − 𝑍𝜃) =

= 𝑋 𝑇 𝑋 − (𝑍𝜃)𝑇 𝑋 − 𝑋 𝑇 (𝑍𝜃) + (𝑍𝜃)𝑇 (𝑍𝜃) = 𝑋 𝑇 𝑋 − 2𝑋 𝑇 𝑍𝜃 + 𝜃𝑇 𝑍 𝑇 𝑍𝜃.

Поскольку для ̂︀
𝑙 достигается минимум, а норма это гладкая функция, то

𝜕
||𝑋 − 𝑙||2 = −2(𝑋 𝑇 𝑍)𝑖 + 2(𝑍 𝑇 𝑍𝜃)𝑖 = 0.
𝜕𝜃𝑖

так как равенство верно для любого 𝑖, то

𝑍 𝑇 𝑍𝜃 = (𝑋 𝑇 𝑍)𝑇 ⇒ 𝑍 𝑇 𝑍𝜃 = 𝑍 𝑇 𝑋

⇒ 𝜃̂︀ = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 𝑋 — оценка 𝜃 по методу наименьших квадратов

⇒ ̂︀
𝑙 = 𝑍 𝜃.
̂︀

Утверждение 10.1.1. Оценка 𝜃̂︀ несмещенная.

Доказательство.

E𝜃 𝜃̂︀ = E𝜃 (𝑍 𝑇 𝑍)−1 𝑍 𝑇 𝑋 = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 E𝜃 𝑋 = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 𝑍𝜃 = 𝜃.

Найдем дисперсию D𝜃 𝜃:
̂︀

D𝜃 𝜃̂︀ = D𝜃 (𝑍 𝑇 𝑍)−1 𝑍 𝑇 𝑋 = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 D𝜃 (𝑋)((𝑍 𝑇 𝑍)−1 𝑍 𝑇 )𝑇 =

= 𝜎 2 (𝑍 𝑇 𝑍)−1 𝑍 𝑇 ((𝑍 𝑇 𝑍)−1 𝑍 𝑇 )𝑇 = 𝜎 2 (𝑍 𝑇 𝑍)−1 𝑍 𝑇 𝑍(𝑍 𝑇 𝑍)−1 = 𝜎 2 (𝑍 𝑇 𝑍)−1

1 ̂︀ 2 = 𝜎 2 .
Утверждение 10.1.2. 𝑛−𝑘 E𝜃 ||𝑋 − 𝑍 𝜃||

Доказательство. Будем использовать следующую формулу: tr 𝐴𝐵 = tr 𝐵𝐴. Обозначим 𝐴 := 𝑍(𝑍 𝑇 𝑍)−1 𝑍 𝑇 .


Тогда tr 𝐴 = tr 𝑍(𝑍 𝑇 𝑍)−1 𝑍 𝑇 = tr(𝑍 𝑇 𝑍)−1 (𝑍 𝑇 𝑍) = 𝑘.
Поскольку 𝜃̂︀ — несмещенная оценка, то E𝜃 (𝑋 − 𝑍 𝜃)
̂︀ = 0, откуда tr 𝐷𝜃 (𝑋 − 𝑍 𝜃) ̂︀ 2 .
̂︀ = E𝜃 ||𝑋 − 𝑍 𝜃||

̂︀ = tr𝐷𝜃 (𝐸 − 𝐴)𝑋 = tr (𝐸 − 𝐴)D𝜃 𝑋(𝐸 − 𝐴)𝑇 =


[︀ ]︀
tr 𝐷𝜃 (𝑋 − 𝑍 𝜃)

= tr (𝐸 − 𝐴)𝜎 2 = 𝑛𝜎 2 − 𝜎 2 tr 𝐴 = 𝑛𝜎 2 − 𝜎 2 𝑘 = (𝑛 − 𝑘)𝜎 2 .
[︀ ]︀

поскольку 𝐴2 = 𝐴.

1 ̂︀ 2 = 𝜎
Следствие 10.0.1. 𝑛−𝑘 ||𝑋 − 𝑍 𝜃|| ̂︀2 — несмещенная оценка 𝜎 2 .

38
10.2 Гауссовская линейная модель
Определение 10.2. Линейная модель называется гауссовской, если 𝑋 = 𝑙 + 𝜀, где 𝑙 = 𝑍𝜃 и 𝜀 ∼
𝒩 (0, 𝜎 2 𝐸).

Теорема 10.1. (б/д, об ортогональном разложении гауссовского вектора)


Пусть 𝑋 ∼ 𝒩 (𝑏, 𝜎 2 𝐸). Пусть R𝑛 = 𝐿1 ⊕ . . . ⊕ 𝐿𝑟 ; dim 𝐿𝑖 = 𝑘𝑖 ; 𝑙𝑖 = proj𝐿𝑖 𝑙 и 𝑋𝑖 = proj𝐿𝑖 𝑋 —
ортогональные проекции вектора 𝑋.
Тогда 𝑋1 , . . . , 𝑋𝑟 — независимые случайные вектора и

1
||𝑋𝑖 − 𝑙𝑖 ||2 ∼ 𝜒2𝑘𝑖 ,
𝜎2

где (︂ )︂
1 𝑘 𝑑
𝜒2𝑘 = Γ ; = 𝜉12 + . . . + 𝜉𝑘2 ,
2 2
где 𝜉𝑖 ∼ 𝒩 (0, 1) — независимые одинаково распределенные.

Рассмотрим плотность выборки:


)︂𝑛 )︂𝑛
(𝑋𝑖 − 𝑙𝑖 )2 ||𝑋 − 𝑙||2
(︂ [︂ ∑︀ ]︂ (︂ [︂ ]︂
1 1
𝑝(𝑋) = √ exp − = √ exp − =
2𝜋𝜎 2 2𝜎 2 2𝜋𝜎 2 2𝜎 2
)︂𝑛
|| proj𝐿 𝑋 − 𝑙||2 + ||𝑋 − proj𝐿 𝑋||2
(︂ [︂ ]︂
1
= √ exp −
2𝜋𝜎 2 2𝜎 2

откуда, по критерию Неймана-Фишера, статистика 𝑆(𝑋) = (proj𝐿 𝑋; ||𝑋 − proj𝐿 𝑋||) — достаточная.

Теорема 10.2. (б/д)


Статистика (proj𝐿 𝑋; ||𝑋 − proj𝐿 𝑋||) — полная.

̂︀2 — оптимальные оценки 𝜃 и 𝜎 2 соответственно.


Следствие 10.2.1. Оценки 𝜃̂︀ и 𝜎

Доказательство. Достаточно выразить эти оценки как функции от 𝑆(𝑋), поскольку они несмещенные.

𝜃̂︀ = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 proj𝐿 𝑋


1 ̂︀ 2 = 1 ||𝑋 − proj 𝑋||2
̂︀2 =
𝜎 ||𝑋 − 𝑍 𝜃|| 𝐿
𝑛−𝑘 𝑛−𝑘

1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘) и 1
Утверждение 10.2.1. 𝜃̂︀ ⊥
⊥ 𝑋 − 𝑍 𝜃,
̂︀ причем
𝜎 2 ||𝑋 − 𝑍 𝜃|| 𝜎 2 ||𝑍 𝜃 −
̂︀ 𝑍𝜃||2 ∼ 𝜒2 (𝑘).

Доказательство. По теореме 10.1:

𝑍 𝜃̂︀ = proj𝐿 𝑋 ⊥
⊥ proj𝐿⊥ 𝑋 = 𝑋 − 𝑍 𝜃.
̂︀

Поскольку 𝜃̂︀ = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 (𝑍 𝜃)


̂︀ ⇒ 𝜃̂︀ ⊥
⊥ 𝑋 − 𝑍 𝜃.
̂︀

Распределение статистик следует из того, что dim 𝐿 = 𝑘.

39
Определение 10.3. Пусть 𝜉 ∼ 𝒩 (0, 1), 𝜂 ∼ 𝜒2𝑘 и 𝜉 ⊥
⊥ 𝜂. Тогда случайная величина

𝜉
√︀ 𝜂 ∼ 𝑇𝑘
𝑘

имеет распределение Стьюдента с 𝑘 степенями свободы.


Пусть 𝜉 ∼ 𝜒2𝑘 , 𝜂 ∼ 𝜒2𝑚 , 𝜉 ⊥
⊥ 𝜂. Тогда случайная величина

𝜉/𝑘
∼ 𝐹𝑘,𝑚
𝜂/𝑚

имеет распределение Фишера с параметрами 𝑘, 𝑚.

Построим доверительные интервалы для параметров в гауссовой линейной модели.


Доверительный интервал для 𝜎 2 :
1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘), то достаточно взять квантиль 𝑢1−𝛾 распределения 𝜒2 (𝑛 − 𝑘),
Поскольку 𝜎 2 ||𝑋 − 𝑍 𝜃||
а значит (︃ (︃ )︃)︃
(︂
1
)︂ ̂︀ 2
||𝑋 − 𝑍 𝜃||
P ̂︀ 2 > 𝑢1−𝛾
||𝑋 − 𝑍 𝜃|| =𝛾⇒P 𝜎 ∈ 2
0; = 𝛾.
𝜎2 𝑢1−𝛾

Доверительный интервал для 𝜃̂︀𝑖 :


Поскольку 𝜃̂︀ ∼ 𝒩 (𝜃, 𝜎 2 (𝑍 𝑇 𝑍)−1 ), где 𝐴 = (𝑎)𝑖𝑗 , то 𝜃̂︀𝑖 ∼ 𝒩 (𝜃𝑖 , 𝜎 2 𝑎𝑖𝑖 ). Тогда
⏟ ⏞
𝐴

⎨ √𝜃̂︀𝑖 −𝜃
⎪ 𝑖
∼ 𝒩 (0, 1)
√︂
𝑛−𝑘 𝜃̂︀ − 𝜃𝑖
𝜎2 𝑎 𝑖𝑖
⇒ √︁ 𝑖 ∼ 𝑇𝑛−𝑘 ,
1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘) 𝑎𝑖𝑖 2
𝜎 2 ||𝑋 − 𝑍 𝜃|| ||𝑋 − 𝑍 𝜃||

⎩ ̂︀

откуда ⎛ ⎞
√︂
𝑛−𝑘 𝜃̂︀𝑖 − 𝜃𝑖
P ⎝𝑢(1−𝛾)/2 6 √︁ 6 𝑢(1+𝛾)/2 ⎠ = 𝛾,
𝑎𝑖𝑖 2
||𝑋 − 𝑍 𝜃|| ̂︀

где 𝑢𝑝 — квантили 𝑇𝑛−𝑘 .


Доверительная область для 𝜃:

1
𝜎 2 ||𝑍 𝜃 − 𝑍𝜃||2 ∼ 𝜒2 (𝑘) 𝑛 − 𝑘 ||𝑍 𝜃̂︀ − 𝑍𝜃||2

⎨ ̂︀
⇒ ∼ 𝐹𝑘,𝑛−𝑘
1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘) 𝑘 ||𝑋 − 𝑍 𝜃|| ̂︀ 2
𝜎 2 ||𝑋 − 𝑍 𝜃||

40
11 Проверка гипотез

11.1 Построение критериев


Обозначим неизвестное распределение P. Тогда гипотезой назовем любое утверждение относительно
P и обозначим 𝐻 : P ∈ 𝒫. Пусть 𝒫0 и 𝒫1 — два непересекающихся класса распределений. Мы будем
проверять гипотезы вида "наблюдаемая величина имеет распределение из класса 𝒫0 "и обозначать их
𝐻0 : P ∈ 𝒫0 . Тогда 𝐻0 называется основной гипотезой. Противоречущую ей гипотезу 𝐻1 : P ∈ 𝒫1
назовем альтернативной гипотезой.

Определение 11.1. Гипотеза 𝐻0 называется простой, если |𝒫0 | = 1.

Определение 11.2. Множество 𝑆 называется критерием проверки гипотезы 𝐻0 против альтернативы


𝐻1 , если 𝑆 ⊆ 𝒳 .
Гипотеза 𝐻0 отвергается в пользу альтернативы 𝐻1 если 𝑋 ∈ 𝑆.

Пример 11.1. Пусть 𝒫 = {P𝜃 | 𝜃 ∈ Θ} и 𝐻0 : P = P𝜃0 , 𝐻1 : P ̸= P𝜃0 . Построим для 𝜃 доверительный


интервал (𝑇1 (𝑋), 𝑇2 (𝑋)) уровня 𝛾. Тогда
⎛ ⎞

P𝜃 ⎝𝜃 ∈ (𝑇1 (𝑋), 𝑇2 (𝑋))⎠ > 𝛾.


⏟ ⏞
𝐴

Если событие 𝐴 не выполнено для 𝜃0 , то гипотеза 𝐻0 отвергается. Заметим, что с вероятностью 6 1 − 𝛾


верная гипотеза будет отвергнута.

Определение 11.3. Ошибкой первого рода называется ситуация, когда отвергается верная гипоте-
за.Ошибкой второго рода называется ситуация, когда неверная гипотеза не отвергается.

Определение 11.4. Мощностью критерия 𝑆 называется функция 𝛽(𝑄, 𝑆) = 𝑄(𝑋 ∈ 𝑆), где 𝑄 ∈ 𝒫 =
𝒫0 ⊔ 𝒫 1 .

Определение 11.5. 𝑆 — критерий уровня значимости 1 > 𝜀 > 0, если

∀𝑄 ∈ 𝒫0 : 𝛽(𝑄, 𝑆) 6 𝜀.

Размер критерия 𝑆 — наименьший из его уровней значимости.

𝛼(𝑆) := sup 𝛽(𝑄, 𝑆).


𝑄∈𝒫0

Определение 11.6. Пусть 𝑆 и 𝑅 — два критерия уровня значимости 𝜀. Тогда критерий 𝑆 мощнее
критерия 𝑅, если
∀𝑄 ∈ 𝒫1 : 𝛽(𝑄, 𝑆) > 𝛽(𝑄, 𝑅).

Заметим, что рассматриваемая вероятность 𝛽(𝑄, 𝑆) = 𝑄(𝑋 ∈ 𝑆) это вероятность отклонить неверную
гипотезу.

41
Определение 11.7. Критерий 𝑆 называется равномерно наиболее мощным критерием (далее рнмк)
уровня значимости 𝜀, если выполнены следующие два свойства:

1. 𝛼(𝑆) 6 𝜀.

2. 𝑆 мощнее любого другого критерия 𝑅 уровня значимости 𝛼(𝑅) 6 𝜀.

Определение 11.8. Критерий 𝑆 называется несмещенным, если

sup 𝛽(𝑄, 𝑆) < inf 𝛽(𝑄, 𝑆).


𝑄∈𝒫0 𝑄∈𝒫1

Критерий 𝑆 называется состоятельным, если

∀𝑄 ∈ 𝒫1 lim 𝛽(𝑄, 𝑆) = lim 𝑄 (𝑋 ∈ 𝑆) → 1,


𝑛→+∞ 𝑛→+∞

где 𝑛 — размер выборки 𝑋 = 𝑋1 , . . . , 𝑋𝑛 .

Пусть P0 , P1 — два распределения, доминируемые относительно меры 𝜇 с плотностями 𝑝0 и 𝑝1


соответственно. Рассмотрим гипотезы 𝐻0 : P = P0 и 𝐻1 : P = P1 . Введем для 𝜆 > 0 множество

𝑆𝜆 := {𝑥 : 𝑝1 (𝑥) − 𝜆𝑝0 (𝑥) > 0}.

Теорема 11.1. (лемма Неймана-Пирсона)


Пусть 𝑅 — критерий, такой что

P0 (𝑋 ∈ 𝑅) 6 P0 (𝑋 ∈ 𝑆𝜆 )

(т.е. уровня значимости P0 (𝑋 ∈ 𝑆𝜆 ). Тогда критерий 𝑆𝜆 мощнее критерия 𝑅

P1 (𝑋 ∈ 𝑅) 6 P1 (𝑋 ∈ 𝑆𝜆 )

и, кроме того, 𝑆𝜆 — несмещенный критерий.

Доказательство. По свойствам индикаторов

𝐼(𝑋 ∈ 𝑅)(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)) 6 𝐼(𝑋 ∈ 𝑅)𝐼(𝑋 ∈ 𝑆𝜆 )(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)) 6 𝐼(𝑋 ∈ 𝑆𝜆 )(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)).

Тогда
∫︁
P1 (𝑥 ∈ 𝑅) − 𝜆P0 (𝑥 ∈ 𝑅) = (𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)) 𝐼(𝑥 ∈ 𝑅)𝜇(𝑑𝑥)
∫︁
6 𝐼(𝑋 ∈ 𝑆𝜆 )(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥))𝜇(𝑑𝑥) = P1 (𝑥 ∈ 𝑆𝜆 ) − 𝜆P0 (𝑥 ∈ 𝑆𝜆 ),

откуда

P1 (𝑥 ∈ 𝑅) − P1 (𝑥 ∈ 𝑆𝜆 ) 6 𝜆 (P0 (𝑥 ∈ 𝑅) − P0 (𝑥 ∈ 𝑆𝜆 )) 6 0 ⇒ P1 (𝑥 ∈ 𝑅) 6 P1 (𝑥 ∈ 𝑆𝜆 ).

Рассмотрим теперь два случая:

42
1. 𝜆 > 1 ⇒ ∀𝑥 ∈ 𝑆𝜆 : 𝑝1 (𝑥) > 𝑝0 (𝑥) и
∫︁ ∫︁
P0 (𝑥 ∈ 𝑆𝜆 ) = 𝐼(𝑥 ∈ 𝑆𝜆 )𝑝0 (𝑥)𝜇(𝑑𝑥) 6 𝐼(𝑥 ∈ 𝑆𝜆 )𝑝1 (𝑥)𝜇(𝑑𝑥) = P1 (𝑥 ∈ 𝑆𝜆 ).

2. 𝜆 < 1. Тогда для 𝑥 ̸∈ 𝑆𝜆 : 𝑝1 (𝑥) < 𝑝0 (𝑥) и


∫︁
P0 (𝑥 ̸∈𝑆𝜆 ) = 𝐼( 𝑥 ̸∈ 𝑆𝜆 )𝑝0 (𝑥)𝜇(𝑑𝑥) >
∫︁
> 𝐼( 𝑥 ̸∈ 𝑆𝜆 )𝑝1 (𝑥)𝜇(𝑑𝑥) = P1 (𝑥 ̸∈ 𝑆𝜆 ),

откуда
P0 (𝑥 ∈ 𝑆𝜆 ) = 1 − P0 (𝑥 ̸∈ 𝑆𝜆 ) 6 1 − P1 (𝑥 ̸∈ 𝑆𝜆 ) = P1 (𝑥 ∈ 𝑆𝜆 ).

Следствие 11.1.1. Пусть 𝜆 таково, что

P0 (𝑥 ∈ 𝑆𝜆 ) = 𝜀.

Тогда 𝑆𝜆 это рнмк уровня значимости 𝜀.

Замечание. Для дискретного пространства не существует рнмк уровня значимости 𝜀 для всех 𝜀.

1
Пример 11.2. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝐵𝑒𝑟𝑛(𝜃). Нужно проверить гипотезу 𝐻0 : 𝜃 = 4 против 𝐻1 : 𝜃 = 13 .
Тогда
(︂ )︂∑︀ 𝑋𝑖 (︂ )︂𝑛−∑︀ 𝑋𝑖 (︂ )︂∑︀ 𝑋𝑖 (︂ )︂𝑛−∑︀ 𝑋𝑖 (︂ )︂∑︀ 𝑋𝑖 (︂ )︂𝑛−∑︀ 𝑋𝑖
1 2 1 3 4 8
𝑆𝜆 = {𝑥 : −𝜆 > 0} = { > 𝜆}.
3 3 4 4 3 9
(︀ 4 )︀∑︀ 𝑋𝑖 (︀ 8 )︀𝑛−∑︀ 𝑋𝑖 ∑︀
Поскольку функция 3 9 возрастает по 𝑇 (𝑋) = 𝑋𝑖 , то неравенство верно при 𝑇 (𝑋) >
˜ Если 𝐻0 верна, то
𝜆.
∑︀
𝑋𝑖 ∼ 𝐵𝑖𝑛(𝑛, 1 ˜ — квантиль уровня 1 − 𝜀 распределения 𝐵𝑖𝑛(𝑛, 1 ). Причем
4) и𝜆 4

все проведенные рассуждения верны только для тех 𝜀, где достигается равенство P0 (𝑥 ∈ 𝑆𝜆 ) = 𝜀.

Теорема 11.2. (б/д, о монотонном отношении правдоподобия)


Пусть Θ ⊂ R, 𝐻0 : 𝜃 6 𝜃0 (𝜃 = 𝜃0 ), 𝐻1 : 𝜃 > 𝜃0 . Пусть P𝜃 доминируемо относительно меры 𝜇 с
плотностью 𝑝𝜃 и
𝑓𝜃2 (𝑋)
∀𝜃2 > 𝜃1 ∈ Θ : = 𝑔(𝑇 (𝑋), 𝜃1 , 𝜃2 ),
𝑓𝜃1 (𝑋)
где 𝑔 не убывает по 𝑇 (𝑋).
Тогда рнмк уровня значимости 𝜀 имеет вид

𝑆𝜀 = {𝑇 (𝑋) > 𝑐𝜀 },

если
P0 (𝑆𝜀 ) = 𝜀.

43
Пример 11.3. 𝑋1 , . . . , 𝑋𝑛 ∼ 𝐵𝑒𝑟𝑛(𝜃), 𝐻0 : 𝜃 > 1
4, 𝐻1 : 𝜃 < 1
4. Сделаем замену 𝜃˜ = −𝜃. Тогда
𝐻0 : 𝜃˜ 6 − 14 , 𝐻1 : 𝜃˜ > − 14 . Для 𝜃˜2 > 𝜃˜1 :
⎛ ⎞∑︀ 𝑋𝑖 ⎛ ⎞𝑛−∑︀ 𝑋𝑖

𝑓𝜃˜2 ⎜ −𝜃˜2 ⎟ ⎜ 1 − (−𝜃˜ ) ⎟


2 ⎟
∑︁
=⎜ )⎟ = 𝑔(− 𝑋𝑖 ).
⎟ ⎜
𝑓𝜃˜1 ⎝ −𝜃˜ ⎠ ⎝ 1 − (−𝜃˜1 ⎠

1
⏟ ⏞ ⏟ ⏞
<1 >1
∑︀ ∑︀
Функция 𝑔 возрастает по − 𝑋𝑖 , откуда рнмк имеет вид 𝑆 = { 𝑋𝑖 6 𝑐}, где 𝑐 — квантиль уровня 𝜀
1
для 𝐵𝑖𝑛(𝑛, 4 ).

Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из 𝑈 [0, 𝜃]. Проверим гипотезу 𝐻0 : 𝜃 = 𝜃0 против альтернативы


𝐻1 : 𝜃 < 𝜃 0 .
1
Утверждение 11.1.1. Рнмк имеет вид 𝑆 = {𝑋(𝑛) 6 𝜃0 𝜀 𝑛 }.

Доказательство. (︂ )︂𝑛
𝑐 1
P𝜃0 (𝑋(𝑛) 6 𝑐) = 𝜀 ⇒ = 𝜀 ⇒ 𝑐 = 𝜃0 𝜀 𝑛 .
𝜃0
Пусть теперь 𝑅 — критерий уровня значимости 𝜀, т.е. P𝜃0 (𝑥 ∈ 𝑅) 6 𝜀. Возможны два случая:
1
1. 𝜃 6 𝑐 = 𝜃0 𝜀 𝑛 . Тогда
P𝜃 (𝑥 ∈ 𝑆) = 1 > P𝜃 (𝑥 ∈ 𝑅) ⇒ 𝑆 — мощнее.
(︀ )︀𝑛
2. 𝜃 ∈ (𝑐, 𝜃0 ). Тогда P𝜃 (𝑥 ∈ 𝑆) = 𝜃𝜃0 𝜀 и
∫︁ (︂ )︂𝑛 ∫︁
1 𝜃0 1
P𝜃 (𝑥 ∈ 𝑅) = 𝐼(𝑋1 , . . . , 𝑋 𝑛 ∈ 𝑅)𝑑𝑥1 . . . 𝑑𝑥𝑛 = 𝐼(𝑋1 , . . . , 𝑋𝑛 ∈ 𝑅)𝑑𝑥1 . . . 𝑑𝑥𝑛
𝜃 𝑛 𝜃 𝜃0𝑛
[0,𝜃]𝑛 [0,𝜃]𝑛
(︂ )︂𝑛 ∫︁ (︂ )︂𝑛 (︂ )︂𝑛
𝜃0 1 𝜃0 𝜃0
6 𝐼(𝑋1 , . . . , 𝑋𝑛 ∈ 𝑅)𝑑𝑥1 . . . 𝑑𝑥𝑛 = P𝜃0 (𝑋 ∈ 𝑅) 6 𝜀
𝜃 𝜃0𝑛 𝜃 𝜃
[0,𝜃0 ]𝑛

11.2 Гипотезы в линейной регрессии


Рассмотрим линейную модель 𝑋 = 𝑍𝜃 + 𝜀, где 𝜀 ∼ 𝒩 (0, 𝜎𝐼𝑛 ), 𝜃 ∈ R𝑘 . Будем проверять гипотезы вида
𝐻 : 𝑇 𝜃 = 𝜏 , где 𝑇 это матрица размера (𝑚 × 𝑘), 𝑚 6 𝑘, rk 𝑇 = 𝑚. Как мы помним,

𝜃̂︀ = (𝑍 𝑇 𝑍)−1 𝑍 𝑇 𝑋 ∼ 𝒩 (𝜃, 𝜎 2 (𝑍 𝑇 𝑍)−1 ),

а, зная это, имеем


𝑇 𝜃̂︀ ∼ 𝒩 (⏟𝑇⏞𝜃 , 𝜎 2 𝑇 (𝑍 𝑇 𝑍)−1 𝑇 𝑇 ).
⏟ ⏞
=𝜏 =𝐵
Матрица 𝐵 обратиа как матрица с полным рангом, а значит
√ 1 1
𝐵 −1 (𝑇 𝜃̂︀ − 𝜏 ) ∼ 𝒩 (0, 𝐼𝑚 ) ⇒ 2 (𝑇 𝜃̂︀ − 𝜏 )𝑇 𝐵 −1 (𝑇 𝜃̂︀ − 𝜏 ) ∼ 𝜒2 (𝑚)
𝜎 𝜎

44
а
1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘).
||𝑋 − 𝑍 𝜃||
𝜎2
Зная всё это, получаем, что

(𝑇 𝜃̂︀ − 𝜏 )𝑇 𝐵 −1 (𝑇 𝜃̂︀ − 𝜏 ) 𝑛 − 𝑘
𝐹̂︀ = ∼ 𝐹𝑚,𝑛−𝑘
̂︀ 2
||𝑋 − 𝑍 𝜃|| 𝑚

Определение 11.9. Статистика 𝐹̂︀ называется ф-статистикой (эф).


Критерий для проверки 𝐻 уровня значимости 𝜀 имеет вид 𝐹̂︀ > 𝑢1−𝜀 , где 𝑢 — квантиль уровня 1 − 𝜀
распределения 𝐹𝑚,𝑛−𝑘 .

Пример 11.4. 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝑥, 𝜎 2 ), 𝑌1 , . . . , 𝑌𝑚 ∼ 𝒩 (𝑦, 𝜎 2 ). Проверим гипотезу 𝐻 : 𝑥 = 𝑦.


⎛ ⎞ ⎛ ⎞
𝑋1 1 0
⎜ . ⎟ ⎜ .. ⎟
⎜ . ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
⎜ ⎟ ⎜ ⎟⎛ ⎞
⎜ ⎟ ⎜ ⎟
⎜𝑋𝑛 ⎟ ⎜1 0⎟ 𝑥
⎜ ⎟=⎜ ⎟ ⎝ ⎠ + ⃗𝜀.
⎜ ⎟ ⎜ ⎟
⎜ 𝑌1 ⎟ ⎜0 1⎟ 𝑦
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ .. ⎟
⎜ .. ⎟ ⎜ . ⎟
⎝ ⎠ ⎝ ⎠
𝑌𝑚 0 1
(︁ )︁
Возьмем 𝑇 = 1 −1 ⇒ 𝜏 = 𝑇 𝜃 = 0. Тогда
⎛ ⎞ ⎛ ⎞
𝑛 0 𝑋 1 1
𝑍𝑇 𝑍 = ⎝ ⎠, 𝜃̂︀ = ⎝ ⎠ ⇒ 𝐵 = +
0 𝑚 𝑌 𝑚 𝑛

и
(𝑋 − 𝑌 )2 𝑛2𝑛𝑚
+𝑚2 𝑛+𝑚−2
𝐹̂︀ = 2 + 𝑚𝑆 2 · .
𝑛𝑆𝑋 𝑌 1

11.3 Критерии согласия


Критерий хи-квадрат Пирсона
Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из распределения, у которого 𝑎1 , . . . , 𝑎𝑚 — все возможные исходы
в одном испытании с вероятностями соответсвенно 𝑝1 , . . . , 𝑝𝑚 . Проверим гипотезу 𝐻 : 𝑝𝑖 = 𝑝0𝑖 ∀𝑖 ∈
𝑛
∑︀
{1, . . . , 𝑚}. Положим 𝜇𝑖 = 𝐼(𝑋𝑗 = 𝑎𝑖 ) и рассмотрим статистику
𝑗=1

𝑚
∑︁ (𝜇𝑖 − 𝑛𝑝0 )2 𝑖
𝜇
̂︀ =
𝑖=1
𝑛𝑝0𝑖

Теорема 11.3. (Пирсон)


При условии верности 𝐻0 , выполнена сходимость

𝑑
→ 𝜒2 (𝑚 − 1) при 𝑛 → ∞.
̂︀ −
𝜇

45
Доказательство. Рассмотрим вектора 𝑌𝑗 = (𝐼(𝑋𝑗 = 𝑎1 ), . . . , 𝐼(𝑋𝑗 = 𝑎𝑚 )), (𝑌𝑗 )𝑖 ∼ 𝐵𝑒𝑟𝑛(𝑝0𝑖 ). Тогда
E𝑌𝑗 = (𝑝01 , . . . , 𝑝0𝑚 ) = 𝑝𝑇 и
D𝑌𝑗 = 𝐵 − 𝑝𝑝𝑇 , где 𝐵 = diag(𝑝01 , . . . , 𝑝0𝑚 ).

По ЦПТ (︃(︂ )︃
√ )︂𝑇 √ √
√ 𝑌1 + . . . + 𝑌𝑛 𝑑
𝐵 −1 𝑛 −𝑝 −
→ 𝒩 (0, 𝐵 −1 (𝐵 − 𝑝𝑝𝑇 ) 𝐵 −1 ).
𝑛
⎛ √︀

𝑝01
√ ⎜ . ⎟
⎜ ⎟
Пусть 𝑍 = 𝐵 −1 𝑝 = ⎜ .. ⎟ и 𝑉 — ортогональная матрица, первая строка которой равна 𝑍 𝑇 . Тогда
⎝√︀ ⎠
𝑝0𝑚
(︃(︂ )︂𝑇 )︃
√ √ 𝑌1 + . . . + 𝑌𝑛 𝑑
𝑉 𝐵 −1 𝑛 −𝑝 − → 𝒩 (0; 𝑉 𝐼𝑚 𝑉 𝑇 −𝑉 𝑍𝑍 𝑇 𝑉 𝑇 ) = 𝒩 (0; diag(0, 1, . . . , 1)).
𝑛 ⏟ ⏞ ⏟ ⏞
=𝐼𝑚 𝑚−1

По теореме о наследовании сходимости


⃦ (︃(︂ )︂𝑇 )︃⃦2 𝑚
⃦ √ √ 𝑌 + . . . + 𝑌 ⃦ (𝜇𝑗 − 𝑛𝑝0𝑗 )2 𝑑 2
1 𝑛
∑︁
⃦𝑉 𝐵 −1 𝑛 −𝑝 ⃦ = −
→ 𝜒 (𝑚 − 1).
⃦ ⃦
⃦ 𝑛 ⃦
𝑗=1
𝑛𝑝0𝑗

Следствие 11.3.1. Гипотеза 𝐻 отвергается на уровне значимости 𝜀, если 𝜇


̂︀ > 𝑢1−𝜀 , где 𝑢 — кван-
тиль уровня 1 − 𝜀 распределения 𝜒2 (𝑚 − 1).

Утверждение 11.3.1. Критерий Пирсона — состоятельный критерий.

Доказательство. Пусть ∃𝑖 : 𝑝𝑖 ̸= 𝑝0𝑖 . Без ограничения общности 𝑖 = 1. Покажем, что в таком случае
𝜇𝑖 п.н.
𝜇 > 𝑢1−𝜀 ) → 1. По УЗБЧ
P(̂︀ 𝑛 −−−→ 𝑝𝑖 , а значит
𝑚 𝑚 (︀ 𝜇𝑖 )︀2
∑︁ (𝜇𝑖 − 𝑛𝑝0 )2 𝑖
∑︁ 𝑛 𝑛 − 𝑝0𝑖
𝜇
̂︀ = = .
𝑖=1
𝑛𝑝0𝑖 𝑖=1
𝑝0𝑖
В частности, при 𝑖 = 1 :
(︀ 𝜇1 )︀2
𝑛 𝑛 − 𝑝01 п.н. (𝑝1 − 𝑝01 )2 п.н.
−−−→ 𝑛 −−−→ +∞.
𝑝01 𝑝01

Пример 11.5. Максим Евгеньевич Жуковский едет на лекцию по математической статистике. Он


планирует задать слушателям три вопроса в начале лекции, возможные варианты ответа на которые
следующие: 𝑎1 ="да, да", 𝑎2 ="да, нет", 𝑎3 ="нет, нет". В электричке Максим Евгеньевич выдвинул
гипотезу 𝐻 : 𝑝01 = 12 , 𝑝02 = 13 , 𝑝03 = 16 .
Проведя опрос, Максим Евгеньевич получил следующие результаты: 𝜇1 = 28, 𝜇2 = 20, 𝜇3 = 12. В
таком случае,
(28 − 30)2 (12 − 10)2 8
+ 𝜇
̂︀ = = .
30 30 15
Посмотрев на википедии квантили 𝜒2 (2), Максим Евгеньевич, пользуясь критерием Пирсона, отвергает
𝐻 на уровне значимости 0.8, но не отвергает на уровне значимости 0.1.

46
Определение 11.10. Пусть {𝑆(𝑥) > 𝑢} — критерий проверки гипотезы 𝐻 : P = P0 и 𝛼 = P0 (𝑆(𝑥) >
𝑢) — его уровень значимости. Найдем значение 𝑆(𝑥) для выборки 𝑋1 , . . . , 𝑋𝑛 : 𝑆(𝑋1 , . . . , 𝑋𝑛 ) =
𝑡. Величина 𝑝 = P0 (𝑆(𝑥) > 𝑡) называется p-значением (p-value). При 𝑡 > 𝑢 ⇒ 𝑝 < 𝛼 гипотеза 𝐻
отвергается.

Критерий Колмогорова-Смирнова

Теорема 11.4. (Колмогоров, Смирнов)


Пусть имеется выборка из распределения с непрерывной функцией распределения. Тогда

√ 𝑑
𝑛 sup |𝐹 (𝑥) − 𝐹𝑛 (𝑥)| −
→ 𝐾,
𝑥

где 𝐾 — распределение Колмогорова с функцией распределения



+∞
⎪ ∑︀ (−1)𝑘 𝑒−2𝑘2 𝑥2 𝑥 > 0,


𝑘=−∞

⎩0

𝑥<0

Рассмотрим статистику 𝐻 : P = P0 . Пусть 𝑆(𝑋) = 𝑛 sup |𝐹 (𝑥) − 𝐹𝑛 (𝑥)| и 𝑢1−𝛼 — квантиль распре-
𝑥
деления 𝐾 уровня 1 − 𝛼. Тогда {𝑆(𝑥) > 𝑢1−𝛼 } это критерий проверки 𝐻 уровня значимости 𝛼.

Утверждение 11.3.2.

{︂⃒ ⃒ ⃒ ⃒}︂
⃒ 𝑘 ⃒⃒ ⃒⃒ 𝑘 ⃒⃒
𝑆(𝑋) = 𝑛 sup ⃒𝐹 (𝑋(𝑘) − ⃒ , ⃒𝐹 (𝑋(𝑘+1) − ⃒ ,

06𝑘6𝑛 𝑛 𝑛
где 𝑋(0) := −∞, 𝑋(𝑛+1) := +∞.

Доказательство. Следует из того, что 𝐹𝑛 (𝑥) = const на [𝑋(𝑘) , 𝑋(𝑘+1) ).

Критерий Мизеса-Смирнова

Теорема 11.5. (б/д)

∫︁
𝑑
𝑛 (𝐹 (𝑥) − 𝐹𝑛 (𝑥))𝑑𝐹 (𝑥) −
→ 𝜉,
R
⏟ ⏞
𝜔2

где 𝜉 ∼ 𝑎1.
𝑛 (︁ )︁2
1 𝑘− 12
Упражнение. 𝜔 2 =
∑︀
12𝑛 + 𝑋(𝑘) − 𝑛
𝑘=1

Определение 11.11. Все три критерия (Пирсона, Колмогорова-Смиронова, Мизеса-Смирнова) назы-


ваются критериями согласия, поскольку проверяют гипотезу вида 𝐻0 : P = P0 против альтернативы
𝐻1 : P ̸= P1 .

47
11.4 Байесовские критерии
Пусть мы хотим проверить гипотезу 𝐻0 : P = P0 против альтернативы 𝐻1 : P = P1 , где P0 , P1 —
доминируемые относительно меры 𝜇. Пусть 𝑄 — априорное распределение, и 𝑄(P = P0 ) = 𝑝0 , 𝑄(P =
P1 ) = 𝑝1 . Для получения критерия разобьем множество 𝒳 = 𝑆0 ⊔𝑆1 на 2, такие что 𝑋 ∈ 𝑆𝑖 ⇒ отклоняем
𝐻𝑖 .
Вероятность ошибки первого рода в такой модели равна

𝑝0 P0 (𝑋 ∈ 𝑆0 ) + 𝑝1 P1 (𝑋 ∈ 𝑆1 ) → min
𝑆0 ,𝑆1

и задача стоит⎧в том, чтобы найти такое разбиение 𝒳 , при котором она минимальна.
𝑆0 P = P0 ,


Пусть 𝑆 = — случайное множество. Имеем
⎩𝑆1 P = P1

P0 (𝑋 ∈ 𝑆0 ) = E𝐼(𝑋 ∈ 𝑆) = E (E(𝐼(𝑋 ∈ 𝑆) | 𝑋) .

Найдем условное мат.ожидание

𝑝0 𝑓0 (𝑥) 𝑝1 𝑓1 (𝑥)
E (𝐼(𝑥 ∈ 𝑆) | 𝑋 = 𝑥) = 𝐼(𝑥 ∈ 𝑆0 ) +𝐼(𝑥 ∈ 𝑆1 ) =
𝑝0 𝑓0 (𝑥) + 𝑝1 𝑓1 (𝑥) 𝑝0 𝑓0 (𝑥) + 𝑝1 𝑓1 (𝑥)
⏟ ⏞ ⏟ ⏞
𝑞0 𝑞1

= 1 − 𝐼(𝑥 ∈ 𝑆1 )𝑞0 − 𝐼(𝑥 ∈ 𝑆0 )𝑞1 .

Тогда

max E (𝐼(𝑥 ∈ 𝑆1 )𝑞0 + 𝐼(𝑥 ∈ 𝑆0 )𝑞1 ) 6 E max{𝑞0 , 𝑞1 }


𝑆0 ,𝑆1

и равенство достигается при 𝑆1 := {𝑝0 𝑓0 > 𝑝1 𝑓1 }, 𝑆0 := {𝑝1 𝑓1 > 𝑝0 𝑓0 }.

Пример 11.6. 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝑎, 1) и 𝐻0 : 𝑎 = 𝑎0 , 𝐻1 : 𝑎 = 𝑎1 и 𝑄(𝑎 = 𝑎𝑖 ) = 𝑝𝑖 . Тогда 𝑆0 имеет вид


{︂ (︂ )︂𝑛 (︂ )︂𝑛 }︂
1 [︀ 1 ∑︁ 1 [︀ 1 ∑︁
(𝑋𝑖 − 𝑎0 )2 > 𝑝0 √ (𝑋𝑖 − 𝑎1 )2
]︀ ]︀
𝑆0 = 𝑝1 √ exp − exp −
2𝜋 2 2𝜋 2
2 2 ]︀
{︂ }︂
∑︁ 𝑎 − 𝑎0 𝑝0
𝑋𝑖 − 1
[︀
= exp (𝑎1 − 𝑎0 ) 𝑛 >
2 𝑝1
𝑎21 − 𝑎20
{︂ }︂
1 𝑝0
= (𝑎1 − 𝑎0 )𝑋 > + ln .
2 𝑛 𝑝1

48