Математическая статистика
КОНСПЕКТ ЛЕКЦИЙ
автор: Александр Марков
26 мая 2017 г.
Содержание
1 Сходимость случайных векторов 3
2 Вероятностно-статистическая модель 6
8 Доверительные интервалы 31
8.1 Построение доверительных интервалов методом центральной статистики . . . . . . . . . 31
8.2 Асимптотические доверительные интервалы . . . . . . . . . . . . . . . . . . . . . . . . . . 32
9 Байесовские методы 33
9.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
9.2 Математическое описание байесовских методов. Сравнение подходов . . . . . . . . . . . . 33
10 Линейная регрессия 37
10.1 Линейная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
10.2 Гауссовская линейная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
11 Проверка гипотез 41
11.1 Построение критериев . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
11.2 Гипотезы в линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1
11.3 Критерии согласия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
11.4 Байесовские критерии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2
1 Сходимость случайных векторов
Определение 1.1. Пусть 𝜉, 𝜉1 , . . . , 𝜉𝑛 — 𝑘-мерные случайные вектора. Как и в случае случайных
величин, существуют следующие виды сходимости:
п.н.
1. 𝜉𝑛 −−−→ 𝜉 если P(𝜉𝑛 → 𝜉) = 1 (сходимость почти наверное)
√︃
𝑘
P
|𝑥𝑖 |𝑡 для 𝑥 = (𝑥1 , . . . , 𝑥𝑘 ) ∈ R𝑘
𝑡
∑︀
2. 𝜉𝑛 −
→ 𝜉 если ∀𝜀 > 0 : P(||𝜉𝑛 − 𝜉||2 > 𝜀) → 0, где ||𝑥||𝑡 =
𝑖=1
(сходимость по вероятности)
𝑑
→ 𝜉 если для любой непрерывной ограниченной функции 𝑓 : R𝑘 → R верно E𝑓 (𝜉𝑛 ) → E𝑓 (𝜉)
3. 𝜉𝑛 −
(сходимость по распределению, слабая сходимость)
𝐿𝑝 𝑝
4. 𝜉𝑛 −−→ 𝜉 если E (||𝜉𝑛 − 𝜉||𝑝 ) → 0 (сходимость в 𝐿𝑝 )
Утверждение 1.0.1. Пусть 𝜉, 𝜉1 , . . . — случайные 𝑘-мерные вектора. Тогда верны следующие взаимо-
связи между сходимостью векторов и их компонент:
⎫ ⎧
п.н. (𝑖) п.н.
𝜉𝑛 −−−→ 𝜉 ⎪
⎪
⎪
⎪
⎪
⎪ 𝜉𝑛 −−−→ 𝜉 (𝑖)
⎪
⎬ ⎪
⎨
P P
𝜉𝑛 −
→𝜉 ⇐⇒ ∀𝑖 ∈ {1, . . . , 𝑘} 𝜉𝑛(𝑖) −
→ 𝜉 (𝑖)
⎪
⎪ ⎪
⎪
𝐿𝑝 ⎪ ⎪ 𝐿𝑝
⎩𝜉 (𝑖) −
𝜉𝑛 −−→ 𝜉 ⎭ −→ 𝜉 (𝑖)
⎪ ⎪
𝑛
(𝑖)
Доказательство. 1. сходимость почти наверное. ⇒: {𝜉𝑛 → 𝜉 (𝑖) } ⊃ {𝜉𝑛 → 𝜉} и вероятность собы-
тия справа равна 1.
𝑘
(𝑗)
{𝜉𝑛 → 𝜉 (𝑗) } (известно из матана) и вероятность справа просто равна 1.
⋂︀
⇐: {𝜉𝑛 → 𝜉} =
𝑗=1
(𝑖)
2. сходимость по вероятности. ⇒: {|𝜉𝑛 − 𝜉 (𝑖) | > 𝜀} ⊂ {||𝜉𝑛 − 𝜉||2 > 𝜀}
𝑘
(𝑖)
{|𝜉𝑛 − 𝜉 (𝑖) | > 𝑘𝜀 } ⊃ {||𝜉𝑛 − 𝜉|| > 𝜀}
⋃︀
⇐:
𝑖=1
3
𝑑
→ 𝜉, ℎ : R𝑘 → R𝑚 и непрерывна (Замечание: это не тоже самое, что и первом
2. Пусть 𝜉𝑛 −
𝑑
пункте). Тогда ℎ(𝜉𝑛 ) −
→ ℎ(𝜉).
п.н.
1. 𝜉𝑛 −−−→ 𝜉:
P(ℎ(𝜉𝑛 ) → ℎ(𝜉)) > P(ℎ(𝜉𝑛 ) → ℎ(𝜉), 𝜉 ∈ 𝐵) > P(𝜉𝑛 → 𝜉, 𝜉 ∈ 𝐵) = 1
P P
2. 𝜉𝑛 −
→ 𝜉: Предположим, что ℎ(𝜉𝑛 ) −
̸ → ℎ(𝜉). Это означает, что
∃𝜀 > 0∃𝛿 > 0 : P(||ℎ(𝜉𝑛 ) − ℎ(𝜉)|| > 𝜀) > 𝛿 — (1)
для бесконечно многих 𝑛. Пусть {𝑛𝑗 } это те номера, при которых верно неравенство выше. Из
P п.н.
условия 𝜉𝑛𝑗 −
→ 𝜉. По лемме можно выделить подпоследовательность 𝜉𝑛𝑗𝑘 −−−→ 𝜉. По доказанному
п.н.
ранее, ℎ(𝜉𝑛𝑗𝑘 −−−→ ℎ(𝜉), что противоречит (1).
𝑑
→ 𝜉: Рассмотрим непрерывную ограниченную функцию 𝑓 : R𝑚 → R. Тогда 𝑓 (ℎ) = 𝑓 ∘ℎ : R𝑘 → R
3. 𝜉𝑛 −
— непрерывная и ограниченная функция, а значит
𝑑
и ℎ(𝜉𝑛 ) −
→ ℎ(𝜉).
𝑑 𝑑 𝑑 𝑑
1. Если 𝜉𝑛 −
→ 𝜉, a 𝜂𝑛 −
→ 𝜂 = 𝑐 = 𝑐𝑜𝑛𝑠𝑡 — случайные величины. Тогда 𝜉𝑛 + 𝜂𝑛 −
→ 𝜉 + 𝑐, 𝜉𝑛 𝜂𝑛 −
→ 𝑐𝜉
𝑑 P
2. Если 𝜉𝑛 −
→ 𝜉 = 𝑐𝑜𝑛𝑠𝑡 — случайные вектора, то 𝜉𝑛 −
→ 𝜉.
4
𝑑
→ 𝜉 — случайные вектора размерности 𝑚 > 1, ℎ : R𝑚 → R — функция,
Утверждение 1.0.2. Пусть 𝜉𝑛 −
дифференцируемая в точке 𝑎 ∈ R𝑚 . Пусть 𝑏𝑛 → 0, 𝑏𝑛 ̸= 0. Тогда
ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) 𝑑
−
→ ⟨𝜉, ∇ℎ|𝑎 ⟩
𝑏𝑛
P
Доказательство. 𝑏𝑛 → 0 ⇒ 𝑏𝑛 𝜉𝑛 −
→ 0 по лемме Слуцкого. По формуле Тейлора справедливо представ-
ление
ℎ(𝑎 + 𝑥) = ℎ(𝑎) + ⟨∇ℎ|𝑎 , 𝑥⟩ + 𝜙(𝑥)
𝜙(𝑥)
где 𝜙(𝑥) = 𝑜(||𝑥||) и непрерывна в 0. Поскольку ||𝑥|| → 0, то по теореме о наследовании сходимости
𝜙(𝜉𝑛 𝑏𝑛 ) P
||𝑏𝑛 𝜉𝑛 || −
→ 0.
Подставим в формулу Тейлора 𝑥 = 𝜉𝑛 𝑏𝑛 :
ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) 𝑑
−
→ ⟨𝜉, ∇ℎ|𝑎 ⟩
𝑏𝑛
5
2 Вероятностно-статистическая модель
Предположим, что мы наблюдаем некоторый эксперимент. Пусть X — множество всех возможных
значений эксперимента.
Мотивировка: заметим, что P(𝑋 ∈ 𝐵) = P𝑋 (𝐵) ⇒ P𝑋 (𝑥) = P(𝑥), где P — заданное распределение
на (X , B(X )).
Рассмотрим теперь X 𝑛 . Зададим на нем B(X 𝑛 ) = 𝜎(𝐵1 × . . . × 𝐵𝑛 , 𝐵𝑖 ∈ B(X )). Зададим распреде-
ление вероятностней P𝑛 на (X 𝑛 , B(X 𝑛 )) по правилу P𝑛 (𝐵1 × . . . × 𝐵𝑛 ) = P(𝐵1 ) . . . P(𝐵𝑛 ) ∀𝐵𝑖 ∈ B(X ).
Утверждение 2.0.1. (б/д, следствие теоремы о продолжении меры). Существует единственная веро-
ятностная мера P* , заданная на всем (X 𝑛 , B(X 𝑛 )), такая что ∀𝐵𝑖 ∈ B(X ) : P* (𝐵1 × . . . × 𝐵𝑛 ) =
P𝑛 (𝐵1 × . . . × 𝐵𝑛 ). Будем обозначать P* тем же символом P𝑛 .
6
Определение 2.5. X ∞ = X × X × . . . = (𝑥1 , 𝑥2 , . . .), ∀𝑖 𝑥𝑖 ∈ X — множество бесконечных последо-
вательностей элементов из X .
B(X ∞ ) = 𝜎({(𝑥1 , . . . , 𝑥𝑛 , . . .)| (𝑥1 , . . . , 𝑥𝑛 ) ∈ 𝐵, 𝐵 ∈ B(X 𝑛 )}, ∀𝑛 ∈ N) — цилиндрическая 𝜎-
алгебра. Под знаком 𝜎 рассматриваются все множества из X ∞ , такие что для некоторого 𝑛, первые 𝑛
их координат являются координатами множества из B(X 𝑛 ).
Утверждение 2.0.3. Существует единственная вероятностная мера P* , заданная на всем (X ∞ , B(X ∞ )),
совпадающая на элементах B(X 𝑛 ) с P𝑛 . — аналогично 𝑛-мерному случаю, будем обозначать P* так
же P∞ .
Определение 2.7. Функция 𝑋 : X ∞ → 𝑋 ∞ такая что 𝑋(𝑥) = 𝑥, как и прежде, называется наблюде-
нием.
Утверждение 2.0.4. (б/д, аналогично конечномерному случаю)Пусть 𝑋 = (𝑋1 , 𝑋2 , . . .). Тогда {𝑋𝑖 }∞
𝑖=1
где
a) X — выборочное пространство,
b) B(X ) — 𝜎-алгебра на X ,
7
3 Статистики. Непараметрические статистики
𝑋1 +...+𝑋𝑛
Пример 3.1. 𝑋 = 𝑛 — выборочное среднее.
Пример 3.2. Пусть 𝑔 — некоторая (B(X )|E )-измеримая функция. Тогда статистикой является 𝑔(𝑋) =
𝑔(𝑋1 )+...+𝑔(𝑋𝑛 )
𝑛 . Такая статистика называется выборочной характеристикой.
Пример 3.3. Различные функции от выборочных характеристик тоже являются статистиками. Для
2
примера рассмотрим ℎ(𝑥, 𝑦) = 𝑥 − 𝑦 2 , ℎ : R2 → R, X = R. Тогда ℎ(𝑋 2 , 𝑋) = 𝑋 2 − 𝑋 является
статистикой, называется выборочной дисперсией и обозначается 𝑠2 .
𝑛
1
Утверждение 3.1.1. 𝑠2 = (𝑋𝑖 − 𝑋)2
∑︀
𝑛
𝑖=1
1 ∑︁
D𝜉 = E(𝜉 − E𝜉)2 = E(𝜉 − 𝑥)2 = (𝑥𝑖 − 𝑥)2
𝑛
2 2
= E𝜉 2 − (E𝜉) = 𝑥2 − (𝑥)
𝑋(1) = min{𝑋1 , . . . , 𝑋𝑛 }
...
𝑋(𝑛) = max{𝑋1 , . . . , 𝑋𝑛 }
8
Определение 3.2. Вероятностная мера P*𝑛 , заданная по правилу
𝑛
1 ∑︁
P*𝑛 (𝐵) = 𝐼(𝑋𝑖 ∈ 𝐵)
𝑛 𝑖=1
п.н.
𝐷𝑛 = sup |𝐹𝑛* (𝑥) − 𝐹 (𝑥)| −−−→ 0
𝑥∈R
9
Теорема 3.2. (б/д, Колмогорова-Смирнова)
Пусть {𝑋𝑛 }∞
𝑛=1 — выборка неограниченного размера из распределения с непрерывной функцией рас-
пределения 𝐹 . Тогда
√ 𝑑
𝑛 sup |𝐹𝑛* (𝑥) − 𝐹 (𝑥)| −
→𝜉
𝑥∈R
Определение 3.4. Пусть 𝑄 — некоторое распределение вероятностей с плотностью 𝑞(𝑥). Тогда если
𝑞(𝑥) симметрична относительно 0, то 𝑞(𝑥) называется ядром.
2
Пример 3.5. 𝑞(𝑥) = √1 𝑒−𝑥 /2 — гауссово ядро.
2𝜋
10
4 Параметические распределения. Оценки параметров
Определение 4.1. Пусть 𝑆 : X → Θ — измеримая функция, такая что 𝑆(𝑋) — статистика. Тогда
𝑆(𝑋) называется оценкой параметра 𝜃.
Если 𝑆 : X → 𝜏 (Θ) — измеримая функция, такая что 𝑆(𝑋) — статистика, то 𝑆(𝑋) — оценка
параметра 𝜏 (𝜃).
1
∑︀
Пример 4.1. Рассмотрим оценку 𝑋. E𝜃 𝑋 = 𝑛 E𝜃 𝑋𝑖 = E𝜃 𝑋1 , а значит 𝑋 это несмещенная оценка
параметра 𝜏 (𝜃) = E𝜃 𝑋1 .
Определение 4.3. Очевидно, что при различных 𝑛 (размерах выборки) оценка 𝜃𝑛* = 𝜃* (𝑋1 , . . . , 𝑋𝑛 )
принимает различные значения. Рассмотрим последовательность оценок {𝜃𝑛* }∞ *
𝑛=1 . Оценка 𝜃 называется
P P п.н.
∀𝜃 ∈ Θ : 𝜃𝑛* →𝜃 𝜃 (𝜃𝑛* −−
𝜃
−−→ 𝜃 )
Пример 4.2. Оценка 𝑋 является состоятельной оценкой по ЗБЧ для E𝜃 𝑋1 , и даже сильно состоятель-
ной оценкой для E𝜃 𝑋1 по УЗБЧ
√ 𝑑
𝑛 (𝜃𝑛* (𝑋1 , . . . , 𝑋𝑛 ) − 𝜃) −→
𝜃
𝒩 (0, 𝜎 2 (𝜃))
11
Утверждение 4.1.1. Пусть оценка 𝜃* является асипмтотически нормальной оценкой параметра 𝜃. Тогда
оценка 𝜃* — состоятельная.
Доказательство.
√ 𝑑𝜃
⎫
𝑛 (𝜃* − 𝜃) −→ 𝜉 ∼ 𝒩 (0, 𝜎 2 (𝜃))⎬ 𝑑 P
⇒ по лемме Слуцкого 𝜃* − 𝜃 −→
𝜃
0 ⇒ 𝜃* − 𝜃 →𝜃 0
√1 →0
⎭
𝑛
√ 𝑑
Доказательство. Применим утверждение 1.0.2 для ℎ = 𝜏, 𝑏𝑛 = √1 , 𝜉𝑛
𝑛
= 𝑛 (𝜃* − 𝜃) −→
𝜃
𝜂 ∼ 𝒩 (0, 𝜎 2 (𝜃))
и 𝑎 = 𝜃. Имеем:
ℎ(𝑎 + 𝜉𝑛 𝑏𝑛 ) − ℎ(𝑎) √ 𝑑𝜃
(︁ ]︀2 )︁
= 𝑛 (𝜏 (𝜃* ) − 𝜏 (𝜃)) −→ 𝒩 0, 𝜎 2 (𝜃) 𝜏 ′ (𝜃)
[︀
𝑏𝑛
√
(︂ )︂ (︂ )︂
1 𝑑𝜃 1
𝑛 𝑋− −→ 𝒩 0, 2
𝜃 𝜃
1
Рассмотрим функцию 𝜏 (𝑥) = 𝑥, дифференцируемую на (0, +∞) = Θ. Применяя утверждение 4.1.3,
получаем ⎛ ⃒ ⎞
√
(︂ )︂ ]︁2 ⃒
1 𝑑𝜃 1 [︁ 1
𝑛 −𝜃 −→ 𝒩 ⎝0, 2 − 2 ⃒ ⎠ = 𝒩 (0, 𝜃2 )
⃒
𝑋 𝜃 𝑥 ⃒1
𝜃
1
что означает, что оценка 𝑋
является асимптотически нормальной оценкой параметра 𝜃 с дисперсией
𝜃2 .
12
Пример 4.5. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из 𝒩 (𝜃, 1). Плотность такого распределения
1 [︀ (𝑥 − 𝜃)2 ]︀
𝑝𝜃 = exp −
2𝜋 2
√
Тогда (𝑥 − 𝜃)2 = −2 ln( 2𝜋𝑝𝜃 ) и значение 𝜃 явно выражается.
Однако, зачастую такой метод непременим в виду сложности функции 𝐺, поэтмоу рассмотрим дру-
гие методы.
2) Метод моментов
Будем считать, что Θ ⊂ R𝑘 . Рассмотрим борелевские функции 𝑔1 , . . . , 𝑔𝑘 , действующие из R в R,
такие что функция 𝑚(𝜃), заданная по правилу
является биекцией
⎛ с обратной
⎞ функцией 𝑚−1 .
𝑔 (𝑋)
⎜ 1 ⎟
Найдем 𝑚−1 ⎜ . . . ⎟ = 𝜃* — это и будет оценкой для 𝜃, полученной методом моментов
⎜ ⎟
⎝ ⎠
𝑔𝑘 (𝑋)
Замечание. Часто 𝑔𝑘 (𝑥) = 𝑥𝑘 — стандартные пробные функции. Иногда стоит рассматривать в каче-
стве функций 𝑔𝑖 индикаторы.
Пример 4.6. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из гамма распределения с параметрами (𝛼, 𝜆), 𝑔1 (𝑥) =
𝑥, 𝑔2 (𝑥) = 𝑥2 . В таком случае
+∞ +∞
𝛼𝜆 𝑒−𝛼𝑥 𝑥𝜆 𝛼𝜆+1 𝑒−𝛼𝑥
∫︁ ∫︁
Γ(𝜆 + 1) 𝜆
E𝜃 𝑋1 = 𝑥 𝑑𝑥 = 𝑑𝑥 =
Γ(𝜆) Γ(𝜆)𝛼 Γ(𝜆) 𝛼
0 0
+∞
𝛼𝜆 𝑒−𝛼𝑥
∫︁
2 Γ(𝜆 + 2) 1 𝜆(𝜆 + 1)
E𝜃 𝑋1 = 𝑥2 𝑑𝑥 = =
Γ(𝜆) Γ(𝜆) 𝛼2 𝛼2
0
⎛ ⎞
𝜆/𝛼
Тогда 𝑚(𝜃) = ⎝ ⎠ и 𝜃 = (𝛼, 𝜆). Решим систему
𝜆(𝜆 + 1)/𝛼2
⎧ ⎧
*
⎨ 𝜆* = 𝑋
⎪ ⎨𝛼* = 𝑋2
⎪
𝛼 ⇒ 𝑠
2
⎩ 𝜆(𝜆 + 1)
⎪ ⎩𝜆* = (𝑋)
⎪
𝛼*2 𝑠2
Утверждение 4.2.1. Пусть 𝑚−1 непрерывна на 𝑚(Θ). Тогда оценка, полученная методом моментов,
является сильно состоятельной.
13
⎛ ⎞
𝑔1 (𝑋)
⎜ ⎟
P𝜃 п.н. ⎟ P𝜃 п.н.
Доказательство. По УЗБЧ 𝑔𝑖 (𝑋) −− −−→ E𝜃 𝑔𝑖 (𝑋), откуда ⎜ . . . ⎟ −−−−→ 𝑚(𝜃), а значит, по теореме
⎜
⎝ ⎠
𝑔𝑘 (𝑋)
⎛ ⎞
𝑔 (𝑋)
⎜ 1 ⎟
−1 ⎜ ⎟ P𝜃 п.н.
о наследовании сходимости 𝑚 ⎜ . . . ⎟ −− −−→ 𝜃.
⎝ ⎠
𝑔𝑘 (𝑋)
2 ]︀
Утверждение 4.2.2. (б/д) Пусть Θ ⊂ R, 𝑚−1 дифференцируема на 𝑚(Θ) и существует E𝜃 (𝑔1 (𝑋1 )) .
[︀
В случае, если 𝐹 непрерывна, 𝑧𝑝 = 𝐹 −1 (𝑝). Если 𝐹 разрывна, то либо 𝑧𝑝 = 𝐹 −1 (𝑝), либо, если 𝐹 −1 (𝑝)
не существует, то существует точка 𝑧, в которой у 𝐹 разрыв, такая что 𝐹 (𝑧 − 0) < 𝑝, 𝐹 (𝑧 + 0) > 𝑝. В
таком случае 𝑧𝑝 = 𝑧.
1
Пример 4.7. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из распределения Коши со сдвигом 𝜃, 𝑓 (𝑥) = 𝜋(1+(𝑥−𝜃)2 ) .
1
Нетрудно заметить, что плотность симметрична относительно 𝜃, а значит 𝐹 (𝜃) = 2 и 𝜃 является меди-
аной 𝜇 = 𝜃.
𝜋2
Тогда 𝜇* это а.н.о. 𝜃 с а.д. 4
14
Пример 4.8. Пусть 𝑋1 , . . . , 𝑋𝑛 — выборка из 𝒩 (𝜃, 3). Найдем оценки для 𝜃 по методу моментов и
методу квантилей: по методу моментов это 𝑋, а по методу квантилей: 𝜇* . Для 𝜃* = 𝑋 а.д. равна 3.
𝑝(𝜃) = √1 ,
6𝜋
а значит а.д. 𝜃* = 𝜇* равна 3𝜋
2 .
15
5 Способы сравнения статистик
Замечание. Как правило, 𝑔(𝑥, 𝑦) = |𝑥 − 𝑦| или 𝑔(𝑥, 𝑦) = (𝑥 − 𝑦)2 . В многомерном случае часто 𝑔(𝑥, 𝑦) =
⟨𝐴(𝑥 − 𝑦), (𝑥 − 𝑦)⟩, где 𝐴 — некоторая неотрицательно определенная матрица.
Определение 5.2. Пусть 𝒦 — некоторый класс оценок. Оценка 𝜃* ∈ 𝒦 называется наилучшей в классе
𝒦, если она лучше всех других оценок из 𝒦.
Существует несколько подходов определения какая из двух оценок является лучшей. Приведем
здесь их.
1) Равномерный подход
Утверждение 5.1.1. В классе всевозможных оценок 𝒦 нет наилучшей в равномерном подходе. (считаем
𝑔(𝑥, 𝑦) = (𝑥 − 𝑦)2 или |𝑥 − 𝑦|)
2) Байесовский подход
Очевидно, что если оценка является наилучшей в равномерном подходе, то она является лучшей и
в байесовском. Обратное же неверно.
3) Минимаксный подход
4) Асимптотический подход
Определение 5.6. Пусть 𝒦 — класс всех асимптотически нормальных оценок. Тогда оценка 𝜃* лучше
оценки 𝜃̂︀ в асимптотическом подходе, если ∀𝜃 ∈ Θ :
𝜎 2 (𝜃* , 𝜃) 6 𝜎 2 (𝜃,
̂︀ 𝜃),
16
5.2 Поиск наилучшей оценки в классе несмещенных оценок
В этом разделе используется равномерный подход с функцией потерь 𝑔(𝑥, 𝑦) = (𝑥 − 𝑦)2 .
Рассмотрим сначала некоторое дискретное распределение 𝑃 (будем считать б.о.о, что 𝑃 определено
на Z+ ).
∑︀ ∑︀ ∫︀
Определение 5.7. Положим P(𝐵) = P({𝑘}) = 𝑝(𝑘) =: 𝑝(𝑥)𝜇(𝑑𝑥), где 𝜇(𝑑𝑥) — счита-
𝑘∈𝐵∩Z+ 𝑘∈𝐵∩Z+ 𝐵
ющая мера, т.е. 𝜇 : B(R) → Z+ ∪ {+∞} и 𝜇(𝐵) = |𝐵 ∩ Z|.
𝜕
Определение 5.9. Функция 𝑢𝜃 (𝑥) = 𝜕𝜃 ln 𝑝𝜃 (𝑥) называется вкладом наблюдения 𝑥, а функция 𝐼𝑋 (𝜃) =
2
E𝜃 [𝑢𝜃 (𝑋)] — информацией Фишера
R3: 𝜃 ∈ Θ и для любой статистики 𝑆(𝑋) с конечным вторым моментом справедливо дифференциро-
вание под знаком интеграла, т.е. верно равенство:
[︂ ]︂
𝜕 𝜕
E𝜃 𝑆(𝑥) = E𝜃 𝑆(𝑥) ln 𝑝𝜃 (𝑥)
𝜕𝜃 𝜕𝜃
обосновать которое можно так:
∫︁ ∫︁
𝜕 𝜕 1
𝑆(𝑥)𝑝𝜃 (𝑥)𝜇(𝑑𝑥) = 𝑆(𝑥) 𝑝𝜃 (𝑥) · 𝑝𝜃 (𝑥)𝑑𝑥 =
𝜕𝜃 𝜕𝜃 𝑝𝜃 (𝑥)
R 𝐴
∫︁ [︂ ]︂ [︂ ]︂
𝜕 𝜕
= 𝑆(𝑥) ln 𝑝𝜃 (𝑥) 𝑝𝜃 (𝑥)𝑑𝑥 = E𝜃 𝑆(𝑥) ln 𝑝𝜃 (𝑥)
𝜕𝜃 𝜕𝜃
R
17
Доказательство. Рассмотрим статистику 𝑆(𝑋) = 1. Используя R3, имеем
𝜕 𝜕
0= E𝜃 1 = E𝜃 ln 𝑝𝜃 (𝑥) ⇒ E𝜃 𝑢𝜃 (𝑋) = 0 (1)
𝜕𝜃 𝜕𝜃
𝜏 ′ (𝜃) = E𝜃 𝜃𝑢
̂︀ 𝜃 (𝑋) (2)
Следствие 5.1.1. Наилучшей оценкой является та, для которой достигается равенство.
Определение 5.10. Если ∀𝜃 ∈ Θ для несмещенной оценки 𝜃̂︀ параметра 𝜏 (𝜃) в неравенстве Рао-Крамера
достигается равенство, то оценка 𝜃̂︀ называется эффективной.
Посчитав мат.ожидание обеих частей равенства, справа имеем 𝜏 ′ (𝜃) аналогично док-ву неравенства
𝜏 ′ (𝜃)
Рао-Крамера, а слева 𝑐(𝜃)𝐼𝑋 (𝜃), а значит равенство возможно только при 𝑐(𝜃) = 𝐼𝑋 (𝜃)
Следствие 5.2.1. Если есть оценка 𝜃̂︀ не хуже 𝜃* , то к ней можно применить те же рассуждения
и получить, что 𝜃* = 𝜃.
̂︀
Следствие 5.2.2. Эффективная оценка является наилучшей в классе несмещенных оценок в равно-
мерном подходе с квадратичной функцией потерь.
Исследуем D𝜃 на сходимость.
18
Пусть 𝑋 = (𝑋1 , . . . , 𝑋𝑛 ). Тогда
где 𝑖(𝜃) — информация Фишера одного элемента выборки. Взяв 𝜏 (𝜃) = 𝜃, имеем D𝜃 𝜃* > 1
𝐼𝑋 (𝜃) = 1
𝑛𝑖(𝜃) , а
значит D𝜃 𝜃* → 0 как 1
𝑛
19
6 Оценка максимального правдоподобия
Рассмотрим семейство параметрических распределений 𝒫 = {P𝜃 , 𝜃 ∈ Θ}, доминируемое относительно
меры 𝜇, и 𝑝𝜃 — плотность P𝜃 .
Определение 6.2. Оценка 𝜃* = arg max 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 ) называется оценкой максимального правдопо-
добия.
Откуда 𝜃* = 𝑋(𝑛) .
20
∫︀
R6: Интеграл 𝑝𝜃 (𝑥)𝜇(𝑑𝑥) трижды дифференцируемый по 𝜃 под знаком интеграла.
𝐴
[︀ 𝜕
]︀2
R7: E𝜃 𝜕𝜃 ln 𝑝𝜃 (𝑋1 ) = 𝑖(𝜃) ∈ (0, +∞).
⃒ 3 ⃒
⃒𝜕
R8: ∀𝜃0 ∈ Θ ∃𝑐 > 0 ∃𝐻(𝑥) : ∀𝜃 ∈ (𝜃0 − 𝑐, 𝜃0 + 𝑐) : ⃒ 𝜕𝜃 3 ln 𝑝𝜃 (𝑥)⃒ < 𝐻(𝑥) и E𝜃 𝐻(𝑋1 ) < +∞
⃒
𝑛→∞
P𝜃0 (𝑓𝜃0 (𝑋1 , . . . , 𝑋𝑛 ) > 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )) −−−−→ 1
Доказательство.
{︂ }︂
𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )
{𝑓𝜃0 (𝑋1 , . . . , 𝑋𝑛 ) > 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )} = <1
𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )
⎧ 0 ∏︁ ⎫
⎨ 𝑝𝜃 (𝑋1 , . . . , 𝑋𝑛 ) ⎬
= ln ∏︁ <0
⎩ 𝑝𝜃0 (𝑋1 , . . . , 𝑋𝑛 ) ⎭
{︂ ∑︁ }︂
1 𝑝𝜃 (𝑋𝑖 )
= ln <0
𝑛 𝑝𝜃0 (𝑋𝑖 )
1 ∑︀ ln 𝑝𝜃 (𝑋𝑖 ) −
По УЗБЧ, 𝑛
P𝜃 п.н.
−−−→ EP𝜃0 ln 𝜃 1
𝑝 (𝑋 )
𝑝𝜃0 (𝑋𝑖 ) 𝑝𝜃0 (𝑋1 )
∫︁
𝑝𝜃 (𝑥) 𝑝𝜃 (𝑥)
E𝜃0 ln = ln 𝑝𝜃0 (𝑥)𝜇(𝑑𝑥)
𝑝𝜃0 (𝑥) 𝑝𝜃0
𝐴
∫︁ (︂ )︂
𝑝𝜃 (𝑥)
6 − 1 𝑝𝜃0 𝜇(𝑑𝑥)
𝑝𝜃0 (𝑥)
𝐴
∫︁
= (𝑝𝜃 (𝑥) − 𝑝𝜃0 (𝑥)) 𝜇(𝑑𝑥) = 1 − 1 = 0
𝐴
𝑝𝜃 (𝑥)
где мы воспользовались неравенством ln(1+𝑥) 6 𝑥. Равенство в оценке достигается при 𝑝𝜃0 (𝑥) −1 =0⇒
𝑝𝜃 (𝑥) = 𝑝𝜃0 (𝑥) равенство при всех 𝑥 или при 𝑥 из множества меры 0, очевидно, противоречит условию
P𝜃 ̸= P𝜃0 , а значит E𝜃0 ln 𝑝𝑝𝜃𝜃 (𝑥)
(𝑥) < 0 — если оно существует.
0
Утверждение 6.0.1. Если |Θ| < ∞ и при фиксированных 𝑋1 , . . . , 𝑋𝑛 найдется arg max 𝑓𝜃 (𝑋1 , . . . , 𝑋𝑛 )
𝜃∈Θ
то существует оценка максимального правдоподобия 𝜃* .
21
Доказательство. Предположим, что 𝜃* не является состоятельной. Тогда ∃𝜀 > 0∃𝛿 > 0∃𝜃 ∈ Θ такие,
что ⎧
⎨P𝜃 (|𝜃* − 𝜃| > 𝜀) > 𝛿
⎪
∀𝑛 ∈ N
⇒ противоречие.
⎩∀𝜃0 ∈ Θ : P𝜃 (𝑓𝜃 > 𝑓𝜃 ) → 1
⎪
0 0
Определение 6.3. Оценка 𝜃* называется асимптотически эффективной, если она является наилуч-
шей в асимптотическом подходе в классе асимптотически нормальных оценок с непрерывной асимпто-
тической дисперсией.
Теорема 6.4. Пусть выполнены условия из неравенства Рао-Крамера. Тогда эффективная оценка
является оценкой максимального правдоподобия.
𝜕
ln 𝑓𝜃 > 0 ⇐⇒ 𝜃* > 𝜃
𝜕𝜃
𝜕
ln 𝑓𝜃 < 0 ⇐⇒ 𝜃* < 𝜃
𝜕𝜃
22
7 Условное математическое ожидание
P(𝐴) = 0 ⇒ 𝜈(𝐴) = 0
Замечание. Понятие абсолютной непрерывности как свойства функции или меры носит гораздо более
общий характер. Например, распределение вероятностей в абсолютно непрерывном случае является
∫︀
абсолютно непрерывным относительно меры Лебега, поскольку P(𝐵) = 𝑔(𝑥)𝑑𝑥, где 𝑔 — это плотность
𝐵
распределения P.
Теорема 7.2. Если 𝜉 — случайная величина на (Ω, F , P), такая что E|𝜉| < +∞, а 𝒢 ⊂ F — некоторая
𝜎-алгебра, то существует E(𝜉|𝒢) единственное P-п.н.
+∞
∑︁ E𝜉𝐼𝐷𝑖
E(𝜉|𝒢) = 𝐼𝐷
𝑖=1
P(𝐷𝑖 ) 𝑖
23
Доказательство. Обозначим 𝜂 := E(𝜉|𝒢). Покажем сначала, что на любом множестве из разбиения 𝜂
равна константе.
Предположим противное. Тогда, без ограничения общности, ∃𝜔1 , 𝜔2 ∈ 𝐷1 : 𝜂(𝜔1 ) = 𝑐1 ̸= 𝑐2 = 𝜂(𝜔2 ).
Рассмотрим множество 𝜂 −1 ({𝑐1 }) ∩ 𝐷1 = 𝐴. Оно лежит в 𝒢 поскольку 𝜂 — 𝒢-измеримая величина, и
оно отлично от 𝐷1 и ∅ поскольку в нем лежит 𝜔1 и не лежит 𝜔2 . Однако, так как 𝒢 = 𝜎(𝐷1 , . . .) —
объединение конечного и бесконечного числа множеств 𝐷𝑖 , то 𝐴 не может лежать в 𝒢 — противоречие,
∞
∑︀
т.е. E(𝜉|𝒢) = 𝑐𝑖 𝐼𝐷𝑖 .
𝑖=1
Воспользуемся интегральным свойством у.м.о. для 𝐴 = 𝐷𝑖 . Имеем
⎛ ⎞
∞
∑︁
E𝜉𝐼𝐴 = E𝜂𝐼𝐴 = E ⎝ 𝑐𝑗 𝐼𝐷𝑗 ⎠ 𝐼𝐷𝑖 = E𝑐𝑖 𝐼𝐷𝑖 = 𝑐𝑖 P(𝐷𝑖 )
𝑗=1
Пример 7.1. Предположим, что мы бросаем кубик и 𝜉 — количество очков, выпавшее на кубике. Пусть
E𝜉𝐼𝐷1 E𝜉𝐼𝐷2
𝐷1 = {1, 3, 5} и 𝐷2 = {2, 4, 6} — разбиение Ω. Тогда E(𝜉|𝜎(𝐷1 , 𝐷2 )) = P(𝐷1 ) 𝐼𝐷1 + P(𝐷2 ) 𝐼𝐷2 = 32 𝐼𝐷1 + 24 𝐼𝐷2 .
Доказательство. Пусть 𝜁 := 𝑎E(𝜉|𝒢) + 𝑏E(𝜂|𝒢) — 𝒢-измеримая случайная величина. Проверим для нее
интегральное свойство для 𝐴 ∈ 𝒢:
24
Доказательство. Пусть 𝐴 ∈ 𝒢. По интегральному свойству имеем:
откуда, поскольку это верно для любого 𝐴 ∈ 𝒢, из курса теории вероятностей, следует, что E(𝜂−𝜉|𝒢) > 0
п.н.
Утверждение 7.1.9. Пусть 𝜉, 𝜂 — случайные величины, такие что E|𝜉𝜂| < +∞, E|𝜂| < +∞ и 𝜂 является
𝒢-измеримой. Тогда E(𝜉𝜂|𝒢) = 𝜂E(𝜉|𝒢).
25
7.2 Поиск УМО в абсолютно непрерывном случае
Обозначим
E(𝜉|𝜂) = E (𝜉 | F𝜂 )
Определение 7.4. E(𝜉|𝜂 = 𝑦) = 𝜙(𝑦), где 𝜙 — борелевская функця, такая что ∀𝐵 ∈ B(R) :
∫︁ ∫︁
E𝜉𝐼(𝜂 ∈ 𝐵) = 𝜙(𝑦)P𝜂 (𝑑𝑦) = E𝜙(𝜂)𝐼(𝜂 ∈ 𝐵) = 𝜙(𝜂(𝜔))P(𝑑𝜔).
𝐵 𝜔:𝜂(𝜔)∈𝐵
Определение 7.6. Функция 𝑝(𝜉|𝜂) (𝑥 | 𝑦) > 0 называется условной плотностью 𝜉 при условии 𝜂, если
для любых 𝐵 ∈ B(R), 𝑦 ∈ R выполнено равенство
∫︁
P𝜉 (𝐵|𝜂 = 𝑦) = 𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥.
𝐵
Утверждение 7.2.1. Пусть 𝑔 — борелевская функция, 𝜉, 𝜂 — случайные величины на (Ω, F , P), E|𝑔(𝜉)| <
∫︀
∞ и 𝑝(𝜉|𝜂) (𝑥 | 𝑦) — условная плотность. Тогда E(𝑔(𝜉) | 𝜂 = 𝑦) = 𝑔(𝑥)𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥
R
Пусть 𝑔 = 𝐼𝐴 и 𝐴 ∈ B(R).
E𝐼(𝜉 ∈ 𝐴)𝐼(𝜂 ∈ 𝐵) = P(𝜉 ∈ 𝐴, 𝜂 ∈ 𝐵). Перепишем интеграл
⎛ ⎞ ⎛ ⎞
∫︁ ∫︁ ∫︁ ∫︁
⎝ 𝐼(𝑥 ∈ 𝐴)𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥⎠ P𝜂 (𝑑𝑦) = ⎝ 𝑝(𝜉|𝜂) (𝑥 | 𝑦)𝑑𝑥⎠ P𝜂 (𝑑𝑦)
𝐵 R 𝐵 𝐴
∫︁
= P𝜉 (𝐴 | 𝜂 = 𝑦)P𝜂 (𝑑𝑦)
𝐵
∫︁
= E (𝐼(𝜉 ∈ 𝐴) | 𝜂 = 𝑦) P𝜂 (𝑑𝑦)
𝐵
= E𝐼(𝜉 ∈ 𝐴)𝐼(𝜂 ∈ 𝐵)
26
Для простых случайных величин утверждение следует из линейности мат.ожидания. Произвольную
случайную величину можно приблизить простыми и воспользоваться теоремой Лебега о мажорируемой
сходимости.
Теорема 7.4. Если существует плотность 𝑝(𝜉,𝜂) (𝑥, 𝑦), то существует и условная плотность
⎧
⎨ 𝑝(𝜉,𝜂) (𝑥,𝑦)
⎪
𝑝𝜂 (𝑦) ̸= 0,
𝑝𝜂 (𝑦)
𝑝(𝜉|𝜂) (𝑥 | 𝑦) = .
⎩0
⎪
𝑝𝜂 (𝑦) = 0
𝑝(𝜉,𝜂) (𝑥, 𝑦)
∫︁
P𝜉 (𝐵 | 𝜂 = 𝑦) = 𝐼(𝑝𝜂 (𝑦) ̸= 0)𝑑𝑥
𝑝𝜂 (𝑦)
𝐵
А с другой
∫︁
P(𝜉 ∈ 𝐵, 𝜂 ∈ 𝐴) = 𝑝(𝜉,𝜂) (𝑥, 𝑦)𝑑𝑥𝑑𝑦 =
𝐵×𝐴
⎡ ⎤ ⎡ ⎤
𝑝(𝜉,𝜂) (𝑥, 𝑦)
∫︁ ∫︁ ∫︁ ∫︁
= ⎣ 𝑝(𝜉,𝜂) (𝑥, 𝑦)𝑑𝑥⎦ 𝑑𝑦 = ⎣ 𝐼(𝑝𝜂 (𝑦) ̸= 0)𝑑𝑥⎦ 𝑝𝜂 (𝑦)𝑑𝑦,
𝑝𝜂 (𝑦)
𝐴 𝐵 𝐴 𝐵
3. E(𝑔(𝜉) | 𝜂) = 𝜙(𝜂).
27
Определение 7.8. Пусть 𝑋 — наблюдение из распределения P ∈ 𝒫 = {P𝜃 }. Тогда статистика 𝑆(𝑋)
называется достаточной, если ∀𝐵 ∈ B(R𝑛 ) величина P𝜃 (𝑋 ∈ 𝐵 | 𝑆(𝑋)) не зависит от 𝜃.
откуда
2. 𝜃* — несмещенная оценка 𝜃
3. D𝜃 𝜃* 6 D𝜃 𝜃,
̂︀ причем равенство ∀𝜃 ∈ Θ ⇐⇒ 𝜃* = 𝜃̂︀ P𝜃 почти наверное
3.
[︁ ]︁
2 ̂︀ * )+(𝜃* −𝜃) 2 = E𝜃 (𝜃−𝜃
̂︀ * )2 +D𝜃 𝜃* +2E𝜃 (𝜃−𝜃
̂︀ * )(𝜃* −𝜃) = D𝜃 𝜃* +E𝜃 (𝜃̂︀ − 𝜃* )2
[︀ ]︀
D𝜃 (𝜃)
̂︀ = E𝜃 (𝜃−𝜃)
̂︀ = E𝜃 (𝜃−𝜃
⏟ ⏞
>0
28
поскольку
[︃ ]︃
[︁ ]︁ (︁ )︁ [︁ (︁ )︁ ]︁
* * * *
E𝜃 (𝜃 − 𝜃 )(𝜃 − 𝜃) = E𝜃 E (𝜃 − 𝜃 )(𝜃 − 𝜃) | 𝑆(𝑋)
̂︀ ̂︀ = E𝜃 (𝜃* − 𝜃)E 𝜃̂︀ − 𝜃* | 𝑆(𝑋) =0
Определение 7.9. Статистика 𝑆(𝑋) называется полной, если для любой борелевской функции 𝑓 из
условия, что ∀𝜃 ∈ Θ : E𝜃 𝑓 (𝑆(𝑋)) = 0 следует, что 𝑓 (𝑆(𝑋)) = 0 P𝜃 п.н. ∀𝜃 ∈ Θ.
Лемма 7.2. Если 𝑆(𝑋) — полная достаточная статистика и для некоторой функции 𝜙 верно ра-
венство E𝜃 𝜙(𝑆(𝑋)) = 𝜃 ∀𝜃 ∈ Θ, то тогда 𝜙(𝑆(𝑋)) — оптимальная оценка 𝜃.
Доказательство. В силу теоремы БКР достаточно доказать, что 𝜙(𝑆(𝑋)) — единственная 𝑆(𝑋)-измеримая
несмещенная оценка 𝜃.
Пусть существует другая 𝑆(𝑋)-измеримая несмещенная оценка 𝜓(𝑆(𝑋)). Тогда ∀𝜃 ∈ Θ :
E𝜃 𝜙(𝑆(𝑋)) = E𝜃 𝜓(𝑆(𝑋)) = 𝜃
E𝜃 (𝜙(𝑆(𝑋)) − 𝜓(𝑆(𝑋))) = 0
E𝜃 (𝜙 − 𝜓)(𝑆(𝑋)) = 0
2. Проверяем ее на полноту
Замечание. Зачастую достаточно проверить, чтобы функции 𝑎1 , . . . 𝑎𝑘 были л.н.з. и Θ содержало в себе
открытое множество.
29
Пример 7.2. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝑎, 𝜎 2 ). Найдем оптимальную оценку для 𝑎2 + 𝜎 2 .
Статистика 𝑆(𝑋) = ( 𝑋𝑖2 , 𝑋𝑖 ) является достаточной, причем E𝜃 𝑋𝑖2 = 𝑛(𝑎2 + 𝜎 2 ), откуда
∑︀ ∑︀ ∑︀
30
8 Доверительные интервалы
Определение 8.2. Пусть 𝑋 — наблюдение из P. Случайная величина 𝐺(𝑋, 𝜃), распределение которой
не зависит от 𝜃, называется центральной статистикой.
Зафиксируем числа 1 > 𝛾2 > 𝛾1 > 0 и 𝛾2 − 𝛾1 = 𝛾. Пусть 𝑧𝛾1 , 𝑧𝛾2 — квантили уровней 𝛾1 и 𝛾2
распределения 𝐺(𝑋, 𝜃) соответственно. Тогда выполнено неравенство
причем равенство достигается в случае, когда для функции распределения 𝐺 существуют две точки
непрерывности 𝑥1 , 𝑥2 , такие что 𝐹𝐺 (𝑥1 ) = 𝛾1 , 𝐹𝐺 (𝑥2 ) = 𝛾2 .
Пусть 𝑇𝑖 (𝑋) — решения уравнений 𝐺(𝑋, 𝑇𝑖 (𝑋)) = 𝑧𝛾𝑖 для 𝑖 = 1, 2. Тогда
P𝜃 (𝑇1 (𝑋) < 𝜃 < 𝑇2 (𝑋)) = P𝜃 (𝑧𝛾1 < 𝐺(𝑋, 𝜃) < 𝑧𝛾2 ) > 𝛾
𝑋1 −𝑏 √1
∑︀ 𝑋𝑖 −𝑏
Пример 8.1. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝒩 (𝑏, 𝜎 2 ). Тогда 𝜎 ∼ 𝒩 (0, 1) и 𝑛 𝜎 ∼ 𝒩 (0, 1).
1−𝛾 1+𝛾
Пусть 𝑧 1−𝛾 , 𝑧 1+𝛾 — квантили уровней 2 , 2 распределения 𝒩 (0, 1). Тогда
2 2
√ 𝑋 −𝑏
(︂ )︂
P 𝑧 1−𝛾 6 𝑛 6 𝑧 1+𝛾 = 𝛾
2 𝜎 2
Выражая отсюда 𝑏 или 𝜎, получаем доверительный интервал для этих параметров уровня 𝛾.
Доказательство. P(𝐹 (𝑋1 ) 6 𝑦) = P(𝑋1 6 𝐹 −1 (𝑦)) = 𝐹 (𝐹 −1 (𝑦)) ⇒ 𝐹 (𝑋𝑖 ) ∼ 𝑈 [0, 1]. Тогда − ln 𝐹 (𝑋𝑖 ) ∼
∑︀
𝐸𝑥𝑝(1) ⇒ − ln 𝐹 (𝑋𝑖 ) ∼ Γ(1, 𝑛)
31
Следствие 8.0.1. Пусть 𝒫 = {P𝜃 | 𝜃 ∈ Θ} такое семейство распределений, что ∀𝜃 P𝜃 имеет непре-
∑︀
рывную функцию распределения. Тогда − ln 𝐹 (𝑋𝑖 ) — центральная статистика с распределением
Γ(1, 𝑛)
√ 𝑋 − 𝜃 𝑑𝜃
𝑛 −→ 𝒩 (0, 1) ∀𝜃
𝜎(𝜃)
𝜃 P п.н. 𝜃 P п.н.
По ЗБЧ 𝑋 −−−−→ 𝜃 откуда, по теореме о наследовании сходимости, 𝜎(𝑋) −−−−→ 𝜎(𝜃) Тогда
√
√ 𝑋 −𝜃 𝑛(𝑋 − 𝜃) 𝜎(𝜃) 𝑑𝜃
𝑛 = · −→ 𝒩 (0, 1) по л. Слуцкого
𝜎(𝑋) 𝜎(𝜃) 𝜎(𝑋)
⏟ ⏞ ⏟ ⏞
→𝒩 (0,1) →1
1+𝛾
Тогда для 𝑧 1+𝛾 — квантиль 𝒩 (0, 1) уровня 2 верно
2
⎛ ⎞
√ 𝑋 −𝜃
(︂ )︂ ⎜ 𝜎(𝑋) 𝜎(𝑋) ⎟
P𝜃 −𝑧 1+𝛾 6 𝑛 6 𝑧 1+𝛾 = P𝜃 ⎜𝑋 − 𝑧 1+𝛾 √ 6 𝜃 6 𝑋 + 𝑧 1+𝛾 √ ⎟ → 𝛾 ∀𝜃
⎜ ⎟
2 𝜎(𝑋) 2 ⎝ 2 𝑛 2 𝑛 ⎠
⏟ ⏞ ⏟ ⏞
𝑇1 𝑇2
Замечание. 𝑇2 − 𝑇1 → 0
32
9 Байесовские методы
9.1 Введение
Напоминание: Пусть (Ω, F , P) — вероятностное пространство, {𝐷𝑛 } — разбиение Ω, 𝐴 ∈ F . Тогда
формула Байеса имеет вид
P(𝐴 | 𝐷𝑛 )P(𝐷𝑛 )
P(𝐷𝑛 | 𝐴) = ∑︀
∞ (3)
P(𝐴 | 𝐷𝑖 )P(𝐷𝑖 )
𝑖=0
Пусть 𝜉, 𝜂 — случайные величины на (Ω, F , P). Тогда формула Байеса в общем виде:
𝑝𝜉|𝜂 (𝑥 | 𝑦)𝑝𝜂 (𝑦)
𝑝𝜂|𝜉 (𝑦 | 𝑥) = ∫︀ (4)
𝑝𝜉|𝜂 (𝑥 | 𝑦)𝑝𝜂 (𝑦)
R𝑛
1920: Фишер нашел оптимальную оценку ОМП, после чего байесовские методы оказались забыты.
33
Определение 9.2. Плотность 𝑞(𝑡) называется априорной плотностью, а 𝑞(𝑡 | 𝑥), определяемая по
формуле
𝑞(𝑡)𝑝𝑡 (𝑥)
𝑞(𝑡 | 𝑥) = ∫︀ ,
𝑞(𝑠)𝑝𝑠 (𝑥)𝑑𝑥
Θ
Способы оценивания 𝜃.
3. Точечные оценки:
Теорема 9.1. Оценка E(𝜃|𝑋) — наилучшая оценка параметра 𝜃 в баесовским подходе с квадратичной
функцией потерь.
Перепишем интеграл
∫︁ (︁ )︁2 ∫︁ ∫︁ (︁ )︁2 (︁ )︁2
E𝑡 𝜃 − 𝑡 𝑞(𝑡)𝑑𝑡 =
̂︀ ̂︀ − 𝑡 𝑓 (𝑡, 𝑥)𝑑𝑥𝑑𝑡 = E 𝜃(𝑥)
𝜃(𝑥) ̂︀ − 𝜃 → max .
𝜃̂︀
Θ Θ 𝒳
34
Применяя теорему о наилучшем приближении
𝜃̂︀ = E(𝜃|𝑋).
У байесовсокго метода в статистике имеются свои недостатки. Вот самые существенные из них:
Такой интеграл достаточно тяжело посчитать аналитически, а значит нет знаменателя в формуле Бай-
еса, что означает, что из оценок байесовским методом можно посчитать только моду.
35
Пример 9.4. Найдем класс распределений, сопряженный экспоненциальному классу, т.е. 𝑝𝑡 (𝑥) =
𝑔(𝑥) −𝑡𝑇 𝑢(𝑥)
ℎ(𝑥) 𝑒 . Для выборки имеем
1 −𝑡𝑇
∑︀
𝑢(𝑋𝑖 ) −𝛽 −𝑡𝛼 ℎ−𝛽 (𝑡) −𝑡𝑇 𝛼
𝑝𝑡 (𝑋) ∝ 𝑒 ⇒ 𝑞(𝑡) ∝ ℎ (𝑡)𝑒 = 𝑒
ℎ𝑛 (𝑥) 𝑓 (𝛼, 𝛽)
и
1 [︁ ∑︁ ]︁
𝑞(𝑡 | 𝑋) ∝ 𝑞(𝑡)𝑝𝑡 (𝑋) ∝ exp −𝑡𝑇 (𝛼 + 𝑋𝑖 .
ℎ𝛽+𝑛
То есть экспоненциальный класс распределений сопряжен сам себе.
36
10 Линейная регрессия
Пример 10.1. Рассмотрим следующую задачу. Пусть имеется 2 груза неизвестной массы и весы. Мы
взвешиваем грузы с целью узнать их массу. Пусть мы три раза взвесили первый груз и получили веса
{𝑥1 , 𝑥2 , 𝑥3 }, пять раз взвесили второй груз с показаниями весов {𝑦1 , . . . , 𝑦5 } и десять раз оба груза
вместе с весами {𝑧1 , . . . , 𝑧10 }. Причем из-за погрешности измерений все числа 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 различны.
Условие задачи можно представить следующим образом:
⎛ ⎞ ⎛ ⎞
𝑥1 1 0
⎜ ⎟ ⎜ ⎟
⎜ 𝑥 ⎟ ⎜1 0⎟
⎜ 2⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑥 ⎟ ⎜1 0⎟
⎜ 3⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑦 ⎟ ⎜0 1⎟
⎜ 1⎟ ⎜ ⎟⎛ ⎞
⎜ . ⎟ ⎜ .. ⎟ 𝑎
⎜ . ⎟ ⎜
⎜ . ⎟=⎜ + ⃗𝜀,
⎟⎝ ⎠
. ⎟
⎜ ⎟ ⎜ ⎟ 𝑏
⎜ ⎟ ⎜ ⎟
⎜ 𝑦5 ⎟ ⎜0 1⎟
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑧1 ⎟ ⎜1 1⎟
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ ..
⎜ .. ⎟ ⎜
⎟
⎝ ⎠ ⎝ . ⎟
⎠
𝑧10 1 1
37
Определение 10.1. Оценка вектора 𝑙 значением ̂︀
𝑙 = proj𝐿 𝑋 называется оценкой методом наименьших
квадратов.
𝑙 = arg min ||𝑋 − 𝑙||2 .
̂︀
𝑙∈𝐿
Поскольку для ̂︀
𝑙 достигается минимум, а норма это гладкая функция, то
𝜕
||𝑋 − 𝑙||2 = −2(𝑋 𝑇 𝑍)𝑖 + 2(𝑍 𝑇 𝑍𝜃)𝑖 = 0.
𝜕𝜃𝑖
𝑍 𝑇 𝑍𝜃 = (𝑋 𝑇 𝑍)𝑇 ⇒ 𝑍 𝑇 𝑍𝜃 = 𝑍 𝑇 𝑋
⇒ ̂︀
𝑙 = 𝑍 𝜃.
̂︀
Доказательство.
Найдем дисперсию D𝜃 𝜃:
̂︀
1 ̂︀ 2 = 𝜎 2 .
Утверждение 10.1.2. 𝑛−𝑘 E𝜃 ||𝑋 − 𝑍 𝜃||
= tr (𝐸 − 𝐴)𝜎 2 = 𝑛𝜎 2 − 𝜎 2 tr 𝐴 = 𝑛𝜎 2 − 𝜎 2 𝑘 = (𝑛 − 𝑘)𝜎 2 .
[︀ ]︀
поскольку 𝐴2 = 𝐴.
1 ̂︀ 2 = 𝜎
Следствие 10.0.1. 𝑛−𝑘 ||𝑋 − 𝑍 𝜃|| ̂︀2 — несмещенная оценка 𝜎 2 .
38
10.2 Гауссовская линейная модель
Определение 10.2. Линейная модель называется гауссовской, если 𝑋 = 𝑙 + 𝜀, где 𝑙 = 𝑍𝜃 и 𝜀 ∼
𝒩 (0, 𝜎 2 𝐸).
1
||𝑋𝑖 − 𝑙𝑖 ||2 ∼ 𝜒2𝑘𝑖 ,
𝜎2
где (︂ )︂
1 𝑘 𝑑
𝜒2𝑘 = Γ ; = 𝜉12 + . . . + 𝜉𝑘2 ,
2 2
где 𝜉𝑖 ∼ 𝒩 (0, 1) — независимые одинаково распределенные.
откуда, по критерию Неймана-Фишера, статистика 𝑆(𝑋) = (proj𝐿 𝑋; ||𝑋 − proj𝐿 𝑋||) — достаточная.
Доказательство. Достаточно выразить эти оценки как функции от 𝑆(𝑋), поскольку они несмещенные.
1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘) и 1
Утверждение 10.2.1. 𝜃̂︀ ⊥
⊥ 𝑋 − 𝑍 𝜃,
̂︀ причем
𝜎 2 ||𝑋 − 𝑍 𝜃|| 𝜎 2 ||𝑍 𝜃 −
̂︀ 𝑍𝜃||2 ∼ 𝜒2 (𝑘).
𝑍 𝜃̂︀ = proj𝐿 𝑋 ⊥
⊥ proj𝐿⊥ 𝑋 = 𝑋 − 𝑍 𝜃.
̂︀
39
Определение 10.3. Пусть 𝜉 ∼ 𝒩 (0, 1), 𝜂 ∼ 𝜒2𝑘 и 𝜉 ⊥
⊥ 𝜂. Тогда случайная величина
𝜉
√︀ 𝜂 ∼ 𝑇𝑘
𝑘
𝜉/𝑘
∼ 𝐹𝑘,𝑚
𝜂/𝑚
откуда ⎛ ⎞
√︂
𝑛−𝑘 𝜃̂︀𝑖 − 𝜃𝑖
P ⎝𝑢(1−𝛾)/2 6 √︁ 6 𝑢(1+𝛾)/2 ⎠ = 𝛾,
𝑎𝑖𝑖 2
||𝑋 − 𝑍 𝜃|| ̂︀
40
11 Проверка гипотез
Определение 11.3. Ошибкой первого рода называется ситуация, когда отвергается верная гипоте-
за.Ошибкой второго рода называется ситуация, когда неверная гипотеза не отвергается.
Определение 11.4. Мощностью критерия 𝑆 называется функция 𝛽(𝑄, 𝑆) = 𝑄(𝑋 ∈ 𝑆), где 𝑄 ∈ 𝒫 =
𝒫0 ⊔ 𝒫 1 .
∀𝑄 ∈ 𝒫0 : 𝛽(𝑄, 𝑆) 6 𝜀.
Определение 11.6. Пусть 𝑆 и 𝑅 — два критерия уровня значимости 𝜀. Тогда критерий 𝑆 мощнее
критерия 𝑅, если
∀𝑄 ∈ 𝒫1 : 𝛽(𝑄, 𝑆) > 𝛽(𝑄, 𝑅).
Заметим, что рассматриваемая вероятность 𝛽(𝑄, 𝑆) = 𝑄(𝑋 ∈ 𝑆) это вероятность отклонить неверную
гипотезу.
41
Определение 11.7. Критерий 𝑆 называется равномерно наиболее мощным критерием (далее рнмк)
уровня значимости 𝜀, если выполнены следующие два свойства:
1. 𝛼(𝑆) 6 𝜀.
P0 (𝑋 ∈ 𝑅) 6 P0 (𝑋 ∈ 𝑆𝜆 )
P1 (𝑋 ∈ 𝑅) 6 P1 (𝑋 ∈ 𝑆𝜆 )
𝐼(𝑋 ∈ 𝑅)(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)) 6 𝐼(𝑋 ∈ 𝑅)𝐼(𝑋 ∈ 𝑆𝜆 )(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)) 6 𝐼(𝑋 ∈ 𝑆𝜆 )(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)).
Тогда
∫︁
P1 (𝑥 ∈ 𝑅) − 𝜆P0 (𝑥 ∈ 𝑅) = (𝑝1 (𝑥) − 𝜆𝑝0 (𝑥)) 𝐼(𝑥 ∈ 𝑅)𝜇(𝑑𝑥)
∫︁
6 𝐼(𝑋 ∈ 𝑆𝜆 )(𝑝1 (𝑥) − 𝜆𝑝0 (𝑥))𝜇(𝑑𝑥) = P1 (𝑥 ∈ 𝑆𝜆 ) − 𝜆P0 (𝑥 ∈ 𝑆𝜆 ),
откуда
P1 (𝑥 ∈ 𝑅) − P1 (𝑥 ∈ 𝑆𝜆 ) 6 𝜆 (P0 (𝑥 ∈ 𝑅) − P0 (𝑥 ∈ 𝑆𝜆 )) 6 0 ⇒ P1 (𝑥 ∈ 𝑅) 6 P1 (𝑥 ∈ 𝑆𝜆 ).
42
1. 𝜆 > 1 ⇒ ∀𝑥 ∈ 𝑆𝜆 : 𝑝1 (𝑥) > 𝑝0 (𝑥) и
∫︁ ∫︁
P0 (𝑥 ∈ 𝑆𝜆 ) = 𝐼(𝑥 ∈ 𝑆𝜆 )𝑝0 (𝑥)𝜇(𝑑𝑥) 6 𝐼(𝑥 ∈ 𝑆𝜆 )𝑝1 (𝑥)𝜇(𝑑𝑥) = P1 (𝑥 ∈ 𝑆𝜆 ).
откуда
P0 (𝑥 ∈ 𝑆𝜆 ) = 1 − P0 (𝑥 ̸∈ 𝑆𝜆 ) 6 1 − P1 (𝑥 ̸∈ 𝑆𝜆 ) = P1 (𝑥 ∈ 𝑆𝜆 ).
P0 (𝑥 ∈ 𝑆𝜆 ) = 𝜀.
Замечание. Для дискретного пространства не существует рнмк уровня значимости 𝜀 для всех 𝜀.
1
Пример 11.2. Пусть 𝑋1 , . . . , 𝑋𝑛 ∼ 𝐵𝑒𝑟𝑛(𝜃). Нужно проверить гипотезу 𝐻0 : 𝜃 = 4 против 𝐻1 : 𝜃 = 13 .
Тогда
(︂ )︂∑︀ 𝑋𝑖 (︂ )︂𝑛−∑︀ 𝑋𝑖 (︂ )︂∑︀ 𝑋𝑖 (︂ )︂𝑛−∑︀ 𝑋𝑖 (︂ )︂∑︀ 𝑋𝑖 (︂ )︂𝑛−∑︀ 𝑋𝑖
1 2 1 3 4 8
𝑆𝜆 = {𝑥 : −𝜆 > 0} = { > 𝜆}.
3 3 4 4 3 9
(︀ 4 )︀∑︀ 𝑋𝑖 (︀ 8 )︀𝑛−∑︀ 𝑋𝑖 ∑︀
Поскольку функция 3 9 возрастает по 𝑇 (𝑋) = 𝑋𝑖 , то неравенство верно при 𝑇 (𝑋) >
˜ Если 𝐻0 верна, то
𝜆.
∑︀
𝑋𝑖 ∼ 𝐵𝑖𝑛(𝑛, 1 ˜ — квантиль уровня 1 − 𝜀 распределения 𝐵𝑖𝑛(𝑛, 1 ). Причем
4) и𝜆 4
все проведенные рассуждения верны только для тех 𝜀, где достигается равенство P0 (𝑥 ∈ 𝑆𝜆 ) = 𝜀.
𝑆𝜀 = {𝑇 (𝑋) > 𝑐𝜀 },
если
P0 (𝑆𝜀 ) = 𝜀.
43
Пример 11.3. 𝑋1 , . . . , 𝑋𝑛 ∼ 𝐵𝑒𝑟𝑛(𝜃), 𝐻0 : 𝜃 > 1
4, 𝐻1 : 𝜃 < 1
4. Сделаем замену 𝜃˜ = −𝜃. Тогда
𝐻0 : 𝜃˜ 6 − 14 , 𝐻1 : 𝜃˜ > − 14 . Для 𝜃˜2 > 𝜃˜1 :
⎛ ⎞∑︀ 𝑋𝑖 ⎛ ⎞𝑛−∑︀ 𝑋𝑖
Доказательство. (︂ )︂𝑛
𝑐 1
P𝜃0 (𝑋(𝑛) 6 𝑐) = 𝜀 ⇒ = 𝜀 ⇒ 𝑐 = 𝜃0 𝜀 𝑛 .
𝜃0
Пусть теперь 𝑅 — критерий уровня значимости 𝜀, т.е. P𝜃0 (𝑥 ∈ 𝑅) 6 𝜀. Возможны два случая:
1
1. 𝜃 6 𝑐 = 𝜃0 𝜀 𝑛 . Тогда
P𝜃 (𝑥 ∈ 𝑆) = 1 > P𝜃 (𝑥 ∈ 𝑅) ⇒ 𝑆 — мощнее.
(︀ )︀𝑛
2. 𝜃 ∈ (𝑐, 𝜃0 ). Тогда P𝜃 (𝑥 ∈ 𝑆) = 𝜃𝜃0 𝜀 и
∫︁ (︂ )︂𝑛 ∫︁
1 𝜃0 1
P𝜃 (𝑥 ∈ 𝑅) = 𝐼(𝑋1 , . . . , 𝑋 𝑛 ∈ 𝑅)𝑑𝑥1 . . . 𝑑𝑥𝑛 = 𝐼(𝑋1 , . . . , 𝑋𝑛 ∈ 𝑅)𝑑𝑥1 . . . 𝑑𝑥𝑛
𝜃 𝑛 𝜃 𝜃0𝑛
[0,𝜃]𝑛 [0,𝜃]𝑛
(︂ )︂𝑛 ∫︁ (︂ )︂𝑛 (︂ )︂𝑛
𝜃0 1 𝜃0 𝜃0
6 𝐼(𝑋1 , . . . , 𝑋𝑛 ∈ 𝑅)𝑑𝑥1 . . . 𝑑𝑥𝑛 = P𝜃0 (𝑋 ∈ 𝑅) 6 𝜀
𝜃 𝜃0𝑛 𝜃 𝜃
[0,𝜃0 ]𝑛
44
а
1 ̂︀ 2 ∼ 𝜒2 (𝑛 − 𝑘).
||𝑋 − 𝑍 𝜃||
𝜎2
Зная всё это, получаем, что
(𝑇 𝜃̂︀ − 𝜏 )𝑇 𝐵 −1 (𝑇 𝜃̂︀ − 𝜏 ) 𝑛 − 𝑘
𝐹̂︀ = ∼ 𝐹𝑚,𝑛−𝑘
̂︀ 2
||𝑋 − 𝑍 𝜃|| 𝑚
и
(𝑋 − 𝑌 )2 𝑛2𝑛𝑚
+𝑚2 𝑛+𝑚−2
𝐹̂︀ = 2 + 𝑚𝑆 2 · .
𝑛𝑆𝑋 𝑌 1
𝑚
∑︁ (𝜇𝑖 − 𝑛𝑝0 )2 𝑖
𝜇
̂︀ =
𝑖=1
𝑛𝑝0𝑖
𝑑
→ 𝜒2 (𝑚 − 1) при 𝑛 → ∞.
̂︀ −
𝜇
45
Доказательство. Рассмотрим вектора 𝑌𝑗 = (𝐼(𝑋𝑗 = 𝑎1 ), . . . , 𝐼(𝑋𝑗 = 𝑎𝑚 )), (𝑌𝑗 )𝑖 ∼ 𝐵𝑒𝑟𝑛(𝑝0𝑖 ). Тогда
E𝑌𝑗 = (𝑝01 , . . . , 𝑝0𝑚 ) = 𝑝𝑇 и
D𝑌𝑗 = 𝐵 − 𝑝𝑝𝑇 , где 𝐵 = diag(𝑝01 , . . . , 𝑝0𝑚 ).
По ЦПТ (︃(︂ )︃
√ )︂𝑇 √ √
√ 𝑌1 + . . . + 𝑌𝑛 𝑑
𝐵 −1 𝑛 −𝑝 −
→ 𝒩 (0, 𝐵 −1 (𝐵 − 𝑝𝑝𝑇 ) 𝐵 −1 ).
𝑛
⎛ √︀
⎞
𝑝01
√ ⎜ . ⎟
⎜ ⎟
Пусть 𝑍 = 𝐵 −1 𝑝 = ⎜ .. ⎟ и 𝑉 — ортогональная матрица, первая строка которой равна 𝑍 𝑇 . Тогда
⎝√︀ ⎠
𝑝0𝑚
(︃(︂ )︂𝑇 )︃
√ √ 𝑌1 + . . . + 𝑌𝑛 𝑑
𝑉 𝐵 −1 𝑛 −𝑝 − → 𝒩 (0; 𝑉 𝐼𝑚 𝑉 𝑇 −𝑉 𝑍𝑍 𝑇 𝑉 𝑇 ) = 𝒩 (0; diag(0, 1, . . . , 1)).
𝑛 ⏟ ⏞ ⏟ ⏞
=𝐼𝑚 𝑚−1
Доказательство. Пусть ∃𝑖 : 𝑝𝑖 ̸= 𝑝0𝑖 . Без ограничения общности 𝑖 = 1. Покажем, что в таком случае
𝜇𝑖 п.н.
𝜇 > 𝑢1−𝜀 ) → 1. По УЗБЧ
P(̂︀ 𝑛 −−−→ 𝑝𝑖 , а значит
𝑚 𝑚 (︀ 𝜇𝑖 )︀2
∑︁ (𝜇𝑖 − 𝑛𝑝0 )2 𝑖
∑︁ 𝑛 𝑛 − 𝑝0𝑖
𝜇
̂︀ = = .
𝑖=1
𝑛𝑝0𝑖 𝑖=1
𝑝0𝑖
В частности, при 𝑖 = 1 :
(︀ 𝜇1 )︀2
𝑛 𝑛 − 𝑝01 п.н. (𝑝1 − 𝑝01 )2 п.н.
−−−→ 𝑛 −−−→ +∞.
𝑝01 𝑝01
46
Определение 11.10. Пусть {𝑆(𝑥) > 𝑢} — критерий проверки гипотезы 𝐻 : P = P0 и 𝛼 = P0 (𝑆(𝑥) >
𝑢) — его уровень значимости. Найдем значение 𝑆(𝑥) для выборки 𝑋1 , . . . , 𝑋𝑛 : 𝑆(𝑋1 , . . . , 𝑋𝑛 ) =
𝑡. Величина 𝑝 = P0 (𝑆(𝑥) > 𝑡) называется p-значением (p-value). При 𝑡 > 𝑢 ⇒ 𝑝 < 𝛼 гипотеза 𝐻
отвергается.
Критерий Колмогорова-Смирнова
√ 𝑑
𝑛 sup |𝐹 (𝑥) − 𝐹𝑛 (𝑥)| −
→ 𝐾,
𝑥
Утверждение 11.3.2.
√
{︂⃒ ⃒ ⃒ ⃒}︂
⃒ 𝑘 ⃒⃒ ⃒⃒ 𝑘 ⃒⃒
𝑆(𝑋) = 𝑛 sup ⃒𝐹 (𝑋(𝑘) − ⃒ , ⃒𝐹 (𝑋(𝑘+1) − ⃒ ,
⃒
06𝑘6𝑛 𝑛 𝑛
где 𝑋(0) := −∞, 𝑋(𝑛+1) := +∞.
Критерий Мизеса-Смирнова
∫︁
𝑑
𝑛 (𝐹 (𝑥) − 𝐹𝑛 (𝑥))𝑑𝐹 (𝑥) −
→ 𝜉,
R
⏟ ⏞
𝜔2
где 𝜉 ∼ 𝑎1.
𝑛 (︁ )︁2
1 𝑘− 12
Упражнение. 𝜔 2 =
∑︀
12𝑛 + 𝑋(𝑘) − 𝑛
𝑘=1
47
11.4 Байесовские критерии
Пусть мы хотим проверить гипотезу 𝐻0 : P = P0 против альтернативы 𝐻1 : P = P1 , где P0 , P1 —
доминируемые относительно меры 𝜇. Пусть 𝑄 — априорное распределение, и 𝑄(P = P0 ) = 𝑝0 , 𝑄(P =
P1 ) = 𝑝1 . Для получения критерия разобьем множество 𝒳 = 𝑆0 ⊔𝑆1 на 2, такие что 𝑋 ∈ 𝑆𝑖 ⇒ отклоняем
𝐻𝑖 .
Вероятность ошибки первого рода в такой модели равна
𝑝0 P0 (𝑋 ∈ 𝑆0 ) + 𝑝1 P1 (𝑋 ∈ 𝑆1 ) → min
𝑆0 ,𝑆1
и задача стоит⎧в том, чтобы найти такое разбиение 𝒳 , при котором она минимальна.
𝑆0 P = P0 ,
⎪
⎨
Пусть 𝑆 = — случайное множество. Имеем
⎩𝑆1 P = P1
⎪
P0 (𝑋 ∈ 𝑆0 ) = E𝐼(𝑋 ∈ 𝑆) = E (E(𝐼(𝑋 ∈ 𝑆) | 𝑋) .
𝑝0 𝑓0 (𝑥) 𝑝1 𝑓1 (𝑥)
E (𝐼(𝑥 ∈ 𝑆) | 𝑋 = 𝑥) = 𝐼(𝑥 ∈ 𝑆0 ) +𝐼(𝑥 ∈ 𝑆1 ) =
𝑝0 𝑓0 (𝑥) + 𝑝1 𝑓1 (𝑥) 𝑝0 𝑓0 (𝑥) + 𝑝1 𝑓1 (𝑥)
⏟ ⏞ ⏟ ⏞
𝑞0 𝑞1
Тогда
48